11
1 Numerisch Darstellung und "Verzettelung" von Texten alphabetischer Sprachen Ansätze der angewandten Zahlenlehre IX zu Literatur und Kryptographie G. Schulz Universität des Saarlandes, Fakultät 7 für Physik und Mechatronik Nov. 2015 Im Folgenden sollen die numerischen Grundlagen zur Analyse von alphabetischen Sprachen und Schriften weiter ausgebaut und weitere Ordnungsparameter für die lexikographische Um- kehrung des Leseoperators aufgedeckt werden. Schließlich soll gezeigt werden, wie mit ei- nem entsprechend eingestellten Comparator, jeder beliebige alphabetische Text auch Goe- the-Text! in kürzester Zeit "verzettelt" werden kann. I. Zur Ordnung alphabetischer Sprachen In einer vorhergehenden Arbeit wurde der Zusammenhang zwischen der Satzlänge L und der mittleren Wortlänge w in Texten deutscher Schriftsteller, Wissenschaftler und Journalisten untersucht und die Vermutung, dass ein solcher Zusammenhang existiert, in die Form eines Funktionals gekleidet. ∶= () = (IX.1) Es konnte gezeigt werden, dass sich ausnahmslos alle empirischen Lösungen, gewonnen aus Texten deutscher Sprache in die Funktion L = F(w) einfügen und aus dem Verlauf der Lösun- gen und aus gewissen Symmetrien konnte schließlich auch die mathematische Form des Funktionals erschlossen werden und sei hier nochmals ausführlich formuliert: = ± ∙ ∆; ∆~ 1 ; = 1 = ℎ = ; ~ ; = 1 , ℎ ä (IX.2 ~ VIII.6) Abb. IX.1 Diskrete Lösungen der Funktionalgleichung IX.2, die einen bestimmten Satz aus einem alphabetischen Wortschatz bezeichnen und auf Hyperbeln mit den ganzzahligen Wert von w = 4 als Asymptote liegen, rot markiert für die Anfangswerte L = 1 und L = 4 und w = 3.0 bzw. w = 5.0. 3,0 3,5 4,0 4,5 5,0 0 10 20 30 40 50 L ~ F(w) w

L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

Embed Size (px)

Citation preview

Page 1: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

1

Numerisch Darstellung und

"Verzettelung" von Texten alphabetischer Sprachen Ansätze der angewandten Zahlenlehre IX zu Literatur und Kryptographie

G. Schulz

Universität des Saarlandes, Fakultät 7 für Physik und Mechatronik

Nov. 2015

Im Folgenden sollen die numerischen Grundlagen zur Analyse von alphabetischen Sprachen

und Schriften weiter ausgebaut und weitere Ordnungsparameter für die lexikographische Um-

kehrung des Leseoperators aufgedeckt werden. Schließlich soll gezeigt werden, wie mit ei-

nem entsprechend eingestellten Comparator, jeder beliebige alphabetische Text – auch Goe-

the-Text! – in kürzester Zeit "verzettelt" werden kann.

I. Zur Ordnung alphabetischer Sprachen

In einer vorhergehenden Arbeit wurde der Zusammenhang zwischen der Satzlänge L und der

mittleren Wortlänge w in Texten deutscher Schriftsteller, Wissenschaftler und Journalisten

untersucht und die Vermutung, dass ein solcher Zusammenhang existiert, in die Form eines

Funktionals gekleidet.

𝐿 ∶= 𝐹(𝑤) = ∑ 𝑘

𝐿 (IX.1)

Es konnte gezeigt werden, dass sich ausnahmslos alle empirischen Lösungen, gewonnen aus

Texten deutscher Sprache in die Funktion L = F(w) einfügen und aus dem Verlauf der Lösun-

gen und aus gewissen Symmetrien konnte schließlich auch die mathematische Form des

Funktionals erschlossen werden und sei hier nochmals ausführlich formuliert:

𝑥 = 𝑘 ± 𝑛 ∙ ∆𝑤; 𝑚𝑖𝑡 ∆𝑤~1

𝐿; 𝑢𝑛𝑑 𝑘 = 1 𝑏𝑖𝑠 𝐾 = 𝑔𝑎𝑛𝑧𝑒 𝑍𝑎ℎ𝑙𝑒𝑛

𝑦 = 𝑛; 𝑛~𝐿 ; 𝑛 = 1 𝑏𝑖𝑠 𝐿𝑚𝑎𝑥 , 𝑀𝑎𝑥𝑖𝑚𝑎𝑙𝑧𝑎ℎ𝑙 𝑑𝑒𝑟 𝑆ä𝑡𝑧𝑒 𝑖𝑚 𝑇𝑒𝑥𝑡 (IX.2 ~ VIII.6)

Abb. IX.1 Diskrete Lösungen der Funktionalgleichung IX.2, die einen bestimmten Satz

aus einem alphabetischen Wortschatz bezeichnen und auf Hyperbeln mit den ganzzahligen Wert von w = 4 als

Asymptote liegen, rot markiert für die Anfangswerte L = 1 und L = 4 und w = 3.0 bzw. w = 5.0.

3,0 3,5 4,0 4,5 5,0

0

10

20

30

40

50

L ~ F(w)

w

Page 2: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

2

In Abb. IX.1 sind die theoretischen Werte von F(w) im Bereich von L = 0 bis L = 50 und w =

3.0 bis w = 5.0 dargestellt. und zwei nach Glg. IX.2 mit beiderlei Vorzeichen von Δw berech-

neten Werte als Hyperbeln mit der Asymptote bei wasy = 4 rot hervorgehoben.

Das Existenzgebiet von F(w) überstreicht mit alle positiven L und w prinzipiell die gesamte

(Viertel-)Ebene, wird aber von den genannten Schriftstellern, Journalisten und Wissenschaft-

lern – man kann sagen von allen deutsch Redenden und Schreibenden, wie schon in VIII.8

gezeigt – nur zu einem kleinen Teil etwa von L = 1 bis L = 140 und von w = 1.0 bis w = 14.0

besetzt. In diesem eng begrenzten Bereich erhält man für die Anzahl möglicher, voneinander

verschiedener Lösungen auf den senkrechten Asymptoten der ganzzahligen Werte von w

𝑁𝑎𝑠𝑦 = 𝑤𝑚𝑎𝑥 ∙ 𝐿𝑚𝑎𝑥 = 1960 , auf den Schnittpunkten der Hyperbeln zwischen den ganz-

zahligen Werten von w mit Hilfe Gaußscher Zählung 𝑁ℎ𝑦𝑝 = 𝑤𝑚𝑎𝑥 ∙ (𝐿𝑚𝑎𝑥 2⁄ )2 = 68600,

insgesamt also für die theoretisch maximal mögliche Zahl von Satzgefügen

𝑁𝑡𝑜𝑡 = 𝑤𝑚𝑎𝑥 ∙ (𝐿𝑚𝑎𝑥 + (𝐿𝑚𝑎𝑥 2⁄ )2) = 70560 (IX.3)

Da die empirischen Lösungen des Funktionals (IX.1) ausnahmslos auf den Schnittstellen der

mit ± 𝑛 ∙ ∆𝑤 gebildeten Hyperbeln liegen, darf zur Abschätzung der theoretisch möglichen

Werte jede Schnittstellen nur einfach gezählt werden.

Abb. IX.2 Alle empirischen Lösungen des Funktionals (IX.1) aus einem Goethe-Text mit 1000 Sätzen

liegen exakt auf den Schnittstellen der theoretischen Kurven, hier im Sektor zwischen w = 5 bis w = 6

dargestellt.

Jedes Wertepaar (L,w) auf der Schnittstelle zweier Hyperbeln bezeichnet also ein mögliches

Satzgefüge, das heißt, einen Satz mit einer bestimmten Struktur. Nicht alle Punkte auf den

Hyperbeln sind besetzt, also nicht alle Wertepaare sind auch sprachlich realisiert, andere dafür

mehrfach oder sogar hoch besetzt. Dieser Sachverhalt folgt allein aus dem Material alphabeti-

scher, gesprochener oder geschriebener Sprachen, also aus der Tatsache, dass in diesen Spra-

chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge-

bildet und benutzt werden, und es fragt sich, ob die Leerstellen, die nicht besetzten Schnitt-

stellen, denn überhaupt sprachlich realisierbar sind.

0

10

20

30

40

50

60

5,0 5,2 5,4 5,6 5,8 6,0

L~ F(W)

W

Page 3: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

3

II. Satzgefüge und Merkmale von Strukturen

Ändert man die Blickrichtung ein wenig und betrachtet allein die tatsächlich realisierten Satz-

strukturen eines Textes, so ist in der Abb. IX.2 noch eine weitere Ordnung zu erkennen: Die

roten offenen Kreise bilden für sich neue mehr oder weniger zusammenhängende Hyperbeln

mit einer Asymptoten bei wasy = k + ½. Diese "internen" Hyperbeln sind in Abb.IX.3a (aus

graphischen Gründen nur zum Teil dargestellt) und in Abb.IX3b zum Vergleich mit den ur-

sprünglichen Hyperbeln (und deren Schnittstellen) unterlegt. Ein solches Netzwerk von Hy-

perbeln wiederholt sich um jeden halbzahligen Wert der Variablen w und nur diese internen

Hyperbeln und ihre Besetzungsdichten scheinen typisch für den Autor eines Textes zu sein.

Abb. IX.3a und b mit denselben empirischen Lösungen als offene Kreise im Bereich

von w = 5 bis w = 6

Beschränkt man die Laufzahl n in der Beschreibung der Hyperbeln durch F(w), so erhält man

übersichtlicher die Hyperbelstücke in Abb.IX.4a und speziell für die internen Hyperbelab-

schnitte in Abb. IX.4b deutliche Unterschiede zwischen Goethe-Text und Johnson-Text und

zwar zwischen irgendeinen Goethe-Text und irgendeinen Johnson-Text, sofern nur die Texte

aus je 1000 oder mehr Sätzen bestehen.

Abb. IX.4a Verteilung der empirischenm Lösungen auf Hyperbelabschnitte, blau aus Johnson-Text, rot aus

Goethe-Text und 4b auf den internen Hyperbelästen um w = 5 + ½ mit Beschränkung auf n = 4.

Im Anhang 2 sind die Sätze mit zunehmender Läge und zunehmender Komplexität im Klartext

wiedergegeben, deren Struktur zu den einzelnen Punkten auf den Hyperbeln gehören. Man kann

0

10

20

30

40

50

60

4,9 5,0 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 6,0 6,1

L F(W)

W 0

10

20

30

40

50

60

5,0 5,2 5,4 5,6 5,8 6,0

L ~ F(W)

W

0

10

20

30

40

50

60

70

2 3 4 5 6 7 8

W

L

0

10

20

30

40

50

60

70

5,0 5,1 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 6,0

L

W

Page 4: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

4

davon ausgehen, dass ein Schriftsteller, ein Redner oder ein Berichterstatter kaum jemals einen

Satz wortwörtlich in seinem Text mehrmals benutzt – es sei denn, um dem Satz eine besondere

Bedeutung beizumessen oder um dem Gesagten oder Geschriebenen eine ganz bestimmte Interpre-

tation abzuringen. Aber das zeigt umso mehr, dass untersucht werden sollte, welche sachlich fun-

dierten Bezüge bereits im Material von Sprache und Schrift vorgegeben sind und welche scheinbar

freien Formulierungen dadurch erzwungen werden.

In der vorhergehenden Arbeit wurde auch bereits darauf hingewiesen, dass die verschiedenen

Autoren sich bezüglich des reinen Materials einer Sprache nur durch die Anzahl der Wörter

mit m Buchstaben im Satz und deren Verteilung voneinander unterscheiden (siehe Abb.

VIII.7 a - d). Sollen die erkennbaren Strukturen in Sprache und Schrift nicht nur dazu dienen,

den Beitrag der Redenden und Schreibenden zum Material einer Sprache zu beschreiben, son-

dern auch, um weitere Unterschiede zwischen den verschiedenen Autoren zu erkennen, so

kann diese Unterscheidung nur gelingen, wenn dafür wohldefinierte Maße angegeben werden.

Da außerhalb von Sprache und Schrift keine Maßeinheiten für den Vergleich von ganzen Sät-

zen – hier von Satzstrukturen – zu finden sind, kommen dafür nur intrinsische Eigenschaften,

wie zum Beispiel der Eigenvergleich der Schriftsteller mit sich selbst und entsprechend der

Vergleich oder Kreuzvergleich mit anderen Autoren infrage.

Unter dem Eigenvergleich verstehen wir den Vergleich der Satzstrukturen aus dem Text eines

Autors mit den Satzstrukturen aus demselben Text des Autors, soll heißen: Es wird Satz für

Satz aus einem Text mit allen anderen Sätzen aus demselben Text verglichen und wenn die

Strukturen übereinstimmen, der Zähler Z(L,w) für die Gleichheit des speziellen Wertepaares

(L,w) um eins erhöht. Damit kein Satz mehrmals gezählt wird, muss der Satz nach positivem

Ausgang des Vergleichs in dem zu vergleichenden Text gestrichen werden.

Oder anders formuliert: Der Comparator (vergleichende Leseoperator) wird so eingestellt,

dass jedes Wertepaar (L,w) einer Struktur die Zahl Z(L,W) der Sätze mit gleicher Struktur als

Funktion von W um eins erhöht, wobei der Quotient der mittleren Wortlänge W für eine mit-

telbare Variable steht, in der sowohl der Nenner wie auch der Zähler als ganze Zahlen zu ver-

gleichen sind, damit Gleichheit auch für den Bruch W exakt festgestellt werden kann. An-

schließend ist das Wertepaar im Vergleichstext zu löschen, damit die Paare nicht mehrmals

gezählt werden. Dieselben Bedingungen gelten auch für den Kreuzvergleich von Texten ver-

schiedener Autoren. Nur diese Einstellungen des Comparators führen zu konsistenten Ergeb-

nissen, zum Beispiel dazu, dass der Eigenvergleich von Texten mit 1000 Sätzen, wie in Abb.

IX.2 a und b angegeben, auch zu ∑Z(L,W) = 1000, also – erwartungsgemäß – genau tausendmal

zu einem positiven Ergebnis führt, aber auch dazu, dass der Eigenvergleich von Goethe mit

sich selbst nur an 74 voneinander verschiedenen Stellen der (L,w)-Ebenen und von Johnson

mit sich selbst nur an 69 Stellen der (L,w)-Ebene zu einem positives Resultat führt. Das heißt,

dass die Autoren mit nur 7,4 % bzw. 6,9 % der möglichen Satzstrukturen je tausend Sätze

formuliert haben.

Im Kreuzvergleich sind die positiven Ergebnisse. wie in Abb.IX.2 a und Abb.IX.2 b eingetra-

gen an je 34 Stellen – natürlich hin wie her – einander gleich. Betrachtet man aber die absolu-

ten Zahlenergebnisse des Comparators im Kreuzvergleich mit der Zahl 462 für Goethe und

343 für Johnson, so kann der Unterschied zwischen Goethe und Johnson kaum deutlicher her-

vortreten als in diesen beiden Abbildungen. Die unterschiedlichen Zahlen bedeuten, dass

beim Vergleich von tausend Sätzen aus einem Johnson-Text mit der entsprechenden Zahl von

Sätzen im Goethe-Text die Satzstrukturen in 462 Fällen ein Pendant im Goethe-Text finden,

während umgekehrt nur 343 Strukturen aus einem Goethe-Text sich auch im Johnson-Text

finden lassen. In diesem Unterschied kommen die völlig verschiedenen Verteilungen in

Abb.IX.2a und 2b zum Ausdruck.

Page 5: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

5

IX.2 a und b Die Anzahl Z(W) der Satzstrukturen mit positiven Ergebnis im Eigenverleich in Goethe-Texten und

in Johnson- Texten und im Kreuzvergleich Johnson-Goethe und Goethe-Johnson als Funktion der Größe W als

mittelbarer Variable von K und L.

Zur weiteren Illustration der Abb.IX.2 a und b sind im Anhang I im Klartext Sätze aus einem

Goethe-Text und einem Johnson-Text aufgeführt. Das erste Zahlenpaar, z.B. 9 / 74, bezeich-

net darin die Nummern der Sätze, die strukturell übereinstimmen, die nachfolgenden Zahlen-

paare 39 / 39 und 8 / 8 stehen für die Anzahl der Buchstaben k und die Anzahl L der Wörter in

den Sätzen und die gebrochenen Zahlen schließlich für die mittleren Wortlängen W, das heißt,

für die Quotienten ∑k/L, gebildet aus den ganzen Zahlen ∑k und L:

Daraus – wie aus den Abbildungen – geht hervor, dass etliche Sätze aus dem einen Text,

wenn nur das reine Sprachenmaterial betrachtet wird, mit mehreren Sätzen des anderen Textes

vergleichbar sind. Aus der Lage eines Satzes in der (L,w)-Ebene und mithin auch aus dem

Funktional L = F(w) allein kann also nicht eindeutig auf die wortwörtliche Formulierung, die

einem Satz zugrunde liegt, rückgeschlossen werden.

III. Wortgewichte und ihre lexikographische Verteilung

Für die weiteren Untersuchungen, wurde dem Leseoperator ein Selektor nachgeschaltet, der

die Wörter nach der Anzahl der Buchstaben sortiert, alle zählt, aber nur die voneinander ver-

schiedenen lexikographisch anordnet.

Eine numerische Brücke vom Satzgefüge zu den Wörtern eines Satzes bilden die einzelnen

Buchstaben mit ihrer Stellung im Alphabet. Im Sinne von

( a b c bis z ) == ( 1 2 3 bis 26 ) (IX.4)

besteht jedes Wort aus einer Reihe von Ziffern und so kann als ein weiterer Parameter zur

Bestimmung eines Wortes im Satz zunächst aus den N Ziffern eines Wortes – genauer aus den

zugehörigen Zahlen nν – die Summe ∑n der Zahlen n gebildet und daraus durch Division

durch die Anzahl der Buchstaben N das sog. Gewicht eines Wortes gewonnen werden. z.B.:

Wort nν ∑nν Gewicht W = ∑nν/N

der 4 + 5 + 18 = 27 → 9.0

Mann 13 + 1 + 14 + 14 = 42 → 10.5

ist 9 + 19 + 20 = 48 → 16.0

gross 7 + 18 + 16 + 19 + 19 = 79 → 15.8 oder prim-codiert:

0 20 40 60 80 100

0

10

20

30

40

50

60

70

80

L

W = L

Z(W)

Goethe - Goethe 74 / 1000

Johnson - Goethe 34 / 462

0 20 40 60 80 100

0

10

20

30

40

50

60

70

80

L

W = L

Z(W)

Johnson - Johnson 69 / 1000

Goethe - Johnson 34 / 343

Page 6: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

6

Wort nν ∑nν Gewicht W = ∑nν/N

der 7 +11 + 61 = 79 → 26.333

Mann 41 + 2 + 43 + 43 = 129 → 32.25

ist 23 + 67 + 71 = 161 → 53.666

gross 17 + 61 + 53 + 67 + 67 = 255 → 51.0

Schon dieses Beispiel zeigt, dass die Wortgewichte – in welcher Kodierung auch immer – nur

innerhalb der einzelnen Wortgruppen, das heißt, innerhalb der Wörter mit gleicher Buchsta-

benzahl, eine Rolle spielen können, zum Beispiel in der Zweiergruppe mit "ab" = 1 + 2 = 3

und "zu" = 26 + 21 = 47 . Die mittleren Wortgewichte, gemittelt über alle voneinander ver-

schiedenen Wörtern mit einer bestimmten Anzahl von Buchstaben aus einem (langen) Text

sind für kryptographische Zwecke besonders wichtig und dafür gibt es eine einfache, relativ

genaue Abschätzung: Bezeichnet Nmax das größte und Nmin das kleinste Wortgewicht einer

Wortgruppe mit M Buchtaben, so gilt näherungsweise:

Ŵ ~ 𝑁𝑚𝑎𝑥−𝑁𝑚𝑖𝑛

𝑀 (IX.5)

Ein exaktes Ergebnis für Ŵ erhält man aber erst mit Hilfe der Häufigkeit H(NM), mit der ein

Wortgewicht N in der Gruppe von M Wörtern auftritt:

𝐻(𝑁𝑀) =𝑍(𝑁𝑀)

𝑀 (IX.6)

(sprich: Die Häufigkeit der mittleren Wortgewicht 𝑁𝑀 in einer Wortgruppe mit M Buchstaben

ergibt sich aus ihrer Zahl Z bezogen auf ihre Gesamtzahl M)

In Abb.IX. sind die H(NM) in fünf solcher Wortgruppen hintereinander gestaffelt dargestellt

Die Häufigkeitsverteilungen in den einzelnen Wortgruppen sind – vor allem im Bereich der

mittleren Buchstabenzahlen – einander sehr ähnlich und überlappen sich an den Rändern bis

über die Mitten der benachbarten Wortgruppen hinaus.

Für das mittlere Wortgewicht einer ganzen Wortgruppe gilt anstelle von (IX.5) nun also

exakt:

Ŵ(𝑀) = ∑ 𝑁𝑀𝐻(𝑁𝑀)

𝑁𝑀𝑚𝑎𝑥𝑁𝑀𝑚𝑖𝑛

∑ 𝐻(𝑁𝑀)𝑁𝑀𝑚𝑎𝑥𝑁𝑀𝑚𝑖𝑛

(IX.7)

Abb.IX.3 Die Häufigkeitsverteilungen in fünf verschiedenen Wortgruppen aus einer großen Zahl von

Texten.

50 100 150 200

0,00

0,01

0,02

0,03

0,04

0,05

M = 3

M = 6

M= 9M = 15

M = 12

H(NM)

NM

Page 7: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

7

"exakt" in dem Sinne, dass sich die Häufigkeiten und mithin auch das Endergebnis bei einer

Verdoppelung der Textlänge nicht mehr ändern, also einem Grenzwert entsprechen.

Die mittleren Wortgewicht, in Abb.IX.4 bis M = 2 bis15 dargestellt, sind ersichtlich für die

"kurzen" wie für die "langen" Wörter etwa gleich groß. Das heißt, die kurzen und langen

Wörter sind nahezu gleichgewichtig, oder anders formuliert, werden von ebenso viel hell

klingenden wie dunkel klingenden Buchstaben gebildet, wenn man darunter die Vokale in

Verbindung mit ihren Konsonanten versteht und ihre Anordnung im Alphabet verstehen will.

Abb.IX.4 Die Mittleren Wortgewichte Ŵ(𝑀) der Wortgruppen von 2 bis 15

IV. Verzettelung von Texten

Zur weiteren Analyse der materiellen Eigenschaften der Texte eines Autors dient die sog.

"Verzettelung" der Texte. Unter der Verzettelung eines Textes versteht man die Herstellung

einer Art von Wörterbuch, in dem jedes Wort, das ein Autor jemals geschrieben hat (und von

allen anderen seiner Wörter verschieden ist!) unter Angabe der Schreibweise, der Häufigkeit

seiner Benutzung und der Nummern der Sätze, in denen das Wort benutzt wurde, verzeichnet

werden – eine Aufgabe, die früher offenbar mit einem Haufen von Zetteln durchgeführt wur-

de und daher ihren Namen erhalten hat, heute aber mit Hilfe von entsprechend programmier-

ten Computern zu erledigen ist. Dafür werden folgende Operatoren eingesetzt:

– 1. Leseoperator, der den Urtext mit den zugehörigen Satznummern Satz für Satz in ei-

ner von Maschinen lesbaren Kodierung abspeichert, so wie der Autor nun einmal sei-

nen Text verfasst hat, in einem weiteren Schritt aber aus dem Text alle für die weitere

Bearbeitung, das heißt, für die Erkennung von Wörtern und Sätzen nicht erforderli-

chen Zeichen und Schnörkel beseitigt und auch in dieser Form abspeichert.

– 2. Selektor, der die voneinander verschiedenen Wörter nach der Anzahl ihrer Buch-

staben in Gruppen anordnet.

– 3. Lxikoperator, der die voneinander verschiedenen Wörter in den Wortgruppen bis zu

einer bestimmten Tiefe lexikographisch ordnet, jedoch anders als in Lexika hier in den

tatsächlich gesprochenen oder geschriebenen Formen.

– 4, Comperator, der einen ganzen Textteil oder einzelne Sätze oder Wörter mit anderen

Texten oder Textteilen auf bestimmte Eigenschaften hin vergleicht (und zählt) und die

Ergebnisse mit den zugehörigen Satznummern in Dateien speichert.

Die eigentliche "Verzettelung" besteht aus einem eigenen extrem schnellen Programmteil, das

die Rückführung der Wörter und Satzteile in ihren ursprünglichen Zusammenhang wieder

0 2 4 6 8 10 12 14 16

0

2

4

6

8

10

12

14^W(M)

M

angenähert

exakt

Page 8: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

8

herstellt, und das optional auf die Auswahl von Silben, Wortteilen oder von ganzen Wörtern

oder Wortkombinationen eingestellt werden kann:

Suchoptionen: 1. Silbe oder Wortteil

2. Vorsilbe oder Wort

3. Endsilbe oder Wort

4. Wortkobination # = "

Ein Text mit 70000 Sätzen konnte auf diese Weise in 40 min (Minuten!) vollständig "verzet-

telt" werden.

Die herkömmliche schriftliche Dokumentation aller Schritte, die zur Verzettelung einen Bei-

trag liefern, und die Verzettelung selbst mit durchschnittlich 10 bis über 1000 Einzelergebnis-

sen pro Wort würden zu kiloschweren Büchern führen, die zu Hunderten in Bibliotheken auf-

gestellt mit ihrem Tonnengewichten nur noch mit Gabelstaplern oder Regalaufzügen zu be-

herrschen wären, jedenfalls nicht mehr einzeln gehandhabt und gelesen werden könnten, erst

recht nicht, wenn vergleichende Studien an lexikal entfernten Bestandteilen eines Textes er-

forderlich sein sollten.

Dagegen ist die hier benutzte "Verzettelung" so schnell (und je nach Option so umfangreich),

dass eine schriftliche Dokumentation erst nach Nutzung der Verzettelung, gewissermaßen als

deren Resultat (so es denn eines gibt!) niedergelegt werden sollte. Alle Schritte und Zwi-

schenergebnisse während der Verzettelung werden in einem Appendix mit Datum und Uhr-

zeit für spätere, Analysen oder zusammenfassende Beurteilungen aufbewahrt und können

dazu (notfalls) ausgedruckt werden. Als ein Beispiel diene der Ausdruck der Verzettelung

einzelner Wörter aus einem beliebig herausgegriffenen Goethetext:

Verzettelung am 01/09/17 um 17:56:52 154665 Zeichen, 128077 Buchstaben, 23301 Woerter, 859 Saetze im Text Gesuchte Silbe := "wetter" Silbe/Wort erkannt mit GM[0] = 6 Zeichen Suchoptionen: 1 Silbe in Wort 2 Vorsilbe oder Wort 3 Endsilbe oder Wort 4 Abbruch # = 3 Wetter 631 23 5 20 20 5 18 Wetter 715 23 5 20 20 5 18 Wetter 731 23 5 20 20 5 18 Wetter 738 23 5 20 20 5 18 Wetter 765 23 5 20 20 5 18 Wetter 767 23 5 20 20 5 18 Wetter 800 23 5 20 20 5 18 Wetter 820 23 5 20 20 5 18 KK = 8 Gesuchte Silbe := "gekommen" Silbe/Wort erkannt mit GM[0] = 8 Zeichen Suchoptionen: 1 Silbe in Wort 2 Vorsilbe oder Wort 3 Endsilbe oder Wort 4 Abbruch # = 2

Satznummer

Buchstabencode

Page 9: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

9

gekommen 257 7 5 11 15 13 13 5 14 gekommen 283 7 5 11 15 13 13 5 14 angekommen 659 1 14 7 5 11 15 13 13 5 14 gekommen 769 7 5 11 15 13 13 5 14 KK = 4 Gesuchte Silbe := "aber" Silbe/Wort erkannt mit GM[0] = 4 Zeichen Suchoptionen: 1 Silbe in Wort 2 Vorsilbe oder Wort 3 Endsilbe oder Wort 4 Abbruch # = 2 aber 4 1 2 5 18 aber 17 1 2 5 18 aber 20 1 2 5 18 aber 22 1 2 5 18 aber 24 1 2 5 18 aber 26 1 2 5 18 aber 33 1 2 5 18 aber 36 1 2 5 18 aber 38 1 2 5 18 aber 41 1 2 5 18 aber 57 1 2 5 18 aber 59 1 2 5 18 aber 63 1 2 5 18 usw. bis KK = 138

Werden auf diese Weise nach einmaliger Auswahl der Suchoption sämtliche "voneinander

verschiedene" Wörter eines Textes dem Operator zur "Verzettelung" angeboten, erhält man

die Verzettelung des gesamten Textes. Dazu hier der Ausriss aus einem Text:

1 um diese Zeit meldeten sich die Grafen Stolberg an, die, auf einer Schweizerreise begriffen, bei uns ein-

sprechen wollten.

2 Ich war durch das fruehste Auftauchen meines Talents im Goettinger Musenalmanach mit ihnen und sa-

emtlichen jungen Maennern deren Wesen und Wirken bekannt genug ist, in ein gar freundschaftliches Verhaelt-

nis geraten.

3 Zu der damaligen Zeit hatte man ziemlich wunderliche Begriffe von Freundschaft und Liebe gemacht.

4 Eigentlich war es eine lebhafte Jugend, die sich gegeneinander aufknoepfte und ein talentvolles aber unge-

bildetes Innere hervorkehrte.

5 Einen solchen Bezug gegeneinander, der freundlich wie Vertrauen aussah, hielt man fuer Liebe, fuer

wahrhaftige Neigung ich betrog mich darin so gut wie die andern, und habe, davon viele Jahre auf mehr als eine

Weise gelitten.

6 Es ist nicht ein Brief von Buergern aus jener Zeit vorhanden, woraus zu sehen ist, dass von sittlichaestheti-

schem unter diesen Gesellen keineswegs die Rede war.

7 Jeder fuehlte sich aufgeregt und glaubte gar wohl hiernach handeln und dichten zu duerfen.

Anhang I

Sätze verschiedener Autoren aus dem Kreuzvergleich mit gleicher Struktur, aber höchst un-

terschiedlichen Bedeutungen

Goethe Satz # / Anderer Satz # Anzahl der Buchstaben Satzlängen Mittlere Wortlängen

Page 10: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

10

9/ 74 39/ 39 8/ 8 4.875000/4.875000

Die Gebrueder kamen an, Graf Haugwitz mit ihnen. / Wann beginnt ein Fehler ein Verbrechen zu sein. 9/491 39/ 39 8/ 8 4.875000/4.875000

Die Gebrueder kamen an, Graf Haugwitz mit ihnen. / Man kann es schon nicht mehr Daemmerung nennen. 9/733 39/ 39 8/ 8 4.875000/4.875000

Die Gebrueder kamen an, Graf Haugwitz mit ihnen. / Wenn ich deinen Schritt nicht kennte sagte ich. 11/ 8 53/ 53 11/ 11 4.818182/4.818182

Sie wohnten im Gasthofe, waren zu Tische jedoch meistens bei uns. / Ich habe gehoert von einer Dame, die hat auch stu-diert, Anglistik.

13/711 48/ 48 7/ 7 6.857143/6.857143 Allein gar bald traten exzentrische Ausserungen hervor. / Herr Seemann blieb horchend stehen aufgehobenen Kopfes.

17/ 46 36/ 36 7/ 7 5.142857/5.142857 Doch hierbei sollte es nicht lange bleiben. / Tun seine Machthaber in allem das Richtige.

17/328 36/ 36 7/ 7 5.142857/5.142857 Doch hierbei sollte es nicht lange bleiben. / Am Dienstag hatte er wieder zweite Schicht.

17/404 36/ 36 7/ 7 5.142857/5.142857 Doch hierbei sollte es nicht lange bleiben. / Du solltest auch mal seine Tochter anrufen.

17/862 36/ 36 7/ 7 5.142857/5.142857 Doch hierbei sollte es nicht lange bleiben. / Ist es nicht huebsch sich das vorzustellen.

23/926 56/ 56 11/ 11 5.090909/5.090909 Daran ergoetzt euch, aber alle Mordgedanken lasst mir aus dem Hause. / Man koenne also sein Brennholz im Garten wach-

sen lassen, nicht wahr.

Anderer Satz # / Goethe Satz # Anzahl der Buchstaben Satzlängen Mittlere Wortlängen

42/679 49/ 49 9/ 9 5.444444/5.444444 Ist das Dasein eines solchen Landes ohne weiteres gerecht. / Philipp Hackerz lebte dort in gutem Ansehen und Wohlstand.

42/735 49/ 49 9/ 9 5.444444/5.444444 Ist das Dasein eines solchen Landes ohne weiteres gerecht. / Es aehnelte der Vorsehung, denn es deutete auf Zusammen-

hang. 42/944 49/ 49 9/ 9 5.444444/5.444444

Ist das Dasein eines solchen Landes ohne weiteres gerecht. / Die Streifen der untern Regionen bewegten sich auch nicht. 45/302 43/ 43 7/ 7 6.142857/6.142857

Dort hat die glueckliche Zukunft bereits begonnen. / Die Felsen wurden im maechtiger und schrecklicher. 45/386 43/ 43 7/ 7 6.142857/6.142857

Dort hat die glueckliche Zukunft bereits begonnen. / Man hatte sich ihrer auch einigermassen enthalten. 46/ 17 36/ 36 7/ 7 5.142857/5.142857

Tun seine Machthaber in allem das Richtige. / Doch hierbei sollte es nicht lange bleiben. 46/607 36/ 36 7/ 7 5.142857/5.142857

Tun seine Machthaber in allem das Richtige. / Wer Neapel nicht gesehen, habe nicht gelebt. 46/909 36/ 36 7/ 7 5.142857/5.142857

Tun seine Machthaber in allem das Richtige. / Um zwoelf in Eger, bei heissem Sonnenschein. 46/966 36/ 36 7/ 7 5.142857/5.142857

Tun seine Machthaber in allem das Richtige. / Nach Walchensee gelangte ich um halb fuenf. 48/840 14/ 14 3/ 3 4.666667/4.666667

Was folgt daraus. / Sehr wohl gefiel.

Anhang II

Sätze auf Hyperbeln (und Asymptoten) begrenzter Länge aus beliebigen Texten

L w zugehöriger Text

1 5.000000 Seher.

2 5.000000 steht nicht.

4 5.000000 Er ward noch dringender.

5 5.000000 Sie unterhielt mich recht gut.

6 5.000000 Nichts von der Kindheit des Herzens.

8 5.000000 Man klagt hier durchaus ueber Kaelte und Naesse.

11 5.000000 Mit einiger Andeutung, aber ohne Abschied, trennt ich mich von Lili.

12 5.000000 nicht die milchweisse des bloeden, nicht die gelbe des harten und zaehen.

13 5.000000 Er war weder Denker noch Dichter, ja nicht einmal Redner im eigentlichen Sinne.

14 5.000000 Solange ich abwesend war, glaubte ich an die Trennung, glaubte nicht an die Scheidung.

15 5.000000 Indessen liess er dem Handel seinen Gang und setzte seine kleine Kanzlei recht emsig fort.

17 5.000000 Wenn sie mich dort antraefe, muesse ich ihr einen Jahrmarkt kaufen, welches ich ihr denn auch versprach.

Erst

e H

yper

bel

Page 11: L ~ F(w) - uni-saarland.de Darstellung und... · chen Sätze aus Wörtern mit begrenzter Buchstabenzahl zum Zwecke der Verständigung ge- ... aus je 1000 oder mehr Sätzen bestehen

11

2 5.500000 keine Haerte.

3 5.333333 Man urteile selbst.

4 5.250000 es schwebt oder schwimmt.

6 5.166667 mehr der verliebten, als der strengen.

7 5.142857 Doch hierbei sollte es nicht lange bleiben.

8 5.125000 Ein Schwebendes also, das die Erde nicht beruehrt.

9 5.111111 Ihr war so natuerlich dem allem anstaendig zu genuegen.

10 5.100000 Sie kamen an und taugten nicht entschied zu ihrer Bestimmung.

11 5.090909 Daran ergoetzt euch, aber alle Mordgedanken lasst mir aus dem Hause.

14 5.071429 ich hatte das Ohr so nahe angedrueckt wie nur das auswaerts gebogene Gitter erlaubte.

15 5.066667 Nackte Koerper doch leuchten weit, und wer es auch mochte gesehen habe, nahm Aergernis daran.

16 5.062500 Ich ergriff das Omen, und wir schieden im besten Humor in der Hoffnung eines baldigen Wiedersehns.

17 5.058824 Glueck oder Unglueck, Lust oder Trauer ist bloss den Personen zugedacht, die heute auf dem Zettel stehen.

18 5.055556 Und so schilderte sich nach und nach das Element, worauf der junge Herzog nach seiner Rueckkehr wirken sollte.

4 5.500000 halb sieben Uhr aufwaerts.

5 5.400000 Goldne Traeume, kommt ihr wieder.

8 5.250000 Nun schien auf einmal eine andere Welt aufzugehen.

9 5.222222 Immer halbtrunkener Dichter, der sieht, was er sehen will.

10 5.200000 und er schilderte sie sodann treffend, aber nicht ganz richtig.

11 5.181818 das ewige Geltenlassen, das Leben und Lebenlassen war ihm ein Greuel.

12 5.166667 In einer Stadt wie Frankfurt befindet man sich in einer wunderlichen Lage.

13 5.153846 Der Empfang war heiter und herrlich, und man muss gestehen, anmutig ohne gleichen.

15 5.133333 wie ihm auch sei, jetzt zwischen die Ruinen hat sich die Huette des Waldbruders eingeschoben.

16 5.125000 Die rauhen Wege, die von da nach Maria Einsiedeln fuehrten, konnten unserm guten Mut nichts anhaben.

Es sei vermerkt, dass im Sinne einer kompakten Darstellung alle Satzzeichen außer Punkt und

Komma für diese Darstellung vom Leseoperator beseitigt wurden.

Anhang III

Numerische Darstellung der Strukturen von Sätzen mit ihren Koordinaten in F(W)-Ebene speziell für Kontrollzwecke ausgesucht:

zwei

te H

yper

bel

d

ritt

e H

yper

bel

1 83 14 5.929

1 39 8 4.875

2 39 8 4.875

3 39 8 4.875

4 39 8 4.875

1 53 11 4.818

1 48 7 6.857

2 36 7 5.143

3 36 7 5.143

4 36 7 5.143

5 36 7 5.143

2 56 11 5.091

1 28 6 4.667

2 28 6 4.667

44 29 4.96 1 53 11 4.818

2 53 11 4.818

1 21 6 3.500

1 4 1 4.000

2 4 1 4.000

1 16 3 5.333

2 16 3 5.333

1 89 19 4.684

2 89 19 4.684

1 46 8 5.750

1 83 14 5.929

2 83 14 5.929

1 53 10 5.300

2 53 10 5.300