Ein Zwei-Ebenen-Modell der Phonologie des PolnischenCL/download/MasterTh_ThomasBraun.pdf · und ; aufgrund der identischen Semantik der beiden Morpheme werden sie als zwei Formen

Computerlinguistik und Kunstliche Intelligenz

Ein Zwei-Ebenen-Modell

der Phonologie des Polnischen

MAGISTERARBEIT

ZUR ERLANGUNG DES

MAGISTER ARTIUM

im Fachbereich Sprach- und Literaturwissenschaftder Universitat Osnabruck

vorgelegt von

Thomas Braun

aus Hannover

2003

Inhaltsverzeichnis

1 Einleitung 31.1 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Polnisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Phonetik und Phonologie . . . . . . . . . . . . . . . . . . . . . 6

2 Die polnische Laut- und Schriftstruktur 92.1 Phonetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Phonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Orthographie . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Endliche Automaten und Transduktoren 333.1 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Grundlegende Operationen . . . . . . . . . . . . . . . . . . . . 343.3 Endliche Automaten . . . . . . . . . . . . . . . . . . . . . . . 353.4 Endliche Transduktoren . . . . . . . . . . . . . . . . . . . . . 413.5 Verwendung der Definitionen . . . . . . . . . . . . . . . . . . . 45

4 Phonologische Formalismen 474.1 Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Generative Phonologie . . . . . . . . . . . . . . . . . . . . . . 484.3 Two-Level-Phonologie . . . . . . . . . . . . . . . . . . . . . . 504.4 Bewertung der Implementierbarkeit . . . . . . . . . . . . . . . 53

5 Der Regelcompiler fur PC-KIMMO 565.1 Tcl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.2 Endliche Transduktoren in Tcl . . . . . . . . . . . . . . . . . . 595.3 Two-Level-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . 695.4 Regeln fur PC-KIMMO . . . . . . . . . . . . . . . . . . . . . . 805.5 Regeldateien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

1

INHALTSVERZEICHNIS 2

6 Die polnische Phonologie in Zwei-Ebenen-Regeln 826.1 Das Alphabet . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.2 Eindeutige Realisierungen . . . . . . . . . . . . . . . . . . . . 836.3 Variable Realisierungen . . . . . . . . . . . . . . . . . . . . . . 846.4 Einfugungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.5 Uberpfufung der Korrektheit der Regeln . . . . . . . . . . . . 100

7 Abschließende Bemerkungen 101

A Two-Level-Regeln 105

B Ubersicht uber die beiliegende CD 111

Literaturverzeichnis 116

Kapitel 1

Einleitung

In der vorliegenden Arbeit stelle ich eine Modellierung der Phonologie desPolnischen vor. Die Modellierung erfolgt mit den Mitteln des Two-Level--Modells nach Koskenniemi, das zuerst in [15] beschrieben wurde. Ziel ist es,Regeln zu formulieren, mit denen aus einer abstrakten phonologischen Re-prasentation eines Wortes die orthographische Form abgeleitet werden kann.Damit verfolge ich nicht den klassischen Weg der Phonologie, wo ublicher-weise statt orthographischer Formen phonetische Formen abgeleitet werden.Anhand der Beschreibung der Phonetik und Phonologie des Polnischen inKapitel 2 konnten auch Regeln zur Ableitung von phonetischen Formen an-gegeben werden. Die Regeln, die ich zur Ableitung orthographischer Formenaufgestellt habe, waren allerdings nur zum Teil verwendbar. Der Grund dafurist, dass einige meiner Regeln nur fur die Orthographie von Bedeutung sind,weil verschiedene Laute abhangig von der Umgebung, in der sie auftreten,orthographisch unterschiedlich realisiert werden.

Bei der Behandlung der Phonologie des Polnischen sind vor allem die ver-schiedenen Lautveranderungen zu erklaren, die im Polnischen auftreten. Solautet der endungslose1 Nominativ Singular des Wortes fur

”Wald“ im Pol-

nischen”las“2, der Lokativ Singular aber

”lesie“. Wenn man vereinfachend

annimmt, dass”las“ als Endung im Lokativ Singular

”ie“ erhalt, dann muss

noch erklart werden, dass der Vokal im Nominativ Singular ein”a“, im Lo-

kativ Singular aber ein”e“ ist.

Meine Erklarung fur das Beispiel ist, ein spezielles Phonem, das ich mit/æ/ bezeichne, anzunehmen. Dieses Phonem wird abhangig von der Umge-bung, in der es sich befindet, als

”a“ oder als

”e“ realisiert. Die phonologische

1Im Polnischen werden Flexionsformen durch Prafigierung und Suffigierung gebildet.2Der Nominativ Singular wird in Worterbuchern als Grundform von Substantiven an-

gegeben.

3

KAPITEL 1. EINLEITUNG 4

Reprasentation von”las“ ware demnach /læs/3; dazu gibt es Regeln, die be-

stimmen, in welchen Fallen /æ/ als”a“ oder als

”e“ realisiert wird.

Eine grundsatzliche Schwierigkeit bei der Betrachtung der Phonologie desPolnischen ist die so genannte Erweichung von Konsonanten. Die Besonder-heit dieses Prozesses ist, dass in der orthographischen (und phonetischen)Form zwar seine Auswirkung, aber nicht seine Ursache zu erkennen ist. Soist anders als in der obigen vereinfachten Darstellung das

”i“ in

”lesie“ nicht

Bestandteil der Endung, sondern es ist eine durch die Orthographieregelndes Polnischen festgelegte Markierung fur die Erweichung des

”s“ (und hat

somit auch keinen eigenen Lautwert, sondern beeinflusst nur die Aussprachedes

”s“).

Ich fuhre zur Erklarung der Erweichung spezielle phonologische Markie-rungen ein, durch die die Erweichung ausgelost wird. Damit unterscheidetsich meine Erklarung von der anderer Darstellungen der Phonologie des Pol-nischen, z. B. der von Rubach in [19].

Zur Anwendung der aufgestellten phonologischen Regeln verwende ichden Two-Level-Prozessor PC-KIMMO [1]. Weil PC-KIMMO Regeln nur ineinem besonderen Format (reprasentiert als endliche Automaten) verarbei-ten kann, habe ich zusatzlich ein Programm implementiert, das Two-Level-Regeln aus dem ublichen Format in das Format von PC-KIMMO konvertiert.

1.1 Aufbau der Arbeit

Im verbleibenden Teil dieses ersten Kapitels gebe ich nach dieser Darstellungdes Aufbaus der Arbeit einen kurzen Uberblick uber das Polnische sowieuber die fur diese Arbeit wichtigsten Teilbereiche der Sprachwissenschaft,der Phonetik und der Phonologie.

Kapitel 2 gibt danach auf sprachwissenschaftlicher Ebene – d. h. un-abhangig vom Two-Level-Modell – einen Uberblick uber Phonetik, Phonolo-gie und Orthographie des Polnischen.

In Kapitel 4 wird das Two-Level-Modell vorgestellt, mit dessen Mittelndie Modellierung der Phonologie des Polnischen erfolgen soll. Kapitel 4 be-handelt auch im Vergleich zum Two-Level-Modell ein weiteres wichtiges pho-nologisches Modell, die generative Phonologie. Weil dem Two-Level-Modelldas mathematische Modell der endlichen Automaten und Transduktoren zu-grunde liegt, wird dieses vorher in Kapitel 3 behandelt.

Das oben angesprochene Programm zur Konvertierung von Two-Level-Regeln wird in Kapitel 5 beschrieben.

3In Wirklichkeit ist die Reprasentation /l � æs/.


Kapitel 6 greift schließlich Kapitel 2 wieder auf; dort werden die in Kapitel2 beschriebenen phonologischen Prozesse als Two-Level-Regeln formuliert.

1.2 Polnisch

Zur Einordnung des Polnischen gibt dieser Abschnitt einen Uberblick uberwichtige Merkmale der Sprache. Die Informationen stammen aus [8].

Die polnische Sprache ist eine indoeuropaische Sprache. Sie gehort, zu-sammen mit dem Tschechischen, dem Slowakischen und dem Sorbischen, zumwestslawischen Zweig der slawischen Sprachen. Es wird von etwa 36 MillionenSprechern gesprochen, hauptsachlich in der Republik Polen und den umlie-genden Gebieten, durch Migration auch in den USA und in Westeuropa.

Von den ubrigen slawischen Sprachen unterscheidet sich das Polnischeunter anderem

• durch den Erhalt der Nasalvokale” ↪a“ und

” ↪e“ (vgl. poln.

”j↪ezyk“,

tschech.”jazyk“ ‘Sprache’) zumindest noch in der Orthographie;

• durch die feste Betonung auf der vorletzten Silbe eines Wortes, imGegensatz z. B. zum Russischen (beweglicher Akzent) und zum Tsche-chischen (Akzent auf der ersten Silbe).

Andererseits verfugt das Polnische uber Merkmale, die generell in slawi-schen Sprachen zu finden sind, und die diese von anderen indoeuropaischenSprachen wie dem Deutschen abgrenzen. Hier ist vor allem ein gut ausge-bautes System von Verbalaspekten zu nennen. Das Polnische kennt den im-perfektiven Aspekt (zur Kennzeichnung eines andauernden Geschehens), denperfektiven Aspekt (zur Kennzeichnung eines abgeschlossenen Geschehens)und bei einer Reihe von Verben auch den iterativen Aspekt (zur Kennzeich-nung eines regelmaßig wiederkehrenden Geschehens). Durch das Aspektsys-tem wird in den slawischen Sprachen die geringe Tempusdifferenzierung aus-geglichen; das Polnische verfugt uber ein Prasens, ein Futur, ein Prateritumund ein selten gebrauchtes Plusquamperfekt.

Eine weitere Gemeinsamkeit der meisten slawischen Sprachen ist die Ein-beziehung des Merkmals [± belebt] in die Nominalflexion, d. h. in bestimm-ten Fallen richtet sich das zu gebrauchende Flexionsmorphem danach, wiedieses Merkmal bei dem betreffenden Nomen oder Adjektiv belegt ist. ImPolnischen betrifft die Unterscheidung den Akkusativ Singular und Pluralder Maskulina.


1.3 Phonetik und Phonologie

Die Phonetik und die Phonologie sind zwei Teildisziplinen der Sprachwis-senschaft, die sich mit Sprachlauten befassen. Sie unterscheiden sich in denGesichtspunkten, unter denen sie die Sprachlaute betrachten.

Die Phonetik beschaftigt sich mit den physikalischen Eigenschaften vonSprachlauten (Phonen). Von Interesse sind vor allem die Art und Weise, inder Sprachlaute produziert werden (d. h. der Einsatz der Artikulationsorganewie Zunge, Lippen und Stimmbander), und die akustischen Eigenschaften derproduzierten Sprachlaute, also die Art und Weise, wie der Horer die Lautewahrnimmt.

Die Phonologie behandelt die Funktion von Sprachlauten in einzelnenSprachen. Ein klassischer Gesichtspunkt der Phonologie ist die Frage, ob esBeschrankungen fur die Distribution von Lauten innerhalb der moglichenWortformen gibt. So ist z. B. festzustellen, dass im (Hoch-)Deutschen derLaut

��(entspricht dem <ch>4 in <noch>) nur nach den Vokalen

�� vorkommt. Andererseits kommt der Laut

��(entspricht dem <ch> in

<nicht>) in allen ubrigen Umgebungen vor.In solchen Fallen, wenn zwei oder mehr Phone komplementare Distri-

butionen aufweisen, werden die entsprechenden Laute Allophone genannnt.5

Wichtig ist hierbei, dass diese Bezeichnung nur jeweils fur eine bestimmteSprache gilt.

��und

��sind im Deutschen Allophone, in anderen Sprachen

kann eine Unterscheidung zwischen��

und��

bedeutungstragend sein.Es ist also im Deutschen nicht notig, bei der Reprasentation von Wortern

zwischen den Allophonen��

und��

zu unterscheiden, weil die Aussprachedurch die Umgebung festgelegt ist. In der Phonologie abstrahiert man darumvon den Lauten (Phonen) der Phonetik und betrachtet die so genannten Pho-neme. Phoneme konnen als Gruppierungen von Phonen angesehen werden;6

4Ich verwende in dieser Arbeit die ubliche Notationskonvention zur Angabe von phone-tischen, phonologischen und orthographischen Formen. Phonetische Ausdrucke stehen ineckigen Klammern (z. B. � �� ), phonologische zwischen diagonalen Strichen (z. B. �� )und orthographische in Winkelklammern (z. B. <byc>).

5Es gibt noch eine weitere Moglichkeit, Allophone zu definieren. Nach dieser zweitenDefinition sind zwei Phone genau dann Allophone, wenn man in Wortern jeweils das einegegen das andere ersetzen kann, ohne dass sich die Bedeutung andert. Zur Bestimmungvon Allophonen nach dieser Definition dreht man meist die Definition um und sucht furjeweils zwei Phone so genannte Minimalpaare, d. h. Paare von Worten, die sich nur in diesenbeiden Phonen unterscheiden; im Deutschen ist z. B.

”� �! #"$�%� – � &� '"(�%� “ ein Minimalpaar

fur die Phone � �)� und � &�� . Alle Phone, fur die keine Minimalpaare existieren, sind danngute Kandidaten fur Allophone.

6Dabei ist nicht ausgeschlossen, dass ein Phon zu mehreren solchen Gruppierungengehort.


uber die Aussprache eines Phonems, d. h. dessen Realisierung als Phon, wirdmit Hilfe von Regeln wie der oben skizzierten entschieden.

Fur das Deutsche wird z. B. im Allgemeinen ein Phonem /C/7 als Grup-pierung der Phone

��und

��angesetzt. Worter wie <noch> und <nicht>

werden dann phonologisch als /n�C/ bzw. /n � Ct/ reprasentiert; durch die

Regel”

��tritt nur nach

�� auf“ kann dann entschieden werden, dassdie beiden Worter

�� und

�� gesprochen werden.Aufbauend auf dem oben beschriebenen Phonembegriff stellt die so ge-

nannte generative Phonologie einen Zusammenhang zwischen Phonologie undPhonetik her. Den Kern der generativen Phonologie bildet die Auffassung,dass zu jeder (phonetischen) Wortform eine abstrakte Reprasentation (die sogenannte

”zugrunde liegende Form“) existiert, aus der mit Hilfe von Regeln

die phonetische Wortform (”Oberflachenform“) abgeleitet werden kann.

Der Hauptnutzen einer solchen zugrunde liegenden Form liegt darin, dasses die Bildung unterschiedlicher Oberflachenformen eines Morphems erklarenkann. Die deutschen Worter

�� <Hund> und�� (� <Hunde> beinhal-

ten die Morpheme�� und

�� ; aufgrund der identischen Semantik derbeiden Morpheme werden sie als zwei Formen desselben zugrunde liegendenMorphems � � � �� aufgefasst. Analog zum Begriff des Allophons nennt mansolche Morpheme Allomorphe. Durch eine Regel (der so genannten Auslaut-verhartung) wird dann das � � � im Auslaut der Form � � � �� in

� � �umgewan-

delt, wenn nicht durch Anhangen des Endungsmorphems � � die Anwendungder Regel unmoglich wird.

Neben der klassischen generativen Phonologie sind zahlreiche Abwandlun-gen der generativen Phonologie von verschiedenen Autoren verwendet wor-den. Die meisten unterscheiden sich von der klassischen generativen Phono-logie hauptsachlich in der Art und Anwendung der Regeln. Zu den Abwand-lungen der generativen Phonologie gehort auch die durch Goldsmith ([9])begrundete autosegmentale Phonologie, die die zugrunde liegende Form aufverschiedenen Schichten, die miteinander in Beziehung stehen, reprasentiert.

Eine weitere Alternative zur generativen Phonologie ist die relativ neueOptimalitatstheorie ([16]). Hier werden Obeflachenformen nicht durch Regelnaus zugrunde liegenden Formen abgeleitet, sondern es werden Bedingungenformuliert, die die Oberflachenformen erfullen sollen. Die Realisierung einerzugrunde liegenden Form ist diejenige Oberflachenform, die die wenigsten(oder die am wenigsten schwerwiegenden) Verstoße gegen die Bedingungenaufweist. Die Optimalitatstheorie wird z. B. in [11] genauer behandelt.

Die generative Phonologie und das Two-Level-Modell, auf das ich mich

7In der Literatur findet man oft das Symbol ��"�� als Bezeichnung fur dieses Phonem.Ich verwende stattdessen /C/, um den Unterschied zum Phon � "$� zu verdeutlichen.


bei der Modellierung der Phonologie des Polnischen beziehe, werden ausfuhr-licher in Kapitel 4 beschrieben.

Die verschiedenen phonologischen Formalismen wie die generative Phono-logie und das Two-Level-Modell dienten ursprunglich dazu, Beziehungen zwi-schen zugrunde liegender phonologischer Reprasentation und phonetischerForm herzustellen. Eine alternative Anwendung ist es, statt phonetischer For-men orthographische Formen abzuleiten. Dieser Ansatz wird in dieser Arbeitauf das Polnische angewendet.

Eine ausfuhrliche Einfuhrung in die Phonologie gibt z. B. Spencer in [20].

Kapitel 2

Die polnische Laut- undSchriftstruktur

Die phonologischen Regeln, die ich in Kapitel 6 auffuhren werde, sollen esermoglichen, aus der phonologischen Reprasentation eines Wortes die ortho-graphische Form abzuleiten. Zum Verstandnis der Regeln ware es also nichtunbedingt notig, die Aussprache der Worter zu kennen. Die polnische Ortho-graphie weist aber im Bereich der Konsonanten einige Schwierigkeiten auf,wegen denen die phonologische Reprasentation nahe an der Phonetik erfolgenmuss.1 Darum gebe ich in diesem Kapitel zunachst ein Uberblick uber diePhonetik des Polnischen. Danach beschreibe ich auf der Ebene der Laute diephonologischen Prozesse, die im Polnischen auftreten. Im dritten Abschnittdes Kapitels folgt eine Beschreibung der polnischen Orthographie.

2.1 Phonetik

In diesem Abschnitt werden zunachst nur die artikulatorischen Eigenschaf-ten der polnischen Laute beschrieben. Ich versuche in diesem Abschnitt einenKompromiss zwischen den sich z. T. widersprechenden Darstellungen der pol-nischen Phonetik von Biedrzycki in [3] und Damerau in [7] zu finden.

2.1.1 Konsonanten

Das Polnische besitzt 43 Konsonanten2 (siehe Tabelle 2.1), von denen sechsallerdings nur in Lehnwortern vorkommen.

1Abgesehen davon ist davon auszugehen, dass eine an der Phonetik angelehnte phono-logische Modellierung kognitiv adaquater ist.

2Zum Vergleich: das Deutsche besitzt nach der Darstellung in [4] 26 Konsonantenlaute.

9

KAPITEL 2. DIE POLNISCHE LAUT- UND SCHRIFTSTRUKTUR 10

labio- palato- alveolo- labio-

bilabial dental alveolar alveolar palatal palatal velar velar

Nasal �� Plosiv �� Frikativ �� ! " # $ % � %�� '&Affrikate ( � ) * � # � $Approximant +-,. / ,/Lateral 0Trill 1 � 1 ��

Tabelle 2.1: Konsonantensystem des Polnischen. Die eingeklammerten Lautekommen nur in Lehnwortern vor. Die rechts in der Spalte stehenden Lautesind stimmlos, die links stehenden stimmhaft.

Eine Reihe von Lauten kommt genauso oder ahnlich auch im Deutschenvor. Gleich gesprochen werden der Approximant

��2 �, die Nasale

�43 �65 �, die

Frikative�87:9<;>= �<?��

3, der Lateral�4@ �

und die Affrikate�8A �

. Die Affrikate��-=��

ist die stimmhafte Variante von�8A �

.Die stimmlosen Plosive

�4B �>C �werden im Polnischen unbehaucht gespro-

chen und entsprechen damit eher den deutschen stimmhaften Plosiven�4D �

E � . Die polnischen stimmhaften Plosive�4D � E � sind

”vollstimmhaft“ [3].

Die palato-alveolaren Laute�F>GIHKJ �

werden nicht wie im Deutschen mitdem Zungenrucken, sondern nur mit der Zugenspitze artikuliert.

Die ubrigen Laute haben keine phonetische Entsprechung im Deutschen.Eine wichtige Gruppe dieser Laute bilden die palatalisierten und palatalenLaute. Bei der Artikulation der palatalisierten Laute wird

”die Zunge [...]

wahrend der primaren Artikulation in eine hohe vordere Stellung gebracht.Der Konsonant erhalt eine zusatzliche

�4L �-Farbung und wird durch ein kleines

hochgestelltes� M �

gekennzeichnet“ [6]. Grundsatzlich gilt, dass zu allen palata-lisierten Lauten auch der entsprechende nicht palatalisierte Laut vorkommt.Die Palatalisierung tritt vor allem bei den labialen Lauten auf:

�43NMOBMIDPMO7�M9�M �

, z. B. in�43QM �P; � ��

‘Stadt’;�4BPMSR T ��U��

‘funf’;�4DPMSV�C �

‘Lauf’;�87�MWLX@Y3 �

‘Film’;�89ZM[V�C �

‘Alter’. In Lehnwortern kommen auch die palatalisierten Laute� � M � M]\SM � M �

vor: z. B.��P3 �^V�; �[M � �

‘Amnestie’;��PM �PD^V`_!�

‘Teufel’;��PC�7 � \ M42 � 3 �

‘Aquarium’;��MaL �cb �‘China’.4

Die alveolo-palatalen Laute�8TdUfe ��U �-e �

werden gebildet,”indem sich die

vordere und mittlere Zunge dem Zahndamm und harten Gaumen nahert [...].Die Zungenspitze selbst kann am unteren Zahndamm ruhen“ [3]. Beispielefur das Vorkommen der alveolo-palatalen Laute:

��-egRhT �‘Tag’;

�4UhR��U��‘Netz’;

3 � i(� entspricht der heutigen hochdeutschen Aussprache des <r>.4Das in diesem Absatz gesagte entspricht – bis auf die Verwendung der IPA-Symbole

– der Darstellung von Norbert Damerau in [7]. Leszek Bierzycki verwendet dagegen in [3]statt der palatalisierten Laute die entsprechenden nicht palatalisierten Laute mit einemnachfolgenden �kj � , z. B. � �lj m �Sn � statt � �po hm �[n�� .


BBBBBBBBBB

EEEEEEEEEE

vorne zentral hinten

geschlossen

halbgeschlossen

halboffen

offen

s

Lsb s

�

s

R

s

Vs

�

s

�

Abbildung 2.1: Vokalsystem des Polnischen

�4B \ �hegD � �‘Bitte’.

Außerdem kommen im Polnischen die palatalen Plosive��

vor. Sie ent-stehen

”durch die vertikale Hebung der Zunge und durch den damit entste-

henden Verschluß mit dem harten Gaumen, und zwar an der gleichen Stelle,wo das deutsche

��in ich gebildet wird [...]“ [3]. Beispiele:

�� R � b �‘wann’;�� V �� L �

‘biegsam’.Der Trill

� \ �ist ein

”Zungenspitzen-r“, wie z. B. im Italienischen:

� \ �h9 V \ �‘Fahrrad’.

Neben dem��2 �

kennt das Polnische noch die Approximanten�8_�� _!�

. Das�8_!�entspricht dem englischen <w> in <water>: z. B.

�8_ �`9 � �‘Bank’. Die

anderen beiden Approximanten sind nasalierte Varianten von�42 �

und�8_!�

:z. B.

�4; �� U(� � � ‘Nachbar’;�F��_ ; � �

‘Chance’.Es ist noch zu erwahnen, dass es neben den palato-alveolaren Affrikaten�8H6J �

auch die Plosiv-Frikativ-Verbindungen� ��F �^G��

gibt. Der Kontrast wirddadurch erhalten, dass bei

� ��F �^G'�der Frikativ langer ausgesprochen wird,

die Aussprache ist also eigentlich� ��F��

bzw.��^G��

. Der Kontrast zwischen denAffrikaten einerseits und den Plosiv-Frikativ-Verbindungen andererseits kannbedeutungstragend sein:

�8H^b �‘oder’ –

� �[F��b �‘drei’.

2.1.2 Vokale

Das Polnische besitzt die sieben Vokale��KV R L � � b �

, vgl. auch Abbildung2.1.

Die Vokale�� V RQL:b �

sind ungerundet,�� sind gerundet.

Bis auf�4b �

kommen alle Vokale des Polnischen auch im Deutschen vor. Zubeachten ist nur, dass die polnischen Vokale immer kurz gesprochen werden.��<V ��

entsprechen jeweils den Vokalen in”halb“,

”Bett“ und

”Post“.

�4RL � � kommen im Deutschen als Langvokale vor. z. B. in

”Steg“,

”Lied“ bzw.


”Hut“.

Das Phonem�4b �

ist ein geschlossener ungerundeter Mittelzungenvokal. Esahnelt akustisch dem Deutschen kurzen

”i“, z. B. in

”mit“. Artikulatorisch

ahnelt es aber eher einem Schwa (� ��

), bei dem die Zunge so weit wie moglichangehoben ist.

2.2 Phonologie

2.2.1 Einteilung der Konsonanten

Fur verschiedene phonologische Phanomene ist es nutzlich, die Konsonantendes Polnischen in drei Gruppen einzuteilen. Dies sind:

• die”weichen“ Konsonanten: die Gruppe umfasst die palatalisierten, die

alveolo-palatalen und die palatalen Konsonanten sowie den Lateral�4@ �

:�43 MlBPM DMl7�Ml9ZM �SM �PM @ \ M T UQe �8U �-e � ��2)�M �.

• die”historisch weichen“ Konsonanten (poln.

”historycznie mi

↪ekkie spo l-

g loski“): die Gruppe umfasst die die alveolaren Affrikaten und alle pa-lato-alveolaren Konsonanten:

�8A �-=IF]G H J �.

• die”harten“ Konsonanten: die Gruppe umfasst die nicht palatalisier-

ten labialen, alveolaren, und velaren Konsonanten (einschließlich demlabiovelaren Approximanten

�8_!�), soweit sie nicht zu einer der ersten

beiden Gruppen gehoren:�43 B D 7 9 � � � ;I= \ C E �K_!�

.

Die Konsonanten� �� 5 ? �_!�

sind aufgrund ihres eingeschrankten Vorkom-mens fur diese Einteilung nicht von Bedeutung und werden darum keiner derdrei Gruppen zugeordnet.

Eine Rechtfertigung fur diese Einteilung werde ich am Ende von Abschnitt2.2.3 geben.

2.2.2 Allophone

Eine Reihe der 43 Konsonanten und sieben Vokale des Polnischen kommtpaarweise nur in komplementaren Umgebungen vor. Die folgende Liste fasstdiese Paare kurz zusammen und gibt Beispiele fur die Vorkommen der Allo-phonvarianten an.

•�8T �

und� �� . Vor Frikativen kommt nur

� �� vor,�8T �

in allen anderen Umge-bungen. Beispiele:

�8T RhU��U��‘tragen’;

��-egR T �‘Tag’;

��G V �� ; � L � ‘weiblich’;� �� F b �

‘billiger’.


•��

und��_!�

. Die Verteilungen entsprechen im Allgemeinen denen von�8T �und

� �� . Beispiele:�� E �� ‘Bein’;

�� ‘es’;

� F��_I;�� ‘Chance’. Am

Wortende kommen nach��

allerdings beide Laute vor:��

‘er’;�4; � �_ �

‘sie sind’.

•�4C �

und��

.��

kommt nur vor den Vokalen�4L R V �

vor.�4C �

kommt nichtvor

�4L^R V$�vor. Beispiele:

��2 � �hL �‘welcher’;

�� V \ � �^V�C � ‘Richtung’;�4C��P3 M RhT �

‘Stein’;�4CZF bWC �

‘Schrei’.

•� E � und

�� . Die Verteilungen entsprichen denen von

�4C �bzw.

��. Beispie-

le:�� _ � � L � ‘lang’;

�� _ � � V$� ‘lang (neutr.)’;�� _ � E �� ‘lang (fem.)’;

� E _ �h9 � �‘Kopf’.

•��

und�8? �

.�8? �

kommt nur vor stimmhaften Obstruenten vor,��

in denubrigen Umgebungen. Beispiele:

�� #� �‘Hutte’;

��UhR��U��‘wollen’;

�8T V�? Dcb �‘wenn’.

•��V$�

und�4R��

.�4R��

kommt nur zwischen zwei weichen Konsonanten (siehe2.2.1) vor, in anderen Umgebungen steht

��V �. Beispiele:

�8A V�@ �‘Ziel’;

��P@XV$�‘aber’;

��-egRhT �‘Tag’.

•�4L �

und�4b �

. Normalerweise werden�4L �

und�4b �

als zwei unterschiedlichePhoneme definiert und unter anderem mit dieser Unterscheidung dasAuftreten der weichen Konsonanten erklart (z. B. von Rubach in [19]).

Ich verfolge hier einen anderen Ansatz. Aus Grunden, die ich in Ab-schnitt 2.2.3 nennen werde, erklare ich das Auftreten der weichen Kon-sonanten nicht durch den nachfolgenden Vokal. Dadurch konnen

�4L �und�4b �

als Allophone angesehen werden, wie die folgende Auflistung derKontexte, in denen die Laute auftreten, zeigt.�4L �

kommt vor

– am Wortanfang:�4LXU ��U��

‘gehen’;

– nach Vokalen:�4; � � L �

‘er/sie/es steht’;

– nach weichen Konsonanten:�8T LYA �

‘nichts’.

�4b �kommt vor

– nach historisch weichen Konsonanten:� F b42 � �

‘Hals’;

– nach harten Konsonanten:�4Dcb ��U��

‘sein’.

Durch die Definition von��V$�

und�4R��

sowie von�4L �

und�4b �

als Allophoneergibt sich ein Vokalsystem mit den funf Vokalphonemen � � VIL � � � , wie manes in vielen Sprachen findet.


harter weicherNominativ Singular Lokativ Singular Konsonant Konsonant�43 �P3 � �

‘Mama’�43 �3 MWV$� �43 � �43 M �

�8_)�PB ��‘Pfote’

�8_)�PBPM�V$� �4B � �4BPM ��4; _ � GhD � � ‘Dienst’

�4; _ � G DPM-V$� �4D � �4DPM ��F��7 ��

‘Schrank’� F �7�MaV � �87 � �87�M �

�4D � \ 9 � �‘Farbe’

�4D � \ 9�MSV$� �89�� 89�M ��G��

‘Ehefrau’��G�� T V$� �� 8T �

�� ‘Hutte’�� U`V$� � � � � �8U��

�89�� ‘Wasser’

�89�� -e�V$� �� -e ��4B \ �P; � �

‘Presse’�4B \ �PU`V$� �4; � �4U��

�� =$��‘Dosis’

�� gegV � �4=�� 4e �� 3 � \ � � ‘Wolke’

�� 3 � GhV � � \ � ��G��8T V�3 C��

‘Deutsche’�8T V�3 A V$� �4C � �8A �

�� E � � ‘Bein’�� -= V$� � E � ��-=��

�43 � � � � ‘Fliege’�43 � F V$� �� F��

�4BcV \ _ ��‘Perle’

�4B^V \ @XV � �8_!� �4@ �

Tabelle 2.2: Erweichung bei den femininen Substantiven. Die Endung imNominativ Singular ist

�� , die Endung

��V �im Lokativ Singular erweicht den

Stamm.

2.2.3 Die Erweichung

Ein wichtiger phonologischer Prozess im Polnischen ist die Erweichung vonharten Konsonanten. Die Erweichung ist eine Lautveranderung, bei der einzugrunde liegender harter Konsonant in der Oberflachenform als ein weicheroder historisch weicher Konsonant realisiert wird. Sie tritt unter anderembeim Anfugen bestimmter Endungen an Substantive, deren Stamm auf einenharten Konsonant endet (die so genannten

”hartstammigen Substantive“),

auf. So wird z. B. das��

im Stammauslaut von�89��

‘Wasser’, wenn dieEndung

�� des Nominativ Singular durch die Endung

��V$�des Lokativ Singular

ersetzt wird, zu��-e �

erweicht, wodurch man die Form�89�� -e�V$�

erhalt.Tabelle 2.2 listet Beispiele fur alle Veranderungen des Stammauslauts auf,

die im Lokativ Singular der femininen Substantive auftreten.Gleiche oder ahnliche5 Erweichungen treten in vielen anderen Flexions-

formen auf.Ein Modell der Phonologie des Polnischen muss naturlich einen Mecha-

5Bei den alveolaren und velaren Obstruenten gibt es zum Teil mehrere mogliche Laute,zu denen der harte Konsonant erweicht werden kann, siehe Tabelle 2.3 auf Seite 17.


nismus bieten, um mit der Erweichung umzugehen. Ublicherweise wird an-genommen, dass der nachfolgende Vokal fur das Auftreten der Erweichungverantwortlich ist. Als Vokale, die die Erweichung auslosen, werden � L V �genannt6, wobei noch ein weiteres

”e“-Phonem benotigt wird, weil die Er-

weichung nicht durch alle��V$�

-Laute ausgelost wird. Ein Minimalpaar ist z. B.�4D^V�; �‘ohne’ –

�4DPMaV�; �‘Teufel’.

Die folgenden Beispiele zeigen, dass die Erweichung im Polnischen – auchwenn sie sich wahrscheinlich so entwickelt hat – nicht (mehr) vom nachfol-genden Vokal abhangt.

• vor��

:�4DPM%��_Ib �

‘weiß’

• vor��

:�43 M � � �

‘Wurf’

• vor� � � : �4DPM � \ �� ‘Buro’

• vor Konsonant:�4B \ � ePD � �

‘Bitte’

• am Wortende:�4; �#� �8U��

‘stehen’

Solche Beispiele erklart Rubach in [19] dadurch, dass in der zugrundeliegenden Form nach dem Konsonanten, der erweicht wird, noch ein Vokalsteht, der aber in der Oberflachenform nicht auftritt. Dieses sogenannte

”Yer“

hat außer dem Erweichen noch den Zweck, in bestimmten Fallen als��V$�

in derOberflachenform aufzutreten (z. B. in

�4B M VZ; �‘Hund’), dagegen wird in

�4Bc; � �‘Hund (Gen. Sg.)’ das Yer getilgt7. Weil dieses

”fluchtige e“ auch vorkommt,

ohne den vorhergehenden Konsonanten zu erweichen (z. B.�4; V � �

‘Schlaf’ –�4; � � � (Gen. Sg.)), gibt es zwei verschiedene Yers, ein erweichendes und einnicht erweichendes.

Diese Losung halte ich fur unbefriedigend. Die obigen Beispiele zeigen,dass es keinen Grund dafur gibt, das Auftreten der Erweichung durch einennachfolgenden Vokal zu erklaren. Dass Rubach ein zweites, nicht erweichen-des Yer benotigt, um das Auftreten des

”fluchtigen e“ zu erklaren, zeigt, dass

die beiden Phanomene – die Erweichung und das”fluchtige e“ – keine gemein-

same Ursache haben. Diese Annahme wird noch dadurch unterstutzt, dassRubach komplizierte Regeln und Reprasentationen von Worten benotigt, umdie Realisierung der Yers als

��V$�auf die Wortformen zu beschranken, in denen

tatsachlich ein”fluchtiges e“ auftritt.

6Hierbei entspricht das Phonem �#� � dem Laut � �� , das Phonem � � � entspricht denAllophonen � � � � .

7Das � � � in � ��m #� ist nicht erweicht, weil labiale Konsonanten nur vor Vokalen weichsein konnen (s. u.).


Andererseits kann das Auftreten der Erweichung auch nicht mit dem Kon-sonanten, der erweicht wird, erklart werden. Bei den Beispielen in Tabelle 2.2ist klar, dass die Erweichung durch das Anfugen einer bestimmten Endungausgelost wird, wahrend der Konsonant, der erweicht wird, Teil des Stammsist.

Meine Alternative zur den Yers ist eine spezielle Erweichungsmarkierung,die ich mit �� bezeichne. Die Wirkung der Erweichungsmarkierung in derOberflachenform ist, dass der vorhergehende Konsonanten erweicht ist. Dassdie Erweichungsmarkierung weder Konsonant noch Vokal ist, scheint nachden genannten Belegen die adaquateste Modellierung zu sein. Die besondereErweichungsmarkierung entkoppelt die Erweichung vom

”fluchtigen e“.

Fur die weiter oben genannten Beispiele erhalt man dann die folgendenReprasentationen8:

•�4D M V�; � � D � VZ; �

•�4D M �`_Ib � � D � �`_Ib �

•�43 M � � � � 3 �

� � �•

�4DPM � \ �� D � � \ � �•

�4B \ � egD �� B \ � = � D � � ( � = � wird zu�4e �

erweicht)

•�4; �� U�� ; �� ( � � � wird zu

� ��U��erweicht)

Eine einzige Erweichungsmarkierung reicht allerdings nicht aus. Es wur-de schon angesprochen, dass einige alveolare und velare Konsonanten nichtimmer zu demselben Konsonanten erweicht werden.9 Man stellt allerdingsfest, dass (mit nur einzelnen Ausnahmen) fur jede Flexionsform die Art derErweichung konstant bleibt, z. B. geschieht die Erweichung der Feminina imLokativ Singular immer wie in Tabelle 2.2, auch wenn es fur

� � � ; = C E ��prinzipiell mehr als eine Moglichkeit gibt. Andererseits lautet die Form der 1.Person Singular Prasens von

�4B _)�PC�� U��‘weinen’, in der das

�4C �erweicht wird,�4B _)�H V$�

und nicht *�4B�_ ��A V �

, wie man nach Tabelle 2.2 vermuten konnte.Insgesamt habe ich funf Erweichungsarten festgestellt. Tabelle 2.3 lis-

tet die verschiedenen Ergebnisse der Erweichungen auf. Die den funf Erwei-chungsarten entsprechenden Erweichungsmarkierungen bezeichne ich mit ��

�� .

8In den Beispielen verwende ich noch nicht meine endgultige Reprasentation, sondernes wird nur die Erweichungsmarkierung an den passenden Stellen eingesetzt.

9Dieses Problem ist nicht eine Eigenschaft meines Ansatzes, auch der von Rubachvertretene Ansatz muss erklaren, warum z. B. � � � manchmal zu � � � und manchmal zu � ��erweicht wird.


harter Erweichter KonsonantKonsonant vor �� vor � �� vor � �� vor � �� vor � �� 43 � �43QM � �43 M � �43 M � �43QM � �43QM �

�4B � �4BM � �4BPM � �4BPM � �4BPM � �4BM ��4D � �4DM � �4DPM � �4DPM � �4DPM � �4DM ��87 � �87�M � �87�M � �87�M � �87�M � �87�M ��89 � �89ZM � �89ZM � �89�M � �89ZM � �89ZM �� 8T � �8T � �8T � �8T � �8T �� U�� 8U�� U�� 8A � �8H �� -e � ��-e � ��-e � ��-=�� 4J ��4; � �4U�� 4U�� 4U�� F � �F��4=�� 4e � �4e � �4e � ��G�� G�� \ � ��G�� G'� ��G'� ��G�� G��4C � �8A � �8H � �8H � �8H � �8H �� E � ��-=�� G'� ��G'� ��G�� G�� 4U�� F � � F � � F � �F��8_!� �4@ � �4@ � �4@ � �4@ � �4@ �

Tabelle 2.3: Die verschiedenen Erweichungen

Mit Hilfe der Erweichungsmarkierungen ist es moglich, die weichen unddie historisch weichen Konsonanten nicht als Phoneme zu definieren, sondernals erweichten harten Konsonanten zu reprasentieren, und das auch, wenn derweiche oder historisch weiche Konsonant fester Bestandteil eines Stammes ist.�8H �P; �

‘Zeit’ kann z. B. als � C �� P; � phonologisch reprasentiert werden. Dadurchreduziert sich die Anzahl der Phoneme erheblich. Als Folge davon reduziertsich auch die Anzahl der Regeln, weil die Regeln, die die Realisierung derentfallenen Phoneme bestimmen, wegfallen.

Die weichen und historisch weichen Konsonanten als Realisierungen vonzugrunde liegenden harten Konsonanten zu definieren, hat außerdem denVorteil, dass Lucken im Konsonantensystem des Polnischen geschlossen wer-den. Die Reprasentation mit den Erweichungsmarkierungen erklart das Auf-treten der palatalisierten Laute

�43 M B M D M 7 M 9 M �, der Affrikaten

�8A �-=<H J ��U�-e �

, des Laterals�4@ �

und der palato-alveolaren und alveolo-palatalen Frikati-ve

� F G U e �. Wenn man dazu berucksichtigt, dass

�4C �und

��sowie

� E � und�� Allophone sind, und man die Laute, die nur in Lehnortern vorkommen,

weglasst, so bleiben aus Tabelle 2.1 die Laute�43 B D 7 9 � � �<; = \ 2 �� 5 C E �

?<_ �_!�. Bei den Plosiven, Frikativen und stimmhaften Nasalen ergibt sich so

ein fast vollstandig besetztes System von nur noch labialen, alveolaren undvelaren Lauten. Die einzige Lucke stellt der stimmhafte velare Frikativ

�8? �


dar, der als durch die Umgebung bestimmte Variante von��

anzusehen ist.Dass sich ein so regelmaßiges System ergibt, kann als weiteres Argument furmeine Reprasentation gelten.

Es kann vorkommen, dass zwei Erweichungsmarkierungen hintereinandertreten. So ergibt sich, wenn an den Stamm � � � V�3 �

C� � 10

�8T R 3QMaVÀ �‘Deut-

scher’ die Lokativ-Singular-Endung � �� V � angefugt wird, die zugrunde liegen-de Form � � � VZ3 �

`C� ��V � . Die Frage ist, welches der beiden Erweichungsmar-

kierungen die Oberflachenform bestimmt. Im Beispiel waren die beiden For-men

�8T V�3 A V$�(wenn das � C � durch � � � erweicht wird) oder

�8T V�3 H V$�(wenn

das � C � durch � �� erweicht wird) moglich.Allgemein erhalt man die richtige Oberflachenform, wenn man als Regel

annimmt, dass immer die letzte Erweichungsmarkierung das Ergebnis derErweichung bestimmt; im Beispiel ergibt sich bei Anwendung dieser Regeldie korrekte Oberflachenform

�8T V�3 H V$�.

Mit der Klassifizierung von�4L �

und�4b �

als Allophone und der Reprasen-tierung der weichen und historisch weichen Konsonanten als erweichte harteKonsonanten kann jetzt die Grundlage fur die klassische Einteilung der polni-schen Konsonantenlaute in weiche, historisch weiche und harte Konsonantengenannt werden. Die weichen und historisch weichen Konsonanten sind dieje-nigen Konsonanten, die als Ergebnis einer Erweichung auftreten; die ubrigensind die harten Konsonanten. Von den weichen und historisch weichen Kon-sonanten sind die weichen Konsonanten diejenigen, nach denen

�4L �vorkommt,

die historisch weichen Konsonanten sind diejenigen, nach denen�4b �

vorkommt.

2.2.4 Vorlaufiges Phoneminventar

Aufgrund der in den bisherigen Abschnitten dieses Kapitels beschriebenenphonologischen Strukturen gebe ich zunachst ein vorlaufiges Inventar vonPhonemen an. Damit kann ich fur die Beispiele der folgenden Abschnitte diepassenden Formen angeben. Weitere Phoneme werden anhand der Prozesse,die die Phoneme erforderlich machen, in den folgenden Abschnitte eingefuhrt.

Die funf Erweichungsmarkierungen ��

�� wurden bereits in Ab-

schnitt 2.2.3 genannt. Im Folgenden gebe ich die Konsonantenphoneme unddie Vokalphoneme an sowie die Laute, denen sie entsprechen.

Konsonantenphoneme

Das vorlaufige Inventar von Konsonantenphonemen ist � 3 B D 7f_ � � �; = \ 2 5 C E � @ � . Die folgende Liste fuhrt die phonetische Realisierung

10 � � � ist das Phonem, das das”fluchtige e“ modelliert. Das

”fluchtige e“ wird weiter

unten behandelt.


der Konsonantenphoneme auf. Die weiche Realisierung wird nur angegeben,wenn sie nicht Tabelle 2.3 entnommen werden kann.

• � 3 � wird als�43 �

realisiert.

• � B � wird als�4B �

realisiert.

• � D � wird als�4D �

realisiert.

• � 7 � wird als�87 �

realisiert.

• � _ � wird als�89 �

realisiert. Als Symbol habe ich nicht das phonetische,sondern das orthographische Symbol (

�89 �wird als <w> geschrieben)

gewahlt.

• � � � wird erweicht als�8T �

oder� �� realisiert, sonst als

�� oder

��_!�. Die

Approximanten� �� _!�

treten vor Frikativen ein.

• � � � wird als� � �

realisiert.

• � � � wird als��

realisiert.

• � ; � wird als�4; �

realisiert.

• � = � wird als�4=��

realisiert.

• � \ � wird als� \ �

realisiert.

• � 2 � wird als�42 �

realisiert.

• � 5 � wird als�45 �

realisiert.

• � C � wird vor � V L � als��

realisiert, sonst als�4C �

.

• � E � wird vor � V L � als��

realisiert, sonst als� E � .

• � � � wird vor stimmhaftem Obstruenten als�8? �

realisiert, sonst als��

.

• � @ � wird als�8_!�

realisiert. Hier habe ich mich ebenfalls an der Schrei-bung des Phonems orientiert;

�8_!�wird als < l> geschrieben, die erweich-

te Form�4@ �

als <l>.

Mit den genannten Konsonantenphonemen sind alle Laute des Polnischendurch Phoneme reprasentierbar, außer

��_!�am Wortende und den weichen

Lauten� �[M �PM \ M �M �

. Das Auftreten von��_!�

am Wortende hangt mit denNasalvokalen zusammen, die in Abschnitt 2.2.5 besprochen werden. Dortwird auch die Reprasentation von

� � M � Ml\SM � M �behandelt.


Vokalphoneme

Weil�4L �

und�4b �

sowie��V$�

und�4R��

, wie in Abschnitt 2.2.2 gesagt, Allophonesind, sind nur funf Vokalphoneme notig, um die sieben Vokallaute zu re-prasentieren. Diese bezeichne ich mit � � V L � � � .

• � � � wird als��

realisiert.

• � V � wird als��V$�

oder�4R��

realisiert (siehe 2.2.2).

• � L � wird als�4L �

oder�4b �

realisiert (siehe 2.2.2)

• � � � wird als��

realisiert.

• � � � wird als� � � realisiert.

2.2.5 Lautveranderungen

In diesem Abschnitt fuhre ich die phonologischen Prozesse auf, die in polni-schen Wortern auftreten, sowie die uber die bisher genannten hinausgehendenPhoneme, die zur Modellierung der Prozesse notig sind.

Auslautverhartung

Wie im Deutschen tritt im Polnischen die so genannte Auslautverhartungauf, stimmhafte Obstruenten werden also im Auslaut stimmlos11. Die An-wendung dieses Prozesses ist im Polnischen aber gegenuber dem Deutscheneingeschrankt, sie tritt nur im absoluten Auslaut auf. Beispiele:

�4D � \ 9 � �‘Far-

be’ –�4D � \ 7 �

‘Farbe (Gen. Pl.)’;�4; � ��

‘Gericht’ –�4; �� ‘Gericht (Gen. Sg.)’;

dagegen�4B \ �`9 � � �

‘Wahrheit’ und nicht *�4B \ �7 � � �

;�4D^V�= 3 � ��hL �

‘ohne die Mut-ter’ und nicht *

�4D^V�;]3 � � � L �.

Assimilation der Stimmhaftigkeit

Dieser Prozess ahnelt der Auslautverhartung, er wird aber in anderen Si-tuationen ausgelost, und es konnen nicht nur stimmhafte Laute stimmlos,sondern auch umgekehrt stimmlose Laute stimmhaft werden.

Eine Gruppe von adjazenten Obstruenten muss im Polnischen immer ent-weder vollstandig stimmhaft oder vollstandig stimmlos sein. Der letzte Ob-struent der Gruppe entscheidet daruber, welche der beiden Moglichkeiten ein-tritt (

”regressive Assimilation“). Beispiele:

�4B \ �hU L ��U��‘bitten’ –

�4B \ �hegD � �‘Bitte’

11Der Ausdruck”Auslautverhartung“ ist vielleicht missverstandlich, wenn uber Polnisch

gesprochen wird.”Verhartung“ deutet auf die Opposition hart/weich (siehe Abschnitt

2.2.1) hin und nicht auf die Opposition stimmhaft/stimmlos, die hier gemeint ist.


(�4U��

wird vor�4D �

stimmhaft);�� ; � D ��

‘Person’ –�� ; � BcC�� ‘Personchen’ (

�4D �wird vor

�4C �stimmlos). Diese Lautveranderung tritt auch uber Wortgrenzen

hinweg auf, z. B.��2 �PC �

‘wie’ –��2 � E � � DcG V$�

‘wie gut’.Es ist zu beachten, dass die Regel nur auf Laute zutrifft, die in der zugrun-

de liegenden Form Obstruenten sind. Es gibt einen Fall, wo ein Obstruentin der Oberflachenform nicht einem Obstruenten in der zugrunde liegendenForm entspricht, namlich dann, wenn ein

� \ �zur

��G'�erweicht wird (siehe Ta-

belle 2.3). Ein erweichtes� \ �

am Ende einer Gruppe von Obstruenten bewirktnicht, dass die gesamte Gruppe stimmhaft ist, sondern der vorhergehendeObstruent entscheidet uber die Stimmhaftigkeit der Gruppe. Der LokativSingular von

� � V�� \ �‘Theater’ ist darum

� � V�� F�V$�und nicht *

� � V�� ^G�V$�.

B↪

ak in [2] und Damerau in [7] nennen�89 �

als Ausnahme. Demnach lost�89��keine regressive Assimilation der Stimmhaftigkeit aus, sondern

�89 �wird

selbst stimmlos, wenn ein stimmloser Obstruent vorhergeht.Ich konnte allerdings kein Beispiel finden, fur das diese Regel notig ware.

Alle Worter, in denen ein�87 �

am Ende einer Folge von Obstruenten vorkommt,konnen auch mit � 7 � in der zugrunden liegenden Form reprasentiert werden;z.B.

� � 7 � F �‘Gesicht’ � � 7 �P; �� oder

�4C 7�M � � �‘Blume’ � C�7 � � � � . Es scheint auch kein

mit�89 �

anlautendes Suffix zu geben, mit dem man testen konnte, ob das�89��zu

�87 �assimiliert wird, wenn das Suffix an einen auf einen stimmlosen

Obstruenten endenden Stamm angehangt wird. Die Regel scheint also nurfur die Orthographie von Bedeutung zu sein, weil in den genannten Worten�87 �

als <w> geschrieben wird:� � 7 � F �

= <twarz>,�4C�7 M%� � �

= <kwiat>.

Nasalvokale

Das Polnische besitzt (zumindest in der Orthographie) zwei Nasalvokale.Der Grund, dass sie in der Beschreibung der Phonetik fehlen, ist, dass sie imheutigen Polnisch nicht mehr (oder nur noch bei uberkorrekter Aussprache)als Nasalvokale gesprochen werden. Ansonsten tritt das nasale Element desVokals als eigener Laut auf. Als welcher Laut das nasale Element auftritt,hangt vom nachfolgenden Laut ab.

Die ursprunglichen Nasalvokale waren� ��

und� �V$�

.� ��(�

tritt heute als��

,�� _ �,�� , ��h3 �

,��

oder�� 5 �

auf; entsprechend tritt� �V$�

als��V$�

,��V �_!�

,��V �� ,��VZ3 �

,��V � �

oder��V�5 �

auf.Ob in einem Wort ein Nasalvokal vorliegt oder nicht12, kann meistens nur

anhand der Schreibweise des Wortes entschieden werden. Es gibt aber Falle,

12Außer fur � n �� am Wortende gibt es fur jeden Fall eine Moglichkeit, ein Wort mit denin 2.2.4 genannten Phonemen zu reprasentieren; z. B. � n �� als � n & � � , weil die Aussprache� n �� des Nasalvokals nur in Umgebungen auftritt, in denen auch �#& � � als � �� realisiert wird.


wo die Reprasentation mit Nasalvokal relevant ist; siehe z. B. den Abschnitt

”� � � in geschlossenen Silben“ auf Seite 25.

Die Nasalvokale werden mit <↪

a> und <↪e> geschrieben, darum verwende

ich �↪

� � und �↪

R � als Symbole fur die Nasalvokalphoneme.Vor Plosiven und Affrikaten erscheint das nasale Element als nasaler

Konsonant, dessen Artikulationsort dem des Plosivs oder der Affrikate ent-spricht: � C

↪

�B � �� 4C � 3 B � ��U��

‘baden’; � ;↪

� � � �4; �� ‘Gericht’; � \

↪

R C�� \ V�5 C�� ‘Hand’. Vor Frikativen erscheint einer der beiden nasalierten Approximanten� �� und

��_ �;� �� steht vor den alveolar-palatalen Frikativen (

�4U e �),

��_!�vor den

ubrigen: � _↪

�P; C L � �89�� _]; � L �‘schmal’; � ;

↪

�P;�� 4; �� U(� � � ‘Nachbar’. Der nasa-

lierte Approximant��_!�

tritt auch nach��

am Wortende auf ( � ;↪

� � �4; � �_ �‘sie

sind’), wahrend das nasale Element nach��V �

am Wortende ganz verschwindet( � � \ ��

↪

R � � � \ �� V$�‘etwas’). Vor � @ � (d. h.

�8_!�und

�4@ �) verschwindet das nasale

Element in beiden Fallen: � B �hD � V E � ↪

�@ � �4B �hD M V E � �h_!� ‘er lief’; � B � D � V E �↪

R @�L ��4B � D M V E �^V�@XL � ‘sie liefen’.

Vor Nasalen, vor Approximanten und vor� \ �

kommen die Nasalvokalenicht vor.

Erweichung von Labialen

Die labialen Konsonanten konnen nur vor Vokalen erweicht sein. Eine Erwei-chungsmarkierung erweicht daher einen labialen Konsonanten nicht, wennkein Vokal folgt. Diesen Prozess kann man u. a. bei manchen Flexionsformenbeobachten, wenn ein Stamm auf einen erweichten Labial endet, z. B. � C�� \ B � ��4C � \ B �

‘Karpfen’ – � C�� \ B � � � �4C�� \ BPM � �(Gen. Sg.); � 2 V � _)�PD � � �42 V � 9 �PB �

‘Seide’ –� 2 V � _ �D � � � �42 V � 9 �PDPM � � (Gen. Sg.).

Das”bewegliche e“

In vielen Fallen wird in einen Konsonantencluster im Endrand einer Silbe ein��V �eingefugt, das diesen Cluster auflost. Meistens kann anhand des vorlie-

genden Konsonantenclusters vorhergesagt werden, ob dieses”bewegliche e“

(poln.”e ruchome“) eingefugt wird oder nicht, allerdings nicht immer. Die

Stamme von�4D � \ C��

‘Barke’ und�43 � \ C��

‘Mark’ enden beide auf� \ C �

(��

ist die Endung), der endunglose Genitiv Plural ist aber�4D � \ C �

bzw.�43 � \ VZC �

.Das

”bewegliche e“ muss also als Loschung reprasentiert werden und nicht

als Einschub. D. h. es muss ein Phonem geben, das abhangig vom Kontextentweder geloscht wird (wie in

�43 � \ C�� ) oder als

��V$�realisiert wird (wie in�43 � \ V�C �

). Die unterschiedliche Bildung des Genitiv Plural von�4D � \ C��

wirddadurch erklart, dass

�4D � \ C ��kein bewegliches e-Phonem enthalt, darum kann

es in�4D � \ C �

auch nicht als��V$�

auftreten.


Als Symbol fur das bewegliche e-Phonem habe ich � � gewahlt.Es bleibt zu klaren, in welchen Fallen � � als

��V �realisiert wird, und in

welchen es geloscht wird.Grundsatzlich wird � � nur dann als

��V$�realisiert, wenn es zwischen Kon-

sonantenphonemen steht. Wenn das � � in einer Position vor oder nach Vo-kal steht, gibt es keinen Konsonantencluster, der durch die Realisierung des� � als

��V$�aufgelost werden kann. Der Fall, fur den diese Regel nutzlich ist,

sind die Prateritumsformen des Singulars. Z. B. ist die Endung der 1. PersonSingular

��V�3 �, wenn sie an einen maskulinen Prateritumsstamm wie � D LX@ � an-

gehangt wird13, aber�43 �

, wenn die an einen femininen Prateritumsstamm wie� DcLX@ � � angehangt wird. Mit der Regel, dass � � geloscht wird, wenn rechtsoder links ein Vokal steht, kann die Endung einheitlich fur beide Generaals � `3 � reprasentiert werden, weil nach dem � � � im Auslaut des femininenPrateritumsstamms das � � geloscht wird. Man erhalt so die Formen � DcLX@ `3 ��4Dcb _]VZ3 �

‘ich (mask.) war’ und � DcLY@ � 3 � �4Dcb _ �P3 �‘ich (fem.) war’.

Abgesehen davon wird � � geloscht, wenn es sonst in einer offenen Silbestehen wurde. Diese Bedingung ist vor allem bei der Flexion der Substantivesehr wichtig; z. B. � B � `; � �4BgMaV�; �

‘Hund’ – � B � ;�� 4Bc; � �(Gen. Sg.); � _ � \ � �� C ��89 � \ � �^V�C � ‘Bedingung’ – � _ � \ � �� C � � �89 � \ � �cC � � (Gen. Sg.); � 3 � � `C�� 43 � � C��

‘Mutter’ – � 3 � � `C � �43 � � V�C �(Gen. Pl.); � 3 E `@ � � �43 E _ � � ‘Nebel’ – � 3 E `@ ��43 � V`_!�

(Gen. Pl.); � D � � \ `C � � �4DgM � \ C �� ‘Schreibtisch’ – � D � � \ `C � �4DgM � \ V�C � (Gen.Pl.); � B �

↪

R � \ � � �4BPMaV � � \ ��‘Etage’ – � B �

↪

R � \ � �4BPMaV � � V \ �(Gen. Pl.).

Erweichung von Konsonantenclustern

Die alveolaren Frikative � ; = � werden indirekt erweicht, wenn sie vor einemerweichten Konsonanten stehen: z. B. � E � ; � � � ‘Gast’

� E � U ��U�� ; � ; 3 ��VZ3 � ‘ich

wage’�4U 3 MaV�3 �

; � ; 7 � � � � ‘Welt’�4U 7�M � � �

; � =h@ �� V � ‘schlecht (Adv.)’�4eg@XV �

. Wenn derdirekt erweichte Konsonant (in der Oberflachenform) ein alveolarer, palato-alveolarer oder alveolo-palataler Frikativ oder eine entsprechende Affrikateist, dann wird der Artikulationsort des indirekt erweichten Frikativs an dendes direkt erweichten Lautes angeglichen. Beispiel: � B � @ � ; C � L � ‘Pole (Nom.Pl.)’

�4B � @X; A b �. Hier wird � ; � trotz der Erweichung als

�4; �realisiert, weil es an

den nachfolgenden Laut�8A �

assimiliert wird.Eine Ausnahme bilden � ; � � und � = � � , wenn sie von � �� erweicht werden.

Nach Tabelle 2.3 und der oben beschriebenen Regel mussten � ; � �� als�4; A �

und � = � �� als�4= �-=��

realisiert werden. Tatsachlich ist das Ergebnis aber�F H �

bzw.��GhJ �

, z. B. bei � E � ; � ��↪

R � � E � F H^V � ‘ich bewirte’, � 2 V�= � ��↪

R � �42 V�G JIV$�‘ich fahre’.

Ein weiterer Sonderfall bei der Erweichung von Konsonantenclustern tritt

13Die Prateritumsformen des Polnischen flektieren nach Person, Numerus und Genus.


ein, wenn � � � nach einem (direkt) erweichten � � � , � � � oder � � � steht. Indiesem Fall wird die Erweichung des � � � , � � � bzw. � � � nicht an der Ober-flache realisiert: z. B. � B � � � � � ‘Madchen (Gen. Pl.)’

�4B �T V � �– � B � � � � � �

(Nom. Sg.)�4B � ��

; � B @ � � � � � ‘Leinwand (Gen. Pl.)’�4B�_ � ��U R T � – � Bc@ � � � � � �

(Nom. Sg.)�4B _ � � � �� ; � � � � � � ‘Tag’

��-egRhT �– � � � � � � � (Gen. Sg.)

�� T � �.

Abweichende Erweichungsformen

Vor allem in Lehnwortern fuhrt die Erweichung von Alveolaren und Velarengelegentlich nicht zu einer Lautveranderung nach Tabelle 2.3, sondern derKonsonant wird

”nur“ palatalisiert. Das Ergebnis dieser Erweichungen sind

die eingeklammerten Laute in Tabelle 2.1� � M � M \SM � M �

, außerdem��

. Beispielefur Lehnworter sind

��PM%�PD Rh_!�‘Teufel’ und

��P3 �cVZ; �[M%� �‘Amnestie’; ein Beispiel

fur ein ursprunglich polnisches Wort ist�� hT ��U��

‘biegen’14.Diese Art der Erweichung bezeichne ich mit dem Symbol � �� , also z. B.

� � �� PD R @ � , � �P3 �^V�; � �� , � E ��

↪

� �� .

��und

��zwischen erweichten Konsonanten

In einer Reihe von Lexemen steht statt einem��

oder�� 4R��

, wenn es zwischenzwei erweichten Konsonanten (siehe Abschnitt 2.2.3) steht. Diesen Prozesskann man z. B. bei der Wortbildung beobachten, wenn ein Stammauslauterweicht wird. Beispiele:

�43 M �; ��‘Stadt’ –

�43 MWR U �8U V$�(Lok. Sg.);

�8_pMaR �-e �`_!�‘er

wusste’ –�8_ MaR �-ePR @XL �

‘sie wussten’;��T � _!�

‘Engel’ –��T R @XV$�

(Lok. Sg.);� � H � �cb �

‘gelehrt’ –� � H V`T L � (Nom. Pl. Psf.)15. Am letzten Beispiel sieht man, dass

der Wechsel von��

und��

zu�4R��

nicht nur zwischen weichen Konsonantenstattfindet, sondern auch bei historisch weichen Konsonanten wie

�8H �; statt�4R��

steht dann naturlich��V �

.Die Lautveranderung betrifft allerdings nicht alle Lexeme. Es gibt zahlrei-

che Beispiele, wo ein��

oder��

zwischen weichen Konsonanten steht, z. B.�4BgF V � ; �#�`_pM � ��U��‘vorstellen’,

�4BPF � �-egV �‘Vorderteil (Lok. Sg.)’. Damit eine Regel,

die��

oder��

durch�4R��

ersetzt,”entscheiden“ kann, ob sie anwendbar ist,

fuhre ich darum zwei spezielle Phoneme �� und �� ein. Außer im hierbesprochenen Fall, zwischen zwei erweichten Konsonanten, wird �� wie � � �realisiert und �� wie � � � . Zwischen erweichten Konsonanten werden �� und �� dagegen als

�4R��oder

��V$�realisiert.

14Wie in Abschnitt 2.2.2 gesagt, kommt �� eigentlich nur vor � � � / � �� und � �� vor.15Psf. = Personalform. Im Polnischen liegt die eigenartige Situation vor, dass es im

Singular und im Plural unterschiedliche Genera gibt. Im Singular besitzt das Polnischemit dem maskulinen, femininen und neutralen Genus dieselben Genera wie das Deutsche.Im Plural gibt es dagegen die Personalform (eigentlich

”Mannliche-Personen-Form“) und

die Sachform (eigentlich”Weiblich-sachliche Form“).


Damit kann mit der phonologischen Reprasentation eines Lexems be-stimmt werden, ob in den Wortformen des Lexems ein Wechsel zwischen��

bzw.��

und�4R��

auftritt:�43 M �; ��

= � 3 ��; �� ;

�4BPF V � ; �#�`_ M � �8U��= � B \ � R��; �#�`_

�� ;

� � H � �cb � = � � C �� cL � ;�4BgF � �-e�V$�

= � B \ � � � �� R � .

��in geschlossenen Silben

Mit Ausnahme von vielen Lehnwortern wird � � � in geschlossenen Silben als� � � realisiert, wenn im Silbenauslaut ein stimmhafter Konsonant steht; z. B.�4; � � _!� ‘Tisch’ –�4; �� _ � � (Gen. Sg.);

�� E �� ‘Bein’ –�� C � (Gen. Pl.);

�8_ M[V`H � \ �‘Abend’ –

�8_pM[V`H � \ � � (Gen. Sg.).Beispiele fur Lehnworter, bei denen diese Regel nicht angewendet wird,

sind � �P; � \ �h@ � E � ��P; � \ � @ �hC �‘Astrologe’ und � � � � � @ � ��T � _!�

‘Engel’. An den Bei-spielen sieht man, dass der Unterschied in der Realisierung des letzten Vokalsnicht durch den nachfolgenden Konsonanten erklarbar ist – fur � E � und � @ �gibt es Beispiele mit und ohne Anwendung der Regel. Es gibt auch keinenBeleg dafur, dass der linke Kontext entscheidend fur die Anwendbarkeit derRegel ware. Es ist also ein eigenes Phonem erforderlich.

Um � � � -Laute zu reprasentieren, die nicht in geschlossener Silbe vorstimmhaftem Konsonanten als

� � � realisiert werden, verwende ich das Symbol� �� , z. B. � �P; � \ �h@ �� E � . Fur das Wort

��T � _!�(Lok. Sg.

��T R @XV$�) ist außerdem

das Symbol � � � notig, das sich zwischen erweichten Konsonanten wie �� verhalt. Die phonologische Reprasentation von

��T �h_!�ist dann � � � � � @ � , die

des Lokativ Singular � � � � � @ � V � .

�↪

� � in geschlossenen Silben

Unter fast identischen Bedingungen wie die, unter denen � � � als� � � realisiert

wird, wird �↪

R � wie �↪

� � realisiert.16 Beispiele: � =↪

RhD � �4=(�h3<B �‘Zahn’ – � =

↪

R D � ��4=`V�3 D � �(Gen Sg.); � C ; �

↪

R E � � �4C U V�5 E � � ‘Buch’ – � C ; �↪

R E � �4C U(�h5 C �(Gen. Pl.).

Es gibt eine Ausnahme, namlich die mannliche Form der 1. und 2. Per-son Singular des Prateritums. Vor der Endung dieser Formen ( � `3 � ) wird�

↪

R � wie �↪

� � realisiert, z. B. � _I= �↪

R @ 3 � �8_Ie � _]VZ3 �‘ich nahm (mask.)’, aber

� _I= �↪

R @ � `3 � �8_Ie�V`_)�P3 �‘ich nahm (fem.)’. � � � wird in diesem Fall dagegen

als��

realisiert und nicht als� � � , z. B. � 3 � E @ V�3 � �43 � E _]V�3 �

‘ich konnte(mask.)’.17

16Die tatsachliche Realisierung hangt vom nachfolgenden Laut ab, siehe den Abschnittzu den Nasalvokalen.

17 � �On�� )� konnte nicht mit ��n#� reprasentiert werden, weil es Formen gibt, in denenstatt dem � n�� ein � � steht, z. B. �#�On�� .


Einfugung von��

Wenn ein � 2 � oder � �� in einer Position nach Konsonant am Wortende steht,wird davor ein � L � eingefugt. Im Fall von � 2 � gelten die ublichen Regeln, dieentscheiden, ob das � L � als

�4L �oder als

�4b �realisiert wird. Ein vor � �� einge-

schobenes � L � wird immer als�4L �

realisiert. Beispiele: � � � LX; � � \ �� PMaLX; �� \ M%� �‘Geschichte’ – � � � LY; � � \ �� MaLX; � � \ MSLk2 �

(Gen. Pl.); � \ V`_ � @ � C � 2 � � � \ V`9�� @ � A 2 � � ‘Re-volution’ – � \ V`_ � @ � C � 2 � � \ V`9�� @ � A b42 � .

Erweichungsphoneme zwischen Vokalen

Wenn ein Erweichungsphonem zwischen zwei Vokalen steht, wird es als��2 �

realisiert, falls der folgende Vokal nicht�4L �

ist: z. B. � � � �� V � �� Z2 V$�‘er/sie/es

gibt’, aber � ; �� L � �4; ��hL �‘er/sie/es steht’.

2.2.6 Auswirkungen des phonologischen Modells aufdie Morphologie

In Abschnitt 2.2.3 wurden bereits Grunde dafur genannt,�4L �

und�4b �

als Allo-phone zu klassifizieren und das Auftreten der weichen Konsonanten als Aus-wirkung der Erweichungsmarkierungen zu erklaren. Dieser Ansatz hat aberauch Vorteile fur die Erklarung gewisser Phanomene im Bereich der Morpho-logie, und hier vor allem bei der Nominalflexion. Dafur gebe ich jeweils einBeispiel aus der Substantivflexion und aus der Adjektivflexion.

Die hartstammigen maskulinen Substantive haben im Nominativ Plu-ral zwei wichtige Endungen, namlich

�4L �und

�4b �, wobei noch gewisse Laut-

veranderungen auftreten konnen. Man unterscheidet grundsatzlich zwischeneiner Personalform, die maskuline Substantive annehmen, die auf Personenreferieren, und einer Sachform, die alle ubrigen Substantive annehmen. Bei-spiele fur Substantive in der Personalform sind

�� _ � BgMSL �(von

�� _ gB �‘Bauer’),�4; � � �^V`T �8U�� (von

�4; � � �^V �� ‘Student’),�4B � @ �A b �

(von�4B �h@ �PC �

‘Pole’) und�� hC��

��`G b �(von

�� hC � � \ �‘Arzt’); Beispiele fur Substantive in der Sachform sind�8H �P; b �

(von�8H �; �

‘Zeit’),�4; � ��cb �

(von�4; � ��

‘Gericht’) und�4B��#�PC L �

(von�4B��#�C �

‘Vogel’). Es lasst sich leicht erklaren, wann welche der beiden Endungenverwendet wird und wann welche Lautveranderung in der Personalform auf-tritt, wenn man als zugrunde liegende Formen der Endungsmorpheme �� L �fur die Personalform und � L � fur die Sachform annimmt. Es ergeben sichdann die phonologischen Reprasentationen � � @ gB � L � , � ; � � �^V �� L � , � B � @ �PC � L �und � � �hC�� \ � L � fur die Substantive in der Personalform und � C �� P; L � , � ;

↪

� �cL �und � B�#�PC L � fur die Substantive in der Sachform. Aus diesen zugrunde lie-genden Formen lassen sich mit den oben aufgefuhrten Regeln die genannten


Endungs- Formen von Formen von Formen vonFlexionsform morphem

�� h9 b � �� \ � � L � � �#�T L �Nom. Sg. fem. � � � � � �h9 � � � � \ � E � � � �#� � � � �� 9 �� \ � E � � � �#��T � �Gen. Sg. fem. � V 2 � � � �h9 V 2 � � � \ � E V 2 � � �#� � � V 2 �� 9 V 2 � �� \ � � R 2 � � �#��T R 2 �Dat. Sg. fem. � V 2 � � � �h9 V 2 � � � \ � E V 2 � � �#� � � V 2 �� 9 V 2 � �� \ � � R 2 � � �#��T R 2 �Akk. Sg. fem. �

↪

� � � � � 9↪

� � �� \ � E↪

� � � �#� ��

↪

� �� 9 � �_ � �� \ � E � �_ � � �#��T � �_!�

Instr. Sg. fem. � ↪

� � � � � 9 ↪

� � �� \ � E↪

� � � �#� �� ↪

� �� 9 � �_ � �� \ � E � �_ � � �#��T � �_!�

Lok. Sg. fem. � V 2 � � � �h9 V 2 � � � \ � E V 2 � � �#� � � V 2 �� 9 V 2 � �� \ � � R 2 � � �#��T R 2 �Nom. Sg. neutr. � V � � � �h9 V � � � \ � E V � � �#� � � V �� 9 V$� �� \ � � V$� � �#��T V �Gen. Sg. neutr. � V E � � � � �h9 V E � � � � \ � E V E � � � �#� � � V E � �� 9 V E �� \ � � V E �� #��T V E ��Dat. Sg. neutr. � V�3 � � � � �h9 V�3 � � � � \ � E VZ3 � � � �#� � � V�3 � �� 9 V�3 � � �� \ � � V�3 � � � �#��T VZ3 � �Akk. Sg. neutr. � V � � � �h9 V � � � \ � E V � � �#� � � V �� 9 V$� �� \ � � V$� � �#��T V �Instr. Sg. neutr. � LX3 � � � �h9 LX3 � � � \ � E LY3 � � �#� � � LY3 �� 9 bW3 � �� \ � � LX3 � � �#��T LX3 �Lok. Sg. neutr. � LY3 � � � �h9 LY3 � � � \ � E LX3 � � �#� � � LY3 �� 9 bW3 � �� \ � � LX3 � � �#��T LX3 �

Tabelle 2.4: Die femininen und neutralen Singularformen der Adjektive.

phonetischen Formen ableiten.Bei der Flexion der Adjektive unterscheidet man in der polnischen Gram-

matik (z. B. in [7]) zwischen jeweils einem Deklinationsparadigma fur hart-stammige und weichstammige Adjektive.18 Außerdem ist bei der hartstammi-gen Deklination zu bemerken, dass Endungen, die normalerweise mit

�4b �an-

lauten, stattdessen bei Adjektiven, deren Stamm auf�4C �

oder� E � endet, mit�4L �

anlauten. Die Lautveranderungen und die Wechsel der Endungsmorphe-me, die oben fur die maskulinen Substantive beschrieben wurde, treten auchbei den Adjektiven auf.

18D. h. Adjektive, deren Stamm auf einen harten bzw. weichen Konsonanten endet.


Bei Verwendung meiner phonologischen Reprasentation lasst sich die ge-samte Adjektivflexion mit einem einzigen Deklinationsparadigma, das ohneAusnahmen fur alle Adjektive gilt, beschreiben. Tabelle 2.4 gibt Beispieledafur anhand der femininen und neutralen Singularformen der hartstammi-gen Adjektive

�� 9 b �‘neu’ und

�� \ � � L �‘teuer’ und des weichstammigen Ad-

jektivs� ��T L �

‘billig’.Fur das eigentlich hartstammige Adjektiv

�� \ � � L �erklart die Allophonie

von� E � und

�� das Auftreten des weichen Lauts

�� in den Formen, die mit

��V �,�4R��

oder�4L �

anlauten. Im Gegensatz zu�� \ � � L �

ist bei� �#�T L �

auch der Stammder mit

�� und

��anlautenden Formen erweicht, weil die Erweichung Teil

des Stamms ist. Die Verteilung der Allomorphe�4bW3 �

und�4LX3 �

im neutra-len Instrumental und Lokativ wird dadurch bestimmt, ob der Stammauslautweich ist oder nicht.

2.3 Orthographie

Die polnische Orthographie ist zwar recht komplex, aber weitgehend regel-haft. Sie ist regelhaft, weil man an der Schreibung eines Wortes (fast) im-mer die Aussprache erkennen kann. Ungekehrt ist es allerdings nicht immermoglich, aus der Aussprache die Schreibung eindeutig abzuleiten.

Das in Abschnitt 2.2 entwickelte Phoneminventar wird in diesem Ab-schnitt noch weiter erweitert. Ziel der Arbeit ist es ja, ein System zu entwi-ckeln, das aus einer phonologischen Reprasentation die Schreibung ableitet.Wegen bestimmten Besonderheiten in der Schreibung reichen die bisher ge-nannten Phoneme dafur nicht aus.

Ich verwende in diesem Abschnitt weiterhin die Bezeichnung”Phonem“,

auch wenn die hier neu eingefuhrten”Phoneme“ nur orthographische Bedeu-

tung haben.

2.3.1 Grapheme

Die polnische Orthographie verwendet 39 Grapheme, 8 Vokal- und 31 Kon-sonantengrapheme.

Konsonantengrapheme

Bei den Konsonanten haben nur die harten und die historisch weichen Kon-sonanten einfache Entsprechungen unter den Graphemen (Tabelle 2.5, Seite30).


Die Schreibung von��

und��G��

ist nicht eindeutig. Fur��

gibt es keineRegel, es muss fur jedes Lexem einzeln festgelegt werden, welches Graphembenutzt wird, auch wenn <ch> in der Haufigkeit weit uberwiegt. Um jeweilsdie richtige Form ableiten zu konnen, musste ich darum unterschiedliche Pho-neme verwenden. Zu dem bisher fur beide Falle verwendeten Phonem � � �kommt dadurch noch das Phonem � � � ; � � � entspricht dabei <ch>, und � � �entspricht <h>.

Welches Graphem fur��G��

verwendet wird, ist dagegen durch das dem Lautzugrunde liegende Phonem festgelegt: <rz> steht fur ein erweichtes � \ � , <z>fur ein erweichtes � = � oder � E � .

Der Laut�45 �

kommt als zugrunde liegender Konsonant19 nur in Lehn-wortern vor. Die Schreibung unterscheidet nicht zwischen

�� und

�45 �, beide

werden als <n> geschrieben.Die weichen Konsonanten werden (mit zwei Ausnahmen) nicht mit eige-

nen Symbolen geschrieben Die Ausnahmen sind�4@ �

und��2 �

, die mit <l> und<j> geschrieben werden. Fur die weichen Konsonanten

�43 M B M D M 7 M 9 M T6UIe �

� �verwendet man dasselbe Symbol wie fur den entsprechenden harten Kon-

sonanten; in derselben Reihenfolge: <m p b f w n s z k g>. Fur die ubrigenbeiden weichen Konsonanten

� ��U��und

��-e �nimmt man <c> bzw. <dz>.

Vor Vokalen erfolgt die Markierung des Graphems als weicher Konsonantdurch ein nachstehendes . Wenn der folgende Vokal selbst mit ge-schrieben wird, stellt dieses bereits die Markierung dar; ansonsten wirdnoch ein zwischen dem Konsonanten und dem folgenden Vokal einge-schoben. Beispiele:

��hL � ��<kino> ‘Kino’;

�� R��cb �<kiedy> ‘wann’.

Vor Konsonanten und am Wortende treten von den weichen Konsonanten(außer

�4@ �und

��2 �) nur die palatal-alveolaren Konsonanten

�8T6UIe ��U �-e �auf. In

diesem Fall wird das Graphem mit einem Akut markiert. Beispiele:�4U \ ��

<sroda> ‘Mittwoch’;�8_ � ; � U��

< losos> ‘Lachs’;�4eg@XV$�

<zle> ‘schlecht’;�8H � ��U��

<czuc> ‘fuhlen’;��-e9 M LYC �

<dzwig> ‘Kran’;�4C T �

<kon> ‘Pferd’.

Vokalgrapheme

Man unterscheidet die Oralvokalgrapheme <a e i o o u y> und die Nasalvo-kalgrapheme <

↪a

↪e>. Die Oralvokalgrapheme entsprechen – unabhangig vom

zugrunde liegenden Phonem – direkt jeweils einem oder (im Fall von <e>)zwei Lauten. Tabelle 2.6 stellt die Grapheme und die Laute gegenuber. DieAussprache von <e> ist eindeutig, weil

��V$�und

�4R��Allophone sind.

Zur Scheibung von� � � gibt es zwei Moglichkeiten. <o> wird immer dann

benutzt, wenn der� � � -Laut in der zugrunde liegenden Form einem � � � ent-

19Der Laut �� kommt ansonsten noch in den Aussprachevarianten � � �� und � n�� derNasalvokale vor.


Graphem Aussprache Beispiel

�4D � �4D � \ C �<bark> ‘Schulter’

<c>�8A � �8A �P@ �

<cal> ‘Zoll’<ch>

�� #��<chata> ‘Hutte’

<cz>�8H � �8H V(��

<Czech> ‘Tscheche’<d>

�� h3 �<dom> ‘Haus’

<dz>��-=�� \ ��-=$�Z2 �

<rodzaj> ‘Art’<dz>

�4J � �4J � 3 � �<dzuma> ‘Pest’

<f>�87 � �87 �PC��

<fakt> ‘Tatsache’<g>

� E � � E �cb � <gdy> ‘als’<h>

�� PC �<hak> ‘Haken’

<k>�4C � �4C�� \ B �

<karp> ‘Karpfen’< l>

�8_!� �8_)�P; C�� < laska> ‘Gnade’

<m>�43 � �43 �P3 ��

<mama> ‘Mama’<n>

�� oder

�45 � �4C�� <kant> ‘Kante’;

�4D �P5 C �<bank>

‘Bank’

�4B � �4B � H��#� �<poczta> ‘Post’

<r>� \ � � \ �h@ � �

<rola> ‘Rolle’<rz>

��G'� ��GhVZC�� <rzeka> ‘Fluss’

<s>�4; � �4; V � �

<sen> ‘Schlaf’<sz>

� F � �F � B � �<szopa> ‘Schuppen’

<t>� � � � �#�C �

<tak> ‘ja’<w>

�89 � �89 � E � � <waga> ‘Waage’<z>

�4=�� 4=$�B ��<zapach> ‘Geruch’

<z>��G�� G(�D � �

<zaba> ‘Frosch’

Tabelle 2.5: Konsonantengrapheme: Harte und historisch weiche Konsonan-ten

Graphem Aussprache Beispiel<a>

�� 43 � � C�� <matka> ‘Mutter’

<e>��V$�

oder�4R�� 8A V�@ �

<cel> ‘Ziel’;��-ePRhT �

<dzien> ‘Tag’

�4L � �89 M L \ �<wir> ‘Strudel’

<o>�� 4@ � ; �

<los> ‘Schicksal’<o>

� � � �4D � @ � <bol> ‘Schmerz’

� � � �4D � �� <bunt> ‘Aufstand’<y>

�4b � �4; b � �<syn> ‘Sohn’

Tabelle 2.6: Oralvokalgrapheme


spricht; z. B. <bog> � D � E � �4D � C � ‘Gott’. Sonst wird meist geschrieben.Es gibt allerdings Falle (wie das Beispiel <bol> in Tabelle 2.6), bei denen inder zugrunde liegenden Form kein � � � angenommen werden kann, weil das� � � auch in offenen Silben steht (z. B.

�4D � @ � � ‘Schmerz (Gen. Sg.)’). Fur dieseFalle verwende ich ein eigenes Phonem � � � ; die Reprasentation von <bol>ist also � D �g@ � � .

Die Nasalvokalgrapheme <↪

a> und <↪e> entsprechen den Nasalvokalpho-

nemen �↪

� � und �↪

R � . Die beiden Grapheme ubernehmen damit die verschie-denen Aussprachevarianten der Phoneme in den verschiedenen Umgebun-gen: <r

↪eka> � \

↪

R C�� \ V�5 C�� ‘Hand’, <w

↪aski> � _

↪

�P; C L � �89�� _]; �hL �‘schmal’ usw.

Wenn �↪

R � in einer geschlossenen Silbe wie �↪

� � realisiert wird, wird �↪

R � als<

↪a> geschrieben: � =

↪

RhD � �4=�� 3 B �<z

↪ab> ‘Zahn’, aber � =

↪

R D � � �4= VZ3ND � �<z

↪eba>

(Gen. Sg.).

2.3.2 Nicht berucksichtigte phonologische Prozesse

Zwei der in Abschnitt 2.2.5 genannten Prozesse werden nicht orthographischrealisiert, namlich die Auslautverhartung und die Assimilation der Stimm-haftigkeit. In beiden Fallen wird der veranderte Laut nicht entsprechendseiner Oberflachenform, sondern entsprechend der zugrunde liegenden Formgeschrieben.

Fur die Auslautverhartung bedeutet das, dass Obstruenten, die der Aus-lautverhartung unterliegen, mit dem Symbol geschrieben werden, das benutztwurde, wenn der Obstruent nicht stimmlos ware; z. B. <bog> � D � E � �4D � C �‘Gott’, <cud> � C � � � � �8A � � � ‘Wunder’.

Entsprechend richtet sich die Schreibung von Obstruenten, die nach derRegel zur Assimilation der Stimmhaftigkeit verandert werden, nach der zu-grunde liegenden Form, und zwar egal, ob ein (zugrunde liegend) stimm-hafter Obstruent (an der Oberflache) stimmlos wird oder ein (zugrunde lie-gend) stimmloser Obstruent (an der Oberflache) stimmhaft wird. Beispiele:<liczba> � @ � LXC �� D � � �4@YLXJ D � �

‘Anzahl’; < lawka> � @ �`_ C � � �8_)�7WC�� ‘Bank’.

Eine Ausnahme ist das Prafix <z> ‘aus- (o. A.)’, das gelegentlich entspre-chend seiner Aussprache geschrieben wird. So wechselt das <s> in <sci

↪ac>�4U��U(��U��

‘abschneiden’ mit <z> in <zetn↪e>

�4=`V � �^V$�‘ich schneide ab’. Das

�4U��ist das Ergebnis von zwei Regeln: durch Assimilation der Stimmhaftigkeitwird das

�4=��stimmlos, durch Erweichung des Konsonantenclusters wird es

zusatzlich erweicht. Normalerweise wurde nur die zweite dieser beiden RegelnAuswirkungen auf die Schreibung haben (d. h. man wurde <z> schreiben), indiesem und in einer Reihe von weiteren Beispielen wird aber die Assimilationder Stimmhaftigkeit auch in der Schreibung berucksichtigt.


� = � -Phoneme, deren Schreibung auch die Assimilation der Stimmhaftig-keit berucksichtigt, bezeichne ich mit � �= � . Damit ergeben sich fur die oben ge-nannten Beispiele die Reprasentationen � �=� � �

↪

� �� fur <sci

↪ac> und � �= � � �

↪

R �fur <zetn

↪e>.

2.3.3 Besonderheiten bei der Schreibung

Es wurde schon angesprochen, dass im Allgemeinen eine Regel angenommenwird, nach der

�89 �keine Assimilation der Stimmhaftigkeit auslost, sondern

dieser selbst auch am Ende einer Folge von Obstruenten unterliegt, und dassdiese Regel fur eine phonologische Reprasentation, aus der die phonetischeForm abgeleitet werden soll, nicht notwendig zu sein scheint. In Bezug aufdie Orthographie ist dieses Phanomen aber von Bedeutung, weil die Aus-sprache aus der geschriebenen Form nur unter Einbezug dieser Regel korrektableitbar ist; z. B. <bitwa>

�4DgMaL � 7 � �‘Schlacht’, die phonologische Reprasenta-

tion nach Abschnitt 2.2.5 ware � D � L � 7 � � . Um die richtige Schreibung ableitenzu konnen, reprasentiere ich auch in solchen Fallen <w> durch � _ � (stattdurch � 7 � ), also z. B. � D � L �-_ � � . Fur die Assimilation der Stimmhaftigkeit hatdas in meiner Anwendung keine Auswirkungen, weil sie orthographisch nichtrealisiert wird.

Das Symbol � �� wirkt ahnlich wie die Erweichungsmarkierungen, wirdaber oft anders othographisch realisiert. Vor Vokalen wird � �� grundsatz-lich als realisiert, auch vor : � �3 �^V�; � �

�� <amnestia> ‘Amnestie’;

� �P3 �^V�; � ��L � <amnestii> (Gen. Sg.). Die fur die Erweichungsmarkierungen

ubliche Realisierung tritt nur nach � � � und � � � ein, z. B. � � �� LY; � \ �� <hi-storia> ‘Geschichte’, � � �� L�� #� � � � <chichotac> ‘kichern’.

Bei den alveolaren Frikativen ist zu beachten, dass die indirekte Erwei-chung nicht immer orthographisch realisiert wird; z. B. <zbierzesz> ‘du sam-melst (perf.)’ und nicht *<zbierzesz>. Um diese Ausnahmefalle zu markieren,verwende ich statt � ; � und � = � die Symbole � � ; � und � �= � . Dadurch sind Re-prasentationen wie � �= `D � \ �� V�; �� fur <zbierzesz> und � � ; ; �� V�; �� fur <ssiesz>(statt *<ssiesz>) ‘du saugst’ moglich.

Kapitel 3

Endliche Automaten undTransduktoren

Zwischen den Kapiteln 2 und 6, in denen die polnische Phonologie behandeltwird, behandeln dieses und die folgenden beiden Kapitel die theoretischenGrundlagen fur die Formulierung der Regeln aus Kapitel 2 sowie den Regel-compiler.

In diesem Kapitel geht es zunachst um die Theorie der endlichen Trans-duktoren (und damit auch die der endlichen Automaten, auf der sie aufbaut),die fur das Two-Level-Modell zentral ist. Das gesamte Modell basiert auf dertechnischen Umsetzung mit Hilfe von endlichen Transduktoren. In diesemKapitel werden zunachst endliche Automaten und Transduktoren definiertund ihre mathematischen Eigenschaften vorgestellt. Das Kapitel basiert aufder Einleitung zu

”Finite-State Language Processing“ von Roche und Scha-

bes ([18]).Die Definitionen sind fur die Implementation des Regelcompilers (Ka-

pitel 5) notig. Die hier gegebenen Definitionen konnen zumeist direkt furin Implementationen der entsprechenden Prozeduren umformuliert werden.Die Prozeduren werden vom Regelcompiler zur Konstruktion von endlichenTransduktoren verwendet.

3.1 Terminologie

Endliche Automaten sind ein Mittel, um regulare Sprachen bzw. Mengen vonZeichenketten zu beschreiben. Eine Zeichenkette ist eine endliche Kette (oderFolge) von Symbolen eines Alphabets. Ein Alphabet ist eine beliebige Mengevon Symbolen. Im Zusammenhang mit endlichen Automaten und Transduk-toren wird vorausgesetzt, dass ein Alphabet eine endliche Menge ist. Die

33

KAPITEL 3. ENDLICHE AUTOMATEN UND TRANSDUKTOREN 34

Menge der Zeichenketten uber einem Alphabet Σ wird mit Σ∗ bezeichnet.Anhand der Definition eines endlichen Automaten uber einem Alphabet

Σ kann fur jede Zeichenkette aus Σ∗ entschieden werden, ob sie in der durchden endlichen Automaten beschriebenen Teilmenge von Σ∗ liegt oder nicht.

Im Unterschied zu den endlichen Automaten definieren endliche Trans-duktoren Relationen uber Zeichenketten; anders ausgedruckt definiert einendlicher Transduktor uber zwei Alphabeten Σ1 und Σ2 eine Teilmenge vonΣ1 ×Σ2. Mit solch einem endlichen Transduktor kann man also entscheiden,ob ein Paar von Zeichenketten (s1, s2) mit s1 ∈ Σ1 und s2 ∈ Σ2 in der durchden Transduktor definierten Teilmenge von Σ1 × Σ2 liegt.

Alternativ kann man einen endlichen Transduktor uber zwei AlphabetenΣ1 und Σ2 als einen Mechanismus interpretieren, der zu einer Zeichenkette s1

aus Σ∗1 eine oder mehrere (oder auch keine) Zeichenketten aus Σ∗

2 liefert, mitdenen s1 in der durch den Transduktor definierten Relation steht. In dieserInterpretation ist eine Transduktor eine Abbildung von Σ∗

1 nach P(Σ∗2)1.

3.2 Grundlegende Operationen

Die folgenden Definitionen zur Verkettung von Zeichenketten werden weiterunten verwendet, um Operationen uber endlichen Automaten und Transduk-toren zu definieren.

Die Verkettung zweier Zeichenketten w und x wird mit wx oder w · xbezeichnet. ε steht fur die leere Zeichenkette. Fur ein beliebiges Wort w giltw · ε = ε · w = w.

Die Verkettung von Zeichenketten kann auf Mengen von Zeichenkettenerweitert werden. Die Verkettung zweier Mengen von Zeichenketten wird de-finiert als die Menge aller Verkettungen von jeweils einer Zeichenkette ausjeder der beiden Mengen. Wenn L1 und L2 Mengen von Zeichenketten sind,dann ist L1 · L2 = {u · v | u ∈ L1 ∧ v ∈ L2}.

Die folgenden Definitionen verallgemeinern die Verkettung von Zeichen-ketten und von Mengen von Zeichenketten. Fur u ∈ Σ∗, L ⊆ Σ∗ und n > 0wird definiert:

• u0 = ε

• un = un−1 · u

• L0 = {ε}

1Die Potenzmenge P(M) einer Menge M ist die Menge, die alle Teilmengen von M

enthalt.


• Ln = Ln−1 · L

• L∗ =⋃

n≥0

Ln

3.3 Endliche Automaten

Definition 3.1 (Endlicher Automat) Ein endlicher Automat2 A ist ein5-Tupel (Σ, Q, i, F, E). Dabei gilt

• Σ ist ein Alphabet;

• Q ist eine endliche Menge von Zustanden;

• i ∈ Q ist der Startzustand;

• F ⊆ Q ist die Menge der Endzustande;

• E ⊆ Q × (Σ ∪ {ε}) × Q ist die Menge der Ubergange.

Man kann sich einen endlichen Automaten als einen gerichteten Graphenvorstellen. In dieser Interpretation reprasentieren die Zustande des Automa-ten die Knoten des Graphen; die Ubergange sind die Kanten zwischen denKnoten. Unter dieser graphentheoretischen Interpretation ist dann ein Wortgenau dann in der Sprache dieses Automaten, wenn es einen Pfad vom Start-zustand des Automaten zu einem Endzustand des Automaten gibt und dieSymbole der Kanten, die den Pfad bilden, verkettet das entsprechende Wortbilden.

Definition 3.2 (Pfad) A = (Σ, Q, i, F, E) sei ein endlicher Automat. EineSequenz ((pj, sj, qj))j=1,...,n von Ubergangen aus E heißt Pfad von A, wenngilt qj = pj+1 fur 1 ≤ j ≤ n − 1.

Definition 3.3 (Erfolgreicher Pfad) A = (Σ, Q, i, F, E) sei ein endlicherAutomat. Ein Pfad ((pj, sj, qj))j=1,...,n von A heißt erfolgreicher Pfad, wenngilt p1 = i und qn ∈ F .

Definition 3.4 (Sprache) A = (Σ, Q, i, F, E) sei ein endlicher Automat.Die von A definierte Sprache wird mit L(A) bezeichnet. L(A) ⊆ Σ∗

enthalt ein Wort w ∈ Σ∗ genau dann, wenn es einen erfolgreichen Pfad((pj, sj, qj))j=1,...,n von A gibt mit s1 · . . . · sn = w.

2Engl.”Finite-state automaton“, also eigentlich ungefahr

”Automat mit endlich vielen

Zustanden“


Abbildung 3.1: Der endliche Automat X1 als Graph.

Abbildung 3.2: Der endliche Automat X2 als Graph.

3.3.1 Operationen uber endlichen Automaten

Eine nutzliche Eigenschaft von endlichen Automaten ist die Abgeschlossen-heit bezuglich einiger wichtiger Mengenoperationen.

Zur Veranschaulichung der Operationen werde ich die endlichen Auto-maten X1 = ({a, b, c}, {0, 1}, 0, {1}, {(0, a, 0), (0, b, 1), (1, a, 1)}) und X2 =({a, b, c}, {2, 3}, 2, {3}, {(2, b, 3), (3, c, 3)}) verwenden. Die Abbildungen 3.1und 3.2 zeigen die beiden endlichen Automaten als Graphen. In diesen beidenund allen folgenden Abbildungen von endlichen Automaten oder endlichenTransduktoren als Graphen wird der Startzustand durch den Pfeil angezeigt,der von keinem Zustandknoten ausgeht. Die Endzustande werden mit dop-pelter Umrandung markiert.

• Vereinigung: Zu zwei endlichen Automaten A1 und A2 gibt es immereinen endlichen Automaten A1 ∪ A2 mit L(A1 ∪ A2) = L(A1) ∪ L(A2).

Fur A1 = (Σ, Q1, i1, F1, E1) und A2 = (Σ, Q2, i2, F2, E2) erfulltz. B. der Automat A3 = (Σ, Q1 ∪ Q2 ∪ {i′}, i′, F1 ∪ F2, E1 ∪ E2 ∪{(i′, ε, i1), (i′, ε, i2)})3 diese Bedingung. Abbildung 3.3 zeigt den so kon-struierten endlichen Automaten X1 ∪ X2 als Graphen.

• Verkettung: Zu zwei endlichen Automaten A1 und A2 gibt es immereinen endlichen Automaten A1 · A2 mit L(A1 · A2) = L(A1) · L(A2).

3Voraussetzung ist, dass Q1 und Q2 disjunkt sind. Andernfalls mussen die Zustandezunachst entsprechend umbenannt werden. Dieselbe Voraussetzung gilt auch in den wei-teren Aussagen, wenn Mengen von Zustanden vereinigt werden.


Abbildung 3.3: Der endliche Automat X1 ∪ X2 als Graph.

Abbildung 3.4: Der endliche Automat X1 · X2 als Graph.

Fur A1 und A2 wie oben erfullt z. B. der Automat A3 = (Σ, Q1 ∪Q2, i1, F2, E1 ∪ E2 ∪ E ′) mit E ′ = {(p, ε, i2) | p ∈ F1} diese Bedingung.Abbildung 3.4 zeigt den so konstruierten endlichen Automaten X1 ·X2

als Graphen.

• Schnitt: Zu zwei endlichen Automaten A1 und A2 gibt es immer einenendlichen Automaten A1 ∩ A2 mit L(A1 ∩ A2) = L(A1) ∩ L(A2).

Fur A1 und A2 wie oben erfullt z. B. der Automat A3 = (Σ, Q1 ×Q2, (i1, i2), F1 × F2, E) mit

E =⋃

(q1,a,r1)∈E1,(q2,a,r2)∈E2

{((q1, q2), a, (r1, r2))}

diese Bedingung. Abbildung 3.5 zeigt den so konstruierten endlichenAutomaten X1 ∩ X2 als Graphen.

• Sternbildung: Zu einem endlichen Automaten A gibt es immer einenendlichen Automaten A∗ mit L(A∗) = L(A)∗.

Fur A = (Σ, Q, i, F, E) erfullt z. B. der Automat A′ = (Σ, Q, i, F, E ∪E ′) mit E ′ = {(p, ε, i) | p ∈ F} diese Bedingung. Abbildung 3.6 zeigtden so konstruierten endlichen Automaten X∗

1 als Graph.


Abbildung 3.5: Der endliche Automat X1 ∩X2 als Graph. Die Knoten, nichtdurch Kanten mit einem anderen Knoten verbunden sind, wurden weggelas-sen. Das betrifft (0,3) und (1,2).

Abbildung 3.6: Der endliche Automat X∗1 als Graph.

3.3.2 Optimierung

Zwei unterschiedliche endliche Automaten A1 und A2 konnen dieselbe Spra-che definieren, d. h. L(A1) = L(A2). Durch die oben beschriebenen Opera-tionen uber endlichen Automaten konnen die Automaten (an Zustanden undUbergangen) sehr groß werden. Wenn mit solchen Automaten dann weiterge-arbeitet werden soll, ist es nutzlich, Reprasentationen mit weniger Zustandenund Ubergangen zu finden und diese zu benutzen. Dadurch kann oft erheblichan Rechenzeit gespart werden.

Loschen von ε-Ubergangen

Zu jedem endlichen Automaten A = (Σ, Q, i, F, E) existiert ein ε-freier end-licher Automat A′ = (Σ, Q, i, F ′, E ′) mit L(A) = L(A′) und E ′ ⊆ Q × Σ ×Q. Der Automat A′ definiert also dieselbe Sprache wie A, hat aber keineUbergange mit ε als Symbol (sogenannte ε-Ubergange).

Der Automat A′ kann wie folgt konstruiert werden:F ′ wird mit F initialisiert, und E ′ mit {(q′, s, q′′) ∈ E | s 6= ε}.Zu jedem Zustand q ∈ Q wird die Teilmenge Tq ⊆ Q gebildet, die alle

Zustande enthalt, die vom Zustand q uber ε-Ubergange zu erreichen sind.Fur alle Ubergange (q′, s, q′′) ∈ E wird dann ein Ubergang (q, s, q′′) in E ′

eingefugt, wenn q′ ∈ Tq.Wenn Tq ∩ F 6= ∅, dann wird q in F ′ eingefugt.Abbildung 3.7 zeigt den endlichen Automaten X∗

1 nach dem Loschen derε-Ubergange als Graph.


Abbildung 3.7: Der endliche Automat X∗1 nach dem Loschen der ε-Ubergange

als Graph.

Determinisierung

Definition 3.5 (Deterministischer endlicher Automat) Ein determi-nistischer endlicher Automat A ist ein 5-Tupel (Σ, Q, i, F, d). Dabei gilt

• Σ ist ein Alphabet;




• d : Q × Σ → Q ist die Ubergangsfunktion.

Ein deterministischer endlicher Automat unterscheidet sich von einemnicht-deterministischen endlichen Automaten darin, dass die Ubergange alsFunktion und nicht als Relation definiert sind. Es kann nach dieser Defini-tion nicht mehr vorkommen, dass von einem Zustand zwei Ubergange mitgleichem Symbol zu unterschiedlichen Folgezustanden fuhren.

Zu jedem ε-freien endlichen Automaten4 A = (Σ, Q, i, F, E) existiert eindeterministischer endlicher Automat A′ = (Σ, Q′, i′, F ′, d) mit L(A) = L(A′).Der Automat A′ kann wie folgt konstruiert werden:

Als Menge der Zustande Q′ wird P(Q) , die Potenzmenge der ursprung-lichen Zustandsmenge, gewahlt. Der neue Startzustand i′ ist die Menge,

4Die Definition der Ubergangsfunktion (mit Σ statt Σ ∪ {ε}) erfordert, dass der Aus-gangsautomat ε-frei ist. Weil aber wie im vorhergehenden Abschnitt besprochen zu jedemendlichen Automaten eine aquivalenter ε-freier Automat angegeben werden kann, gibt esnaturlich allgemein zu jedem endlichen Automaten einen aquivalenten deterministischenAutomaten.


Abbildung 3.8: Der endliche Automat X∗1 nach der Determinisierung als

Graph.

die nur den ursprunglichen Startzustand i enthalt. F ′ wird definiert durchF ′ = {q ∈ Q′ | q ∩ F 6= ∅}. Die Funktion d wird definiert durch

d(q′, s) =⋃

q∈q′

{r | (q, s, r) ∈ E}

Abbildung 3.8 zeigt den endlichen Automaten aus Abbildung 3.7 nachder Determinisierung als Graph.

Minimierung

Die entscheidende Optimierungsoperation ist die Minimierung der Zahl derZustande. Der von mir verwendete Algorithmus wurde zuerst von Hopcroft in[10] beschrieben. Den Algorithmus nach Hopfcroft habe ich gewahlt, weil erein besseres Laufzeitverhalten aufweist als die fruher bekannten Algorithmen(O(n log n) gegenuber O(n2)). Voraussetzung fur die Anwendung des Algo-rithmus von Hopcroft auf einen endlichen Automaten ist, dass der Automatdeterministisch ist.

Der Algorithmus selbst ist eher unintuitiv und kann in [10] nachgelesenwerden.5 Grob gesagt geht er so vor: Zunachst werden alle Zustande nach demKriterium, ob sie Endzustande sind oder nicht, in zwei Klassen eingeteilt. Da-nach wird fur jedes Symbol und jede Klasse getestet, welche Folgezustandevon von einem Zustand der Klasse erreicht werden, wenn das Symbol gele-sen wird. Wenn diese Folgezustande nicht alle zu derselben Klasse gehoren,dann wird die gerade uberprufte Klasse so aufgespalten, dass fur jede der

5Die mir vorliegende Version enthalt einen Druckfehler in der Beschreibung des Algo-rithmus in Schritt 4. Richtig muss es heißen:

Step 4. For each a in I construct

L(a) =

{

{1} if |B(B(1),a)| ≥ |B(B(2),a)|{2} otherwise

Statt ≥ steht in der mir vorliegenden Version ≤.


Teilklassen die obige Bedingung, dass alle Folgezustande von einem Zustandder Teilklasse beim Lesen des Symbols zu derselben Klasse gehoren, erfulltist. Wenn der Algorithmus terminiert, sind Zustande, die zu derselben Klassegehoren, aquivalent und konnen zu einem Zustand zusammengefasst werden.

Bei der Minimierung des in Abbildung 3.8 dargestellten endlichen Auto-maten wurde der Minimierungsalgorithmus erkennen, dass die Zustande {1}und {0,1} zu einem Zustand zusammengefasst werden konnen.

3.4 Endliche Transduktoren

Endliche Transduktoren sind eine Erweiterung der endlichen Automaten.Statt Sprachen uber einem Alphabet definieren sie Relationen von Zeichen-ketten uber zwei Alphabeten.

Definition 3.6 (Endlicher Transduktor) Ein endlicher Transduktor Tist ein 6-Tupel (Σ1, Σ2, Q, i, F, E). Dabei gilt

• Σ1 ist das Alphabet der Eingabesymbole oder Eingabealphabet;

• Σ2 ist das Alphabet der Ausgabesymbole oder Ausgabealphabet;




• E ⊆ Q × (Σ1 ∪ {ε}) × (Σ2 ∪ {ε}) × Q ist die Menge der Ubergange.

Die Definition eines endlichen Transduktors erweitert gegenuber der De-finition eines endlichen Automaten die Ubergange um ein weiteres Symbol,das Ausgabesymbol.

Definition 3.7 (Pfad) T = (Σ1, Σ2, Q, i, F, E) sei ein endlicher Transduk-tor. Eine Sequenz ((pj, aj, bj, qj))j=1,...,n von Ubergangen aus E heißt Pfadvon T , wenn gilt qj = pj+1 fur 1 ≤ j ≤ n − 1.

Definition 3.8 (Erfolgreicher Pfad) T = (Σ1, Σ2, Q, i, F, E) sei ein end-licher Transduktor. Ein Pfad ((pj, aj, bj, qj))j=1,...,n von T heißt erfolgreicherPfad, wenn gilt p1 = i und qn ∈ F .


Definition 3.9 (Sprache) T = (Σ1, Σ2, Q, i, F, E) sei ein endlicher Trans-duktor. Die von T definierte Sprache wird mit L(T ) bezeichnet. L(T ) ⊆Σ∗

1 × Σ∗2 enthalt ein Paar von Worten (a, b) ∈ Σ∗

1 × Σ∗2 genau dann, wenn es

einen erfolgreichen Pfad ((pj, aj, bj, qj))j=1,...,n von T gibt mit a1 · . . . · an = aund b1 · . . . · bn = b.

Der funktionelle Unterschied zwischen endlichen Automaten und endli-chen Transduktoren ist die

”Ausgabe“. Ein endlicher Automat kann fur eine

gegebene Zeichenkette entscheiden, ob die Zeichenkette zu der vom Automa-ten definierten Sprache gehort. Dagegen ist als

”Ausgabe“ eines endlichen

Transduktors als Teilmenge von Σ∗2 anzusehen. Ein endlicher Transduktor T

liefert zu einem Eingabewort w die Menge {u ∈ Σ∗2 | (w, u) ∈ L(T )}.

3.4.1 Operationen uber endlichen Transduktoren

Die Vereinigung, Verkettung und Sternbildung von endlichen Automatenkonnen auf naturliche Weise auf endliche Transduktoren erweitert werden.

• Vereinigung: Zu zwei endlichen Transduktoren T1 und T2 gibt es im-mer einen endlichen Transduktor T1∪T2 mit L(T1∪T2) = L(T1)∪L(T2).

Fur T1 = (Σ1, Σ2, Q1, i1, F1, E1) und T2 = (Σ1, Σ2, Q2, i2, F2, E2) erfulltz. B. der Transduktor T3 = (Σ1, Σ2, Q1 ∪Q2 ∪{i′}, i′, F1 ∪F2, E1 ∪E2 ∪{(i′, ε, ε, i1), (i′, ε, ε, i2)}) diese Bedingung.

• Verkettung: Zu zwei endlichen Transduktoren T1 und T2 gibt es immereinen endlichen Transduktor T1 · T2 mit L(T1 · T2) = {(i1 · i2, o1 · o2) ∈Σ1 × Σ2 | (i1, o1) ∈ L(T1) ∧ (i2, o2) ∈ L(T2)}.

Fur T1 und T2 wie oben erfullt z. B. der Transduktor T3 = (Σ1, Σ2, Q1∪Q2, i1, F2, E1∪E2∪En) mit En = {(p, ε, ε, i2) | p ∈ F1} diese Bedingung.

• Sternbildung: Zu einem endlichen Transduktor A gibt es immer einenendlichen Transduktor T ∗ mit L(T ∗) = L(T )∗.

Fur T = (Σ1, Σ2, Q, i, F, E) erfullt z. B. der Transduktor T ′ = (Σ1, Σ2,Q, i, F, E ∪ E ′) mit E ′ = {(p, ε, ε, i) | p ∈ F} diese Bedingung.

Die Konstruktion der endlichen Transduktoren T1 ∪ T2, T1 · T2 und T ∗

erfolgt ganz analog zu der der entsprechenden endlichen Automaten, wie siein den Abbildungen 3.3, 3.4 und 3.6 dargestellt sind. Der einzige Unterschiedist, dass im Fall der endlichen Transduktoren an die Kanten der Graphenzusatzlich das Ausgabesymbol annotiert wird.


Fur den Schnitt ist es nur fur eine Teilmenge aller Transduktoren moglich,fur zwei Transduktoren T1 und T2 einen Transduktor T1 ∪ T2 mit L(T1 ∪T2) = L(T1) ∪ L(T2) anzugeben. Diese Teilmenge ist die Menge der ε-freienTransduktoren.

Definition 3.10 (ε-freier Transduktor) Ein endlicher Transduktor T =(Σ1, Σ2, Q, i, F, E) ist genau dann ein ε-freier Transduktor, wenn gilt E ⊆Q × Σ1 × Σ2 × Q.

Die Definition besagt, dass in ε-freien Transduktoren keine Ubergangeerlaubt sind, bei denen das zugrunde liegende Symbol oder das Oberflachen-symbol das ε-Symbol ist.

Fur zwei ε-freie Transduktoren T1 = (Σ1, Σ2, Q1, i1, F1, E1) und T2 =(Σ1, Σ2, Q2, i2, F2, E2) kann ein Transduktor T1 ∩ T2 z. B. mit T1 ∩ T2 =(Σ1, Σ2, Q1 × Q2, (i1, i2), F1 × F2, E) mit

E =⋃

(q1,a,b,r1)∈E1,(q2,a,b,r2)∈E2

{((q1, q2), a, b, (r1, r2))}

konstruiert werden. Die Konstruktion ist wieder analog zur Konstruktiondes Schnitts zweier endlicher Automaten.

Allerdings ist die Klasse der ε-freien Transduktoren in der Praxis keinesehr nutzliche Klasse, weil Eingabe- und Ausgabewort dieselbe Lange habenmussen; Einfugungen und Loschungen sind ja durch Definition 3.10 ausge-schlossen. Man behilft sich daher damit, die oben beschriebene Konstruktiondes Schnitts zweier ε-freier Transduktoren auch auf nicht ε-freie Transduk-toren anzuwenden. Die Konsequenz daraus ist, dass ε bei der Schnittbildungals Symbol anzusehen ist. Kanten, die Symbole einfugen oder loschen, kom-men dadurch nur im Schnitt vor, wenn sie in beiden Ausgangstranducernvorkommen.

Als Beispiel seien die beiden Transduktoren T1 = ({c}, {a, b}, {0, 1}, 0, {0,1}, {(0, c, a, 0), (0, ε, b, 1), (1, ε, b, 1)}) und T2 = ({c}, {a, b}, {0, 1}, 0, {0, 1},{(0, ε, a, 0), (0, c, b, 1), (1, c, b, 1)}) gegeben (siehe die Abbildungen 3.9 und3.10). Es gilt L(T1) = {(cn, anbm) | n, m ≥ 0} und L(T2) = {(cn, ambn) |n, m ≥ 0}, also L(T1) ∩ L(T2) = {(cn, anbn) | n ≥ 0}. Es ist beweisbar,dass die Menge {(cn, anbn) | n ≥ 0} nicht durch einen Transduktor definertwerden kann6.

Durch die obige Definition ergibt sich T1 ∩T2 = ({c}, {a, b}, {(0, 0), (0, 1),(1, 0), (1, 1)}, (0, 0), {(0, 0), (0, 1), (1, 0), (1, 1)}, {}). Die Menge der Kanten ist

6Mit diesem Beispiel kann dadurch auch beweisen werden, dass der Schnitt zweierendlicher Transduktoren im Allgemeinen kein endlicher Transduktor ist


Abbildung 3.9: Der endliche Transduktor T1 als Graph. Ein- und Ausgabe-symbol werden durch einen Doppelpunkt getrennt;

”0“ als Ein- oder Ausga-

besymbol steht fur ε.

Abbildung 3.10: Der endliche Transduktor T2 als Graph.

leer, weil es keine Paare von Kanten von T1 und T2 gibt, deren Ein- undAusgabesymbole ubereinstimmen. Es gilt also in diesem Fall L(T1 ∩ T2) 6=L(T1) ∩ L(T2).

Wie gesagt, mussen einfugende und loschende Kanten zur Kantenmengebeider Ausgangstransduktoren vorkommen. Wenn z. B. T1 zu T ′

1 = ({c}, {a,b}, {0, 1}, 0, {0, 1}, {(0, c, a, 0), (0, ε, a, 0), (0, ε, b, 1), (1, ε, b, 1)}) erweitert wird(Abbildung 3.11), dann gilt T ′

1 ∩T2 = ({c}, {a, b}, {(0, 0), (0, 1), (1, 0), (1, 1)},(0, 0), {(0, 0), (0, 1), (1, 0), (1, 1)}, {((0, 0), ε, a, (0, 0))}); Abbildung 3.12 zeigtdiesen Transduktor als Graph. Der Ubergang ((0, 0), ε, a, (0, 0)) liegt in derMenge der Ubergange von T ′

1 ∩ T2, weil (0, ε, a, 0) ein Ubergang sowohl vonT ′

1 als auch von T2 ist.

Abbildung 3.11: Der endliche Transduktor T ′1 als Graph.


Abbildung 3.12: Der endliche Transduktor T ′1 ∩ T2 als Graph. Die Knoten

ohne Kanten (0,1), (1,0) und (1,1) wurden weggelassen.

Inversion

Die Klasse der endlichen Transduktoren ist auch abgeschlossen bezuglich derInversion. Zu jedem endlichen Transduktor T = (Σu, Σs, Q, i, F, E) gibt eseinen endlichen Transduktoren T ′ mit L(T ′) = {(s, u) ∈ Σs × Σu | (u, s) ∈L(T )}. T ′ kehrt also die durch T definierte Relation uber Σu × Σs um.

Die Inversion von T kann durch T ′ = (Σs, Σt, Q, i, F, E ′) mit E ′ = {(q1, a,b, q2) | (q1, b, a, q2) ∈ E} konstruiert werden. Es mussen also nur Ein- undAusgabesymbol der Ubergange vertauscht werden.

3.4.2 Optimierung

Die Optimierungsoperationen aus Abschnitt 3.3.2 konnen auf naturliche Wei-se auf endliche Transduktoren erweitert werden, indem bei der Anwendungder Operationen das Eingabe- und das Ausgabesymbol zusammen als einuntrennbares Symbol interpretiert werden.

Im Fall der Loschung von ε-Ubergangen werden Ubergange mit demSymbolpaar (ε, ε) als ε-Ubergang behandelt. Loschende Ubergange der Form(q1, u, ε, q2) und einfugende Ubergange der Form (q1, ε, s, q2) sollen nicht alsε-Ubergange angesehen werden.

Durch die Determinisierung wird ein endlicher Transduktor determinis-tisch in dem Sinne, dass er keinen Zustand besitzt, von dem zwei Ubergangeausgehen, bei denen Eingabe- und Ausgabesymbol gleich sind. Es kann aberdurchaus von einem Zustand ausgehende Ubergange geben, bei denen ent-weder die Eingabesymbole oder die Ausgabesymbole gleich sind, sofern sichdas jeweils andere Symbol unterscheidet.

3.5 Verwendung der Definitionen

Wie bereits gesagt, baut das Two-Level-Modell auf der Theorie der endlichenTransduktoren auf; Two-Level-Regeln werden als endliche Transduktoren for-


muliert. Dadurch profitiert das Two-Level-Modell von den Aussagen diesesKapitels.

• Zu einer zugrunde liegenden Form definiert Definition 3.9, welche Ober-flachenformen der zugrunde liegenden Form entsprechen.

• Wenn mehrere Regeln vorliegen, wird durch die Schnittoperation (inder auf nicht ε-freie Transduktoren erweiterten Form) definiert, aufwelche Weise die Regeln zusammenwirken.

• Durch die Inversionsoperation ist es moglich, die Generierungsrichtungumzukehren und mit denselben Regeln aus einer Oberflachenform diemoglichen zugrunde liegenden Formen abzuleiten.

Das Two-Level-Modell wird genauer in Abschnitt 4.3 beschrieben.Die Vereinigungs-, Verkettungs- und Sternbildungsoperation sowie die

Optimierungsoperationen werden vom Regelcompiler genutzt, um endlicheTransduktoren zu generieren (Kapitel 5).

Kapitel 4

Phonologische Formalismen

In diesem Kapitel sollen zwei wichtige phonologische Theorien vorgestelltwerden. Behandelt werden die generative Phonologie (Abschnitt 4.2) unddas Two-Level-Modell (Abschnitt 4.3).

Die generative Phonologie ist der klassische Formalismus zur Formulie-rung phonologischer Modelle. In [19] modelliert Rubach die Phonologie desPolnischen im Formalismus der zyklischen Phonologie, einer Weiterentwick-lung der generativen Phonologie. Nach der Kritik an Rubachs Modell selbstin Kapitel 2 begrunde ich in diesem Kapitel, warum der Formalismus fur com-puterlinguistische Anwendungen nicht geeignet ist, indem ich die Problemenenne, die bei einer praktischen Implementation eines generativen Modellsauftreten.

4.1 Regeln

Der generativen Phonologie und dem Two-Level-Modell ist gemeinsam, dasseine

”zugrunde liegende Form“ durch Anwendung von Regeln in eine

”Ober-

flachenform“ umgewandelt wird. Prinzipiell kann es verschiedene Moglich-keiten geben, die Regeln formal zu reprasentieren. Im Two-Level-Modell ver-wendet man die in Kapitel 3 beschriebenen endlichen Transduktoren. Diegenerative Phonologie ist eher eine sprachwissenschaftliche als eine compu-terlinguistische Theorie, darum werden die Regeln in der Literatur im All-gemeinen nur informell angegeben. Kaplan und Kay haben in [12] allerdingsein Verfahren beschrieben, auch generative Regeln in endliche Transduktorenumzuwandeln.

Mathematisch sind die Regeln der generativen Phonologie und des Two-Level-Modells als Relationen anzusehen, d. h. als Menge von Paaren von Ein-gabeworten und Ausgabeworten. Dazu aquivalent ist die Interpretation von

47

KAPITEL 4. PHONOLOGISCHE FORMALISMEN 48

Regeln als Funktionen (bzw. Abbildungen), die zu einem Eingabewort eineMenge von Ausgabeworten liefern.

4.2 Generative Phonologie

Das Standardwerk im Bereich der generativen Phonologie ist”The Sound

Pattern of English“ von Chomsky und Halle [5]. Die generative Phonologiegeht davon aus, dass ein Wort (d. h. eine Wortform) eine

”zugrunde liegende

Form“ besitzt; diese zugrunde liegende Form wird durch Anwendung von Er-setzungsregeln in eine

”Oberflachenform“ umgewandelt, die der gesprochenen

(bzw. der geschriebenen) Form entspricht.Wichtig fur das Vorgehen der generativen Phonologie ist, dass die mor-

phologische Struktur der zugrunde liegenden Wortformen berucksichtigtwird. Dazu werden von der Morphologiekomponente, d. h. dem Bestandteilder Grammatik, die Morpheme zu phonologischen Worten zusammensetzt,die dann als Eingabe der Phonologiekomponente dienen, besondere Symboleeingefugt, die die Morphemgrenzen markieren. In der Literatur werden ver-schiedene Verfahren zur Markierung der Morphemgrenzen verwendet. Kaplanund Kay setzen z. B. in [12] eckige Klammern, wenn einfache oder komplexeMorpheme zusammengesetzt werden. So entstehen verschachtelte Struktu-ren wie

� �� D \ � ��L � �

als zugrunde liegende Reprasentation von <dobrzy> ‘gut(Nom. Pl. Psf.)’.

Die Regeln werden zunachst auf die Bestandteile des Ausdrucks ange-wendet, die keine Klammern enthalten, d. h. im Beispiel getrennt auf � � � D \ �und �� L � . Dann wird die innerste Klammerungsebene geloscht, und es wer-den erneut die Regeln auf die Ausdrucke, die keine Klammern enthalten,angewendet. Das passiert solange, dis alle Klammern geloscht wurden.

Dass prinzipiell beliebig viele Zyklen in einer Ableitung notig sein konnen,ist der Grund, warum eine Formalisierung von allgemeinen generativen Mo-dellen mit endlichen Transduktoren nicht moglich ist. Kaplan und Kay be-schranken sich darum in [12] auf die Formalisierung der Regeln eines einzelnenZyklus.

Außer den sogenannten zyklischen Regeln, die innerhalb jedes Zyklusangewendet werden, gibt es noch die postzyklischen Regeln. Die postzy-klischen Regeln werden nur einmal auf das gesamte Wort nach dem letztenZyklus angewendet.

Normalerweise wird fur die zyklischen Regeln und die postzyklischen Re-geln jeweils eine Ordnung angegeben, die bestimmt, in welcher Reihenfol-ge die Regeln angewendet werden. Jede Regel außer der ersten erhalt dannals Eingabe die Ausgabe der vorhergehenden Regel. Es werden allerdings


auch andere, kompliziertere Arten, Regeln zu kombinieren, gebraucht, diehier nicht weiter besprochen werden.

4.2.1 Beispiel

Als Beispiel gebe ich ein Modell an, mit dem gemaß den Definitionen aus derzugrunde liegenden Form

� �� hD \ � ��L � �

die Oberflachenform <dobrzy> abge-leitet werden kann.

Generative Regeln werden in der Literatur im Allgemeinen in der Formwie in 4.1 geschrieben.

u → s / LC RC(4.1)

”u → s“ heißt das Zentrum der Regel, LC der linke Kontext und RC der

rechte Kontext. Die Regel bedeutet, dass das Symbol u durch das Symbol sersetzt wird, wenn im Eingabewort links von u der Ausdruck LC steht undrechts der Ausdruck RC. Zusatzlich muss zu einer Regel angegeben werden,ob sie optional ist oder nicht. Wenn in einem Eingabewort die Phonemfolge

”LC u RC“ vorkommt, dann liefert eine optionale Regel sowohl ein Ausgabe-

wort, in dem das u durch s ersetzt wurde, als auch ein Ausgabewort, in demdas u unverandert bleibt. Nicht optionale Regeln liefern in einem solchen Fallnur das erste dieser beiden Ausgabeworte.

Als zyklische Regeln seien die Regeln 4.2 und 4.3 gegeben. Beide Regelnsollen nicht optional sein.

i → y / r �(4.2)

r → rz / �(4.3)

Im ersten Zyklus, wenn die Regeln getrennt auf � � � D \ � und �� L � angewen-det werden, sind beide Regeln nicht anwendbar. Dann werden aus

� �� D \ � ��L � �

die inneren Klammern geloscht, so dass der Ausdruck�� D \

�L �

entsteht. Esergibt sich die Ableitung 4.4 fur den zweiten Zyklus.

�� D \�L �

�� D \��

�(Regel 4.2)�� hD \ =

��

(Regel 4.3)

(4.4)

An der Ableitung sieht man, wie wichtig es ist, die Regeln richtig anzuord-nen. Wenn die Regeln andersherum angeordnet worden waren, dann ware dieAusgabe der Regel 4.3

�� D \ =�L �

, wodurch Regel 4.2 nicht mehr anwendbarware, weil der linke Kontext nicht erfullt ware.


Nach dem zweiten Zyklus werden die letzten Klammern geloscht, so dassalle Zyklen durchlaufen sind.

Nach den beiden Zyklen mussen noch die postzyklischen Regeln ange-wandt werden. Es seien die (nicht optionalen) Regeln 4.5 und 4.6 als postzy-klische Regeln gegeben.

�→ o(4.5)

� → ε(4.6)

Die postzyklischen Regeln werden auf das gesamte Wort nach Abschlussder Zyklen angewendet, also in diesem Fall auf

� �hD \ =�� . Es ergibt sich Ab-

leitung 4.7.� � D \ =

��dobrz � y (Regel 4.5)dobrzy (Regel 4.6)

(4.7)

4.3 Two-Level-Phonologie

Die Two-Level-Phonologie geht auf Kimmo Koskenniemi zuruck und wur-de zuerst in [15] beschrieben.1 Eine kurze Ubersicht uber den Formalismusgibt auch Karttunen in [14]. Koskenniemis Two-Level-Phonologie ist auchhistorisch gesehen bedeutsam, weil sie

”das erste praktische generelle Modell

zur Analyse von morphologisch komplexen Sprachen in der Geschichte derComputerlinguistik“ war [14].

Der Hauptunterschied zur generativen Phonologie ist der Wegfall der Zwi-schenformen, wie sie in generativen Ableitungen auftreten. In Two-Level-Ableitungen gibt es also nur die zugrunde liegende (lexikalische) Form unddie Oberflachenform. Dadurch andert sich auch die Interpretation der Regeln.

Statt Ersetzungen zu definieren, die in bestimmten Kontexten ausgefuhrtwerden, beschreiben Two-Level-Regeln Beziehungen zwischen zugrunde lie-gender Form und Oberflachenform. Die generative Regel (4.3) konnte alsTwo-Level-Regel wie in (4.8) formuliert werden.

r:rz ⇔ � :@(4.8)

1Die ubliche Bezeichnung fur diese Theorie ist”Two-Level-Morphologie“. Diese Be-

zeichung ist allerdings nicht ganz exakt, weil die Theorie nicht nur eine morphologische,sondern vor allem eine phonologische Theorie ist. Koskenniemi verwendet in [15] den Be-griff

”Two-Level-Modell“, den ich aber in diesem Kapitel vermeide, weil ich ihn bereits

zur Bezeichnung der Modellierung der Phonologie einer bestimmten Sprache in Definition4.1 verwende.

Eine ganz eingedeutschte Variante des englischen Begriffs”two-level model“ (wie etwa

”Zwei-Ebenen-Modell“ kommt in der Literatur nicht vor.


Die Regel sagt aus, dass ein zugrunde liegendes � \ � in der Oberflachen-form als <rz> realisiert werden muss, wenn ihm in der zugrunde liegendenForm ein �� folgt.

”@“ steht fur ein beliebiges Symbol, fur die Wirkung der

Regel ist es also egal, als welches Oberflachensymbol das �� realisiert wird.2

4.3.1 Definitionen

In diesem Abschnitt werden Two-Level-Modelle und Two-Level-Ableitungenformal definiert. Im Gegensatz zur generativen Phonologie ist eine solcheDefinition fur die Two-Level-Phonologie moglich.

Definition 4.1 (Two-Level-Modelle) Ein Two-Level-Modell M derPhonologie einer Sprache ist ein 3-Tupel M = (Σu, Σs, R). Dabei gilt:

• Σu (die Menge der zugrunde liegenden Symbole) und Σs (die Menge derOberflachensymbole) sind Mengen von Symbolen;

• R ist die Menge der Regeln. Jede Regel r ∈ R ist eine Relation uberΣ∗

u × Σ∗s.

Die Definition der Regeln in Definition 4.1 entspricht genau einer derInterpretationen von endlichen Transduktoren, wie sie in Kapitel 3 genanntwurde.

Definition 4.2 (Two-Level-Ableitungen) M = (Σu, Σs, R) sei ein Two-Level-Modell, wu ∈ Σ∗

u und ws ∈ Σ∗s. ws ist genau dann eine Two-Level-

Ableitung von wu gemaß M , wenn gilt:(wu, ws) ∈ r ∀r ∈ R

Die gesamte Menge W der Ableitungen von wu ist damit definiert durchW = {ws ∈ Σ∗

s | (wu, ws) ∈ r ∀r ∈ R}

Durch den Wegfall der Zwischenformen in der Two-Level-Phonologie wirdeiner der Schwachpunkte der generativen Phonologie beseitigt, wo die zu-grunde liegenden Symbole erst nach und nach durch die hintereinander an-gewendeten Regeln in Oberflachensymbole ausgetauscht werden – dabei istnaturlich nicht ausgeschlossen, dass einzelne zugrunde liegende Symbole kon-stant bleiben und auch in der Oberflachenform auftauchen. Dadurch ist eineTrennung zwischen zugrunde liegenden Symbolen und Oberflachensymbo-len formal nicht moglich. Durch den Wegfall der Zwischenformen wird dieseTrennung in der Two-Level-Phonologie dagegen ermoglicht.

2Statt”@“ wird in der Literatur auch

”=“ verwendet.


4.3.2 Die Regeltypen

Insgesamt werden zur Formulierung von Two-Level-Regeln im Allgemeinenvier Regeltypen definiert. Jede Regel beschrankt fur einen bestimmten Kon-text die Oberflachensymbole, als die ein zugrunde liegendes Symbol realisiertwerden kann.

Ausschlussregeln (engl.”exclusion rules“) werden wie in (4.9) notiert.

U:S 6⇐ LC RC3(4.9)

Die Regel besagt, dass /U/ im Kontext LC RC nicht als <S> realisiertwerden darf.

Kontextbeschrankungsregeln (engl.”context restriction rules“) wer-

den wie in (4.10) notiert.

U:S ⇒ LC RC(4.10)

Die Regel besagt, dass /U/ nur im Kontext LC RC als <S> realisiertwerden darf.

Oberflachenerzwingungsregeln (engl.”surface coercion rules“) wer-

den wie in (4.11) notiert.

U:S ⇐ LC RC(4.11)

Die Regel besagt, dass /U/ im Kontext LC RC als <S> realisiert werdenmuss.

Zusammengesetzte Regeln (engl.”composite rules“) werden wie in

(4.12) notiert.

U:S ⇔ LC RC(4.12)

Eine zusammengesetzte Regel ist eine Kombination aus einer Kontextbe-schrankungsregel und einer Oberflachenerzwingungsregel, so dass (4.12) einerKombination der Regeln (4.10) und (4.11) entspricht. Die zusammengesetzteRegel (4.12) besagt also, dass /U/ genau dann als <S> realisiert wird, wennes im Kontext LC RC steht.

Angaben im Format dieser vier Regeltypen waren ursprunglich nur infor-mell, um die Wirkung der als endliche Transduktoren formulierten Regelnzu dokumentieren. Durch Regelcompiler wie dem in Kapitel 5 beschriebenenwird es aber moglich, die endlichen Transduktoren maschinell aus dem hierbeschriebenen Format abzuleiten.

3Als Variablen werden bei der Beschreibung der Regeln”U“ fur das Symbol in der

zugrunde liegenden Form,”S“ fur das Symbol in der Oberflachenform,

”LC“ fur den linken

Kontext und”RC“ fur den rechten Kontext verwendet.


4.3.3 Beispiel

Statt der generativen Regeln in Abschnitt 4.2.1 konnte man die folgendenTwo-Level-Regeln formulieren, um aus � � �hD \ � L � <dobrzy> abzuleiten.

r:rz ⇔ �(4.13)

i:y ⇔ r �(4.14)

Zusatzlich musste noch angegeben werden, als welches Oberflachensym-bol die zugrunde liegenden Symbol prinzipiell realisiert werden konnen. Dieendlichen Transduktoren, in die die Regeln umgewandelt werden, enthaltendiese Information implizit, wenn man die Regeln aber wie hier notiert, reichtdie Information, die sie geben, nicht aus. Zum Beispiel besagt Regel 4.13,dass � \ � in einem bestimmten Kontext als <rz> realisiert wird, es wird aberanhand der Regel allein nicht klar, wie � \ � sonst realisiert wird.

Zu diesem Zweck gibt man zusatzlich noch die erlaubten Symbolpaare(engl.

”feasible pairs“) an. Im Beispiel konnten das sein:

d:d�:o b:b r:r r:rz � :0 i:i i:y

An der Liste sieht man, dass es fur � � � , � � � , � D � und �� nur eine Rea-lisierungmoglichkeit gibt, darum sind fur diese Phoneme auch keine Regelnnotig.

Ein Unterschied zwischen generativen Regeln und Two-Level-Regeln ist,dass Two-Level-Regeln nicht alle Symbole, die nicht auf der lexikalischenSeite des Zentrums stehen, unverandert lassen. So liefert Regel 4.13 zumEingabewort � � �hD \ � L � die Ausgaben <dobrzy> und *<dobrzi>. Weil durchdie Regel nur die Realisierungen von � \ � festgelegt wird, werden alle Reali-sierungen der ubrigen Phoneme akzeptiert.

Wie in Definition 4.2 gesagt, muss eine Oberflachenform zu einer zugrundeliegenden Form von allen Regeln akzeptiert werden. Die oben als Ausgabenvon Regel 4.13 genannte Form *<dobrzi> wird von Regel 4.14 zuruckge-wiesen, so dass als Ausgabe, wenn man beide Regeln berucksichtigt, nur diekorrekte Form <dobrzy> bleibt.

4.4 Bewertung der Implementierbarkeit

Unter dem Gesichtspunkt der Implementierbarkeit weisen die beiden vorge-stellten Formalismen große Unterschiede hinsichtlich der Komplexitat auf.Es ist hier zwischen der Generierung und der Erkennung von Wortformen zuunterscheiden.


Bei der Generierung geht man von einer zugrunde liegenden Form aus,aus der eine Oberflachenform abgeleitet werden soll. Eine Implementation dergenerativen Phonologie muss dazu nur die Regeln der Reihe nach anwendenund darauf achten, dass die richtige Anzahl von Zyklen durchlaufen wird.

Die Implementation eines Two-Level-Modells muss etwas anders vorge-hen als in Definition 4.2 beschrieben. Im Allgemeinen ist moglich, dass eineRegel zu einer zugrunde liegenden Form unendlich viele Oberflachenformenzulasst. Es ist einer Implementation also nicht moglich, alle Regeln getrenntanzuwenden und dann die von allen Regeln generierten Formen als Ergebnisauszugeben, so wie es in Definition 4.2 definiert wird. Durch die Reprasen-tation der Regeln als endliche Transduktoren ist es Implementationen wiePC-KIMMO aber moglich, alle Regeln gleichzeitig auf eine zugrunde liegen-de Form anzuwenden. Dazu verwendet man (zumindest theoretisch) die inAbschnitt 3.4.1 beschriebene Schnittoperation uber endlichen Transdukto-ren, um statt mit den einzelnen die Regeln definierenden Transduktoren miteinem großen gemeinsamen Transduktor zu arbeiten.

Bei der Erkennung von Formen geht es darum, zu einer gegebenen Ober-flachenform die moglichen zugrunde liegenden Formen zu finden. In beidenFormalismen ist es moglich, dass zu einer Oberflachenform mehr als einezugrunde liegende Form existiert.

In Abschnitt 3.4.1 wurde gesagt, dass endliche Transduktoren umgekehrtwerden konnen. Mit dem invertieren Transduktor konnen dann aus Ober-flachenformen zugrunde liegende Formen abgeleitet werden. Fur die Two-Level-Phonologie konnen die invertierten Transduktoren auf dieselbe Weiseangewandt werden wie die nicht invertierten (siehe oben). Weil die (inver-tierten) Regeln parallel angewandt werden, kann die Implementation nachjedem verarbeiteten Symbol in einem Lexikon nachprufen, ob die bisher alsAusgabe generierten Prafixe des Gesamtwortes uberhaupt moglich sind, undsie kann unmogliche Prafixe fur die weitere Verarbeitung unberucksichtigtlassen. So kann die Implementation mit dem Problem umgehen, dass dieRegeln eventuell unendlich viele zugrunde liegende Formen zulassen.

Das Problem, mit unendlich vielen Formen umgehen zu mussen, hattenauch Erkenner fur die generative Phonologie. Anders als Erkenner fur dieTwo-Level-Phonologie konnen sie aber nicht mit Hilfe eines Lexikons dieunmoglichen Formen ausschließen, weil die zugrunde liegende Form ja erstnach Anwendung der letzten Regel feststeht.

Es moglich, aus den zyklischen Regeln mit der Kompositionsoperation4

4Die Kompositionsoperation ist in Kapitel 6 nicht aufgefuhrt, weil sie fur die Two-Level-Phonologie nicht von Bedeutung ist. Fur zwei ε-freie Transduktoren T1 und T2 verhalt sichdie Komposition T1 ◦T2 genauso, als ob T1 und T2 hintereinander angewendet wurden. Infunktionaler Schreibweise gilt also fur jedes Wort u: (T1 ◦ T2)(u) = T2(T1(u)).


einen Transduktor fur einen Zyklus abzuleiten und diesen dann zu invertie-ren; genauso kann ein Transduktor fur die postzyklischen Regeln gebildetwerden. Bis an diesen Punkt kommen Kaplan und Kay in [12]. Die Analyseder Oberflachenform musste aber, analog zur Generierung, in mehreren Zy-klen erfolgen, wobei vorher nicht feststeht, wie viele Zyklen dies sind, weil dasvon der morphologischen Komplexitat des Wortes abhangt. Es ist leicht ein-zusehen und wird auch von Kaplan und Kay bewiesen, dass es nicht moglichist, dies mit Hilfe von endlichen Transduktoren zu implementieren.

Mir ist keine Implementation eines sprachunabhangigen Erkenners furdie generative Phonologie bekannt, und aus den genannten Grunden halteich einen solchen Erkenner, der mit beliebigen Regeln und beliebigen Lexikaumgehen kann, fur unmoglich.

Kapitel 5

Der Regelcompiler furPC-KIMMO

In diesem Kapitel beschreibe ich meine Tcl-Implementation eines Regelcom-pilers fur PC-KIMMO. Der Regelcompiler liest Regeln in dem in Abschnitt4.3.2 beschriebenen Format und wandelt sie in das von PC-KIMMO erwar-tete Format, reprasentiert als endliche Transduktoren, um.

Es gab bereits fruher Implementationen von Regelcompilern fur Two-Level-Regeln. Eine der ersten ist der von Ritchie et. al. in [17] beschriebene,bei dem allerdings die Ausdrucksfahigkeit der regularen Ausdrucke gegenubermeinem Compiler eingeschrankter ist. Ein weiteres Beispiel ist der TwoLCompiler (siehe [13]), der am Xerox Palo Alto Research Center entwickeltwurde.

5.1 Tcl

Tcl (”Tool Command Language“) wurde ab 1988 von John Ousterhout, da-

mals Professor an der Universitat Berkeley, entwickelt. Tcl ist eine Skript-sprache, die eine Anzahl von grundlegenden Programmierkonstrukten bereit-stellt, wie Variablen, Kontrollstrukturen und Prozeduren (Funktionen). Au-ßerdem bietet Tcl ein relativ einfaches Interface, so dass Applikationen dieKernfunktionalitat von Tcl um eigene Prozeduren erweitern konnen. ErsteAnwendungen von Tcl waren Tk (zur Entwicklung von grafischen Benut-zerinterfaces) und Expect (zur automatischen Steuerung von interaktivenProgrammen).

Die wichtigste Site im WWW zu Tcl ist der”Tcl Developer Xchange“

(http://www.tcl.tk/).Eine wichtige Eigenschaft von Tcl ist der Umgang mit Strings. Aus Sicht

56

KAPITEL 5. DER REGELCOMPILER FUR PC-KIMMO 57

eines Tcl-Skripts sind Strings der einzige Datentyp; Bibliotheksfunktionenwandeln ihre Argumente, wenn notig, in andere Datentypen um. Dadurch istder Umgang mit Strings und die Umwandlung von Strings in andere Daten-typen und umgekehrt sehr einfach. Sehr nutzlich ist in Tcl auch der einfacheUmgang mit Listen. Listen werden als Strings reprasentiert (und konnen alsoauch als solche verwendet werden) und intern bei Bedarf in ihre Elementeaufgespalten.

Zu erwahnen sind noch die Arrays, von denen ich bei der Implementationdes Regelcompilers starken Gebrauch gemacht habe. Die Arrays haben inTcl die Funktion von z. B. Assoziationslisten oder Hashtabellen in anderenProgrammiersprachen. Es handelt sich also bei einem Array um eine Daten-struktur, in der Werte unter einem Schlusselwort (das ein beliebiger Stringsein kann) abgespeichert und wieder abgerufen werden konnen. Die Paarevon Schlusselwort und Wert werde die Elemente des Arrays genannt.

Die folgenden Codebeispiele fuhren die Syntax und einige Kommandosvon Tcl soweit ein, wie es zum Verstandnis der Beispiele, die ich im Zusam-menhang mit dem Regelcompiler gebe, notwendig ist.

• Die Argumente eines Kommandos werden, durch Leerzeichen getrennt,hinter dem Kommandonamen eingegeben. Wenn ein Argument Leer-zeichen enthalt, wird es mit Anfuhrungszeichen umschlossen.1

% puts "Hallo Welt"

Hallo Welt

• Listen werden mit geschweiften Klammern umschlossen. In der Ausgabeauf die Konsole wird die außerste Klammerebene weggelassen.

% puts {Liste mit vier Elementen}

Liste mit vier Elementen

• Das Kommando set dient dazu, eine Variable zu setzen (Aufruf mitzwei Argumenten) oder den Wert einer Variable abzufragen (Aufrufmit einem Argument).

1Das Prozentzeichen ist der Standardprompt des Tcl-Interpreters, wenn er sich im in-teraktiven Modus befindet. Ich verwende das Prozentzeichen vor Zeilen, die ein Kommandoenthalten. Die Ausgabe des Kommandos befindet sich jeweils in der nachsten Zeile ohnevoranstehendes Prozentzeichen.


% set v 0

0

% set v

0

• Die Elemente eines Arrays werden ebenfalls mit set gesetzt, der Namedes Elements (das Schlusselwort) wird zwischen runden Klammern anden Namen der Variablen (dem Namen des Arrays) angehangt.

% set a(start) 0

0

% set a(end) {1 2}

1 2

% set a(end)

1 2

• Das Kommando array get liefert alle Elemente des Arrays als Liste,deren Elemente abwechselnd der Name und der Wert eines der Elemen-te des Arrays sind. array set implementiert den umgekehrten Weg, esweist einem Array Elemente aus einer Liste, deren Struktur der einervon array get gelieferten Liste entspricht, zu.

% array get a

start 0 end {1 2}

% array set b {start 0 end {1 2}}

% set b(start)

0

% set b(end)

1 2

• Ein Kommando wird mit eckigen Klammern umschlossen, wenn seineAusgabe als Argument eines anderen Kommandos dienen soll.

% array get a

start 0 end {1 2}

% array set c [array get a]

% set c(start)

0


Ich habe den Regelcompiler in Tcl implementiert, weil er mit vielenStrings umgehen muss und sich Tcl dafur, wie gesagt, gut eignet. Außerdemist – wie meistens bei Skriptsprachen – der Entwicklungsaufwand geringerals er z. B. mit C oder Java gewesen ware. Dagegen ist Tcl als Skriptsprachein der Ausfuhrung naturlich langsamer als C oder Java. Der Entwicklungs-aufwand war mir aber in diesem Fall wichtiger als die Effizienz zur Laufzeit.

5.2 Endliche Transduktoren in Tcl

Der Regelcompiler basiert auf einer Reihe von grundlegenden Prozedurenzum Umgang mit endlichen Transduktoren. Mit den Prozeduren kann einTcl-Skript endliche Transduktoren generieren und die in Abschnitt 3.4 be-sprochenen Operationen auf sie anwenden.

5.2.1 Das Datenformat

Bei der Reprasentation der endlichen Transduktoren habe ich – wie bei derAuswahl der Programmiersprache –, um den Aufwand beim Programmierenund besonders bei der Fehlersuche zu verringern, vor allem auf Einfachheitund nicht auf Effizienz geachtet. Das zeigt sich besonders bei den Ubergangen,die als lineare Liste gespeichert werden.

Ein endlicher Transduktor hat die folgenden Komponenten:

• einen Startzustand;

• eine Menge von Endzustanden;

• eine Menge von Ubergangen. Die Ubergange besitzen ihrerseits

– einen Ausgangszustand;

– ein Eingabesymbol;

– ein Ausgabesymbol;

– einen Zielzustand.

Ein Ubergang wird als vierelementige Tcl-Liste in der Form {Ausgangs-zustand Eingabesymbol Ausgabesymbol Zielzustand } gespeichert.

Ein endlicher Transduktor wird innerhalb einer Prozedur als Tcl-Arraygespeichert. Das Element start speichert den Startzustand, end die End-zustande (als Tcl-Liste) und edges die Ubergange (als Tcl-Liste). Um einenTransduktor als Ruckgabewert aus einer Prozedur zu ubergeben, wird er mit


Abbildung 5.1: Der endliche Transduktor T als Graph.

array get in eine Tcl-Liste ungewandelt; eine Prozedur, die mit ihm arbei-ten will, wandelt die Liste mit array set wieder in ein Array um.

Als Beispiel fur die Reprasentation in Tcl sei der Transduktor T =({c}, {a, b}, {0, 1}, 0, {0, 1}, {(0, c, a, 0), (0, ε, a, 0), (0, ε, b, 1), (1, ε, b, 1)}) ge-geben. Abbildung 5.1 zeigt diesen Transduktor als Graphen. Als Liste wareeine Reprasentation von T z. B. {start 0 end {0 1} edges {{0 c a 0}{0 0 a 0} {0 0 b 1} {1 0 b 1}}}. Wenn ein Array fst mit dieser Listebelegt wird, ergibt sich fur die Elemente von fst:

% array set fst {start 0 end {0 1} edges {{0 c a 0} {0 0 a 0} {

0 0 b 1} {1 0 b 1}}}

% set fst(start)

0

% set fst(end)

0 1

% set fst(edges)

{0 c a 0} {0 0 a 0} {0 0 b 1} {1 0 b 1}

Das ε-Symbol wird in der Reprasentation der Ubergange durch 0 ersetzt.Dadurch ist 0 als Name fur ein

”normales“ Symbol ausgeschlossen.

Das Eingabe- und Ausgabealphabet und die Menge der Zustande werdennur implizit reprasentiert. Wenn eine Prozedur eine dieser Menge benotigt,leitet sie sie aus den Informationen, die die explizit reprasentierten Elemente(edges fur das Eingabe- und Ausgabealphabet, start, end und edges furdie Zustande) enthalten, ab.

Als Namen der Zustande werden, wie auch in der Literatur allgemeinublich, ganze Zahlen verwendet. Wenn ein neuer Zustand gebraucht wird,wird die nachste Zahl nach der hochsten der bestehenden Zustande genom-men; im Beispiel ware das 2.

Mit Ausnahme der 0 konnen die Symbolnamen beliebige Strings sein.


Abbildung 5.2: Der von edge a b gelieferte endliche Transduktor als Graph.

5.2.2 Grundlegende Prozeduren

Die Grundlage des Regelcompilers bilden Prozeduren, die die in Abschnitt3.4.1 beschriebenen Operationen uber endlichen Transduktoren implemen-tieren.

edge und empty

Zunachst muss mit einer der Prozeduren edge oder empty ein neuer Trans-duktor gebildet werden. empty liefert einen Transduktor T mit L(T ) ={(ε, ε)}.

% empty

edges {} start 0 end 0

edge initialisiert zu zwei Symbolmengen Σu und Σs einen Transduktor Tmit L(T ) ⊆ Σu ∪{ε}×Σs ∪{ε}. edge werden dazu eine Menge von Eingabe-symbolen (U) und eine Menge von Ausgabesymbolen (S) ubergeben. edge lie-fert dann einen Transduktor T mit L(T ) = {(u, s) | u ∈ U∧s ∈ S}, also einenTransduktor, mit einem Startzustand, einem Endzustand und Ubergangenvom Start- zum Endzustand, wodurch der Transduktor nur Pfade der Lange1 zulasst.

Im einfachsten Fall werden edge ein Eingabe- und ein Ausgabesymbolubergeben, und edge liefert einen Transduktor, der das Eingabesymbol indas Ausgabesymbol ubersetzt. Abbildung 5.2 zeigt den Transduktor, der imfolgenden Beispiel gebildet wird, als Graphen.

% edge a b

edges {{0 a b 1}} start 0 end 1

Es gibt einige Falle, in denen edge das erste und zweite Argument nichtals Ein- bzw. Ausgabesymbol interpretiert, sondern als eine Variable, die fureine Menge von Ein- bzw. Ausgabesymbolen steht. Bei der Aufzahlung derMoglichkeiten wird im Folgenden beschrieben, auf welche Weise edge den alserstes bzw. zweites Argument ubergebenen String interpretiert, um darausdie Menge der Ein- bzw. Ausgabesymbole abzuleiten.


An edge kann eine Menge von benannten Teilmengen des Alphabets uber-geben werden. Wenn einer der beiden Strings der Name einer solchen Teil-menge ist, dann wird als Menge der Ein- bzw. Ausgabesymbole die entspre-chende Teilmenge verwendet. Im folgenden Beispiel wird an edge als erstesArgument der Name der benannten Teilmenge A ubergeben; dass A eine solcheTeilmenge ist, teilt man edge durch Angabe des Namens und der Extensi-on der Menge hinter dem Schalter -subsets mit. Weil die Teilmenge A dieSymbole x und y enthalt, besitzt der von edge ausgegebene Transduktor zweiUbergange.

% edge A b -subsets {A {x y}}

edges {{0 x b 1} {0 y b 1}} start 0 end 1

Ein bestimmtes Symbol steht fur das gesamte Alphabet; wenn dieses Sym-bol ubergeben wird, dann wird als Menge der Ein- bzw. Ausgabesymbole dasAlphabet eingesetzt. Das setzt voraus, dass zusatzlich an edge das Alpha-bet ubergeben wird2; andernfalls wird ein leeres Alphabet angenommen. DasSymbol, das fur das Alphabet steht, ist normalerweise @, es kann aber beimAufruf von edge stattdessen hinter dem Schalter -all ein anderes Symbolangegeben werden. Ansonsten verhalt sich edge in diesem Fall wie im vor-herigen, indem es dem neuen Transduktor fur jede Kombination aus Ein-und Ausgabesymbol einen Ubergang hinzufugt. Das Symbol 0, das fur εsteht, wird allerdings immer implizit dem Alphabet hinzugefugt. Dadurcherklart sich, warum in der Ausgabe der drei folgenden Beispiele auch jeweilsUbergange mit 0 als Ausgabesymbol vorkommen.

% edge A @ -subsets {A {x y}} -alphabet {x y z}

edges {{0 x x 1} {0 x y 1} {0 x z 1} {0 x 0 1} {0 y x 1} {0 y y

1} {0 y z 1} {0 y 0 1}} start 0 end 1

% edge A @ -subsets {A {x y}} ;# das Alphabet ist leer

edges {{0 x 0 1} {0 y 0 1}} start 0 end 1

% edge A = -subsets {A {x y}} -alphabet {x y} -all =

edges {{0 x x 1} {0 x y 1} {0 x 0 1} {0 y x 1} {0 y y 1} {0 y 0

1}} start 0 end 1

Wenn das erste oder zweite Argument von edge mit ~ beginnt, dannwird es als durch ~ getrennte Liste von Symbolen interpretiert. Die einzel-nen Symbole werden wie oben beschrieben interpretiert; als Menge der Ein-

2Die Tcl-Prozedur weicht von der Definition endlicher Transduktoren ab, indem nichtzwischen Eingabe- und Ausgabealphabet unterschieden wird.


bzw. Ausgabesymbole wird dann das Komplement der Vereinigungsmengeverwendet. Auch hier ist es erforderlich, dass die Extension des Alphabetsbeim Aufruf von edge angegeben wurde.

% edge ~a b -alphabet {a b}

edges {{0 b b 1} {0 0 b 1}} start 0 end 1

% edge ~A b -subsets {A {a b}} -alphabet {a b c}

edges {{0 c b 1} {0 0 b 1}} start 0 end 1

% edge ~a~b~c b -alphabet {a b c d e}

edges {{0 d b 1} {0 e b 1} {0 0 b 1}} start 0 end 1

Operationen uber endlichen Transduktoren

Es stehen hier die Prozeduren union, concat, kleene0, kleene1, option,rmepsilon, determinize, connect und minimize zur Verfugung. Die Proze-duren verwenden mit Ausnahme von option und connect die in Abschnitt3.4.1 beschriebenen Verfahren.

union bildet die Vereinigung zweier Transduktoren.

% union [edge a b] [edge c b]

edges {{2 a b 1} {2 c b 1}} start 2 end 1

concat bildet die Verkettung zweier Transduktoren.

% concat [edge a b] [edge c b]

edges {{2 c b 1} {3 a b 2}} start 3 end 1

kleene03 implementiert die Sternbildung eines Transduktors.

% kleene0 [edge a b]


kleene1 implementiert ebenfalls die Sternbildung eines Transduktors.Wahrend kleene0 aber beliebige Wiederholungen erlaubt, ist bei kleene1die 0-malige Wiederholung ausgeschlossen.

% kleene1 [edge a b]

edges {{1 a b 1} {2 a b 1}} start 2 end 1

3Die englische Bezeichnung fur diese Operation ist”kleene closure“.


Abbildung 5.3: Der Transduktor {edges {{0 a b 1} {2 c b 3} {4 0 0

0} {4 0 0 2}} start 4 end {1 3}} als Graph.

option bildet die 0- oder 1-malige Wiederholung eines Transduktors. DieImplementation von option fugt dazu der Menge der Endzustande des Ein-gabetransduktors den Startzustand hinzu.

% option [edge a b]

edges {{1 a b 3}} start 1 end {1 3}

Die ubrigen Prozeduren optimieren endliche Transduktoren. Sie werdenvon den oben genannten union, concat, kleene0, kleene1 und option auf-gerufen, wenn durch die Operation dieser aufrufenden Prozedur ein Trans-duktor entstehen kann, der durch die entsprechende Optimierungsprozeduroptimiert werden kann.

Damit die Optimierungen nach den in Abschnitt 3.4.1 beschriebenenVerfahren funktionieren, mussen die Optimierungsprozeduren in der ange-gebenen Reihenfolge aufgerufen werden, also z. B.

”minimize [connect

[determinize [rmepsilon $fst]]]“.rmepsilon loscht die ε-Ubergange. Im ersten der unten stehenden Bei-

spiel wird der Transduktor in Abbildung 5.3 in den Transduktor in Abbildung5.4 umgewandelt. Dabei wird der Ubergang {4 0 0 0} durch {4 a b 1} er-setzt, weil {0 a b 1} vom Zustand 0 ausgeht und daher in einem Pfad auf{4 0 0 0} folgen kann. Entsprechend wird {4 0 0 2} durch {4 c b 3} er-setzt. Im zweiten Beispiel ist im Eingabetransduktor zusatzlich der Zustand 0

Endzustand, darum ist im Ausgabetransduktor auch Zustand 4 Endzustand.

% rmepsilon {edges {{0 a b 1} {2 c b 3} {4 0 0 0} {4 0 0 2}} st

art 4 end {1 3}}

edges {{0 a b 1} {2 c b 3} {4 a b 1} {4 c b 3}} start 4 end {1

3}

% rmepsilon {edges {{0 a b 1} {2 c b 3} {4 0 0 0} {4 0 0 2}} st


Abbildung 5.4: Der Transduktor {edges {{0 a b 1} {2 c b 3} {4 a b

1} {4 c b 3}} start 4 end {1 3}} als Graph.

Abbildung 5.5: Der Transduktor {edges {{0 a b 0} {0 a b 1}} start 0

end {0 1}} als Graph.

art 4 end {0 1 3}}

edges {{0 a b 1} {2 c b 3} {4 a b 1} {4 c b 3}} start 4 end {0

1 3 4}

determinize determiniert einen Transduktor im Sinne von Abschnitt3.4.2. Das heißt, dass es nach dem Aufruf von determinize keine zweiUbergange mehr gibt, deren erste drei Komponenten (Ausgangszustand, Ein-gabesymbol und Ausgabesymol) ubereinstimmen, deren Zielzustand aber un-terschiedlich ist. Im Beispiel wird der Transduktor in Abbildung 5.5 in denTransduktor in Abbildung 5.6 umgewandelt.

% determinize {edges {{0 a b 0} {0 a b 1}} start 0 end {0 1}}

edges {{0 a b 2} {2 a b 2}} start 0 end {0 1 2}

connect loscht alle Ubergange, die nicht in einem erfolgreichen Pfad vor-kommen konnen. Die Prozedur verandert in dem Sinne den Transduktor


Abbildung 5.6: Der Transduktor {edges {{0 a b 2} {2 a b 2}} start 0

end {0 1 2}} als Graph.

Abbildung 5.7: Der Transduktor {edges {{4 a b 1} {4 c b 3}} start 4

end {1 3}} als Graph.

nicht, dass genau alle erfolgreichen Pfade des Ausgangstransduktors auch alserfolgreiche Pfade der Ausgabe von connect sind.

Der Algorithmus, den ich implementiert habe, startet beim Startzustandund verfolgt alle Pfade des Transduktors. Wenn ein Endzustand erreicht wird,werden alle Zustande, die auf dem Pfad zu diesem Zustand fuhren, markiert.Am Ende werden dann alle nicht markierten Zustande und alle Ubergangemit einem solchen Zustand als Ausgangs- oder Zielzustand geloscht.

Im ersten Beispiel wird der Transduktor in Abbildung 5.4 in den Trans-duktor in Abbildung 5.7 umgewandelt. Im zweiten Beispiel wird aus demTransduktor in Abbildung 5.6 nur der (in der Abbildung nicht dargestellte)Zustand 1 aus der Menge der Endzustande entfernt, weil der Zustand sonstweder als Startzustand noch als Ausgangs- oder Zielzustand eines Ubergangsvorkommt.

% connect {edges {{0 a b 1} {2 c b 3} {4 a b 1} {4 c b 3}} star

t 4 end {1 3}}

edges {{4 a b 1} {4 c b 3}} start 4 end {1 3}

% connect {edges {{0 a b 2} {2 a b 2}} start 0 end {0 1 2}}

edges {{0 a b 2} {2 a b 2}} start 0 end {0 2}

minimize fasst schließlich Zustande zusammen, so dass ein Transduktor


Abbildung 5.8: Der Transduktor {edges {{1 a b 1}} start 1 end 1} alsGraph.

mit einer minimalen Zahl von Zustanden entsteht. Der Transduktor in Ab-bildung 5.6 wird so in den Transduktor in Abbildung 5.8 umgewandelt.

% minimize {edges {{0 a b 2} {2 a b 2}} start 0 end {0 2}}


5.2.3 Regulare Ausdrucke

Die im letzten Abschnitt beschriebenen Prozeduren konnen direkt aufge-rufen werden, aber es konnen auch regulare Ausdrucke mit der Prozedurcompile-regexp in endliche Transduktoren umgewandelt werden.

Das Eingabeformat fur die regularen Ausdruck ist ahnlich dem ublichenFormat, wie es z. B. in Tcl oder von grep verwendet wird. Im Einzelnenwerden folgende Konstrukte erkannt:

• Literale werden als u:s angegeben. u und s werden als Eingabe-bzw. Ausgabesymbol an edge ubergeben. An compile-regexp mit-subsets, -alphabet und -all ubergebene Argumente werden dabeian edge weitergegeben.

% compile-regexp a:b


% compile-regexp A:b -subsets {A {a c}}


• Wenn Ausgabe- und Eingabesymbol ubereinstimmen, kann als Abkur-zung auch das Symbol fur sich geschrieben werden.

% compile-regexp a

edges {{0 a a 1}} start 0 end 1


•”|“ entspricht einem Aufruf der Prozedur union.

% compile-regexp a:b|c:b


• Wenn zwischen zwei Ausdrucken ein Leerzeichen steht, dann werdensie mit concat verknupft.

% compile-regexp "a:b c:b"

edges {{2 c b 1} {3 a b 2}} start 3 end 1

•”*“ steht fur einen Aufruf von kleene0.

% compile-regexp a:b*


•”+“ steht fur einen Aufruf von kleene1.

% compile-regexp a:b+

edges {{1 a b 1} {2 a b 1}} start 2 end 1

•”?“ steht fur einen Aufruf von option.

% compile-regexp a:b?

edges {{1 a b 3}} start 1 end {1 3}

•”*“,

”+“ und

”?“ beziehen sich immer auf den links davor stehenden

Ausdruck. Komplexe Ausdrucke konnen mit runden Klammern zusam-mengefasst werden.

% fst::compile-regexp "(a:b c:d)*"

edges {{1 a b 2} {2 c d 1}} start 1 end 1

•”|“ bezieht sich auf die direkt rechts und links stehenden Ausdrucke.a:b c:d | e:f g:h wird implizit als a:b (c:d | e:f) g:h geklam-mert:

% compile-regexp "a:b c:d | e:f g:h"

edges {{2 g h 1} {3 c d 2} {3 e f 2} {4 a b 3}} start 4 en

d 1


Auch hier kann die Prioritat der Auswertung mit Klammern geandertwerden.

% compile-regexp "(a:b c:d) | e:f g:h"

edges {{2 g h 1} {3 c d 2} {4 a b 3} {4 e f 2}} start 4 en

d 1

5.3 Two-Level-Regeln

Auf der Grundlage der oben beschriebenen Prozeduren sind auch Prozedurenfur die vier Typen von Two-Level-Regeln implementiert. Die Prozeduren hei-ßen surfaceCoercionRule, contextRestrictionRule, compositeRule undexclusionRule.

Die Prozeduren surfaceCoercionRule, contextRestrictionRule undexclusionRule sind ahnlich aufgebaut. Analog zum in Abschnitt 4.3.2 be-schriebenen Regelformat erwarten sie als Argumente mindestens einen linkenKontext, ein Zentrum (das lexikalische Symbol und das Oberflachensymbol)und einen rechten Kontext. Zusatzlich konnen wie ublich die Extension desAlphabets (-alphabet), Teilmengen des Alphabets (-subsets) und der Na-me eines Symbols fur das gesamte Alphabet (-all) angegeben werden.

Der linke und der rechte Kontext werden mit compile-regexp in end-liche Transduktoren umgewandelt. Die beiden Transduktoren werden dannzusammen mit dem Zentrum gemaß der Semantik des Regeltyps zu einemTransduktor verknupft. Wie diese Verknupfung geschieht, wird im Folgendenam Beispiel der Oberflachenerzwingungsregel gezeigt.

Weil sich die zusammengesetzte Regel (”Composite Rule“) als Schnitt ei-

ner Oberflachenerzwingungsregel (”Surface Coercion Rule“) und einer Kon-

textbeschrankungsregel (”Context Restriction Rule“) darstellen lasst, ist die

Prozedur compositeRule auf diese Weise implementiert.

5.3.1 Beispiel: surfaceCoercionRule

Um die Wirkung einer Oberflachenerzwingungsregel zu zeigen, seien ein Ein-gabe- und ein Ausgabewort sowie eine Regel wie in Abbildung 5.9 gegeben.

Die Regel muss zunachst alle Teilsequenzen l1:l′1 · · · ln:l′n im Eingabe- und

Ausgabewort erkennen, die auf den linken Kontext (LC) passen. Wenn dasnachste Symbol im Eingabewort u ist, dann gibt es zwei Moglichkeiten:

1. s = s′, d. h. das u entsprechende Symbol im Ausgabewort ist der Ober-flachenteil des Zentrums der Regel. Dieser Fall wird von der Regel ak-


· · · l1 · · · ln u r1 · · · rm · · · Eingabewort

· · · l′1 · · · l′n s′ r′1 · · · r′m · · · Ausgabewort

u : s ⇐ LC RC Regel

Abbildung 5.9: Beispiel fur die Wirkung einer Oberflachenerzwingungsregel(siehe Text)

zeptiert. Der Zweck einer Oberflachenerzwingungsregel ist ja, in be-stimmten Kontexten zu verhindern, dass u als ein anderes Symbol alss realisiert wird; s = s′ schließt die Regel also nie aus.

2. s 6= s′, d. h. das u entsprechende Symbol im Ausgabewort ist nicht derOberflachenteil des Zentrums der Regel. In diesem Fall ist als nachs-tes der rechte Kontext zu uberprufen. Wenn sich direkt an u:s eineSequenz r1:r′1 · · · rm:r′m anschließt, die auf den rechten Kontext (RC)passt, dann ist genau der Fall eingetreten, den die Regel verhindernsoll: eine Sequenz LC u:s′ RC mit s 6= s′. Der endliche Transduktor,der die Regel implementiert, muss dann in den Fehlerzustand wechseln.

Andernfalls, wenn auf u:s keine Sequenz folgt, die auf den rechten Kon-text passt, liegt wieder kein Fall vor, den die Regel ausschließt.

In jedem Fall muss der Transduktor, der die Regel implementiert, in sei-nen Ursprungszustand zuruckkehren, wenn klar ist, dass die Regel die Se-quenz, die gerade untersucht wird, nicht verbietet. Dadurch konnen weitereVorkommen des linken Kontexts gefunden werden. Dabei muss berucksichtigtwerden, dass Symbolpaare, die bereits als Bestandteil des vorherigen linkenKontexts, als das Symbolpaar der Regel oder als Bestandteil des rechten Kon-texts untersucht wurden, auch schon Teil eines folgenden linken Kontexts seinkonnen.

In den folgenden Abschnitten beschreibe ich, wie ich die Bestandteile derRegel implementiert habe.

Der linke Kontext

Der linke Kontext einer Regel wird als regularer Ausdruck angegeben. Da-durch ist es moglich, ihn mit compile-regexp in einen endlichen Trans-duktor umzuwandeln. Der von compile-regexp gelieferte Transduktor be-


Abbildung 5.10: Linker Kontext e:e b:b y:0*

sitzt einen Startzustand, eine Menge von Endzustanden und eine Menge vonUbergangen.

Als Beispiel sei die Regel 5.1 gegeben:

i:i ⇐ e:e b:b y:0*(5.1)

compile-regexp liefert fur den regularen Ausdruck, auf den der linkeKontext passen muss, damit die Regel anwendbar ist, den in Abbildung 5.10gezeigten Transduktor.

Der Transduktor fur den linken Kontext soll einen regularen Ausdruck(hier: e:e b:b y:0*) erkennen. Zeichenketten, die das Muster nicht erfullen,sollen aber nicht zuruckgewiesen, sondern ubergangen werden. Darum werdenzum Transduktor aus Abbildung 5.10 Ubergange hinzugefugt, die solche Falleabdecken. Wenn der Transduktor z. B. in Zustand 1 ist und ein Symbolpaary:0 gelesen wird, dann ist das davor gelesene Symbolpaar e:e nicht derAnfang einer Kette von Symbolpaaren, die den regularen Ausdruck abdeckt.Der Transduktor muss dann in Zustand 0 zuruckkehren und dort bleiben,bis erneut ein Symbolpaar e:e gelesen wird. Ein Sonderfall tritt ein, wennim Zustand 1 e:e gelesen wird. Der Transduktor muss dann in Zustand 1bleiben, weil das zuletzt gelesene Paar e:e wieder der Anfang eines passendenlinken Kontexts sein kann.

Unter der Voraussetzung, dass die erlaubten Symbolpaare e:e, b:b, y:0,i:i und i:y sind, ergibt sich mit diesen Ruckverbindungen der Transduktorin Abbildung 5.11. Es fallt auf, dass vom Zustand 2 nur Ruckverbindun-gen fur die Symbolpaare e:e und b:b ausgehen. Fur i:i und i:y gibt esnoch keine Ruckverbindungen, weil es abhangig vom Regeltyp ist, wie sichder Transduktor verhalten muss, wenn ein Symbolpaar mit der lexikalischenSeite des Zentrums der Regel als zugrunde liegendes Symbol gelesen wird.Der Transduktor fur den linken Kontext wird aber unabhangig vom Regel-typ generiert, darum werden die Ubergange mit i:i und i:y erst spaterhinzugefugt.

Im Unterschied zum Transduktor in Abbildung 5.10 sind in Abbildung5.11 alle drei Zustande Endzustande. Dadurch ist es moglich, dass der Trans-


Abbildung 5.11: Linker Kontext e:e b:b y:0* mit Ruckverbindungen. (DieSymbolpaare gehoren immer zu der links daneben verlaufenden Kante.)

Abbildung 5.12: Linker Kontext # | e:e ohne besondere Behandlung desBoundary-Symbols.

duktor auch Paare von Zeichenketten akzeptiert, die nicht mit einem voll-standigen linken Kontext enden, z. B. e:e b:b b:b oder e:e y:0 e:e. DieRegel macht nur eine Aussage uber das Vorkommen von i:i und i:y, darumdurfen die beiden genannten Sequenzen von Symbolpaaren nicht zuruckge-wiesen werden.

Im linken Kontext kann ein spezielles Symbol verwendet werden, das furden Wortanfang steht. Das Symbol wird

”Boundary-Symbol“ genannt und

normalerweise mit # bezeichnet.4 Der linke Kontext einer Regel wie 5.2 ist amWortanfang erfullt (egal welches Symbolpaar am Wortanfang gelesen wird)und außerdem, wenn e:e gelesen wird.

i:i ⇐ (# | e:e)(5.2)

compile-regexp behandelt # nicht besonders, darum liefert es fur denlinken Kontext den Transduktor in Abbildung 5.12.

Ubergange mit Boundary-Symbol wie die von 0 nach 1 werden geloscht5

und so ersetzt, dass der Zielzustand (hier: 1) vom Startzustand aus erreicht

4Das Boundary-Symbol kann mit dem Schalter -boundary beim Aufruf der Regelpro-zeduren geandert werden.

5Der Ubergang von 0 nach 1 in Abbildung 5.12 ist als Abkurzung fur zwei Ubergangevon 0 nach 1 zu sehen, eine fur #:# und eine fur e:e. Wenn der Ubergang mit denBoundary-Symbolen geloscht wird, bleibt darum der Ubergang mit e:e erhalten.


Abbildung 5.13: Linker Kontext # | e:e mit Ruckverbindungen.

Abbildung 5.14: Linker Kontext # | e:e mit Behandlung des Boundary-Symbols.

werden kann. Dazu wird ein ε-Ubergang vom Ausgangszustand des Uber-gangs mit dem Boundary-Symbol zum Zielzustand dieses Ubergangs hinzu-gefugt; im Beispiel ware das ein Ubergang von 0 nach 1. Es ergibt sich unterEinbezug der Ruckverbindungen der Transduktor in Abbildung 5.13.

Es muss allerdings verhindert werden, dass der ε-Ubergang zu einem an-deren Zeitpunkt als am Wortanfang verwendet wird. Dazu wird ein neu-er Startzustand eingefuhrt, und die ε-Ubergange, die fur Ubergange mitBoundary-Symbol eingefugt werden, besitzen diesen neuen Startzustand alsAusgangszustand. Außerdem ist ein weiterer ε-Ubergang vom neuen zum al-ten Startzustand notig, damit auch Kontexte, die nicht auf den Wortanfangbeschrankt sind, am Wortanfang erkannt werden; im Beispiel ware das e:e.Es ergibt sich der endgultige Transduktor fur den linken Kontext in Abbil-dung 5.14

Außer Startzustand, Endzustanden und Ubergangen besitzt der linkeKontext noch zwei weitere Eigenschaften. Mit recognize end bezeichne ichdie Zustande, in denen ein linker Kontext der Regel erfolgreich erkannt wur-de. Die recognize end-Zustande entsprechen den Endzustanden des voncompile-regexp gelieferten Ausgangstransduktors.

Den ursprunglichen Startzustand bezeichne ich als connect-Zustand. Diesist der Zustand, der mit den Endzustanden des rechten Kontexts verbundenwird.


Abbildung 5.15: Rechter Kontext y:0* b:b e:e.

Der rechte Kontext

Auch der regulare Ausdruck fur den rechten Kontext wird mit compile-

regexp in einen Transduktor uberfuhrt. Es mussen aber andere Veranderun-gen als beim linken Kontext an diesem Transduktor vorgenommen werden.

Als Beispiel betrachte ich die Regel 5.3:

i:i ⇐ y:0* b:b e:e(5.3)

Abbildung 5.15 zeigt den Ausgangstransduktor, wie er von compile-

regexp ausgegeben wird.Nachdem ein Symbolpaar gelesen wurde, dessen zugrunde liegendes Sym-

bol der lexikalischen Seite des Zentrums der Regel entspricht (im Beispiel diePaare mit zugrunde liegendem i), muss im Nachhinein entschieden werden,ob das Vorkommen dieses Symbolpaares erlaubt war. Abhangig von der Se-mantik des Regeltyps muss der rechte Kontext erfullt oder nicht erfullt sein,damit das Vorkommen des Symbolpaares erlaubt war.

Der Transduktor fur den rechten Kontext soll zunachst unabhangig vomRegeltyp sein. Darum werden beide Anwendungsfalle berucksichtigt. Derrechte Kontext ist erfullt, wenn der Transduktor sich in einem Endzustanddes Ausgangstransduktors befindet (im Beispiel 2). Er ist nicht erfullt, wennin einem Zustand, der kein Endzustand ist, ein Symbolpaar gelesen wird, furdas es keinen ausgehenden Ubergang aus dem Zustand gibt. Das sind im Bei-spiel fur den Zustand 0 die Symbolpaare e:e, i:i und i:y, fur den Zustand1 sind es b:b, i:i, i:y und y:0. Wenn ein solches Symbolpaar gelesen wird,muss der Transduktor in einen speziellen Zustand wechseln, fur den ein neuerZustand eingefuhrt wird.

Die beiden Arten von Endzustanden nenne ich recognize end undsink end6. Abbildung 5.16 zeigt den endgultigen Transduktor fur den rechtenKontext von Regel 5.3. Zustand 3 ist der neu eingefuhrte sink end-Zustand.

6Die Bezeichnung ist von”sink state“ abgeleitet, was einen Zustand bezeichnet, in den

ein endlicher Automat oder Transduktor wechselt, um anzuzeigen, dass eine Zeichenkettebzw. ein Paar von Zeichenketten nicht akzeptiert wurde.


Abbildung 5.16: Rechter Kontext y:0* b:b e:e mit”sink state“.

Abbildung 5.17: Rechter Kontext b:b (e:e | #) ohne Behandlung desBoundary-Symbols.

Auch im rechten Kontext muss das Boundary-Symbol besonders behan-delt werden. Im rechten Kontext steht das Boundary-Symbol fur das Wor-tende, d. h. es durfen keine weiteren Symbole mehr gelesen werden, damitder rechte Kontext erfullt ist. Regel 5.4 ist ein Beispiel fur eine Regel mitBoundary-Symbol im rechten Kontext; Abbildung 5.17 zeigt den entspre-chenden Transduktor, wie er von compile-regexp ausgegeben wird.

i:i ⇐ b:b (e:e | #)(5.4)

Die Besonderheit an diesem Transduktor ist Zustand 1. Wenn der Trans-duktor in Zustand 1 ist, dann ist der rechte Kontext erfullt, wenn das Endeder Eingabe erreicht ist. Um solche Zustande zu markieren, fuhre ich einedritte Art von Endzustanden ein, die ich mit absolute end bezeichne. DenTransduktor fur den rechten Kontext b:b (e:e | #) zeigt Abbildung 5.18.


Abbildung 5.18: Rechter Kontext b:b (e:e | #) mit”sink state“.

Verbindungen zwischen den Kontexten

Die Art, wie der linke und der rechte Kontext verbunden werden, machtden Unterschied zwischen den drei Regeltypen7 aus. Allgemein werden andie recognize end-Zustande des linken Kontexts fur die Symbolpaare, de-ren zugrunde liegendes Symbol der lexikalischen Seite des Zentrums der Re-gel entspricht, Ubergange angeschlossen, und an diese Ubergange wiederumder Startzustand des rechten Kontexts. Abhangig davon, ob der rechte Kon-text erkannt werden muss oder nicht erkannt werden darf, werden entwederan die recognize end-Zustande oder an die sink end-Zustande des rech-ten Kontexts Ruckverbindungen zum connect-Zustand des linken Kontextsangeschlossen.

Als Beispiel sei die Oberflachenerzwingungsregel 5.5 gegeben. Die Trans-duktoren fur den linken und den rechten Kontext zeigen die Abbildungen5.19 und 5.20. Der endgultige Transduktor fur die Regel ist in Abbildung5.21 dargestellt; welche Ubergange warum eingefugt werden, wird im Folgen-den ausgefuhrt.

i:i ⇐ e:e b:b(5.5)

Nach dem oben skizzierten Algorithmus mussen zunachst fur alle Symbol-paare, deren zugrunde liegendes Symbol der lexikalischen Seite des Zentrumsder Regel entspricht, von den recognize end-Zustanden des linken Kontextsausgehende Ubergange eingefugt werden. Die genannten Symbolpaare sindalle Paare, deren zugrunde liegendes Symbol i ist; unter derselben Voraus-setzung wie oben, dass die erlaubten Symbolpaare e:e, b:b, y:0, i:i undi:y sind, sind das i:i und i:y.

7Die zusammengesetzte Regel zahle ich in diesem Zusammenhang nicht als eigenenRegeltyp, weil sie nicht direkt, sondern als Schnitt der Oberflachenerzwingungsregel undder Kontextbeschrankungsregel implementiert ist.


Abbildung 5.19: Linker Kontext e:e.

Abbildung 5.20: Rechter Kontext b:b.

Die Regel besagt, dass ein zugrunde liegendes i zwischen e:e und b:b

als i realisiert werden muss. Das heißt mit anderen Worten, dass die RegelVorkommen von i:y zwischen e:e und b:b verbietet. i:i wird also nie aus-geschlossen; darum konnen die von den recognize end-Zustanden (Zustand2 des linken Kontexts im Beispiel) ausgehenden Ubergange fur i:i direktzuruck zum connect-Zustand (Zustand 1 des linken Kontexts) zuruckfuhren.

An die Ubergange mit dem Symbolpaar i:y muss dagegen der rechteKontext angeschlossen werden. Im Beispiel verbindet der neue Ubergang miti:y also Zustand 2 des linken Kontexts mit Zustand 3 des rechten Kontexts.Wenn noch weitere Symbolpaare definiert waren, deren zugrunde liegendesSymbol i ist, dann mussten fur alle diese Symbolpaare ebenfalls Ubergangezwischen Zustand 2 des linken Kontexts und Zustand 3 des rechten Kontextseingefugt werden.

Nachdem der linke Kontext mit dem rechten verbunden wurde, fehlenjetzt noch die Ruckverbindungen vom rechten Kontext zum linken. Die Se-mantik der Regel erfordert es, dass, wenn ein linker Kontext und danach i:y

gelesen wurde, der rechte Kontext nicht erfullt wird; andernfalls ware der Fall


Abbildung 5.21: Transduktor zu Regel 5.5.

e:e i:y b:b eingetreten, den die Regel gerade ausschließt. Die Zustande, dieanzeigen, dass der rechte Kontext nicht erkannt wurde, sind die sink end-Zustande des rechten Kontexts. Diese Zustande (Zustand 5 des rechten Kon-texts im Beispiel) werden darum mit dem connect-Zustand des linken Kon-texts verbunden.

Praktisch wird diese Verbindung dadurch durchgefuhrt, dass alle Uber-gange, die zu einem sink end-Zustand des rechten Kontexts fuhren, dupli-ziert werden und ihr Zielzustand durch den connect-Zustand ersetzt wird.Dabei wird berucksichtigt, ob vom connect-Zustand ein Ubergang mit dem-selben Symbolpaar ausgeht. In dem Fall kann das Symbolpaar bereits wiederals erstes Symbolpaar des nachsten linken Kontexts genutzt werden, dazuwird als Zielzustand nicht der connect-Zustand gewahlt, sondern der Zu-stand, der vom connect-Zustand uber einen Ubergang mit dem betreffendenSymbolpaar erreicht wird.

Im Beispiel sind die Ubergange zum sink end-Zustand 5 des rechten Kon-texts zu duplizieren; die entsprechenden Paare sind e:e, i:i, i:y und y:0.Das standardmaßige Ziel der neuen Ubergange ist der connect-Zustand (Zu-


Abbildung 5.22: Minimierter Transduktor zu Regel 5.5.

stand 1) des linken Kontexts. Weil fur alle vier Symbolpaare von Zustand1 ausgehende Ubergange existieren, wird in allen Fallen stattdessen aberder Zielzustand dieser Ubergange genommen. Bei i:i, i:y und y:0 ist derZielzustand wiederum Zustand 1, so dass die neuen Ruckverbindungen vonZustand 3 trotzdem zum connect-Zustand fuhren. Bei e:e ist dagegen derZielzustand des von Zustand 1 ausgehenden Ubergangs der Zustand 2, derUbergang fur e:e von Zustand 3 fuhrt also zu Zustand 2.

Zu klaren ist auch noch, welche Zustande des Gesamttransduktors End-zustande sind. Unabhangig vom Regeltyp sind das einerseits alle Zustandedes linken Kontexts (im Beispiel 0, 1 und 2); ein Prafix eines linken Kontextsam Wortende soll die Regel nie ausschließen. Im Fall der Oberflachenerzwin-gungsregel sind außerdem alle Zustande des rechten Kontexts Endzustande,die weder recognize end- noch absolute end-Zustande des rechten Kon-texts sind (im Beispiel 3 und 5). Das sind also alle Zustande, in denen nochkein rechter Kontext erkannt ist, den die Regel verhindern soll.

Der in 5.21 abgebildete Transduktor enthalt noch uberflussige Zustandeund Ubergange; nach der Minimierung ergibt sich als Ausgabe der ProzedursurfaceCoercionRule der Transduktor in Abbildung 5.22.

Probleme des vorgestellten Regelcompilers

An verschiedenen Stellen im Text habe ich schon das Problem angesprochen,dass sich linker Kontext, Zentrum und/oder rechter Kontext von zwei Anwen-dungen der Regel uberlappen. Dieses Problem wird durch den vorgestelltenRegelcompiler nicht grundsatzlich gelost. Die Teillosung, die ich implemen-tiert habe, testet jedesmal, wenn eine Ruckverbindung zum connect-Zustanddes linken Kontexts eingefugt wird, ob es einen vom connect-Zustand aus-gehenden Ubergang mit dem betreffenden Symbolpaar gibt, um dann ggf.deren Zielzustand als Zielzustand des neuen Ubergangs zu verwenden.

Diese Losung funktioniert aber nur bei Uberlappungen der Lange 1.Langere Uberlappungen behandelt der vom Regelcompiler generierte Trans-


duktor nicht richtig.Einen Ansatz, um Uberlappungen beliebiger Lange behandeln zu konnen,

stelle ich in Kapitel 7 vor.

5.4 Regeln fur PC-KIMMO

Damit die mit dem Regelcompiler generierten Transduktoren mit PC-KIMMO benutzt werden konnen, mussen sie in das passende Format konver-tiert werden.

Eine PC-KIMMO-Regeldatei, die die im letzten Abschnitt besprocheneRegel 5.5 enthalt, wurde z. B. so aussehen:

ALPHABET b e i y

ANY @

BOUNDARY #

NULL 0

RULE "i:i <= e:e _ b:b" 3 5

b e i i y

b e i y 0

1: 1 3 1 1 1

2: 0 3 1 1 1

3: 1 3 1 2 1

END

Das Format sollte relativ selbsterklarend sein. Genau wird es in [1] be-schrieben.

5.5 Regeldateien

Um den Regelcompiler komfortabler aufrufen zu konnen, habe ich ein Kom-mandozeilen-Frontend krulecomp.tcl (

”(PC-)KIMMO Rule Compiler“) im-

plementiert, das eine Regeldatei einliest, die darin enthaltenen Regeln inendliche Transduktoren umwandelt, diese in das von PC-KIMMO erwarteteFormat konvertiert und sie in eine Ausgabedatei schreibt, die als Regeldateibeim Aufruf von PC-KIMMO angegeben werden kann.

krulecomp.tcl liest die Regeldatei zeilenweise. Jede Zeile, die keine Leer-zeile ist und die nicht mit dem Zeichen

”#“ beginnt, muss mit einem der

folgenden Schlusselworter beginnen:


• ALPHABET: Listet die erlaubten Symbole auf. Beispiel:

ALPHABET b e i y

• CORRESPONDENCES: Listet die erlaubten Paare von zugrunde liegendemSymbol und Oberflachensymbol auf. CORRESPONDENCES kann mehrfachangegeben werden, so konnen die Zeilen kurz gehalten werden, wenn esviele Paare gibt. Beispiel:

CORRESPONDENCES b e i i:y y:0

b, e und i sind abkurzende Schreibweisen fur b:b, e:e bzw. i:i.

• SUBSET: Definiert eine benannte Untermenge des Alphabets. Beispiel:

SUBSET V e i

Dadurch wird ein Symbol V definiert, dessen Extension die Symbole e

und i enthalt.

• RULE: Leitet eine Two-Level-Regel ein. Beispiel:

RULE i:i <= e _ b

e und b sind wieder Abkurzungen fur e:e bzw. b:b. Außer <= fur dieOberflachenerzwingungsregel sind die Symbole => (Kontextbeschran-kungsregel), <=> (Zusammengesetzte Regel) und /<= (Ausschlussregel)erlaubt.

• RE: Gibt direkt einen regularen Ausdruck an, der als Regel behandeltwird. Beispiel:

RE @:@* (@:i | @:e) @:@*

Mit dieser Zeile waren nur Worter zulassig, mindestens ein i oder eine in der Oberflachenform besitzen.

• end: Markiert das Dateiende; alle nachfolgenden Zeilen werden igno-riert.

Als Beispiel befindet sich die Datei mit meinen Regeln fur das Polnischeim Anhang und auf der beiliegenden CD.

Kapitel 6

Die polnische Phonologie inZwei-Ebenen-Regeln

n Kapitel 2 habe ich ein Modell der polnischen Phonologie beschrieben undin Kapitel 5 einen Regelcompiler, um Two-Level-Regeln aus einer fur Men-schen verstandlichen Form in endliche Transduktoren umzuwandeln. Die Er-gebnisse dieser beiden Kapitel kombiniere ich in diesem Kapitel, indem ichdie phonologischen Regeln aus Kapitel 2 als Two-Level-Regeln formuliere,die mit dem Regelcompiler aus Kapitel 5 in ein von PC-KIMMO lesbaresFormat umgewandelt werden konnen.

6.1 Das Alphabet

Das polnische Alphabet umfasst die 38 Grapheme <a↪

a b c ch cz c d dz dzdz e

↪e f g h i j k l l m n n o o p r rz s sz s t u y z z z>. Fur die zugrunde

liegenden Formen benotige ich 42 phonologische Zeichen: � � �↪

� D � V ↪

RQ7E � L 2OC @:3 � 5� ��

�B \ ; � ; � � _ � = �= �=

� ��

��

� � .Das Symbol �� dient dazu, die Anwendbarkeit einer Regel aufzuheben;

z. B. bei � E � V � � � ; �� <geniusz> ‘Genie’ sorgt es dafur, dass zwischen <g>und <e> kein eingefugt wird.

Auf �� konnte verzichtet werden, wenn verschiedene zusatzliche Pho-nemsymbole eingefuhrt wurden, fur die dann gesonderte Regeln erforderlichwaren; z. B. � �E � fur ein � E � , nach dem vor <e> kein eingefugt wird.

� � � markiert die Morphemgrenze zwischen dem Prateritumsstamm undder Prateritumsendung. Die Markierung ist notwendig, weil diese Morphem-grenze von den Regeln, die bestimmen, wie �

↪

R � realisiert wird, wie das Wort-ende behandelt werden muss.

82

I 83

Phonem Realisierung� � � <a>�

↪

� � <↪

a>� D � � V � <e>� 7 � <f>� � � <h>� 3 � <m>� 5 � <n>� �� <o>� � � <o>� B � � � ; � <s>� � � � _ � <w>� �= � <z>

Tabelle 6.1: Phoneme mit eindeutiger Realisierung

6.2 Eindeutige Realisierungen

Eine Reihe von Phonemen wird immer als dasselbe Graphem realisiert. Ta-belle 6.1 listet diese Phoneme und ihre Realisierungen auf.

Die Phoneme lassen sich in vier Gruppen einteilen:

• Die vier Vokalphoneme � � � , �↪

� � , � V � und � � � sowie alle labialen Konso-nanten ( � D � , � 7 � , � 3 � , � B � und � _ � ) unterliegen keinen phonologischenProzessen, die orthographisch realisiert werden.

• � � � und � � � sind die Reprasentationen der orthographischen Varianten<h> (Variante von <ch>) und <o> (Variante von ). Bei <o> istzu beachten, dass die phonologische Reprasentation auch � � � oder �� sein kann.

• � �� , � � ; � und � �= � sind Phoneme, die speziell fur eine konstante ortho-graphische Realisierung eingefuhrt wurden.

• Der velare Nasal � 5 � ist eigentlich eine an einen nachfolgenden velarenPlosiv assimilierte Variante von � � � ; weil aber die Assimilation nur ineiner begrenzten Zahl von (entlehnten) Lexemen auftritt, muss sie miteinem eigenen Phonem reprasentiert werden. Durch die Umgebung, in

I 84

denen � 5 � auftritt, treffen die Prozesse, die auf � � � wirken, nicht auf� 5 � zu. Orthographisch wird der Unterschied zwischen � � � und � 5 �nicht realisiert.

Hierzu gehoren auf �� und � � � , die immer geloscht werden.

6.3 Variable Realisierungen

6.3.1 Realisierung von��

� L � wird als oder <y> realisiert. Die Regeln 6.2 bis 6.10 legen die Rea-lisierung fest.

# VokalgraphemeSUBSET SV a

↪a e

↪e i o o u y

# ErweichungsmarkierungenSUBSET PAL � ˙� � � �

i:i ⇐ (# | @:SV) PAL:0*(6.1)

i:i ⇐ (g:@ | k:@):0?(6.2)

# Grapheme fur labiale KonsonantenSUBSET SCLab b f m p w

i:i ⇐ @:SCLab PAL:0? PAL:@:0?(6.3)

# Phoneme fur alveolare KonsonantenSUBSET UCAlv d l n r s s t z z z# Grapheme fur alveolare Konsonanten, die erweicht sein konnenSUBSET SCAlvPal c dz n s z# Erweichungsmarkierungen, Untergruppe 1SUBSET PAL1 � ˙� �

i:i ⇐ UCAlv:SCAlvPal PAL:0? PAL1:@:0?(6.4)

# Erweichungsmarkierungen, Untergruppe 2SUBSET PAL2 � �

i:i ⇐ n PAL:0? PAL2:@:0?(6.5)

I 85

# Zusammenfassung der phonologisch identischen Symbole � � � und � � �SUBSET H x h

i:i ⇐ H:s PAL:0? PAL:@:0?(6.6)

# Grapheme fur alveolar-palatale KonsonantenSUBSET SCPal c dz j l n s z

i:i ⇐ @:SCPal PAL:0*:0?(6.7)

# Phoneme fur labiale KonsonantenSUBSET UCLab b f m p w

i:y ⇐ (UCAlv:@ | UCLab:@ | H:@):0?(6.8)

# Grapheme fur alveolare Konsonanten, die nicht erweicht sein konnenSUBSET SCAlvNPal cz d dz l r rz sz t z

i:y ⇐ (@:SCAlvNPal | g:SCAlvPal | k:SCAlvPal) PAL:0*:0?(6.9)

# Grapheme fur alveolare Konsonanten, die erweicht sein konnen, außer <n>SUBSET SCAlvPalˆn c dz s z

i:y ⇐ UCAlv:SCAlvPalˆn PAL:0? PAL2:@:0?(6.10)

Nach der in Abschnitt 2.2.2 aufgestellten Regel wird � L � am Wortanfang,nach Vokalen und nach weichen Konsonanten als realisiert, sonst als<y>.

Regel 6.1 bewirkt die Realisierung von � L � als am Wortanfang undnach Vokalen. Sie lasst zusatzlich zu, dass vor dem � L � Erweichungsmarkie-rungen stehen. Das schien mir intuitiv das richtige Verhalten zu sein, aller-dings gibt es in meiner Testmenge keine Wortform, in der eine PhonemfolgeVokal - Erweichungsmarkierung - � L � auftritt.

� E � und � C � werden von einem nachfolgenden � V � oder � L � erweicht (sie-he 2.2.2), darum wird � L � nach diesen Phonemen als realisiert. Dasbewirkt Regel 6.2. Regel 6.2 und vielen anderen Regeln lassen auch zu, dassim linken (oder in anderen Regeln auch im rechten) Kontext ein � � -Phonem,das geloscht wird, vorkommt. Ein � � soll keine Auswirkung haben, wenn esgloscht wird, darum habe ich

”

:0?“ in allen Positionen eingebaut, von denen

ich glaubte, dass es dort auftreten konnte, auch wenn es fur meine Testmengenicht immer gebraucht wurde.

I 86

Es gibt noch einige weitere Falle, in denen ein Phonem geloscht wird,diese haben aber trotzdem eine Wirkung auf ihre Umgebung und konnendarum nicht wie � � generell ignoriert werden.

Die Regeln 6.3 bis 6.7 behandeln Falle, wo ein harter Konsonant durcheine Erweichungsmarkierung zu einem weichen Konsonanten erweicht wird.Das Ergebnis der Erweichung muss berucksichtigt werden, weil in einigenFallen nicht ein weicher, sondern ein historisch weicher Konsonant entsteht,nach dem � L � als <y> realisiert wird.

Labiale Konsonanten werden immer zu einem weichen Konsonanten er-weicht. Darum ist in Regel 6.3 nicht eingeschrankt, welche Erweichungsmar-kierung im linken Kontext steht. In allen Regeln, die mit der Erweichungumgehen, lasse ich zu, dass vor der entscheidenden Erweichungsmarkierungnoch eine weitere steht, das aber keine Auswirkung auf die Realisierung einesPhonems hat. Das entspricht der in Abschnitt 2.2.3 aufgestellten Regel, dassimmer die letzte Erweichungsmarkierung die Art der Erweichung bestimmt.

Alveolare Konsonanten konnen als weiche oder als historisch weiche Kon-sonanten realisiert werden. Ob ein weicher Konsonant eintritt, hangt sowohlvom Konsonanten, der erweicht wird, als auch von der erweichenden Erwei-chungsmarkierung ab. Die entscheidende Regel dafur ist Regel 6.4. Die Erwei-chung zu einem weichen Konsonanten findet fast nur durch die Erweichungs-markierungen statt, die ich mit

”PAL1“ bezeichnet habe. Ob der erweichte

Konsonant ein weicher Konsonant ist, lasst sich am Graphem erkennen, alsdas der erweichte Konsonant realisiert wird; daher wird verlangt, dass dasGraphem aus der Gruppe

”SCAlvPal“ (die Grapheme, die fur einen wei-

chen alveolaren Konsonanten stehen konnen) stammt.”SCAlvPal“ schließt

hier nur das Symbolpaar”r:rz“ aus; alle anderen alveolaren Konsonanten-

phoneme werden vor”PAL1“-Erweichungsmarkierungen zu einem weichen

Konsonanten erweicht.

”PAL2“ ist das Komplement von

”PAL1“, also alle Erweichungsmarkie-

rungen, die nicht zur Gruppe”PAL1“ gehoren. Das einzige alveolare Phonem,

das vor”PAL2“ zu einem weichen Konsonanten erweicht wird, ist � � � ; darum

fordert Regel 6.5 genau dieses Phonem im linken Kontext.Regel 6.6 behandelt ebenfalls einen Spezialfall. � � � wird meistens zu

� F �erweicht und nur vor �� zu

�4U��. Die Regel ist allerdings unabhangig von

der Erweichungsmarkierung formuliert, es wird nur gefordert, dass im linkenKontext � � � als <s> realisiert wird. Weil <s> als Realisierung von � � � immerfur

�4U��steht, reicht das aus, um sicherzustellen, dass im linken Kontext von

� L � ein weicher Konsonant steht, wenn die Regel angewendet wird.Regel 6.7 ist allgemein fur alveolar-palatale Konsonanten formuliert1. Ist

1

”SCPal“ sind eigentlich nur die Grapheme, die immer fur einen alveolar-palatalen

I 87

der Praxis ist sie aber nur fur <j> und <l> von Bedeutung, weil die Graph-eme <c dz n s z> nur vor Konsonantengraphemen benutzt werden.

Die ubrigen Regeln behandeln die Falle, in denen � L � als <y> realisiertwird. Nach 2.2.2 tritt das ein, wenn im linken Kontext ein harter oder histo-risch weicher Konsonant steht. Die harten Konsonanten behandelt Regel 6.8.Ein harter Konsonant liegt immer dann vor, wenn einem Konsonantenpho-nem keine Erweichungsmarkierung folgt. Auszuschließen sind nur � C � und� E � , die ja von � L � direkt erweicht werden.

In einigen Fallen ist unabhangig von der Erweichungsmarkierung zu er-kennen, dass ein historisch weicher und kein weicher Konsonant vorliegt.Diese Falle deckt Regel 6.9 ab. Im einzelnen sind das vor allem alle Reali-sierungen eines Konsonanten als

”SCAlvNPal“, also mit einem Konsonan-

tegraphem, das nie fur einen weichen Konsonanten stehen kann. Nicht alleder Grapheme, die als Extension von

”SCAlvNPal“ definiert sind, konnen

fur historisch weiche Konsonanten stehen, aber diese sind dann auch nie dasErgebnis einer Erweichung. Die Regel deckt außerdem die Falle

”g:dz“ und

”k:c“ ab.

Regel 6.10 behandelt schließlich die Falle, wo ein alveolarer Konsonantals historisch weicher Konsonant realisiert wird. Das trifft immer dann zu,wenn die Erweichungsmarkierung aus der Gruppe

”PAL2“ stammt, außer

wenn � � � erweicht wird; diesen Fall deckt bereits Regel 6.5 ab.

6.3.2 Realisierung der Erweichungsmarkierungen

Die Erweichungsmarkierungen erweichen einen vorhergehenden Konsonan-ten. Wenn das Ergebnis der Erweichung ein weicher Konsonant ist und dieservor einem Vokal außer steht, ist ein zusatzliches erforderlich, umdas Konsonantengraphem als weich zu markieren. Die Einfugung fuhre ichdadurch herbei, dass das Erweichungsphonem in den entsprechenden Fallenals realisiert wird; andernfalls wird es geloscht. Als Sonderfall ist nochdie Realisierung der Erweichungsphoneme als <j> zwischen Vokalen außervor zu berucksichtigen.

Die entsprechenden Regeln sind die Regeln 6.11 bis 6.21.

# Vokalgrapheme außer SUBSET SVî a

↪a e

↪e o o u y

PAL:j ⇐ @:SV @:SVî(6.11)

Konsoanten stehen, und nicht solche, bei denen es davon abhangt, ob ein folgt (wiez. B. <n>).

I 88

# VokalphonemeSUBSET UV a æ

↪a e

↪e i

� �o œ œ u

PAL:0 ⇐:0? UV:i(6.12)

PAL:0 ⇐ PAL:@(6.13)

# KonsonantengraphemeSUBSET SC b c c ch cz d dz dz dz f g h j k l l m n n p r rz s sz s t w z z z

PAL:0 ⇐:0? (@:SC | #)(6.14)

# Phoneme fur palatale KonsonantenSUBSET UCPal j

PAL:0 ⇐ (UCPal:@ | l:@) PAL:0? ˜PAL:@(6.15)

PAL1:0 ⇐ (r:@ | k:@ | g:@ | H:sz) PAL:0? ˜PAL:@(6.16)

# Konsonantenphoneme, die von PAL1 zu einem weichen Konsonanten# erweicht werdenSUBSET UCNyi b d f m n p s s t w z z z

PAL1:i ⇐ UCNyi:@ PAL:0?:0? @:SVî(6.17)

PAL1:i ⇐ H:s PAL:0?:0? @:SVî(6.18)

PAL2:i ⇐ (@:SCLab | @:n) PAL:0?:0? UV:SVî(6.19)

PAL2:0 ⇐ (@:SCLab | @:n) PAL:0?:0? UV:i(6.20)

# Phoneme fur alveolare Konsonanten außer � � �SUBSET UCAlvˆn d l r s s t z z z# Phoneme fur velare KonsonantenSUBSET UCVel x g h k

PAL2:0 ⇐ (UCAlvˆn:@ | UCVel:@) PAL:0? ˜PAL:@(6.21)

Die Regeln 6.11 bis 6.15 gelten fur alle funf Erweichungsmarkierungen.2

Sie behandeln Falle, die unabhangig von Erweichungsarten sind.Regel 6.11 sorgt fur die Realisierung der Erweichungsmarkierungen zwi-

schen Vokalen als <j>. Ausgeschlossen werden muss nur, wie oben gesagt,

2Die”Erweichungsmarkierung fur Fremworter“ �� wird erst weiter unten behandelt.

I 89

 im rechten Kontext. Den Fall, dass auf die Erweichungsmarkierungfolgt, behandelt allgemein Regel 6.12. Vor wird eine Erweichungsmar-kierung immer geloscht: nach einem Konsonanten ist die Markierung desKonsonanten als weicher Konsonant bereits durch das nachfolgende ge-geben, und nach einem Vokal wird die Erweichungsmarkierung nicht als <j>realisiert, weil die Lautfolge

��2 L �im Polnischen nicht moglich ist, stattdessen

steht nur�4L �

.Regel 6.13 implementiert die Aussage aus Abschnitt 2.2.3, dass aus einer

Folge von Erweichungsmarkierungenen immer das letzte die Art der Erwei-chung bestimmt. Daraus folgt, dass alle anderen Erweichungsmarkierungender Folge geloscht werden mussen. Auch vor Konsonanten und am Wortendemussen Erweichungsmarkierungen immer geloscht werden (Regel 6.14), weildort die Erweichung eines Konsonanten mit einem Akut uber dem Konso-nantengraphem bezeichnet wird: z. B. � C �� <kon> ‘Pferd’.

Das Erweichungsmarkierung muss auch geloscht werden, wenn ein weicherKonsonant nicht mit einem nachstehenden markiert wird; das trifft bei<j> und <l> zu (Regel 6.15). Anders als Regel 6.7 kann sich Regel 6.15 auf<c dz n s z> auswirken, weil im rechten Kontext auch ein Konsonant stehenkann, vor dem diese Grapheme verwendet werden; die Realisierung ist aberauch in diesem Fallen korrekt. Fur diese Grapheme ware die Regel allerdingsnicht notig, weil die Realisierung der Erweichungsmarkierung bereits durchRegel 6.14 festgelegt wird.

Die ubrigen Regeln 6.16 bis 6.21 beziehen sich auf jeweils eine der Unter-gruppen der Erweichungphoneme,

”PAL1“ oder

”PAL2“.

Regel 6.16 fuhrt die Falle auf, in denen eine Erweichungsmarkierung derersten Gruppe ein Konsonantenphonem zu einem historisch weichen Kon-sonanten erweicht und wenn der Lautwert des Graphems nicht mit einemnachfolgenden markiert wird. Die Erweichungsmarkierung wird in die-sen Fallen geloscht. Diese Art der Erweichung tritt ein bei � \ � , � C � , � E � , � � �und � � � , bei � � � und � � � allerdings nicht bei Erweichung durch �� . Der Fallwird durch die Angabe der Oberflachenform von � � � und � � � ausgeschlossen,weil die beiden Phoneme als <s> realisiert wird, wenn sie durch �� erweichtwerden.

Die Regeln 6.17 und 6.18 behandeln die Falle, in denen ein weicher Kon-sonant als Ergebnis der Erweichung eintritt. Das sind vor allem die labialenund alveolaren Nasale, Plosive und Frikative (nicht � @ � und � \ � ) (Regel 6.17),und außerdem � � � und � � � , wenn sie durch �� erweicht werden und das Er-gebnis der Erweichung

�4U��ist (Regel 6.18).

Die Erweichungsmarkierungen der zweiten Untergruppe ( � �� und � �� )erweichen nur die labialen Konsonanten und � � � zu einem weichen Konso-nanten. � �� und � �� werden also nur in diesen Fallen und wenn nicht 

I 90

folgt, als realisiert (Regel 6.19). Wenn folgt, werden die Erwei-chungsmarkierungen geloscht, weil das Vokalgraphem bereits die Weichheitdes Konsonanten anzeigt (Regel 6.20).

Andere Konsonanten, das sind die alveolaren Konsonanten außer � � � unddie velaren Konsonanten, werden von � �� und � �� zu historisch weichen Kon-sonanten erweicht, die Erweichungsmarkierungen mussen also geloscht wer-den (Regel 6.21).

Die Erweichungsmarkierung � �� verhalt sich orthographisch und phono-logisch anders als die bisher genannten funf Erweichungsmarkierungen. � �� kann ebenfalls als oder <j> realisiert werden oder geloscht werden; dieBedingungen, unter denen die drei Moglichkeiten eintreten, sind aber anders.

� :0 ⇔ H:@ UV:i(6.22)

� :j ⇔ @:SC (0:i | 0:y) #(6.23)

Die Regeln 6.22 und 6.23 sind fur Spezialfalle zustandig. Nach � � � und� � � wird � �� nicht wie sonst auch vor als realisiert (Regel 6.22).Wenn am Wortende vor � �� oder <y> eingefugt wird, wird � �� als<j> realisiert (Regel 6.23). Ansonsten ist die Realisierung . Fur diesenFall gibt es keine explizite Regel. Die beiden zusammengesetzten Regeln 6.22und 6.23 legen jeweils die Realisierung in einem Kontext fest und besagenaußerdem, dass die Realisierung in keinem anderen Kontext auftritt. Darausergibt sich, dass in allen nicht von den beiden Regeln erfassten Kontextendie Realisierung eintreten muss.

6.3.3 Realisierung von�

��

und�

↪��

� � � und �↪

R � werden wie in Abschnitt 2.2.5 besprochen realisiert. Es mussallerdings noch der Begriff der

”geschlossenen Silbe“ genau definiert werden.

Eine Silbe ist als geschlossen anzusehen, wenn auf den Vokal der Silbe eineder folgenden Lautfolgen folgt:

• � 2 � , � @ � , � \ � und � _ � am Wortende, wobei der Konsonant noch erweichtsein kann;

• � D � , � � � , � E � , � = � , � �= � und � �= � als letzter einer Folge von Konsonantenam Wortende, wobei die Konsonanten noch erweicht sein konnen; und

• � @ � vor Konsonant in beliebiger Position innerhalb des Wortes, abernur, wenn das � @ � nicht erweicht ist.

I 91

Beispiele sind � D � \ � <bor> ‘Wald’; � Dc@↪

R�� ‘Fehler’; � B \ � ; � D �<prosb> ‘Bitte (Gen. Pl.)’; � B �h@ \ � C �� V � <po lrocze> ‘Halbjahr’.

Die ersten beiden Falle mussen unterschieden werden, weil es bei den So-noranten (erster Fall) nicht erlaubt ist, dass ein Konsonant zwischen den Vo-kal und dem Sonoranten steht; z. B. � @ � \ � < lotr> ‘Schurke’. Eine Erklarungkonnte sein, dass der Sonorant einmal als Nukleus einer eigenen Silbe gedienthat (wie es noch heute im Tschechischen moglich ist) und dadurch die Um-lautung nicht eintreten konnte, weil der Vokal nicht in einer geschlossenenSilbe stand.

Im dritten Fall lost nur � @ � und nicht wie im ersten Fall auch � 2 � , � \ �und � _ � die Umlautung aus. � \ � und � _ � konnen in einer solchen Positionzur nachsten Silbe gerechnet werden, wie die Beispiele <rdza> ‘Rost’ und<wtyk> ‘Stopsel’ zeigen, wo sie am Wortanfang und damit im Silbenanfangs-rand auftreten. Dieselbe Begrundung gilt fur die Obstruenten des zweitenFalls. Fur � 2 � gibt es solche Beispiele nicht, trotzdem tritt die Umlautung inWorten wie � �2 � � `C � � <ojciec> ‘Vater’ nicht ein.

Dass im dritten Fall ein erweichtes � @ � ausgeschlossen werden muss, zeigenBeispiele wie � B � @ � ; C L � <polski> ‘polnisch’.

Bei �↪

R � ist noch zu berucksichtigen, dass die Morphemgrenze vor derPersonalendung des Prateritums wie das Wortende behandelt werden muss(siehe Abschnitt 2.2.5). Das Zeichen � � � markiert diese Morphemgrenze.

Fur die Realisierung von � � � und �↪

R � ergeben sich die Regeln 6.24 und6.25.

# KonsonantenphonemeSUBSET UC b x d f g h j � k l m n p r s s t w z z z#

”Beugende“3 Konsonantenphoneme (stimmhafte Sonoranten)

SUBSET UBVS j l r w#

”Beugende“ Konsonantenphoneme (stimmhafte Obstruenten)

SUBSET UBVO b d g z z z

�:o ⇔ (UBVS:@ PAL:@* #) | ((UC:@ | PAL:@)*(6.24)

UBVO:@ (PAL:@ | UBVO:@ | UBVS:@)* #) |

(l:@ UC:@)

↪e:

↪a ⇔ (UBVS:@ PAL:@* (# | -:0)) | ((UC:@ | PAL:@)*(6.25)

UBVO:@ (PAL:@ | UBVO:@ | UBVS:@)* (# | -:0)) |

(l:@ UC:@)

3Die Umlautung von <o> zu <o> bzw. von <↪e> zu <

↪a> wird in der polnischen

Linguistik als”Beugung“ bezeichnet.

I 92


,��

und��

# Konsonantenphoneme, die indirekte Erweichung zulassenSUBSET UCPalTrans d l n s s t z z z

æ:e ⇔ ((UC:@ UCPalTrans:@*) PAL:@) | UCPal:@(6.26)

œ:e ⇔ ((UC:@ UCPalTrans:@*) PAL:@) | UCPal:@(6.27)

œ:e ⇔ ((UC:@ UCPalTrans:@*) PAL:@) | UCPal:@(6.28)

œ:o ⇔ (UBVS:@ #) | (UC:@* UBVO:@ (UBVO:@ |(6.29)

UBVS:@)* #) | (l:@ UC:@)

Die Kontexte, in denen �� , �� und � � � als <e> realisiert werden,sind identisch. Im rechten Kontext muss ein (direkt oder indirekt) erweichterKonsonant oder � 2 � (als einziges palatales Konsonantenphonem) stehen. InAbschnitt 2.2.5 wurde zusatzlich verlangt, dass auch im linken Kontext einerweichter Konsonant steht. Diese Einschrankung wurde in den Regeln weg-gelassen, weil man voraussetzen kann, dass in einem Lexem, das �� , �� oder � � � enthalt, vor diesem Laut ein erweichter Konsonant steht; ansons-ten wird der Vokal als � � � , � � � oder � �� reprasentiert, weil sich die Phonemejeweils paarweise identisch verhalten, wenn nicht erweichte Konsonanten imlinken und im rechten Kontext gegeben sind.

�� kann nicht nur als <o> und <e>, sondern auch als <o> realisiertwerden. Das passiert unter denselben Bedingungen, unter denen � � � als � � �realisiert wird, außer dass die Erweichungsmarkierungen im Kontext ausge-schlossen sind, weil in dem Fall �� nach Regel 6.27 als <e> realisiert wird.


:e ⇔ (# | @:SC | ((@:g | @:k) 0:i)) (PAL:@ | -:0)*(6.30)

(UC:@ (PAL:@|:0 | UC:@)* #) | (UCPal:@ PAL:@?

:0? UC:@) | ((UC:@ PAL:@?:0?)* UCPlo:@ PAL:@?

:0? UC:@) | ((UC:@ PAL:@?:0?)+ UCNas:@)

Alle Bedingungen, unter denen � � als <e> realisiert wird, sind in Regel6.30 zusammengefasst.

Der linke Kontext schließt einen Vokal aus; wenn der vorhergehende Lautein Vokal ist, wird � � nicht als <e> realisiert, weil keine Konsonantengruppeaufzulosen ist.

Der rechte Kontext zahlt die verschiedenen Falle auf, in denen � � ineiner geschlossenen Silbe steht.

I 93

• Vor mindestens einem Konsonanten am Wortende; z. B. � 3 � \�`C� �

<marzec> ‘Marz’.

• Vor � 2 � , dem mindestens ein Konsonant folgt; z. B. � �� 2 �↪

R � <odejd↪e>

‘ich werde weggehen’.

• Vor einem Plosiv, dem mindestens ein Konsonant folgt, und dem evtl.noch Konsonanten vorausgehen; z. B. � ; �� @ � 3 � <szed lem> ‘ich ging’,� _ �= D � \ � � � � <wezbrac> ‘aussuchen’. Der dem Plosiv folgende Kon-sonant ist auch zur Erfullung des Kontexts erforderlich, wenn demPlosiv noch ein Konsonant vorausgeht, z. B. wird bei � _ �=`D �� \ �� Rh; �� <wzbierzesz> ‘du wirst aussuchen’ das � � geloscht.

• Vor einem Nasal, dem mindestens ein Konsonant vorausgeht; z. B.� _ `=h3

↪

R � <wezm↪e> ‘ich werde nehmen’. Anders als bei den Plosiven

ist es hier nicht erforderlich, dass dem Nasal noch ein Konsonant folgt.Der vorausgehende Konsonant ist dadurch erforderlich, um eine Folgevon mindestens zwei Konsonanten zu schaffen.

Die Umgebungen, in denen � � als <e> realisiert wird, sind allgemeinerals die Umgebungen, in denen � � � als <o> oder �

↪

R � als <↪

a> realisiert wird.Das liegt an der zusatzlichen Forderung bei den letzten beiden Phonemen,dass die Konsonantenphoneme im rechten Kontext stimmhafte Laute sind.


� @ � kann als < l> und <l> realisiert werden.

l:l ⇔ PAL:@(6.31)

<l> tritt immer dann ein, wenn das � @ � erweicht wird. Die Regel muss dar-um nicht uberprufen, welche Erweichungsmarkierung die Erweichung auslost;es genugt, dass dem � @ � mindestens eine Erweichungsmarkierung folgt.


� \ � kann als <r> und <rz> realisiert werden.

r:rz ⇔ PAL:@(6.32)

Fur � \ � gilt dasselbe wie fur � @ � , weil auch � \ � von allen Erweichungs-markierungen gleich erweicht wird.

I 94


� � � kann als <n> und <n> realisiert werden. Auch � � � wird von allen Er-weichungsmarkierungen gleich erweicht, hier ist aber zusatzlich zu beachten,dass ein nachfolgendes <n> die Erweichung aufhebt; � � � wird dann generellals <n> geschrieben, auch wenn das nachfolgende <n> selbst erweicht ist.

# Konsonantengrapheme außer <n>SUBSET SCˆn b c c ch cz d dz dz dz f g h j k l l m p r rz s sz s t w z z z

n:n ⇔ PAL:0? PAL:@:0? (@:SCˆn | #)(6.33)


und��

� � � und � � � haben jeweils vier mogliche Realisierungen. Die Regeln sind fur� � � und � � � identisch, außer dass statt � = � im Kontext der Regeln fur � � �bei den Regeln fur � � � � ; � steht.

d:d ⇐ UC:@ | (UV:0 UC:SC) | UV:SV | # | .:0(6.34)

d:d ⇐ PAL:0? PAL1:@?:0? @:n(6.35)

d:dz ⇐ PAL:0? PAL1:@:0? UV:SV(6.36)

d:dz ⇐ # | ˜z:@ PAL:0? � :@ (˜PAL:@ | #)(6.37)

d:dz ⇐ PAL:0? PAL1:@:0? (@:SCˆn | #)(6.38)

d:dz ⇐ PAL:0? � :@ (˜PAL:@ | #)(6.39)

d:dz ⇐ z:@ PAL:0? � :@ (˜PAL:@ | #)(6.40)

t:t ⇐ UC:@ | (UV:0 UC:SC) | UV:SV | # | .:0(6.41)

t:t ⇐ PAL:0? PAL1:@?:0? @:n(6.42)

t:c ⇐ PAL:0? PAL1:@:0? UV:SV(6.43)

t:c ⇐ # | ˜s:@ PAL:0? � :@ (˜PAL:@ | #)(6.44)

t:c ⇐ PAL:0? PAL1:@:0? (@:SCˆn | #)(6.45)

t:cz ⇐ PAL:0? � :@ (˜PAL:@ | #)(6.46)

I 95

t:cz ⇐ s:@ PAL:0? � :@ (˜PAL:@ | #)(6.47)

Die Regeln 6.34 und 6.41 behandeln die Falle, in denen � � � und � � � nichterweicht werden. Die Erweichung entfallt auch (analog zu Regel 6.33), wenn<n> folgt (Regeln 6.35 und 6.42).

Bei Erweichung durch Erweichungsmarkierungen aus der Gruppe”PAL1“

wird � � � als <dz> oder <dz> und � � � als <c> oder <c> realisiert. DieForm ohne Akut tritt ein, wenn ein Vokal folgt (Regeln 6.36 und 6.43); dieErweichung wird dann durch ein , als das die Erweichungsmarkierungnach Regel 6.17 realisiert wird, markiert. Ansonsten tritt die Form mit Akutein (Regeln 6.38 und 6.45).

Die Erweichungsmarkierungen aus der Gruppe”PAL2“ erweichen � � �

und � � � unterschiedlich. � �� erweicht � � � zu <dz> und � � � zu <cz> (Regeln6.39 und 6.46). Die Realisierung bei Erweichung durch � �� ist normalerweise<dz> bzw. <c>4 (Regeln 6.37 und 6.44). � � � wird allerdings nach � = � als<dz> realisiert, und � � � nach � ; � als <cz> (Regeln 6.40 und 6.47).


,��

und��

Fur � = � und � ; � gibt es nur jeweils drei Realisierungmoglichkeiten. Bei � �= �ist noch zusatzlich die Assimilation der Stimmhaftigkeit zu beachten, so dasses fur � �= � sechs Realisierungsmoglichkeiten gibt.

z:z ⇔ (PAL:0? PAL1:@:0? (@:SC | #)) |(6.48)

(:0? (UCNyi:@ | l:@ | H:s) PAL:0? PAL1:@

(˜PAL:@ | #)) | (:0? (UCLab:@ | l:@ | n:@)

PAL:0? PAL2:@ (˜PAL:@ | #))

# Grapheme fur palato-alveolare KonsonantenSUBSET SCPalAlv cz dz rz sz z

z:z ⇔ (PAL:0? PAL2:@ (˜PAL:@ | #)) |(6.49)

(:0? (@:SCPalAlv) PAL:@)

s:s ⇔ (PAL:0? PAL1:@:0? (@:SC | #)) |(6.50)

(:0? (UCNyi:@ | l:@ | H:s) PAL:0? PAL1:@

(˜PAL:@ | #)) | (:0? (UCLab:@ | l:@ | n:@)

PAL:0? PAL2:@ (˜PAL:@ | #))

4<dz> und <c> bezeichnen hier die historisch weichen Konsonanten �� und � � � ;dementsprechend wird die Erweichungsmarkierung nach Regel 6.21 geloscht.

I 96

s:sz ⇔ (PAL:0? PAL2:@ (˜PAL:@ | #)) |(6.51)

(:0? (@:SCPalAlv) PAL:@)

In folgenden Fallen wird � = � als <z> und � ; � als <s> realisiert (Regeln6.48 und 6.50):

• Bei Erweichung durch eine Erweichungsmarkierung der Gruppe

”PAL1“, wenn darauf entweder das Wortende oder ein Konsonant folgt.

Vor Vokalen wird � = � als <z> und � ; � als <s> realisiert, weil dann dieErweichung durch ein nachfolgendes markiert wird.

• Bei indirekter Erweichung, wenn der nachfolgende Konsonant zu einemweichen Konsonanten erweicht wird. Das ist der Fall

– bei Erweichung durch eine Erweichungsmarkierung der Gruppe

”PAL1“ vor den labialen und alveolaren Nasalen, Plosiven und

Frikativen (Gruppe”UCNyi“), vor � @ � und vor durch �� erweich-

tem � � � und � � � . Die letzte Bedingung wird wie in Regel 6.18durch

”H:s“ formuliert.

– bei Erweichung durch eine Erweichungsmarkierung der Gruppe

”PAL2“ vor den labialen Konsonanten, � @ � und � � � .

In folgenden Fallen wird � = � als <z> und � ; � als <sz> realisiert (Regeln6.49 und 6.51):

• Bei Erweichung durch eine Erweichungsmarkierung der Gruppe

”PAL2“. Hier muss nicht verlangt werden, dass ein Konsonant oder

das Wortende folgt.

• Bei indirekter Erweichung, wenn der nachfolgende Konsonant zu einempalato-alveolaren Konsonanten erweicht wird. Das betrifft

– � ; � und � = � vor einer Erweichungsmarkierung der Gruppe

”PAL2“;

– � \ � vor allen Erweichungsmarkierungen;

– � C � und � E � vor � �� sowie vor einer Erweichungsmarkierung derGruppe

”PAL2“;

– � � � und � � � vor � �� und � �� sowie vor einer Erweichungsmarkie-rung der Gruppe

”PAL2“.

I 97

Diese Bedingung kann durch”@:SCPalAlv“ formuliert werden, weil

palato-alveolare Konsonanten nur durch Erweichung von alveolarenund velaren Konsonanten und nur in den genannten Fallen entstehen.

Fur die Realisierung von � �= � gelten prinzipiell dieselben Regeln wie fur� = � , es ist aber zusatzlich die Assimilation der Stimmhaftigkeit zu beachten.Dadurch tritt vor stimmlosen Lauten eine Realisierung wie von � ; � und nichtwie von � = � ein.

In nicht erweichter stimmloser Umgebung ist die Realisierung <s>.

# Grapheme fur stimmhafte KonsonantenSUBSET SCV b d dz dz g j l l m n n r rz w z z z

z:z ⇔ (PAL:0? PAL1:@:0? (@:SCV | #)) |(6.52)

(:0? (UCNyi:SCV | l:@) PAL:0? PAL1:@

(˜PAL:@ | #)) | (:0? (UCLab:SCV | l:@ | n:@)

PAL:0? PAL2:@ (˜PAL:@ | #))

# Grapheme fur stimmhafte palato-alveolare KonsonantenSUBSET SCPalAlvV dz rz z

z:z ⇔ (PAL:0? PAL2:@ (@:SCV | @:SV | #)) |(6.53)

(:0? (@:SCPalAlvV) PAL:@)

# Grapheme fur stimmlose KonsonantenSUBSET SCVl c ch cz c f h k p s sz s t

z:s ⇔ (PAL:0? PAL1:@:0? (@:SCVl | #)) |(6.54)

(:0? (UCNyi:SCVl | H:s) PAL:0? PAL1:@

(˜PAL:@ | #)) | (:0? UCLab:SCVl

PAL:0? PAL2:@ (˜PAL:@ | #))

# Grapheme fur stimmlose palato-alveolare KonsonantenSUBSET SCPalAlvVl cz sz

z:sz ⇔ (PAL:0? PAL2:@ @:SCVl) |(6.55)

(:0? (@:SCPalAlvVl) PAL:@)

z:s ⇔ PAL:0? @:SCVl+ (UV:@ | #)(6.56)

I 98


und��

Wie bei � � � und � � � muss bei � E � und � C � beachtet werden, welche Er-weichungsmarkierung die Erweichung auslost. Es gibt aber jeweils nur zweimogliche Laute, zu denen � E � und � C � erweicht werden konnen.

• Bei Erweichung durch �� und � �� wird � E � als <dz> und � C � als <c>realisiert.

• Bei Erweichung durch � �� , � �� und � �� wird � E � als <z> und � C � als<cz> realisiert.

Daraus ergeben sich die Regeln 6.57 bis 6.60.

g:dz ⇔ PAL:0? ( � :@ | ˙� :@) (˜PAL:@ | #)(6.57)

g:z ⇔ PAL:0? ( � :@ | PAL2:@) (˜PAL:@ | #)(6.58)

k:c ⇔ PAL:0? ( � :@ | ˙� :@) (˜PAL:@ | #)(6.59)

k:cz ⇔ PAL:0? ( � :@ | PAL2:@) (˜PAL:@ | #)(6.60)


und��

� � � und � � � werden von � � � zu <s> erweicht und von den anderen vierErweichungsmarkierungen zu <sz>. Statt <s> wird vor Vokalen <s> ge-schrieben.

H:sz ⇔ PAL:0? (˙� :@ | � :@ | PAL2:@) (˜PAL:@ | #)(6.61)

H:s ⇔ PAL:0? � :@ @:SV(6.62)

H:s ⇔ PAL:0? � :@ (@:SC | #)(6.63)


� 2 � wird zwischen Vokalen geloscht, wenn der nachfolgende Vokal als geschrieben wird.

j:0 ⇔ @:SV PAL:@? @:i(6.64)

I 99

6.4 Einfugungen

Es konnen und <y> eingefugt werden. Zwischen <g> oder <k> und<e> wird eingefugt. Vor <j> am Wortende ahneln die Regeln, nachdenen entschieden wird, ob oder <y> eingefugt wird, denen fur dieRealisierung von � L � . Wenn das <j> am Wortende die Realisierung von � �� ist, wird allerdings immer eingefugt.

6.4.1 Einfugung von 

0:i ⇐ @:g | @:k @:e(6.65)

0:i ⇐ @:g | @:k j:@ #(6.66)

0:i ⇐ @:SCLab PAL:0? PAL:@ j:@ #(6.67)

0:i ⇐ UCAlv:SCAlvPal PAL:0? PAL1:@ j:@ #(6.68)

0:i ⇐ n PAL:0? PAL2:@ j:@ #(6.69)

0:i ⇐ H:s PAL:0? PAL:@ j:@ #(6.70)

0:i ⇐ @:SCPal PAL:0* j:@ #(6.71)

0:i ⇐ @:SC � :@ #(6.72)

0:i 6⇐ 0:@(6.73)

0:i 6⇐ # | @:SV | .:0 | -:0(6.74)

# Vokalgrapheme außer <e>SUBSET SVê a

↪a

↪e i o o u y

0:i 6⇐ .:0 | -:0 | @:SVê | UCˆj:@ | PAL:@ | UV:0 | #(6.75)

0:i 6⇐ @:˜g˜k @:e(6.76)

0:i 6⇐ (j:@ | � :@) @:@(6.77)

Regel 6.65 behandelt den Fall, dass <g> oder <k> vor <e> steht.Die Regeln 6.66 bis 6.67 sorgen fur die Einfugung von vor � 2 � am

Wortende. Die Einfugung geschieht nach Konsonanten in Kontexten, in de-nen � L � als realisiert wurde; ansonsten wird <y> eingefugt. Die Regeln6.66 bis 6.71 sind darum wie die Regeln 6.2 bis 6.7 aufgebaut.

Vor � �� wird dagegen immer und nicht <y> eingefugt (Regel 6.72).Die Regeln 6.73 bis 6.77 verhindern, dass in anderen als den genann-

ten Kontexten eingefugt wird und der Two-Level-Prozessor dadurch eine un-endliche Anzahl von Oberflachenformen generiert.

I 100

6.4.2 Einfugung von <y>

0:y ⇐ (UCAlv:@ | UCLab:@ | H:@) j:@ #(6.78)

0:y ⇐ (@:SCAlvNPal | g:SCAlvPal | k:SCAlvPal) PAL:0* j:@ #(6.79)

0:y ⇐ UCAlv:SCAlvPalˆn PAL:0? PAL2:@ j:@ #(6.80)

0:y 6⇐ 0:@(6.81)

0:y 6⇐ # | @:SV(6.82)

0:y 6⇐ # | ˜j:@(6.83)

0:y 6⇐ j:@ @:@(6.84)

<y> wird in genau den Fallen zwischen einem Konsonanten und � 2 � amWortende eingefugt, wenn nicht eingefugt wird; d. h. in Kontexten, indenen � L � als <y> realisiert wurde. Die Regeln 6.78 bis 6.80 entsprechen denRegel 6.8 bis 6.10. Die Regeln 6.81 bis 6.84 verhindern, dass <y> in anderenKontexten eingefugt wird.

6.5 Uberpfufung der Korrektheit der Regeln

Um die 84 Regeln zu testen, habe ich eine Liste von Wortformen zusam-mengestellt, die jeweils die zugrunde liegende Form und die Oberflachenformenthalt. Die Liste umfasst 3201 unterschiedliche Wortformen, die Damerauin [7] als Beispiele auffuhrt.

Anhand der Liste konnte ich bestatigen, dass die Regeln (und der Regel-compiler) zumindest fur diese 3201 Wortformen korrekt sind.

Kapitel 7

Abschließende Bemerkungen

Die vorliegende Arbeit uber die Phonologie des Polnischen umfasste mehrereTeile, die ich noch einmal kurz zusammenfasse.

• In Kapitel 2 habe ich ein phonologisches Modell der polnischen Ortho-graphie vorgestellt, das meiner Meinung nach die Realitat im heutigenPolnischen besser widerspiegelt als andere Modelle, speziell das vonRubach in [19].

• Nach den theoretischen Kapiteln uber endliche Automaten und Trans-duktoren (Kapitel 3) und uber zwei phonologischen Formalismen, diegenerative Phonologie und das Two-Level-Modell (Kapitel 4), habe ichdarauf aufbauend in Kapitel 5 die Implementation eines Regelcompi-lers fur Two-Level-Regeln vorgestellt, mit der die schwierige und feh-leranfallige Arbeit, Regeln von Hand in Transduktoren umzuwandeln,erledigt.1

• Kapitel 6 enthalt schließlich eine formale Umsetzung des in Kapitel 2naturlichsprachlich formulierten Modells der polnischen Orthographiemit Hilfe des Two-Level-Modells. Dadurch ist es moglich, das Modellder polnischen Orthographie auch praktisch einzusetzen.

Es bleiben naturlich noch Probleme offen, die in dieser Arbeit nicht gelostwerden.

Mit den 84 in Kapitel 6 aufgefuhrten Regeln ist es moglich, zugrundeliegende Formen polnischer Worter so zu formulieren, dass die richtige or-thographische Oberflachenform generiert wird. Allerdings war es ofter als

1Zum Beispiel ware es eine schwer losbare Aufgabe, den Transduktor zu Regel 6.30(Seite 92) mit seinen 66 Zustanden richtig von Hand zu definieren.

101

KAPITEL 7. ABSCHLIESSENDE BEMERKUNGEN 102

Abbildung 7.1: Transduktor zu Regel 7.1 ohne Berucksichtigung von Uber-schneidungen der Kontexte

wunschenswert notig, Lexeme mit mehr als einem Morphem zu reprasen-tieren. In Fallen wie <byc> ‘sein’ – <jestem> ‘ich bin’ ist klar, dass eineunregelmaßige Form vorliegt. Es gibt aber eine Reihe anderer Lexeme, wodie Unterschiede weniger stark sind. So gibt es bei mehreren Verben eineAllomorphie zwischen <

↪a> im Infinitiv und <n> im Prasens (z. B. <ci

↪ac>

� � �↪

� �� ‘schneiden’ – <tn

↪e> � � � �

↪

R � ‘ich schneide’), fur die die Regeln keineErklarung bieten. Es waren noch weitere Untersuchungen der Falle notig, indenen der Wechsel auftritt, um die Ursache fur diesen Wechsel zu bestim-men. Vor allem in der Verbflexion treten bei einzelnen Lexemen noch weiteresolche Phanomene auf, fur die ich bisher keine Begrundung habe.

Weitere Fehler in der Formulierung der Regeln oder auch im phonologi-schen Modell treten moglicherweise erst in einer praktischen Anwendung miteiner großeren Zahl von Wortformen als den 3201 meiner Testmenge auf. Fureine praktische Anwendung, die sich nicht auf die Generierung von Wort-formen beschrankt, ware außerdem ein umfangreicheres Lexikon als das aufder beiliegenden CD erforderlich, weil PC-KIMMO bei der Erkennung vonWortformen ein Lexikon benotigt.

Der in Kapitel 5 vorgestellte Regelcompiler hat, wie bereits dort ange-sprochen, ein prinzipielles Problem, wenn der linker Kontext, das Zentrum


Abbildung 7.2: Transduktor zu Regel 7.1 mit Berucksichtigung von Uber-schneidungen der Kontexte

und/oder der rechte Kontext sich bei der Anwendung einer Regel uberlap-pen. Der Grund, warum die Regeln fur das Polnische trotzdem funktionierenist, dass solche Uberlappungen nur in relativ geringem Maß auftreten. Uber-lappungen bis zur Lange 1 fangt der Regelcompiler durch komplizierte Testsab, mit denen er versucht, solche Uberlappungen zu erkennen.

Den folgenden Ansatz, wie das Problem der Uberlappungen grundsatzlichzu losen sein konnte, konnte ich in der verfugbaren Zeit nicht mehr umsetzen.

Die Idee ist, den Transduktor zunachst zu konstruieren, ohne Uberlap-pungen zu berucksichtigen, und dann mit einem Algorithmus, der ahnlich wieder Determinisierungsalgorithmus fur endliche Automaten bzw. Transdukto-ren funktioniert, mehrere gleichzeitige Erkennungen des linken und rechtenKontexts zu ermoglichen. Als Beispiel sei ein Transduktor fur Regel 7.1 ge-geben.

a:b ⇐ a:@ c:c(7.1)


Unter der Annahme, dass die erlaubten Symbolpaare a:a, a:b und c:c

sind, ergibt sich im ersten Schritt der Transduktor in Abbildung 7.1.Das Prinzip ware, dass der Transduktor so konstruiert wird, dass er sich

nicht in einem einzigen Zustand des ursprunglichen Transduktors (wie in Ab-bildung 7.1) befindet, sondern in einer Menge von dessen Zustanden. Startzu-stand ware nur der Startzustand des Ausgangstransduktors, also 0 in diesemFall. Wenn der Startzustand verlassen wird – hier z. B. wenn a:a gelesen wird– wechselt der Transduktor nicht nur in Zustand 1, sondern bleibt gleichzei-tig in Zustand 0, um den Anfang eines weiteren linken Kontexts erkennen zukonnen. Der Folgezustand von 0 bei der Eingabe von a:a ware also {0 1}.

Wenn nun erneut a:a gelesen wird, dann wechselt der Transduktor in alleFolgezustande der momentanen Zustande, im Beispiel also in 1 als Folgezu-stand von 0 und in 2 als Folgezustand von 1. Zusatzlich bleibt er wie vorherim Startzustand, so dass der Folgezustand von {0 1} bei Eingabe von a:a {01 2} ware. Man sieht, dass der Transduktor in diesem Fall zwei Erkennungengleichzeitig durchfuhrt, namlich eine, die mit dem ersten a:a-Paar beginnt,und eine, die mit dem zweiten a:a-Paar beginnt.

Mit diesem Algorithmus wurde sich der Transduktor in Abbildung 7.2ergeben. Es ist zu beachten, dass der Zustand {0 3} kein Endzustand istund dass von ihm keine weiteren Kanten ausgehen, weil 3 in Abbildung 7.1der Zustand ist, in dem eine Sequenz von Symbolen erkannt wurde, die vonder Regel verboten wird.

Anhang A

Two-Level-Regeln

Nachfolgend sind die Regeln fur das Polnische zusammengefasst, einschließ-lich aller fur den Regelcompiler notigen Definitionen.

ALPHABET a æ↪

a b c x ch cz c d dz dz dz eV

↪e f g h i j � k l l m n

5n�

o o�

œ œ p r rz s s sz s t u w � ˙� � � � z z z z z . -

# Vokalgrapheme

SUBSET SV a↪

a e↪e i o o u y

SUBSET SVî a↪

a e↪e o o u y

SUBSET SVê a↪

a↪e i o o u y

# Vokalphoneme

SUBSET UV a æ↪

aV

↪e i

�o�

œ œ u

# Konsonantengrapheme

SUBSET SC b c c ch cz d dz dz dz f g h j k l l m n n p r rz s sz s t w z z z

SUBSET SCˆn b c c ch cz d dz dz dz f g h j k l l m p r rz s sz s t w z z z

# Konsonantenphoneme

SUBSET UC b x d f g h j � k l m n p r s s t w z z z

SUBSET UCˆj b x d f g h k l m n p r s s t w z z z

# Labiale Konsonanten

SUBSET SCLab b f m p w

SUBSET UCLab b f m p w

# Alveolare Konsonanten

105

ANHANG A. TWO-LEVEL-REGELN 106

SUBSET UCAlv d l n r s s t z z z

SUBSET UCAlvˆn d l r s s t z z z

# Alveolare Konsonanten, die weich sein konnen

SUBSET SCAlvPal c dz n s z

SUBSET SCAlvPalˆn c dz s z

# Alveolare Konsonanten, die nicht weich sein konnen

SUBSET SCAlvNPal cz d dz l r rz sz t z

# Palato-Alveolare Konsonanten

SUBSET SCPalAlv cz dz rz sz z

SUBSET SCPalAlvV dz rz z

SUBSET SCPalAlvVl cz sz

# Palatale Konsonanten

SUBSET SCPal c dz j l n s z

SUBSET UCPal j

# Velare Konsonanten

SUBSET UCVel x g h k

# Nasale Konsonanten

SUBSET UCNas m n

# Plosive

SUBSET UCPlo b d g k p t

# Stimmhafte Konsonanten

SUBSET SCV b d dz dz g j l l m n n r rz w z z z

# Stimmlose Konsonanten

SUBSET SCVl c ch cz c f h k p s sz s t

#”Beugende“ Konsonanten: stimmhafte Obstruenten und Sonoranten

SUBSET UBVO b d g z z z

SUBSET UBVS j l r w

# Indirekt erweichende Konsonanten

SUBSET UCPalTrans d l n s s t z z z


# Konsonanten, nach denen y:i erlaubt ist

SUBSET UCNyi b d f m n p s s t w z z z

# /x/ und /h/ verhalten sich phonologisch identisch

SUBSET H x h

# Erweichungsmarkierungen

SUBSET PAL � ˙� � � �SUBSET PAL1 � ˙� �SUBSET PAL2 � �CORRESPONDENCES a æ:a æ:e

↪a b x:ch x:s x:sz d d:dz d:dz d:dz

CORRESPONDENCES e:e

:0

↪e

↪e:

↪a f g g:dz g:z h i i:y j j:0 � :0 � :i � :j k k:c

k:cz l l: l

CORRESPONDENCES m n n:n5:n

�:o

�:o

�:o o œ:e œ:o œ:o œ:e œ:o p r

r:rz s s:s s:sz s:s

CORRESPONDENCES t t:c t:cz t:c u � :0 � :i � :j � :0 � :i � :j w � :0 � :i � :j ˙� :0˙� :i ˙� :j � :0 � :i � :j z z:z z:z z:z z:z z:z z:z z:s z:sz z:s

CORRESPONDENCES .:0 -:0

CORRESPONDENCES 0:i 0:y

RULE i:i <= (g:@ | k:@):0?

RULE i:i <= (# | @:SV) PAL:0*

RULE i:i <= @:SCLab PAL:0? PAL:@:0?

RULE i:i <= UCAlv:SCAlvPal PAL:0? PAL1:@:0?

RULE i:i <= n PAL:0? PAL2:@:0?

RULE i:i <= H:s PAL:0? PAL:@:0?

RULE i:i <= @:SCPal PAL:0*:0?

RULE i:y <= (UCAlv:@ | UCLab:@ | H:@):0?

RULE i:y <= (@:SCAlvNPal | g:SCAlvPal | k:SCAlvPal) PAL:0*:0?

RULE i:y <= UCAlv:SCAlvPalˆn PAL:0? PAL2:@:0?

RULE PAL:j <= @:SV @:SVî

RULE PAL:0 <=:0? UV:i

RULE PAL:0 <= PAL:@


RULE PAL:0 <=:0? (@:SC | #)

RULE PAL:0 <= (UCPal:@ | l:@) PAL:0? ˜PAL:@

RULE PAL1:0 <= (r:@ | k:@ | g:@ | H:sz) PAL:0? ˜PAL:@

RULE PAL1:i <= UCNyi:@ PAL:0?:0? @:SVî

RULE PAL1:i <= H:s PAL:0?:0? @:SVî

RULE PAL2:i <= (UCLab:@ | n:@) PAL:0?:0? UV:SVî

RULE PAL2:0 <= (UCLab:@ | n:@) PAL:0?:0? UV:i

RULE PAL2:0 <= (UCAlvˆn:@ | UCVel:@) PAL:0? ˜PAL:@

RULE � :0 <=> H:@ UV:i

RULE � :j <=> @:SC (0:i | 0:y) #

RULE↪e:

↪a <=> (UBVS:@ PAL:@* (# | -:0)) | ((UC:@ | PAL:@)* UBVO:@

(PAL:@|UBVO:@|UBVS:@)* (# | -:0)) | (l:@ UC:@)

RULE�:o <=> (UBVS:@ PAL:@* #) | ((UC:@ | PAL:@)* UBVO:@

(PAL:@|UBVO:@|UBVS:@)* #) | (l:@ UC:@)

RULE œ:o <=> (UBVS:@ #) | (UC:@* UBVO:@ (UBVO:@|UBVS:@)*#) | (l:@ UC:@)

RULE æ:e <=> ((UC:@ UCPalTrans:@*)? PAL:@) | UCPal:@

RULE œ:e <=> ((UC:@ UCPalTrans:@*)? PAL:@) | UCPal:@

RULE œ:e <=> ((UC:@ UCPalTrans:@*)? PAL:@) | UCPal:@

RULE:e <=> (#|@:SC|((@:g|@:k) 0:i)) (PAL:@|-:0)* (UC:@ (PAL:@|

:0|UC:@)* #) | (UCPal:@ PAL:@?:0? UC:@) | ((UC:@ PAL:@?

:0?)*

UCPlo:@ PAL:@?:0? UC:@) | ((UC:@ PAL:@?

:0?)+ UCNas:@)

RULE l:l <=> PAL:@

RULE r:rz <=> PAL:@

RULE n:n <=> PAL:0? PAL:@:0? (@:SCˆn | #)

RULE d:d <= UC:@ | (UV:0 UC:SC) | UV:SV | # | .:0

RULE d:d <= PAL:0? PAL1:@?:0? @:n

RULE d:dz <= PAL:0? PAL1:@:0? UV:SV

RULE d:dz <= # | ˜z:@ PAL:0? � :@ (˜PAL:@ | #)

RULE d:d <= PAL:0? PAL1:@:0? (@:SCˆn | #)

RULE d:d <= PAL:0? � :@ (˜PAL:@ | #)


RULE d:d <= z:@ PAL:0? � :@ (˜PAL:@ | #)

RULE t:t <= UC:@ | (UV:0 UC:SC) | UV:SV | # | .:0

RULE t:t <= PAL:0? PAL1:@?:0? @:n

RULE t:c <= PAL:0? PAL1:@:0? UV:SV

RULE t:c <= # | ˜s:@ PAL:0? � :@ (˜PAL:@ | #)

RULE t: <= PAL:0? PAL1:@:0? (@:SCˆn | #)

RULE t:cz <= PAL:0? � :@ (˜PAL:@ | #)

RULE t:cz <= s:@ PAL:0? � :@ (˜PAL:@ | #)

RULE z:z <=> (PAL:0? PAL1:@:0? (@:SC | #)) | (

:0? (UCNyi:@ | l:@

| H:s) PAL:0? PAL1:@ (˜PAL:@ | #)) | (:0? (UCLab:@ | l:@ | n:@) PAL:0?

PAL2:@ (˜PAL:@ | #))

RULE z:z <=> (PAL:0? PAL2:@ (˜PAL:@ | #)) | (:0? (@:SCPalAlv)

PAL:@)

RULE s:s <=> (PAL:0? PAL1:@:0? (@:SC | #)) | (

:0? (UCNyi:@ | l:@

| H:s) PAL:0? PAL1:@ (˜PAL:@ | #)) | (:0? (UCLab:@ | l:@ | n:@) PAL:0?

PAL2:@ (˜PAL:@ | #))

RULE s:sz <=> (PAL:0? PAL2:@ (˜PAL:@ | #)) | (:0? (@:SCPalAlv)

PAL:@)

RULE z:z <=> (PAL:0? PAL1:@:0? (@:SCV | #)) | (

:0? (UCNyi:SCV |

l:@) PAL:0? PAL1:@ (˜PAL:@ | #)) | (:0? (UCLab:SCV| l:@ | n:@) PAL:0?

PAL2:@ (˜PAL:@ | #))

RULE z:z <=> (PAL:0? PAL2:@ (@:SCV | @:SV | #)) | (:0? (@:SCPa-

lAlvV) PAL:@)

RULE z:s <=> PAL:0? @:SCVl+ (UV:@ | #)

RULE z:s <=> (PAL:0? PAL1:@ E:0? (@:SCVl | #)) | (:0? (UCNyi:SCVl

| H:s) PAL:0? PAL1:@ (˜PAL:@ | #)) | (:0? UCLab:SCVl PAL:0? PAL2:@

(˜PAL:@ | #))

RULE z:sz <=> (PAL:0? PAL2:@ @:SCVl) | (:0? (@:SCPalAlvVl)

PAL:@)

RULE g:dz <=> PAL:0? ( � :@ | ˙� :@) (˜PAL:@ | #)

RULE g:z <=> PAL:0? ( � :@ | PAL2:@) (˜PAL:@ | #)

RULE k:c <=> PAL:0? ( � :@ | ˙� :@) (˜PAL:@ | #)

RULE k:cz <=> PAL:0? ( � :@ | PAL2:@) (˜PAL:@ | #)


RULE H:sz <=> PAL:0? (˙� :@ | � :@ | PAL2:@) (˜PAL:@ | #)

RULE H:s <=> PAL:0? � :@ @:SV

RULE H:s <=> PAL:0? � :@ (@:SC | #)

RULE j:0 <=> @:SV PAL:@? @:i

RULE 0:i <= @:g | @:k @:e

RULE 0:i <= @:g | @:k j:@ #

RULE 0:i <= @:SCLab PAL:0? PAL:@ j:@ #

RULE 0:i <= UCAlv:SCAlvPal PAL:0? PAL1:@ j:@ #

RULE 0:i <= n PAL:0? PAL2:@ j:@ #

RULE 0:i <= H:s PAL:0? PAL:@ j:@ #

RULE 0:i <= @:SCPal PAL:0* j:@ #

RULE 0:i <= @:SC J:@ #

RULE 0:i /<= 0:@

RULE 0:i /<= # | @:SV | .:0 | -:0

RULE 0:i /<= .:0 | -:0 | @:SVê | UCˆj:@ | PAL:@ | UV:0 | #

RULE 0:i /<= @:˜g˜k @:e

RULE 0:i /<= (j:@ | � :@) @:@

RULE 0:y <= (UCAlv:@ | UCLab:@ | H:@) j:@ #

RULE 0:y <= (@:SCAlvNPal | g:SCAlvPal | k:SCAlvPal) PAL:0* j:@ #

RULE 0:y <= UCAlv:SCAlvPalˆn PAL:0? PAL2:@ j:@ #

RULE 0:y /<= 0:@

RULE 0:y /<= # | @:SV

RULE 0:y /<= # | ˜j:@

RULE 0:y /<= j:@ @:@

Anhang B

Ubersicht uber die beiliegendeCD

Auf der beiliegenden CD befinden sich die Daten, die ich im Rahmen dieserArbeit produziert habe. Die CD enthalt die folgenden Dateien.

• zempp.ps: Diese Arbeit im Postscript-Format.

• fst/krulecomp.tcl: Der Regelcompiler.

• fst/fst.tcl: Implementation der in den Abschnitten 5.2 und 5.3 be-schriebenen Prozeduren. Die Datei wird vom Regelcompiler benotigt.

• fst/pckimmo.tcl: Hilfsfunktionen fur den Regelcompiler, um Regel-dateien fur PC-KIMMO zu generieren, und fur das Testskript, um mitPC-KIMMO zu kommunizieren.

• polnisch/twolevel.rul: Unkompilierte Regeln. twolevel.rul istauch im Anhang A abgedruckt.

• polnisch/pckimmo.rul: Kompilierte Regeldatei fur PC-KIMMO.

• polnisch/polnisch.lex, polnisch/startend.lex und polnisch/

nouns.lex: Beispiellexikon fur PC-KIMMO.

• polnisch/tokens.txt: Meine Testmenge von Paaren von zugrundeliegenden Formen und Oberflachenformen.

• polnisch/kgenerate.tcl: Testskript, um die Richtigkeit der Regelnanhand der Testmenge zu uberprufen.

111

ANHANG B. UBERSICHT UBER DIE BEILIEGENDE CD 112

• polnisch/endungen.txt: Fuhrt die Allomorphe der verschiedenenSubstantiv-, Adjektiv- und Verbendungen sowie einige Ableitungsmor-pheme in phonologischer Reprasentation auf.

• polnisch/staemme.txt: Liste der meisten in tokens.txt aufgefuhrtenFormen, sortiert nach Lexemen.

Graphem- und Phonemsymbole

Die Dateien im Verzeichnis polnisch (außer kgenerate.tcl) enthalten Gra-phem- und Phonemsymbole. Ich habe dort zum Teil andere Symbole ver-wendet als in der Arbeit, meistens weil das entsprechende Symbol nicht zurVerfugung stand. Um wenigstens alle Grapheme des Polnischen verwendenzu konnen, sind die Dateien im Zeichensatz Latin-2 (ISO-8859-2) kodiert.

Die folgenden Tabellen fuhren die Symbole, die sich zwischen der Arbeitund den Dateien unterscheiden, sowie die Symbole, die anders dargestelltwerden, wenn die Dateien mit dem Zeichensatz Latin-1 (ISO-8859-1) ange-zeigt werden, auf.

GraphemsymboleSymbol in der Arbeit Latin-2 Latin-1

↪a

↪a ±

c c ædz dz d1/4dz dz d¿

↪e

↪e e

l l 3

n n ns s ¶z z 1/4z z ¿


PhonemsymboleSymbol in der Arbeit Latin-2 Latin-1

æ AE AE

↪a

↪a ±

x ch chVe eE E

↪e

↪e e

� J J5N N�o o�o o

œ OE OE

œ OE OEs S S� y y˙� Y Y� ’ ’� v v� V Vz Z Z

z Z ¯

Benotigte Software

Damit der Regelcompiler benutzt werden kann, muss ein Tcl-Interpreter inVersion 8.3 oder hoher installiert sein. Tcl ist im WWW beim Tcl DeveloperXchange unter http://www.scriptics.com/ fur Unix, Windows und MacOSerhaltlich.

Das Testskript benotigt zusatzlich den Two-Level-Prozessor PC-KIMMOund die Tcl-Erweiterung Expect. PC-KIMMO ist im Archiv pc-parse-src

enthalten, das bei SIL International (http://www.sil.org/, das fruhere Sum-mer Institute of Linguistics) heruntergeladen werden kann. pc-parse unter-stutzt die Plattformen Unix, Windows, MS-DOS und MacOS.

Expect ist eine Erweiterung von Tcl, die es Skripten ermoglicht, inter-aktive Programme (wie PC-KIMMO) zu steuern. Expect ist unter http://expect.nist.gov/ erhaltlich, allerdings nur fur Unix. Es werden dort auch zweiPortierungen von Expect nach Windows aufgefuhrt, um diese zu benutzen,mussten aber wahrscheinlich Anderungen am Testskript vorgenommen wer-den.


Aufruf des Regelcompilers

Der Regelcompiler wird mit einer Regeldatei aufgerufen und schreibt seineAusgabe in die Standardausgabe, die dann in eine Datei umgelenkt werdenkann. Ein Beispielaufruf:

polnisch$ ../fst/krulecomp.tcl twolevel.rul > pckimmo.rul

Aufruf des Testskripts

Das Testskript kgenerate.tcl muss mit einer PC-KIMMO-Regeldatei undeiner Testmenge wie tokens.txt aufgerufen werden. kgenerate.tcl beno-tigt das Skript pckimmo.tcl aus dem Verzeichnis fst. Wenn sich pckimmo

nicht von kgenerate.tcl aus gesehen im Verzeichnis ../fst befindet, mussder Pfad in der Skriptdatei entsprechend geandert werden. Ein Beispielaufruf:

polnisch$ kgenerate.tcl pckimmo.rul tokens.txt

Generierung und Erkennung von Wortformen

mit PC-KIMMO

In diesem Abschnitt gebe ich eine kurze Einfuhrung in die Arbeit mit PC-KIMMO. Das Programm wird ausfuhrlich in [1] dokumentiert.

PC-KIMMO wird mit einer Regeldatei (z. B. pckimmo.rul) und, wennWortformen erkannt werden sollen, mit der Hauptdatei eines Lexikons (z. B.polnisch.lex) aufgerufen. polnisch.lex enthalt ein Beispiellexikon mit ei-nigen wenigen Substantiven.

polnisch$ pckimmo -r pckimmo.rul -l polnisch.lex

An der Eingabeaufforderung von PC-KIMMO konnen dann Kommandoseingegeben werden. Die wichtigsten Kommandos sind

”gen“ zum Generieren

von Wortformen und”rec“ zum Erkennen von Wortformen.

PC-KIMMO>gen kobyeti

kobiety

PC-KIMMO>rec kobiety

kobyeti N:kobieta(Frau)/GenSg

kobyeti N:kobieta(Frau)/NomPl

kobyeti N:kobieta(Frau)/AkkPl

kobyeti N:kobieta(Frau)/VokPl


Wenn”gen“ oder

”rec“ ohne Argument eingegeben wird, wechselt PC-

KIMMO in einen Generierungs- bzw. Erkennungsmodus, in dem die Worteohne das vorangestellte Kommando eingegeben werden konnen. Der Moduswird durch Eingabe eines leeren Wortes wieder verlassen.

PC-KIMMO>gen

generator>>stawamyi

stawami

generator>>dEnu

dnu

generator>>

PC-KIMMO>rec

recognizer>>stawami

stawamyi N:staw(Teich)/InstrPl

recognizer>>dnu

dEnu N:dno(Boden)/DatSg

recognizer>>

PC-KIMMO>

Mit”quit“ wird PC-KIMMO beendet.

Literaturverzeichnis

[1] Antworth, Evan L. (1990): PC-KIMMO: A Two-level Processor for Mor-phological Analysis; Dallas: Summer Institute of Linguistics.

[2] B↪

ak, Piotr (1977): Gramatyka j↪ezyka polskiego: zarys popularny ; War-

szawa: Wiedza Powszechna.

[3] Biedrzycki, Leszek (1974): Abriß der polnischen Phonetik ; Warszawa:Wiedza Powszechna.

[4] Carstensen, K.-U. et al. (Hrsg.) (2001): Computerlinguistik und Sprach-technologie; Heidelberg/Berlin: Spektrum Akademischer Verlag.

[5] Chomsky, Noam und Halle, Morris (1968): The Sound Pattern of Eng-lish; New York: Harper & Row.

[6] Crystal, David (1995): Die Cambridge Enzyklopadie der Sprache; Frank-furt/New York: Campus.

[7] Damerau, Norbert (1992): Polnische Grammatik ; Berlin: Walter deGruyter.

[8] Gluck, Helmut (Hrsg.) (1993): Metzler Lexikon Sprache; Stuttgart:Metzler.

[9] Goldsmith, J. A. (1979):”An Overview of Autosegmental Phonology“.

In: Linguistic Analysis 2, hrsg. von Michael K. Brame; New York: Else-vier.

[10] Hopcroft, John (1971):”An n log n Algorithm for Minimizing States in

a Finite Automaton“. In: Theory of Machines and Computations, hrsg.von Zvi Kohavi und Azaria Paz; New York: Academic Press.

[11] Kager, Rene (1999): Optimality Theory ; Cambridge: Cambridge Univer-sity Press.

116

LITERATURVERZEICHNIS 117

[12] Kaplan, Ronald M. und Kay, Martin (1994):”Regular Models of Phono-

logical Rule Systems“. In: Computational Linguistics 20(3); Cambridge,Mass.: MIT Press.

[13] Karttunen, Lauri und Beesley, Kenneth R. (1992): Two-LevelRule Compiler. <http://www.xrce.xerox.com/competencies/content-analysis/fssoft/docs/twolc-92/twolc92.html> (Link zuletzt uberpruftam 10. 9. 2003)

[14] Karttunen, Lauri und Beesley, Kenneth R. (2001): A Short Historyof Two-Level Morphology. <http://www2.parc.com/istl/members/karttune/publications/esslli-2001/twol-history/twol-history.html>(Link zuletzt uberpruft am 10. 9. 2003)

[15] Koskenniemi, Kimmo (1983):”Two-level Model for Morphological Ana-

lysis“. In: Proceedings of the Eighth International Joint Conference onArtificial Intelligence; Los Altos, Calif.: Kaufmann.

[16] Prince, Alan und Smolensky, Paul (1993): Optimality theory: constraintinteraction in generative grammar ; New Brunswick, NJ: Rutgers Centerfor Cognitive Science.

[17] Ritchie, Graeme D. et. al. (1992): Computational Morphology: PracticalMechanisms for the English Lexicon; Cambridge, Mass.: MIT Press.

[18] Roche, Emmanual und Schabes, Yves (1997): Finite-State LanguageProcessing ; Cambridge, Mass.: MIT Press.

[19] Rubach, Jerzy (1984): Cyclic and Lexical Phonology – The Structure ofPolish; Dordrecht: Foris Publications.

[20] Spencer, Andrew (1998): Phonology: Theory and Description; Oxford:Blackwell.

Erklarung nach §18 Abs. 7 der Magisterprufungsordnung

Ich versichere, dass ich die Arbeit selbststandig verfasst und keine anderenals die angegebenen Quellen und Hilfsmittel benutzt habe.

Documents

Ein Zwei-Ebenen-Modell der Phonologie des PolnischenCL/download/MasterTh_ThomasBraun.pdf · und ; aufgrund der identischen Semantik der beiden Morpheme werden sie als zwei Formen