30
Einführung in die Syntax und Morphologie Vorlesung mit Übung WS 2010/2011, Computerlinguistik 01

Einführung in die Linguistik - uni-saarland.detania/ws2010/Folien/VL_01.pdf · Einführung in die Syntax und Morphologie Vorlesung mit Übung WS 2010/2011, Computerlinguistik 01

  • Upload
    lamngoc

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Einführung

in die Syntax und Morphologie

Vorlesung

mit

Übung

WS 2010/2011,  Computerlinguistik

01

Was ist ein Wort?

Wie ist ein einzelnes Wort gegenüber einer Wortgruppe oder 

einem Wortteil abzugrenzen?  Segmentierungsproblem

Wann liegt dasselbe Wort vor, wann verschiedene Wörter? 

Identifizierungsproblem

Was ist ein Wort?

Orthographische KriterienDistributionelle

Kriterien I: Isolierbarkeit

Distributionelle

Kriterien II: Kohäsion

Phonologische KriterienSemantische Kriterien

Orthographische Kriterien

„Ein oberflächliches, aber recht brauchbares Kriterium ist die 

Orthographie: Wörter sind Einheiten, die zwischen Abständen 

geschrieben werden.“

(Bühler u.a. 1972:87)

Aufgabe: im folgenden Text betrachten Sie diejenigen Einheiten, 

die zwischen Abständen stehen.

Aus: Lewis Carrol, Alice‘s Adventures in Wonderland

1.

There was nothing so very remark‐2.

able in that; nor did Alice think it so very3.

much out of the way to hear the Rabbit say4.

to itself, »Oh dear! Oh dear! I shall be5.

too late!«

(when she thought it over after‐6.

wards, it occurred to her that she ought7.

to have wondered at this, but at the time8.

It all seemed quite natural); but when the9.

Rabbit actually took a watch out its waist‐10.

coat‐pocket, and looked at it, and then hur‐11.

ried

on, Alice started to her feet, for it12.

flashed across her mind that she had never13.

before seen a rabbit with either a waistcoat‐14.

pocket, or a watch to take out of it, and15.

burning with curiosity, she ran across the16.

field after it, and fortunately was just17.

in time to see it pop down a large rabbit‐18.

hole under the hedge.

Aus: Lewis Carrol, Alice‘s Adventures in Wonderland

1.

There was nothing so very remark‐2.

able in that;

nor did Alice think it so very3.

much out of the way to hear the Rabbit say4.

to itself, »Oh

dear! Oh dear! I shall be5.

too late!«

(when she thought it over after‐6.

wards, it occurred to her that she ought7.

to have wondered at this, but at the time8.

It all seemed quite natural);

but when the9.

Rabbit actually took a watch out its waist‐10.

coat‐pocket, and looked at it, and then hur‐11.

ried

on, Alice started to her feet, for it12.

flashed across her mind that she had never13.

before seen a rabbit with either a waistcoat‐14.

pocket, or a watch to take out of it, and15.

burning with curiosity, she ran across the16.

field after it, and fortunately was just17.

in time to see it pop down a large rabbit‐18.

hole under the hedge.

Aus: Lewis Carrol, Alice‘s Adventures in Wonderland

1.

There was nothing so very remark‐2.

able in that; nor did Alice think it so very3.

much out of the way

to hear the Rabbit say4.

to itself, »Oh dear! Oh dear! I shall be5.

too late!«

(when she thought it over after‐6.

wards, it occurred to her that she ought7.

to have wondered at this, but at the time8.

It all seemed quite natural); but when the9.

Rabbit actually took a watch out its waist‐10.

coat‐pocket, and looked at it, and then hur‐11.

ried

on, Alice started to her feet, for it12.

flashed across her mind that she had never13.

before seen a rabbit with either a waistcoat‐14.

pocket, or a watch to take out of it, and15.

burning with curiosity, she ran across the16.

field after it, and fortunately was just17.

in time to see it pop down a large rabbit‐18.

hole under the hedge.

Orthographische Kriterien

Verbesserte Fassung der Definition:

„Ein Wort ist eine Folge von Schriftzeichen, die zwischen einem 

Zwischenraum oder Interpunktionszeichen und dem nächsten 

Zwischenraum oder Interpunktionszeichen steht.“

Aber damit sind noch nicht alle Schwierigkeiten beseitigt.

Orthographische Kriterien

Der Punkt

Wenn der Punkt immer als Interpunktionszeichen gilt, werden 

Abkürzungen wie d.h.

oder F.D.P.

in zwei oder drei Wörter aufgelöst. 

Der Abkürzungspunkt in usw.

oder vgl.

ist zudem nicht vom Punkt am 

Satzende zu unterscheiden.

Der Bindestrich

Schreibungen mit Bindestrich: ein Wort oder mehrere Wörter?

Beide Lösungen haben Vor‐

und Nachteile (s. Textbeispiele)

Eine zusätzliche Erschwerung: dient zur Silbentrennung am Zeilenende

Aus: Lewis Carrol, Alice‘s Adventures in Wonderland

1.

There was nothing so very remark‐2.

able

in that; nor did Alice think it so very3.

much out of the way to hear the Rabbit say4.

to itself, »Oh dear! Oh dear! I shall be5.

too late!«

(when she thought it over after‐6.

wards, it occurred to her that she ought7.

to have wondered at this, but at the time8.

It all seemed quite natural); but when the9.

Rabbit actually took a watch out its waist‐10.

coat‐pocket, and looked at it, and then hur‐11.

ried

on, Alice started to her feet, for it12.

flashed across her mind that she had never13.

before seen a rabbit with either a waistcoat‐14.

pocket, or a watch to take out of it, and15.

burning with curiosity, she ran across the16.

field after it, and fortunately was just17.

in time to see it pop down a large rabbit‐18.

hole

under the hedge.

co‐existout‐of‐the‐way [things]vorbegrifflich‐symbolischEx‐NationalspielerDehnungs‐hCarl und Lily Pforzheimer‐Stiftung

Vor‐

und NachteileSpracherwerb und ‐entwicklungGepäckannahme‐

und ‐ausgabestelle

Orthographische Kriterien

Der Apostroph

die Festlegung ist keineswegs leicht:

En. I‘ve

Mary‘ll

Ma‘am

didn‘t

Dt.  ew‘ger

Sorg‘

war‘s

Überdies dient er auch als Einführungszeichen!  Auch hier ergeben sich unauflösbare Mehrdeutigkeiten.

Zu klären:

Ob Zahlen und Sonderzeichen als Wörter gelten sollen?

1   2   3   1001  &   %   $   £

Wie sind solche Segmente zu werten?

S.3‐5  

§88a   23.1.1978  

½ 5%ig

Römische Zahlen unterscheiden sich nicht von Großbuchstaben ( 

Paul VI 

Manche Zechen erfühlen mehrere Aufgaben 

.   /   ‐

Orthographische Kriterien

„Es ist nicht wahr, dass jeder weiß, was ein Wort ist, und selbst 

wenn es wahr wäre, sollte man „jeder“

nicht so verstehen, dass 

dazu auch Computer zählen. Einer Ansammlung von Drähten, 

Magneten und Transistoren fehlt selbst das elementarste 

Sprachgefühl. […] Was immer der Einsatz eines Computers sonst 

für uns leistet, so zwingt er uns doch wenigstens, unsere 

stillschweigenden Annahmen offenzulegen.“

(Wachal

1966:16)

Orthographische Kriterien

Unterschiede in der Getrennt‐

und Zusammenschreibung 

und der Verwendung der InterpunktionszeichenDt.

zu Hause

|

zuhause

Konzert‐Debüt

| Konzertdebüt

d.h.

|  d. h.

zugrundegelegt

| zugrunde gelegt

| zu Grunde gelegt

En.

to‐day

| today

head master

| headmaster

pay roll

| payroll

| pay‐roll

Manche Rechtschreibregeln scheinen oft ungenau oder in sich 

widersprüchlich zu sein.

Orthographische Kriterien

Das orthographische Kriterium liefert selbst keine Rechtfertigung 

für die Setzung von Zwischenräumen und Interpunktionszeichen, es orientiert sich an einer Praxis, die wiederum in anderen 

Kriterien begründet sein muss.Viele Sprachen haben überhaupt keine SchrifttraditionEs gibt Schriftsysteme, die keineswegs den Anspruch erheben, 

Wörter besonders zu kennzeichnen

Das orthographische Kriterium kann somit kaum zur Grundlage 

einer wissenschaftlichen Definition des Worts gemacht werden, 

wenn es auch für die Praxis (besonders in der maschinellen 

Sprachverarbeitung) und für das Bewusstsein de Sprachbenutzer 

von großer Bedeutung ist.

Distributionelle

Kriterien I: Isolierbarkeit

“[Das Wort] kann durch Pausen isoliert werden, so wie in der 

geschriebenen Sprache die Wörter durch Zwischenräume 

voneinander getrennt sind.“

(Funk‐Kolleg 1973:I, 152)

Charles Hocket (1958:166f) betont, 

dass die Wortgrenzen Punkte sind, an denen pausiert werden kann,

dass Wörter also durch potentielle Pausen

definiert sind,

und nicht durch die Pausen, die in einer einzelnen Äußerung auftreten.

Wie lässt sich aber feststellen ob an einem bestimmten Punkt in 

einer Äußerung eine Pause gemacht werden kann?

Distributionelle

Kriterien I: Isolierbarkeit

Test durch mehrfache Wiederholung (Pausen, Räuspern, äh

usw.):

durchzwischenräumevoneinandergetrenntdurchzwischenräume…voneinandergetrenntdurch…zwischenräumevoneinander…getrenntErgenbis

durch…zwischenräume…voneinander…getrennt

Auch durchaus denkbar: 

von…einander, zwischen…räume, ge…trennt

Obwohl es gemeinhin nicht

als einziges Wort gilt, ist andererseits 

keine Unterbrechung zu beobachten bei einem Segment wie 

alldiese

oder undsoweiter.

Distributionelle

Kriterien I: Isolierbarkeit

Einige grundsätzliche Einwände gegen das geschilderte Verfahren

Wie lässt sich entscheiden, ob ein Segment eine Wiederholung eines 

anderen ist?

Kann man also z.B. mit haben…wir

begründen, dass auch  hamwer

zwei 

Wörter sind?

Welche Erscheinungen sollen als Pausen gelten?

Wie groß

muss eine Verzögerung im Redefluss sein, um als Wortgrenze 

anerkannt werden zu können?

Hocket selbst schlägt eine andere Methode zur Ermittlung der 

potentiellen Pausen vor:„Der erste Schritt bei der Bestimmung der Wörter in einer 

Äußerung besteht darin, dass wir Sprecher bitten, die Äußerungen 

langsam und sorgfältig zu wiederholen.“

(1958:166)

Distributionelle

Kriterien I: Isolierbarkeit

Der Verdacht ist nicht unbegründet, dass das Pausenkriterium auf 

einer ungerechtfertigte Parallele zwischen gesprochener und 

geschriebener Sprache beruht.„Der Einfluss des Geschriebenen ist so groß, dass viele Menschen 

in gesprochener Sprache tatsächlich „hören“, was sie beim 

Schreiben sehen.“

(Palmer dt.1974:40;=1971:42)

Distributionelle

Kriterien I: Isolierbarkeit

„Ein Wort […] ist eine freie Form, die nicht vollständig aus (zwei 

oder mehr) kleineren freien Forme besteht; kurz, ein Wort ist eine 

minimale freie Form.“

(Bloomfield 1933:178)

nach Bloomfield:

Eine sprachliche Form ist eine Folge von Phonemen, die eine konstante und 

bestimmte Bedeutung hat. (1933:158)

Eine freie Form ist eine solche, die als Satz auftritt, d.h. für sich allein 

gesprochen werden kann (1933:160,179) 

Kriterien: Freiheit und Minimalität

Distributionelle

Kriterien I: Isolierbarkeit

Sätze, die nur aus einem Wort bestehen, treten im Gespräch 

typischerweise als Antworten auf.

Bist du schon in dem neuen Visconti‐Film gewesen? ‐

Vorgestern.

Zur Bestimmung von Wörter dürfen aber keine Dialoge 

herangezogen werden, in denen über sprachliche Elemente 

gesprochen wird.

Did

you

say

révise

or

dévise? ‐

Re.

(Mathews 1974:161) 

Gebrauch vs. Zitieren

„Im Kontext des „Zitierens“

können Spracheinheiten jeden Ranges 

und jeder Ebene als ganze Äußerungen vorkommen.“

(Lyons dt.1971:205;=1968:201).

Distributionelle

Kriterien I: Isolierbarkeit

Gewisse Formen, die man üblicherweise für Wörter hält, 

werden nie oder nur unter ungewöhnlichen Bedingungen 

als Sätze verwendet.„Die Form the

wird zwar selten für sich allein gesprochen, spielt 

aber in unserer Sprache in etwa dieselbe Rolle wie die Formen this

und that, die ohne weiteres als Sätze auftreten; diese Parallele 

veranlasst uns , the

als Wort zu klassifizieren: this

thing

: that

thing: the

thing

this: that: (the).“

(Bloomfield 1933:179)

Problematische Argumentation, denn

un‐

(unmöglich) wie nicht

‐er

(En. brighter) wie more

(more

brilliant)

auch fragwürdig:

zum

vertrete zwei Wörter (weil es eine Variante von zu dem

sei)

Distributionelle

Kriterien I: Isolierbarkeit

Jedes präzise Kriterium zur Abgrenzung von Wörtern liefert nicht 

durchgängig Ergebnisse, die dem intuitiven Urteil oder der 

Gesichtspunkten der Nützlichkeit entsprechen.Eine Reihe von Formen, die man gewöhnlich als Wörter 

bezeichnet, nicht

frei auftreten.

Spezielle Formen(in Isolation)  

(nicht frei)

En.  

mine

my

Fr. (ich)

moi

je

Distributionelle

Kriterien I: Isolierbarkeit

Bei der Definition des Worts als „minimale freie Form“

bereitet 

auch die Minimalität einige Schwierigkeiten.

Großvater

( Betonung!) •

groß

Vater 

thirty‐seven

(Unmittelbare Bestandteile)•

thirty‐seventh

= [thirty‐seven]th

(1 Wort)

heavy

smoker

(Unmittelbare Bestandteile)•

[heavy

smok]er

„jemand, der viel raucht“

1 Wort•

Ambiguität: heavy

[smoker] „ein Raucher, der schwer ist“

2 Wörter

japanisch

vs. [seine Angst ist] ja panisch

Distributionelle

Kriterien II: Kohäsion

“Eine der charakteristischen Eigenschaften des Wortes ist 

einerseits seine Neigung zur inneren Stabilität […] und 

andererseits zur positionellen Mobilität (d.h. es ist mit anderen 

Wörtern in demselben Satz vertauschbar).“

(Lyons dt.1971:207=1968:203)Die Reihenfolge der Teile innerhalb eines Wortes ist fest, während 

die Reihenfolge der Wörter im Satz verändert werden kann.

du‐studier‐st‐fremd‐sprache‐n

(Aussage)

studier‐st‐du‐fremd‐sprache‐n

(Frage)

fremd‐sprache‐n‐studier‐st‐du

(Ausruf)

[wenn] du‐fremd‐sprache‐n‐studier‐st

(Nebensatz)

Ergebnis:

du, studier‐st, fremd‐sprache‐n

*st‐studier, *fremd‐n‐sprache, *sprache‐fremd‐n, *n‐fremd‐sprache

Distributionelle

Kriterien II: Kohäsion

Umstellung

d‐ie‐modern‐e‐lingu‐ist‐ik‐brauch‐t‐ein‐eigen‐es‐fach‐vokabul‐ar

brauch‐t‐d‐ie‐modern‐e‐lingu‐ist‐ik‐ein‐eigen‐es‐fach‐vokabul‐ar

usw.

aber nicht inerhalb:

d‐ie‐modern‐e‐lingu‐ist‐ik

ein‐eigen‐es‐fach‐vokabul‐ar

obwohl es sich nach herkömmlichen Verständnis 

jeweils um drei Wörter handelt

Also: die verschiebbare Teile sind häufig größer als „Wörter“.Sprachübergreifend

erhebliche Unterschiede in der Freiheit der Wortstellung

im Lateinischen wird der Permutationstest weit eher zu Wörtern im üblichen 

Sinn als etwa im Französischen.

Distributionelle

Kriterien II: Kohäsion

Auch die Annahme, dass die Reihenfolge der Elemente innerhalb 

eines Worts fest sei, ist nicht durchgängig haltbar.

Türflügel, Flügeltür

shotgun

(Schießgewehr), gunshot

(Gewehrschuß)

verunziert, unverziert

Vertauschbarkeit lässt sich auf mehreren Ebenen beobachten

Satz (Phrasen)

innerhalb Phrasen

Bestandteile von „Wörtern“

Mit der Vertauschungen gehen häufig Bedeutungsveränderungen

einher.Es gibt aber auf jeder Ebene Fälle, wo die Bedeutung nicht von der 

Anordnung der Element abhängt.

Distributionelle

Kriterien II: Kohäsion

d‐ie‐wand‐d‐er‐neu‐en‐groß‐en‐schule‐ist‐weder‐ver‐un‐zier‐t‐noch‐be‐schäd‐ig‐t

Phrasen1.

d‐ie‐wand‐d‐er‐neu‐en‐groß‐en‐schule2.

ist3.

weder‐ver‐un‐zier‐t‐noch‐be‐schäd‐ig‐t

mögliche Reihenfolgen

1‐2‐3

3‐2‐1

2‐1‐3 (als Frage)

1‐3‐2 (als Nebensatz)

innerhalb Phrasen1.

neu‐en‐groß‐en

&  groß‐en‐neu‐en3.

ver‐un‐zier‐t

&  un‐ver‐zier‐t

Distributionelle

Kriterien II: Kohäsion

“[Das Prinzip,] dass ein Wort nicht von anderen Formen 

unterbrochen werden kann, hat beinahe universale Gültigkeit. […] 

Die Ausnahmen von diesem Prinzip sind so selten, dass sie fast 

pathologisch scheinen.”

(Bloomfield 1933:180)

zwei Wörter

die‐sprache

die‐englische‐sprache, die‐deitsche‐sprache

ein Wort

fremd‐sprache

*fremd‐deutsche‐sprache

Distributionelle

Kriterien II: Kohäsion

Tmesis

(typisch für Dt.)

fremd‐‐oderoder‐‐muttermutter‐‐sprache

ein‐‐undund‐‐ausaus‐‐schalt‐en

Portugiesisch

comprar‐ei

(ich werde kaufen)

comprar‐‐tete‐‐ei

(ich werde dir kaufen)

Beispiele

modern‐e

modern‐‐stst‐‐e

modern‐‐ee‐‐undund‐‐tradtrad‐‐itionition‐‐ellell‐‐e

Wenn man WWöörterrter

als solche Einheiten bezeichnet, zwischen deren 

Bestandteile keine WWöörterrter

eingefügt werden können, so wird die Definition 

zirkulär.

Distributionelle

Kriterien II: Kohäsion

Möglichkeit des Einschubs + PermutationstestBei der Umstellung im Satz als Einheiten erkennbar:

(dt.) das‐buch

(engl.) the‐book

(dän.) bog‐en

Beim Einfügungen ergeben sich Unterschiede:

(dt.) das‐neue‐buch

(engl.) the‐new‐book

(dän.) bog‐en

den‐nye‐bog