49
10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz

10. Natürliche Sprache in Biologie und Medizin

  • Upload
    stash

  • View
    65

  • Download
    0

Embed Size (px)

DESCRIPTION

10. Natürliche Sprache in Biologie und Medizin. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Ebenen der Sprachtechnologie. I. „ Speech “ Erkennung gesprochener Sprache ( speech recognition ) Erzeugung gesprochener Sprache ( speech synthesis ) II. „ Content “ - PowerPoint PPT Presentation

Citation preview

Page 1: 10.  Natürliche Sprache in Biologie und Medizin

10. Natürliche Sprache in Biologie und Medizin

Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz

Page 2: 10.  Natürliche Sprache in Biologie und Medizin

Ebenen der SprachtechnologieI. „Speech“

Erkennung gesprochener Sprache (speech recognition)Erzeugung gesprochener Sprache (speech synthesis)

II. „Content“TextretrievalText MiningTextgenerierungTextzusammenfassungInformationsextraktion Maschinelle Übersetzung

Page 3: 10.  Natürliche Sprache in Biologie und Medizin

Information Retrieval

Sucher-gebnisse

Kollektion von Dokumenten(Dokumentationseinheiten)

Anfrage (Query) ?

Page 4: 10.  Natürliche Sprache in Biologie und Medizin

PersonOutPersonInPositionOrganizationTimeOutTimeIn

Template

Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach

Pressenotiz

PersonOut Dr. Hermann WirthPersonIn Sabine KlingerPosition LeiterOrganization Musikhochschule MTimeOut HeuteTimeIn

PersonOut Christian MeindlPersonIn Annelie HäfnerPosition MusikdirektorOrganization Musikhochschule MTimeOutTimeIn

Informationsextraktion

Page 5: 10.  Natürliche Sprache in Biologie und Medizin

Maschinelle Übersetzung

Page 6: 10.  Natürliche Sprache in Biologie und Medizin

Question Answering

Page 7: 10.  Natürliche Sprache in Biologie und Medizin

Grundbegriffe der Linguistik

• Semiotik• Phonetik, Phonologie• Morphologie• Syntax• Grammatik• Semantik• Pragmatik• Textlinguistik• Lexikographie• Terminologie

Page 8: 10.  Natürliche Sprache in Biologie und Medizin

Ebenen der Linguistik • Morphologie:

– be + end + en, In + fekt + ion, In + fekt + ion + en• Syntax:

– Eine schwere Infektion beendete die Schwangerschaft vs.– Eine Infektion schwere die Schwangerschaft beendete.

• Semantik:– Es wurde eine Entbindung per Kaiserschnitt vorgenommen– Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen

• Textverstehen: – Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene

befindet sich in gutem Allgemeinzustand– Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat

wurde bisher nicht abgestoßen.

Page 9: 10.  Natürliche Sprache in Biologie und Medizin

Medizinische Anwendungen von Sprachtechnologien

• Unterstützung der Befunderstellung durch Spracherkennungssysteme

• Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW- Dokumenten, WWW-Portalen

• Zusammenfassung von Krankengeschichten• Automatische Wissensaquisition aus medizinischen Freitexten• Automatisierte Verordungen• Multilinguale Erzeugung von Patienteninformation• Automatische Kodierung / Klassifikation von Diagnosen und

Prozeduren

Page 10: 10.  Natürliche Sprache in Biologie und Medizin

Semiotik... Lehre von den Zeichen• Ein Zeichen ist Stellvertreter für etwas Bezeichnetes• Alles sinnlich wahrnehmbare kann Zeichen sein• Alles beliebige kann als Zeichen fungieren• Sprachwissenschaft: Zeichensystem „Sprache“ •

Page 11: 10.  Natürliche Sprache in Biologie und Medizin

Das semiotische Dreieck

Symbol, Wort,Code, Bezeichner

Objekt,InstanzReferent

Begriff, Gedanke, Inhalt, Konzept

"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.

Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.

Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln

Page 12: 10.  Natürliche Sprache in Biologie und Medizin

Sprachliche Zeichen

• Laute• Phoneme• Morpheme ver auf mitt haut • einfache Wörter Magen, Schleim, Haut• Komplexe Wörter Magen-schleim-haut• Phrasen das ödematös aufgelockerte Stroma• Sätze Es finden sich vereinzelt Lymphfollikel.• Texte

Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhautvom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrtbasophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.

Page 13: 10.  Natürliche Sprache in Biologie und Medizin

Linguistische Betrachtungsweisen

• Grammatik: Zeichenformen und Möglichkeiten ihrer Kombination

• Semantik: Bedeutung einfacher und komplexer Zeichenformen

• Pragmatik: Allgemeine Regularitäten, die dem Sprachgebrauch zugrundeliegen

Page 14: 10.  Natürliche Sprache in Biologie und Medizin

Grammatik

• Lehre vom – Wort (Morphologie, Morphosyntax) – Satz (Syntax)– Laut (Phonologie)– Text (Textgrammatik)

• Formale Seite sprachlicher Ausdrücke:– System minimaler Einheiten mit Regeln zur Generierung

komplexerer Einheiten– Berührung zur Theorie der formalen Sprachen

Page 15: 10.  Natürliche Sprache in Biologie und Medizin

Sprachliche Zeichen

• Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten

LautePhoneme Morpheme

Wörter(einfach / komplex)

Phrasen TexteSätze

Morphem-bedeutung

Wort-bedeutung

Phrasen -bedeutung

Textbedeutung

Satz-bedeutung

Page 16: 10.  Natürliche Sprache in Biologie und Medizin

Grammatik: Morphologie, Übung

• Morphologie = Lehre vom Wort• Was ist ein Wort ?• Beispiel:

• Übung: Wie viele Wörter hat dieser Satz ?

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.

Page 17: 10.  Natürliche Sprache in Biologie und Medizin

Token, Type, Lexem• Token: Einzelne Vorkommen eines Zeichens (Wortes)

• Type: Einzelne Muster eines Zeichens (Wortes)

• Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter)

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

1 2 3 4 5 6

7 8 9 10 11

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

1 2 3 4 5 6

6 4 5 3 7

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

1 2 3 4 3 6

6 4 3 3 6

Page 18: 10.  Natürliche Sprache in Biologie und Medizin

Morphosyntax• Morphemarten: Stamm, Präfix, Suffix• Bildungsregeln „wohlgeformter“ (well-formed)

Wörter:Beispiele: – Kein Wort kann mit einem Suffix beginnen– Keine zwei Beugungssuffixe hintereinander– Kein Wort kann nur aus Affixen bestehen

• Beugungsregeln z.B. past part

went gone

pres

go

Page 19: 10.  Natürliche Sprache in Biologie und Medizin

Morphologische Besonderheiten der Bio/Medizinsprache (I)

• Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen

• Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal

• Zwei Wortbildungsschemata:1. Deutsch: Orthographische Anpassung

lateinischer Morpheme caka; ceze; cizi; coko; cuku;

es gelten deutsche Wortbildungsregelnwenige hybride Pluralbildungen (-itis , -itiden, -zera)

2. Lateinisch:Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen

Page 20: 10.  Natürliche Sprache in Biologie und Medizin

Morphologische Besonderheiten der Medizinsprache (II)

• Eponyme (Eigennamen) werden oft wie Wortstämme behandeltParkinsonismus

• Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient)

• Abkürzungen (in der geschriebenen Sprache):meist Wortstämmechron., persist., Herzinsuff.,

• Ad-hoc KompositabildunglymphoplasmazellulärBecherzellbesatz

Page 21: 10.  Natürliche Sprache in Biologie und Medizin

Wortbildungsphänomene in der Molekularbiologie

Page 22: 10.  Natürliche Sprache in Biologie und Medizin

Syntax• Lehre vom Satz

– Regeln zur Bildung „well-formed“ Wordgruppen– Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.)

Worttypen: POS („Part of Speech“)• Komponenten:

– Lexikon, Syntax:– Regeln der Kombination elementarer Ausdrücke zu

komplexen Ausdrücke• Ähnlichkeit zu formalen Sprachen (z.B.

Programmiersprachen)

Page 23: 10.  Natürliche Sprache in Biologie und Medizin

Syntax: Konstituentenstruktur• Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort

bis zum Satz– np: Nominalphrase „Hans“, „der Arzt“– vp: Verbalphrase „verlegt“, „verlegt Hans“– pp: Präpositionalphrase „auf die Intensivstation“

• Einfachstbeispiel:Regelns-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np.

Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf].

Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...

Page 24: 10.  Natürliche Sprache in Biologie und Medizin

Beispiel: Strukturbaum

det n np n

np

v det

np

Der Arzt Hansauf Intensivstationverlegt die

np

pp

vp

vp

vp

s

Page 25: 10.  Natürliche Sprache in Biologie und Medizin

Parser

pn nv detWir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fernglas

p det n

npnp

pp

np vp

vp

vp

s

pn nv det p det n

npnp

pp

np vp

vp

s

np

Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen

Lesarten entsprechen)

Wir beobachten das Kind mit dem Fahrrad Wir beobachten das Kind mit dem Fahrrad

Page 26: 10.  Natürliche Sprache in Biologie und Medizin

Semantik

Page 27: 10.  Natürliche Sprache in Biologie und Medizin

Symbol, Wort,Code, Bezeichner

Objekt,InstanzReferent

Begriff, Gedanke, Inhalt, Konzept

"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.

Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.

Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln

Page 28: 10.  Natürliche Sprache in Biologie und Medizin

Begriffsinhalt / Begriffsumfang

Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke

Begriffsinhalt (intensionale Bedeutung): definiert den Begriffsinhalt auf der Ebene des Denkens

Begriffsumfang (extensionale Bedeutung): definiert den Begriffsumfang auf der Ebene der Wirklichkeit

Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung

Page 29: 10.  Natürliche Sprache in Biologie und Medizin

Aufgaben von Semantik

• Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ?

• Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ?

• Semantik der Arbitrarität oder lexikalische Semantik:definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B.

Stethoskop

Page 30: 10.  Natürliche Sprache in Biologie und Medizin

Bedeutung

• Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile

• Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Naturdurch die Lappen gehen

• Synonymie: Bauchspeicheldrüse = Pankreas• Mehrdeutigkeit:

– Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit– Syntaktische Ambiguität:

Ich sehe das Kind mit dem Fernglas

Page 31: 10.  Natürliche Sprache in Biologie und Medizin

Merkmalssemantik• Theorie vom Begriff

(Aristoteles: genus proximum et differentia specifica)• Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in

Bedeutungseinheiten zerlegen• Ähnlichkeit zu formalen Ontologien

• Defizit: viele Begriffe lassen sich so nicht definieren

weiblich erwachsen menschlich

Mann - + +

Frau + + +

Mädchen + - +

Weibchen + 0 -

Page 32: 10.  Natürliche Sprache in Biologie und Medizin

Modelltheoretische Semantik

• Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik)

• Wahrheit von Aussagen in möglichen Welten (Modellen)Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn

• arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x)Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik)

• Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !

Page 33: 10.  Natürliche Sprache in Biologie und Medizin

Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem

Datenbasismedizinischer Freitexte

T1

T2

...

Tn

SyntaktischeRepräsentation

InhaltlicheRepräsentation

........

.......

...............

.....

........

......................

........

.......

...............

.....

........

......................

?

Page 34: 10.  Natürliche Sprache in Biologie und Medizin

Das

Partikelspec:

einer

Colonschleimhaut

mit

ödematösen

Zotten

genatt:

spec: ppatt:

pobj:

adj:

zeigtsubject:

Dependenzgrammatik

• Kanten repräsentieren syntaktische Rollen• Begriffe:

– syntaktischer Kopf– syntaktischer Modifier

Page 35: 10.  Natürliche Sprache in Biologie und Medizin

Show.5

show-patientParticle.1

Colon-Mucosa.2anatomical-fragment-of

has-phenomenonEdema.3

has-anatomical-partVillus.4

Ontologische Repräsentation

Page 36: 10.  Natürliche Sprache in Biologie und Medizin

Das

Partikelspec:

einer

Colonschleimhaut

mit

ödematösen

Zotten

genatt:

spec: ppattr:

pobj:

adj:

SyntaktischeEbene

Edema.3

Villus.4

zeigtsubject:

Particle.1

OntologischeEbene

Show.5

Colon-Mucosa.2

Page 37: 10.  Natürliche Sprache in Biologie und Medizin

Dasspec:

einer

ödematösen

spec:

adj:

SyntaktischeEbene

Colon-Mucosa.2

Edema.3

Villus.4

zeigtPartikel

mitZotten

ppatt:

pobj:

Colonschleimhautgenatt:

subj:

Show.5Particle.1

OntologischeEbene

Page 38: 10.  Natürliche Sprache in Biologie und Medizin

Von der Semantik zur Pragmatik

• Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutetPatient mit karzinomverdächtigem Befund der linken Lunge

• Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet.„Ihr Befund ist positiv“

• Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“„Es zieht“„Tupfer!“ „Kompresse!“

• Pragmatik untersucht den kommunikativen Austausch

Page 39: 10.  Natürliche Sprache in Biologie und Medizin

Pragmatik

• Sprechakttheorie:– Konstative Sätze (Behauptungen)– Performative Sätze (Aktionen)

1. Äußerung „Der Hund ist bissig“ (Grammatik, Syntax)

2. Proposition bissig(Hund) = True (Semantik)

3. Warnung oder Empfehlung4. Hörer entfernt sich oder Hörer kauft den Hund• Indirekte Sprechakte

„Können Sie mir sagen, wie spät es ist ?“

Page 40: 10.  Natürliche Sprache in Biologie und Medizin

Kontext

• Lokaler Kontext„Der Bruch wurde eingegipst“

• Sprachlicher Kontext:„Diabetes“ als Diagnose, Verdacht, oder Familienanamnese

• Intentionaler Kontext„es ist kalt“ (Fenster schließen !)

• Situativer Kontext„der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)

Page 41: 10.  Natürliche Sprache in Biologie und Medizin

Generisches Textverstehenssystem

Lexicon GrammarSemanticRule Base

DomainOntology

# 150,000# 1,000,000

# 10,000# 10,000

# 150,000# 1,000,000

end + edPastTense

ended

infection pregnancy

a severe the

EndingPregnancyInfection

severe

E-patientE-agent

I-degree

P-patient

IF ... Pregnancy & inf.THEN ... mortal danger

* The baby survived

MotherBaby

Pregnancy

P-co-patient

MorphologicalProcessor

SyntacticProcessor(Parser/

Generator)

SemanticInterpreter

InferenceEngine

Page 42: 10.  Natürliche Sprache in Biologie und Medizin

Generisches Textverstehenssystem• Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis

nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen)

• Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren.

• In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen

Page 43: 10.  Natürliche Sprache in Biologie und Medizin

Text-Mining statt Textverstehen

• Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab:– exponentielle Komplexität der wissensintensiven

Verfahren– „Knowledge acquisition bottleneck“– Verfügbarkeit riesiger Textmengen (WWW)– Skalierbarkeit („shallow“ methods)

Page 44: 10.  Natürliche Sprache in Biologie und Medizin

Standardtools und - ressourcen

• Tagger• Chunker / partielle Parser• Namenserkenner• …• Textkorpora

– annotiert (POS, Chunks, Nes, Semantik)– nicht annotiert

Page 45: 10.  Natürliche Sprache in Biologie und Medizin

Beispiel: Tagging

45

A severe infection ended the pregnancy .

DET NOUN VERBADJ DET NOUN ST

Page 46: 10.  Natürliche Sprache in Biologie und Medizin

Tag Set (Penn treebank)

Tag Description Examples

. sentence terminator . ! ?

DT determiner all an many such that the them these this

JJ adjective, numeral first oiled separable battery-powered

NN common noun cabbage thermostat investment

PRP personal pronoun herself him it me one oneself theirs they

IN preposition among out within behind into next

VB verb (base form) ask assess assign begin break bring

VBD verb (past tense) asked assessed assigned began broke

WP WH-pronoun that what which who whom

Page 47: 10.  Natürliche Sprache in Biologie und Medizin

Statistisches HMM – Tagging (I)

• Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags

– P1(Tagi | Tagi-1 ... Tagi-n)

• Wahrscheinlichkeit eines Tokens bzgl. eines Tags – P2(Tokeni | Tagi)

• die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN

Page 48: 10.  Natürliche Sprache in Biologie und Medizin

Statistisches HMM – Tagging (I)

• State transition probabilities (trigrams):– P1(DET | COMMA NOUN) = 0.0007

– P1(PREL | COMMA NOUN) = 0.01

• State emission probabilities:– P2( die | DET) = 0.7

– P2( die | PREL) = 0.2

• Compute probabilistic evidence for the tag being– DET: P1 • P2 = 0.00049

– PREL: P1 • P2 = 0.002

• die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN

Page 49: 10.  Natürliche Sprache in Biologie und Medizin

Statistische Methoden erfordern Trainingsdaten