100
Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik Hermann-Paul-Centrum für Linguistik

Hermann-Paul-Centrum für Linguistik

Embed Size (px)

DESCRIPTION

Hermann-Paul-Centrum für Linguistik. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik. Medizinische Informatik in Freiburg. - PowerPoint PPT Presentation

Citation preview

Page 1: Hermann-Paul-Centrum für Linguistik

Nutzung von Termhäufigkeiten bei der medizinischen

Dokumentenrecherche

Stefan Schulz, Kornél Markó, Rüdiger KlarUniversitätsklinikum Freiburg

Abteilung Medizinische Informatik

Hermann-Paul-Centrum für Linguistik

Page 2: Hermann-Paul-Centrum für Linguistik

Medizinische Informatik in FreiburgMedizinische Informatik in Freiburg

Medizinische Informatik Direktor Prof. Dr. Klar

• Wissenschaftliche Schwerpunkte– Patientenbezogene Dienste:

Krankenhausinformationssystem

– Patientenunabhängige Auskunfts- und Wissensdienste

– Grundlagen zur Modellierung medizinischer Konzepte

– Begriffliche Ordnungssysteme in der Medizin

– Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten

– Text-Retrieval / Cross-Language Retrieval

Page 3: Hermann-Paul-Centrum für Linguistik

DokumentenrechercheDokumentenrecherche

Medizinische Suchmaschinen– Unterschiedliche Dokumentenarten

– Mehrsprachigkeit

– Diverse Nutzergruppen

– Hohe sprachliche Variabilität

– Dokumentenumfang

Page 4: Hermann-Paul-Centrum für Linguistik

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche

• Kontext: Semantische Indexierung

• Termhäufigkeiten zur lexikalischer Disambiguierung

• Termhäufigkeiten zum Relevanz-Ranking

• Termhäufigkeiten bei der Lexikonvalidierung

Page 5: Hermann-Paul-Centrum für Linguistik

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche

• Kontext: Semantische Indexierung

• Termhäufigkeiten zur lexikalischer Disambiguierung

• Termhäufigkeiten zum Relevanz-Ranking

• Termhäufigkeiten bei der Lexikonvalidierung

Page 6: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Todesursachenstatistik

Statistik Todesursachen

Statistik Todesursache

Page 7: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Todesursachenstatistik

Statistik Todesursachen

Statistik Todesursache

Page 8: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 9: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 10: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 11: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 12: Hermann-Paul-Centrum für Linguistik

ProblemProblem

• Variabilität fachsprachlicher Ausdrücke beeinträchtigt Rechercheergebnis

• Maschinelle Indexierung (z.B. Web-Suchmaschinen) semantisch „blind“

• Manuelle Indexierung (z.B. MEDLINE) aufwendig

• Morphosaurus-Ansatz: lexikonbasierte automatische semantische Indexierung

Page 13: Hermann-Paul-Centrum für Linguistik

#GASTR

#CHAMBER

#HEPAR

#NEPHR

#INFLAMM

Subwort Lexikon: Subwort Thesaurus:Gruppierung von synonymen Subwörtern

gastr

stomach

Magen

ventric

chamber

hepat, hepar

liver

leber

-itis, inflamm,

entzünd

nephr-

ren-

kidney

niere

Semantische Indexierung durch MORPHOSemantische Indexierung durch MORPHOSSAURUSAURUS

Page 14: Hermann-Paul-Centrum für Linguistik

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

Semantische Indexierung durch MORPHOSemantische Indexierung durch MORPHOSSAURUSAURUS

Page 15: Hermann-Paul-Centrum für Linguistik

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

Semantische Indexierung durch MORPHOSemantische Indexierung durch MORPHOSSAURUSAURUS

Page 16: Hermann-Paul-Centrum für Linguistik

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

Semantische Indexierung durch MORPHOSemantische Indexierung durch MORPHOSSAURUSAURUS

Page 17: Hermann-Paul-Centrum für Linguistik

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

#up tsh #value #suggest #diagnost #primar #hypo #thyre

#up tsh #value #permit #diagnost #primar #thyre #hypo #function

Subwort-Thesaurus

Semantische Normalisierung

Semantische Indexierung durch MORPHOSemantische Indexierung durch MORPHOSSAURUSAURUS

Interlingua (Semantische Deskriptoren)

Page 18: Hermann-Paul-Centrum für Linguistik

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

#up tsh #value #suggest #diagnost #primar #hypo #thyre

Interlingua (Semantische Deskriptoren)

#up tsh #value #permit #diagnost #primar #thyre #hypo #function

Subwort-Thesaurus

Semantische Normalisierung

Semantische Indexierung durch MORPHOSemantische Indexierung durch MORPHOSSAURUSAURUS

Page 19: Hermann-Paul-Centrum für Linguistik

Sprachübergreifende Suche mit Sprachübergreifende Suche mit MORPHOSAURUSMORPHOSAURUS

Page 20: Hermann-Paul-Centrum für Linguistik

Sprachübergreifende Suche mit Sprachübergreifende Suche mit MORPHOSAURUSMORPHOSAURUS

Page 21: Hermann-Paul-Centrum für Linguistik

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

Sprachübergreifende Suche mit Sprachübergreifende Suche mit MORPHOSAURUSMORPHOSAURUS

Page 22: Hermann-Paul-Centrum für Linguistik

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

#correl #hyper #tens #lesion #whit #matter

Sprachübergreifende Suche mit Sprachübergreifende Suche mit MORPHOSAURUSMORPHOSAURUS

Page 23: Hermann-Paul-Centrum für Linguistik

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

#correl #hyper #tens #lesion #whit #matter

Sprachübergreifende Suche mit Sprachübergreifende Suche mit MORPHOSAURUSMORPHOSAURUS

Page 24: Hermann-Paul-Centrum für Linguistik

Todesursachenstatistik

Statistik Todesursache

Statistik Todesursachen

BenutzerfreundlichkeitBenutzerfreundlichkeit

Page 25: Hermann-Paul-Centrum für Linguistik

Todesursachenstatistik

Statistik Todesursache

Statistik Todesursachen

BenutzerfreundlichkeitBenutzerfreundlichkeit

Page 26: Hermann-Paul-Centrum für Linguistik

MehrsprachigkeitMehrsprachigkeit

Behandlung Hirnhautentzündungautomatic all

Page 27: Hermann-Paul-Centrum für Linguistik

MehrsprachigkeitMehrsprachigkeit

Behandlung Hirnhautentzündungautomatic all

Page 28: Hermann-Paul-Centrum für Linguistik

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche

• Kontext: Semantische Indexierung

• Termhäufigkeiten zur lexikalischer Disambiguierung

• Termhäufigkeiten zum Relevanz-Ranking

• Termhäufigkeiten bei der Lexikonvalidierung

Page 29: Hermann-Paul-Centrum für Linguistik

MehrdeutigkeitMehrdeutigkeit

• Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet)

• „Bruch“ -> {#fraktur, #hernie}

• Ohne Weltwissen nicht interpretierbar: „Bruch des Kleinfingers“, „Bruch in der Leiste“

• Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

Page 30: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

w = 4

Page 31: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

[#fraktur #finger] = 3

w = 4

Page 32: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

[#fraktur #finger] = 3[#finger #unterbrech] = 1

Page 33: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

[#fraktur #finger] = 3[#finger #unterbrech] = 1[#unterbrech #kontin.] = 1

.

.

.

.

.

.

.

Page 34: Hermann-Paul-Centrum für Linguistik

DisambiguierungDisambiguierung

• Ambiguität von „Bruch des Fingers“:

• [{ #fraktur,#hernie} #finger]

• [#fraktur #finger] = 3

• [#hernie #finger] = 0

• -> mit „Bruch“ ist „Fraktur“ gemeint…

Page 35: Hermann-Paul-Centrum für Linguistik

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche

• Kontext: Semantische Indexierung

• Termhäufigkeiten zur lexikalischer Disambiguierung

• Termhäufigkeiten zum Relevanz-Ranking

• Termhäufigkeiten bei der Lexikonvalidierung

Page 36: Hermann-Paul-Centrum für Linguistik

• Anfrage: „Statistik Todesursache“

Welches Dokument passt am besten zur Anfrage?

Termhäufigkeiten zum Relevanz-RankingTermhäufigkeiten zum Relevanz-Ranking

Page 37: Hermann-Paul-Centrum für Linguistik

• TF/IDF: Term-Frequenz/Inverse Dokument-Frequenz

• Prinzip: statistische Ermittlung der „Wichtigkeit“ von einzelnen Wörtern

• Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

Termhäufigkeiten zum Relevanz-RankingTermhäufigkeiten zum Relevanz-Ranking

Page 38: Hermann-Paul-Centrum für Linguistik

• Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten:– „Todesursache“ kommt in 100 Dokumenten vor. IDF(Todesursache)=:

100/1000000=0.0001– „Statistik“ kommt in 1000 Dokumenten vor. IDF(Statistik) =

1000/1000000=0.001• Termfrequenz anhand von Dokument 1

– „Todesursache kommt 3mal vor, „Statistik“ 1mal und insgesamt beinhaltet das Dokument 100 Wörter.

– TF(Todesursache) = 3/100 = 0.03– TF(Statistik) = 1/100 = 0.01

• Termfrequenz anhand von Dokument 2– „Todesursache“ kommt 2mal vor, „Statistik“ 7mal und insgesamt hat

das Dokument 300 Wörter. – TF(Todesursache) = 2/300 = 0.007– TF(Statistik) = 7/300 = 0.023

• Das Ranking ergibt sich aus dem Verrechnen von TF und IDF:– Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000– Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610

• Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

Termhäufigkeiten zum Relevanz-RankingTermhäufigkeiten zum Relevanz-Ranking

Page 39: Hermann-Paul-Centrum für Linguistik

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche

• Kontext: Semantische Indexierung

• Termhäufigkeiten zur lexikalischer Disambiguierung

• Termhäufigkeiten zum Relevanz-Ranking

• Termhäufigkeiten bei der Lexikonvalidierung

Page 40: Hermann-Paul-Centrum für Linguistik

Vergleichbare Korpora in unterschiedlichen Vergleichbare Korpora in unterschiedlichen SpachenSpachen

Diabetes mellitus tipo 1(ya no debe usarse el término Diabetes Insulino dependiente)Característicamente se da en la época temprana de la vida y se debe a un deficit absoluto de insulina, dado por la destrucción de las células beta del páncreas por procesos autoinmunes ó idiopáticos. Sólo cerca de 1 entre cada 20 personas diabéticas tiene diabetes tipo 1, la cual se presenta más frecuentemente en jóvenes y niños. Este tipo de diabetes se conocía como diabetes mellitus insulinodependiente o diabetes juvenil. En ella, las células beta del páncreas no producen insulina o apenas producen. En los primeros años de la enfermedad suelen quedar reservas pancreáticas que permiten una secreción mínima de insulina (este período se denomina luna de miel).

Diabetes Typ 1

Bei diesem Krankheitstyp zerstört das körpereigene Immunsystem selbst im Rahmen einer Entzündungsreaktion die insulinproduzierenden Betazellen in der Bauchspeicheldrüse. Diese Entzündungsreaktion setzt wahrscheinlich bereits in frühester Kindheit ein. Die daraus folgende Zerstörung der insulinproduzierenden Betazellen führt nach und nach zu einem zunehmenden Insulinmangel. Erst wenn ca. 80-90 Prozent der Beta-Zellen zerstört sind manifestiert sich ein Typ-1-Diabetes. In der Anfangsphase der Erkrankung ist also durchaus noch eine kleine Insulinrestproduktion vorhanden.

Type 1 diabetes mellitus

Type 1 diabetes mellitus — formerly known as insulin-dependent diabetes (IDDM), childhood diabetes, is characterized by loss of the insulin-producing beta cells of the islets of Langerhans of the pancreas leading to a deficiency of insulin. It should be noted that there is no known preventative measure that can be taken against type 1 diabetes. Most people affected by type 1 diabetes are otherwise healthy and of a healthy weight when onset occurs. Diet and exercise cannot reverse or prevent type 1 diabetes. Sensitivity and responsiveness to insulin are usually normal, especially in the early stages.

kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa — formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa

diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra . primariiiyiya 80 - 90 percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} - 1 - diabetesiiiryxa . iniiiqija incipientiiiwqwa phasiiiykwa .

diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa , dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriqzqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os . justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum , la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija

Sprache 1 Sprache 2 Sprache 3

Page 41: Hermann-Paul-Centrum für Linguistik

kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa — formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa

diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra . primariiiyiya 80 - 90 percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} - 1 - diabetesiiiryxa . iniiiqija incipientiiiwqwa phasiiiykwa .

diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa , dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriqzqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os . justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum , la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija

Häufigkeit semantischer DeskriptorenHäufigkeit semantischer Deskriptoren

1

10

100

1000

Page 42: Hermann-Paul-Centrum für Linguistik

MID MIDCod f1 f2 Sa Sd S

Peopleriixypa 500783 6352 0 0,1466 1,0000 0,7155

Fromiwiixxa 060077 4676 0 0,1079 1,0000 0,7026

Icasikprrr 023555 0 3022 0,0697 1,0000 0,6899

Lttroriiyira 500805 10 3331 0,0771 0,9940 0,6884

Mostiizrpwa 009536 2783 0 0,0642 1,0000 0,6881

Enteikywjw 028616 0 2069 0,0477 1,0000 0,6826

Icakiirwy 200568 0 1945 0,0449 1,0000 0,6816

Sometimerijixja 501071 1708 0 0,0394 1,0000 0,6798

Pressureiiipkza 000329 1833 2 0,0423 0,9978 0,6793

MID MIDCod f1 f2 Sa Sd S

zpippxra 303375 1 3428 0,0590 0,9994 0,6859

keinemrikzrp 502953 0 1803 0,0310 1,0000 0,6770

barriqrqp 504543 0 1021 0,0176 1,0000 0,6725

eingesetztijiikr 010025 0 972 0,0167 1,0000 0,6722

ipippry 303358 0 956 0,0165 1,0000 0,6722

dispensatrijiyya 501088 0 845 0,0145 1,0000 0,6715

langerrikzzwa 502996 0 780 0,0134 1,0000 0,6711

siterijjrka 501152 681 0 0,0117 1,0000 0,6706

Portugiesisch/Englisch

Deutsch / Englisch

Page 43: Hermann-Paul-Centrum für Linguistik

ZusammenfassungZusammenfassung

Page 44: Hermann-Paul-Centrum für Linguistik

Vielen Dank!Vielen Dank!

Kontakt: [email protected]

Medizinische Informatik

Page 45: Hermann-Paul-Centrum für Linguistik

Proof-of-Concepts IProof-of-Concepts I

• Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: – Bibliographische Suche über 300.000 einsprachige Dokumente

• Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: – Bibliographische Suche über 600.000 mehrsprachige Dokumente

• Health on the Net Foundation (HON), Genf: – Studie mit 5,000 Dokumenten

• Hautklinik Freiburg:– „Google“-Suche für patientenbezogene Daten (EPA)

Page 46: Hermann-Paul-Centrum für Linguistik

Proof-of-Concepts IIProof-of-Concepts II

• Hautklinik Freiburg:

Page 47: Hermann-Paul-Centrum für Linguistik

Proof-of-Concepts IIIProof-of-Concepts III

• ICD Kodierbrowser:– Suche in 15,278 ICD-Codes

Page 48: Hermann-Paul-Centrum für Linguistik

EvaluationEvaluation

• OHSUMED-Corpus (Hersh et al., 1994)– Untermenge von MEDLINE

– ~300,000 englische Dokumente

– 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische

– Relevanz der Dokumente manuell markiert

Page 49: Hermann-Paul-Centrum für Linguistik

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on

BaselineEnglischDeutschPortugiesischSpanischFranzösischSchwedisch

121%111%99%84%79%79%

EvaluationEvaluation

Page 50: Hermann-Paul-Centrum für Linguistik

Probabilistische Methoden in der Anwendung und Pflege eines

medizinischen Dokumentenrecherchesystems

Stefan Schulz, Kornél Markó, Rüdiger KlarUniversitätsklinikum Freiburg

Abteilung Medizinische Informatik

Hermann-Paul-Centrum für Linguistik

Page 51: Hermann-Paul-Centrum für Linguistik

Medizinische Informatik in FreiburgMedizinische Informatik in Freiburg

Medizinische Informatik Direktor Prof. Dr. Klar

• Wissenschaftliche Schwerpunkte– Patientenbezogene Dienste:

Krankenhausinformationssystem

– Patientenunabhängige Auskunfts- und Wissensdienste

– Grundlagen zur Modellierung medizinischer Konzepte

– Begriffliche Ordnungssysteme in der Medizin

– Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten

– Text-Retrieval / Cross-Language Retrieval

Page 52: Hermann-Paul-Centrum für Linguistik

TextrechercheTextrecherche

Medizinische Suchmaschinen– Unterschiedliche Dokumentenarten

– Mehrsprachigkeit

– Diverse Nutzergruppen

– Hohe sprachliche Variabilität

– Dokumentenumfang

Page 53: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Todesursachenstatistik

Statistik Todesursachen

Statistik Todesursache

Page 54: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Todesursachenstatistik

Statistik Todesursachen

Statistik Todesursache

Page 55: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Todesursachenstatistik

Statistik Todesursachen

Statistik Todesursache

Page 56: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Todesursachenstatistik

Statistik Todesursachen

Statistik Todesursache

Page 57: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 58: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 59: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 60: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Anstieg der Cholestase-parameter

Page 61: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

Page 62: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

“Correlation of high blood

pressure and lesion of the white

substance”

Page 63: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

“Correlation of high blood

pressure and lesion of the white

substance”

Page 64: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

“Correlation of high blood

pressure and lesion of the white

substance”

Page 65: Hermann-Paul-Centrum für Linguistik

Konventionelle SuchtechnologienKonventionelle Suchtechnologien

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

“Correlation of high blood

pressure and lesion of the white

substance”

Page 66: Hermann-Paul-Centrum für Linguistik

Linguistische Phänomene erschweren die medizinische Textrecherche!

– Flexion: Erkrankungen, Bluthochdrucks, Risiken

– Derivation: Krankheit, diastolisch, leukozytär

– Komposition: Gemeinde|krank|en|pflege|station|en

– Akronyme: AIDS, SARS, OECD

– Orthografische Varianten: • Kolonkarzinom, Colonkarzinom,

• Ösophagus, Oesophagus,

• ulzerierend, ulcerierend

– Synonyme: • Bluthochdruck – Hypertonie,

• Prophylaxe – Vorbeugung

– Eigennamen: Aspirin, ASS, ...

WortbildungWortbildung

Page 67: Hermann-Paul-Centrum für Linguistik

MORPHOMORPHOSSAURUSAURUS Lösungen Lösungen

Subwörter sind atomare konzeptuelle oder linguistische Einheiten:

– Stämme: verletz, entzünd, magen, schleimhaut

– Präfixe: ab-, an-, anti-, ge-, hervor-, hyper-

– Suffixe: -abel, -bar, -haft, -ion, -itis

– Infixe: -o-, -s-

Synonyme Subwörter werden (sprachübergreifend) in Äquivalenzklassen gruppiert:

#derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … }

#inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog, inflam, flog, -iolitis, ... }

Empirische Kriterien:– hypertonie = {#hyper #tens #blood}

Page 68: Hermann-Paul-Centrum für Linguistik

MORPHOMORPHOSSAURUSAURUS Ressourcen Ressourcen

Subwort-Lexikon:– Organisiert Subwörter (atomare

Bedeutungseinheiten) in mehreren Sprachen

Subwort-Thesaurus: – Gruppiert synonyme

Lexikoneinträge (auch sprachübergreifend)

Segmentierungsalgorithmus:– Extraktion von Subwörtern und

Zuweisung von Äquivalenzklassen

Page 69: Hermann-Paul-Centrum für Linguistik

MORPHOMORPHOSSAURUSAURUS Ressourcen Ressourcen

Subwort-Lexikon:– Organisiert Subwörter (atomare

Bedeutungseinheiten) in mehreren Sprachen

Subwort-Thesaurus: – Gruppiert synonyme

Lexikoneinträge (auch sprachübergreifend)

Segmentierungsalgorithmus:– Extraktion von Subwörtern und

Zuweisung von Äquivalenzklassen

MORPHOMORPHOSSAURUSAURUS(www.morphosaurus.net)

Page 70: Hermann-Paul-Centrum für Linguistik

#GASTR

#CHAMBER

#HEPAR

#NEPHR

#INFLAMM

Subwort Lexikon: Subwort Thesaurus:Gruppierung von synonymen Subwörtern

gastr

stomach

Magen

ventric

chamber

hepat,hepar

liver

leber

-itis, inflamm,

entzünd

nephr-

ren

kidney

niere

MORPHOMORPHOSSAURUS AURUS : Lexikon & : Lexikon & ThesaurusThesaurus

Page 71: Hermann-Paul-Centrum für Linguistik

BeispielBeispiel

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

Page 72: Hermann-Paul-Centrum für Linguistik

BeispielBeispiel

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

Page 73: Hermann-Paul-Centrum für Linguistik

BeispielBeispiel

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

Page 74: Hermann-Paul-Centrum für Linguistik

BeispielBeispiel

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

#up tsh #value #suggest #diagnost #primar #hypo #thyre

Interlingua

#up tsh #value #permit #diagnost #primar #thyre #hypo #function

Subwort-Thesaurus

Semantische Normalisierung

Page 75: Hermann-Paul-Centrum für Linguistik

BeispielBeispiel

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ...

Orthografische Regeln

Orthografische Normalisierung

#up tsh #value #suggest #diagnost #primar #hypo #thyre

Interlingua

#up tsh #value #permit #diagnost #primar #thyre #hypo #function

Subwort-Thesaurus

Semantische Normalisierung

Page 76: Hermann-Paul-Centrum für Linguistik

Suche mit MORPHOSuche mit MORPHOSSAURUSAURUS

Page 77: Hermann-Paul-Centrum für Linguistik

Suche mit MORPHOSuche mit MORPHOSSAURUSAURUS

Page 78: Hermann-Paul-Centrum für Linguistik

Suche mit MORPHOSuche mit MORPHOSSAURUSAURUS

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

Page 79: Hermann-Paul-Centrum für Linguistik

Suche mit MORPHOSuche mit MORPHOSSAURUSAURUS

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

#correl #hyper #tens #lesion #whit #matter

Page 80: Hermann-Paul-Centrum für Linguistik

Suche mit MORPHOSuche mit MORPHOSSAURUSAURUS

Korrelation von Hypertonie und

Läsion der Weißen Substanz…

#correl #hyper #tens #lesion #whit #matter

Page 81: Hermann-Paul-Centrum für Linguistik

Todesursachenstatistik

Statistik Todesursache

Statistik Todesursachen

BenutzerfreundlichkeitBenutzerfreundlichkeit

Page 82: Hermann-Paul-Centrum für Linguistik

Todesursachenstatistik

Statistik Todesursache

Statistik Todesursachen

BenutzerfreundlichkeitBenutzerfreundlichkeit

Page 83: Hermann-Paul-Centrum für Linguistik

MehrsprachigkeitMehrsprachigkeit

Behandlung Hirnhautentzündungautomatic all

Page 84: Hermann-Paul-Centrum für Linguistik

MehrsprachigkeitMehrsprachigkeit

Behandlung Hirnhautentzündungautomatic all

Page 85: Hermann-Paul-Centrum für Linguistik

MehrdeutigkeitMehrdeutigkeit

• Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet)

• „Bruch“ -> {#fraktur, #hernie}

• Ohne Weltwissen nicht interpretierbar: „Bruch des Fingers“, „Bruch in der Leiste“

• Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

Page 86: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

w = 4

Page 87: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

[#fraktur #finger] = 3

w = 4

Page 88: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

[#fraktur #finger] = 3[#finger #unterbrech] = 1

Page 89: Hermann-Paul-Centrum für Linguistik

CorpusstatistikCorpusstatistik

[#fraktur #finger] = 3[#finger #unterbrech] = 1[#unterbrech #kontin.] = 1

.

.

.

.

.

.

.

Page 90: Hermann-Paul-Centrum für Linguistik

DisambiguierungDisambiguierung

• Ambiguität von „Bruch des Fingers“:

• [{ #fraktur,#hernie} #finger]

• [#fraktur #finger] = 3

• [#hernie #finger] = 0

• -> mit „Bruch“ ist „Fraktur“ gemeint…

Page 91: Hermann-Paul-Centrum für Linguistik

Relevanzkriterien zum Relevanzkriterien zum RankingRanking

• Anfrage: „Statistik Todesursache“

Welches Dokument passt am besten zur Anfrage?

Page 92: Hermann-Paul-Centrum für Linguistik

Modell mit TermhäufigkeitenModell mit Termhäufigkeiten

• TF/IDF: Term-Frequenz/Inverse Dokument-Frequenz

• Prinzip: statistische Ermittlung der „Wichtigkeit“ von einzelnen Wörtern

• Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

Page 93: Hermann-Paul-Centrum für Linguistik

BeispielBeispiel

• Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten:– „Todesursache“ kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/1000000=0.0001– „Statistik“ kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/1000000=0.001

• Dokument 1 – „Todesursache kommt 3mal vor, „Statistik“ 1mal und insgesamt beinhaltet das Dokument 100

Wörter. – TF(Todesursache) = 3/100 = 0.03– TF(Statistik) = 1/100 = 0.01

• Dokument 2– „Todesursache“ kommt 2mal vor, „Statistik“ 7mal und insgesamt hat das Dokument 300 Wörter. – TF(Todesursache) = 2/300 = 0.007– TF(Statistik) = 7/300 = 0.023

• Das Ranking ergibt sich aus dem Verrechnen von TF und IDF:– Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000– Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610

• Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

Page 94: Hermann-Paul-Centrum für Linguistik

ZusammenfassungZusammenfassung

Page 95: Hermann-Paul-Centrum für Linguistik

Vielen Dank!Vielen Dank!

Kontakt:

Medizinische Informatik

Page 96: Hermann-Paul-Centrum für Linguistik

Proof-of-Concepts IProof-of-Concepts I

• Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: – Bibliographische Suche über 300.000 einsprachige Dokumente

• Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: – Bibliographische Suche über 600.000 mehrsprachige Dokumente

• Health on the Net Foundation (HON), Genf: – Studie mit 5,000 Dokumenten

• Hautklinik Freiburg:– „Google“-Suche für patientenbezogene Daten (EPA)

Page 97: Hermann-Paul-Centrum für Linguistik

Proof-of-Concepts IIProof-of-Concepts II

• Hautklinik Freiburg:

Page 98: Hermann-Paul-Centrum für Linguistik

Proof-of-Concepts IIIProof-of-Concepts III

• ICD Kodierbrowser:– Suche in 15,278 ICD-Codes

Page 99: Hermann-Paul-Centrum für Linguistik

EvaluationEvaluation

• OHSUMED-Corpus (Hersh et al., 1994)– Untermenge von MEDLINE

– ~300,000 englische Dokumente

– 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische

– Relevanz der Dokumente manuell markiert

Page 100: Hermann-Paul-Centrum für Linguistik

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on

BaselineEnglischDeutschPortugiesischSpanischFranzösischSchwedisch

121%111%99%84%79%79%

EvaluationEvaluation