Hermann-Paul-Centrum für Linguistik

Embed Size (px)

DESCRIPTION

Hermann-Paul-Centrum für Linguistik. Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik. Medizinische Informatik in Freiburg. - PowerPoint PPT Presentation

Text of Hermann-Paul-Centrum für Linguistik

  • Nutzung von Termhufigkeiten bei der medizinischen Dokumentenrecherche

    Stefan Schulz, Kornl Mark, Rdiger KlarUniversittsklinikum FreiburgAbteilung Medizinische InformatikHermann-Paul-Centrum fr Linguistik

  • Medizinische Informatik in FreiburgMedizinische Informatik Direktor Prof. Dr. KlarWissenschaftliche SchwerpunktePatientenbezogene Dienste: KrankenhausinformationssystemPatientenunabhngige Auskunfts- und WissensdiensteGrundlagen zur Modellierung medizinischer Konzepte Begriffliche Ordnungssysteme in der MedizinKonzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten Text-Retrieval / Cross-Language Retrieval

  • DokumentenrechercheMedizinische SuchmaschinenUnterschiedliche Dokumentenarten MehrsprachigkeitDiverse NutzergruppenHohe sprachliche VariabilittDokumentenumfang

  • Nutzung von Termhufigkeiten bei der medizinischen DokumentenrechercheKontext: Semantische IndexierungTermhufigkeiten zur lexikalischer DisambiguierungTermhufigkeiten zum Relevanz-RankingTermhufigkeiten bei der Lexikonvalidierung

  • Nutzung von Termhufigkeiten bei der medizinischen DokumentenrechercheKontext: Semantische IndexierungTermhufigkeiten zur lexikalischer DisambiguierungTermhufigkeiten zum Relevanz-RankingTermhufigkeiten bei der Lexikonvalidierung

  • Konventionelle SuchtechnologienTodesursachenstatistikStatistik TodesursachenStatistik Todesursache

  • Konventionelle SuchtechnologienTodesursachenstatistikStatistik TodesursachenStatistik Todesursache

  • Konventionelle SuchtechnologienAnstieg der Cholestase-parameter

  • Konventionelle SuchtechnologienAnstieg der Cholestase-parameter

  • Konventionelle SuchtechnologienAnstieg der Cholestase-parameter

  • Konventionelle SuchtechnologienAnstieg der Cholestase-parameter

  • ProblemVariabilitt fachsprachlicher Ausdrcke beeintrchtigt RechercheergebnisMaschinelle Indexierung (z.B. Web-Suchmaschinen) semantisch blindManuelle Indexierung (z.B. MEDLINE) aufwendigMorphosaurus-Ansatz: lexikonbasierte automatische semantische Indexierung

  • Semantische Indexierung durch MORPHOSAURUS #GASTR #CHAMBER #HEPAR #NEPHR #INFLAMMSubwort Lexikon:Subwort Thesaurus:Gruppierung von synonymen SubwrterngastrstomachMagenventricchamberhepat, heparliverleber-itis, inflamm,entzndnephr-ren-kidneyniere

  • Semantische Indexierung durch MORPHOSAURUS

  • Semantische Indexierung durch MORPHOSAURUS

  • Semantische Indexierung durch MORPHOSAURUS

  • Semantische Indexierung durch MORPHOSAURUSInterlingua (Semantische Deskriptoren)

  • Semantische Indexierung durch MORPHOSAURUS#up tsh #value #suggest #diagnost #primar #hypo #thyre

    Interlingua (Semantische Deskriptoren)#up tsh #value #permit #diagnost #primar #thyre #hypo #functionSubwort-ThesaurusSemantische Normalisierung

  • Sprachbergreifende Suche mit MORPHOSAURUS

  • Sprachbergreifende Suche mit MORPHOSAURUS

  • Korrelation von Hypertonie und Lsion der Weien SubstanzSprachbergreifende Suche mit MORPHOSAURUS

  • Korrelation von Hypertonie und Lsion der Weien Substanz#correl #hyper #tens #lesion #whit #matterSprachbergreifende Suche mit MORPHOSAURUS

  • Korrelation von Hypertonie und Lsion der Weien Substanz#correl #hyper #tens #lesion #whit #matterSprachbergreifende Suche mit MORPHOSAURUS

  • TodesursachenstatistikStatistik TodesursacheStatistik TodesursachenBenutzerfreundlichkeit

  • TodesursachenstatistikStatistik TodesursacheStatistik TodesursachenBenutzerfreundlichkeit

  • MehrsprachigkeitBehandlung Hirnhautentzndungautomaticall

  • MehrsprachigkeitBehandlung Hirnhautentzndungautomaticall

  • Nutzung von Termhufigkeiten bei der medizinischen DokumentenrechercheKontext: Semantische IndexierungTermhufigkeiten zur lexikalischer DisambiguierungTermhufigkeiten zum Relevanz-RankingTermhufigkeiten bei der Lexikonvalidierung

  • MehrdeutigkeitQuellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet)Bruch -> {#fraktur, #hernie}Ohne Weltwissen nicht interpretierbar: Bruch des Kleinfingers, Bruch in der LeisteAlternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

  • Corpusstatistikw = 4

  • Corpusstatistik[#fraktur #finger] = 3

    w = 4

  • Corpusstatistik[#fraktur #finger] = 3[#finger #unterbrech] = 1

  • Corpusstatistik[#fraktur #finger] = 3[#finger #unterbrech] = 1[#unterbrech #kontin.] = 1

    .......

  • DisambiguierungAmbiguitt von Bruch des Fingers: [{ #fraktur,#hernie} #finger]

    [#fraktur #finger] = 3[#hernie #finger] = 0

    -> mit Bruch ist Fraktur gemeint

  • Nutzung von Termhufigkeiten bei der medizinischen DokumentenrechercheKontext: Semantische IndexierungTermhufigkeiten zur lexikalischer DisambiguierungTermhufigkeiten zum Relevanz-RankingTermhufigkeiten bei der Lexikonvalidierung

  • Termhufigkeiten zum Relevanz-RankingAnfrage: Statistik TodesursacheWelches Dokument passt am besten zur Anfrage?

  • Termhufigkeiten zum Relevanz-RankingTF/IDF: Term-Frequenz/Inverse Dokument-FrequenzPrinzip: statistische Ermittlung der Wichtigkeit von einzelnen WrternPrmisse: Wrter, welche in einem Dokument hufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

  • Termhufigkeiten zum Relevanz-RankingInverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten:Todesursache kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/1000000=0.0001Statistik kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/1000000=0.001Termfrequenz anhand von Dokument 1 Todesursache kommt 3mal vor, Statistik 1mal und insgesamt beinhaltet das Dokument 100 Wrter. TF(Todesursache) = 3/100 = 0.03TF(Statistik) = 1/100 = 0.01Termfrequenz anhand von Dokument 2Todesursache kommt 2mal vor, Statistik 7mal und insgesamt hat das Dokument 300 Wrter. TF(Todesursache) = 2/300 = 0.007TF(Statistik) = 7/300 = 0.023Das Ranking ergibt sich aus dem Verrechnen von TF und IDF:Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610Dokument 1 erhlt ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

  • Nutzung von Termhufigkeiten bei der medizinischen DokumentenrechercheKontext: Semantische IndexierungTermhufigkeiten zur lexikalischer DisambiguierungTermhufigkeiten zum Relevanz-RankingTermhufigkeiten bei der Lexikonvalidierung

  • Vergleichbare Korpora in unterschiedlichen SpachenDiabetes mellitus tipo 1(ya no debe usarse el trmino Diabetes Insulino dependiente)Caractersticamente se da en la poca temprana de la vida y se debe a un deficit absoluto de insulina, dado por la destruccin de las clulas beta del pncreas por procesos autoinmunes idiopticos. Slo cerca de 1 entre cada 20 personas diabticas tiene diabetes tipo 1, la cual se presenta ms frecuentemente en jvenes y nios. Este tipo de diabetes se conoca como diabetes mellitus insulinodependiente o diabetes juvenil. En ella, las clulas beta del pncreas no producen insulina o apenas producen. En los primeros aos de la enfermedad suelen quedar reservas pancreticas que permiten una secrecin mnima de insulina (este perodo se denomina luna de miel).Diabetes Typ 1

    Bei diesem Krankheitstyp zerstrt das krpereigene Immunsystem selbst im Rahmen einer Entzndungsreaktion die insulinproduzierenden Betazellen in der Bauchspeicheldrse. Diese Entzndungsreaktion setzt wahrscheinlich bereits in frhester Kindheit ein. Die daraus folgende Zerstrung der insulinproduzierenden Betazellen fhrt nach und nach zu einem zunehmenden Insulinmangel. Erst wenn ca. 80-90 Prozent der Beta-Zellen zerstrt sind manifestiert sich ein Typ-1-Diabetes. In der Anfangsphase der Erkrankung ist also durchaus noch eine kleine Insulinrestproduktion vorhanden.Type 1 diabetes mellitus

    Type 1 diabetes mellitus formerly known as insulin-dependent diabetes (IDDM), childhood diabetes, is characterized by loss of the insulin-producing beta cells of the islets of Langerhans of the pancreas leading to a deficiency of insulin. It should be noted that there is no known preventative measure that can be taken against type 1 diabetes. Most people affected by type 1 diabetes are otherwise healthy and of a healthy weight when onset occurs. Diet and exercise cannot reverse or prevent type 1 diabetes. Sensitivity and responsiveness to insulin are usually normal, especially in the early stages. kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwadiabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destr

Recommended

View more >