182
3. Wissensrepräsentation für Texte 1 3. Wissensrepräsentation für Texte Norbert Fuhr

3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 1

3. Wissensrepräsentation für Texte

Norbert Fuhr

Page 2: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

Problemstellung

Page 3: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 3Problemstellung

ProblemstellungRepräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

Lösungsansätze

Freitextsuche

informatischer Ansatz: Textretrieval alsZeichenkettensuche

computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen

semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen

Page 4: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 3Problemstellung

ProblemstellungRepräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

LösungsansätzeFreitextsuche

informatischer Ansatz: Textretrieval alsZeichenkettensuche

computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen

semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen

Page 5: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 3Problemstellung

ProblemstellungRepräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

LösungsansätzeFreitextsuche

informatischer Ansatz: Textretrieval alsZeichenkettensuche

computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen

semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen

Page 6: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 3Problemstellung

ProblemstellungRepräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

LösungsansätzeFreitextsuche

informatischer Ansatz: Textretrieval alsZeichenkettensuche

computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen

semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen

Page 7: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 3Problemstellung

ProblemstellungRepräsentation von Textinhalten:

Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden

LösungsansätzeFreitextsuche

informatischer Ansatz: Textretrieval alsZeichenkettensuche

computerlinguistischer Ansatz: i.w. Normalisierungvon Wortformen

semantischer Ansatz Zuordnung von Deskriptionen zu Texten →Dokumentationssprachen

Page 8: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

Freitextsuche

TerminologieInformatischer AnsatzComputerlinguistischer Ansatz

Graphematische VerfahrenLexikalische VerfahrenSyntaktische Verfahren

Page 9: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 5FreitextsucheTerminologie

Freitextsuche ITerminologie

Token: einzelnes Wort im laufenden Text

Type: einzelnes Wort des Vokabulars

Morphem: kleinste bedeutungstragende Einheit in einem Wort,z.B. Blend-e, lauf-en,

Flexion: Deklination, Konjugation und Komparation vonWörtern

Grundform: unflektierte Wortform; für Nomen ist es derNominativ Singular, für Verben der Infinitv, für Adjektive dieungesteigerte Form (Positiv).

Derivation: Wortbildung aus dem Wortstamm mit Hilfe vonPräfixen und Suffixen, z.B. haus: Haus – häuslich – aushäusig,

Page 10: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 6FreitextsucheTerminologie

Freitextsuche IITerminologie

Stammform: (genauer: Derivationsstammform), das derDerivation zugrunde liegende lexikalische Morphem

Kompositum: Bildung eines komplexen Wortes, das ausmindestens zwei Morphemen besteht, die sonst alsselbstständige Wörter vorkommen, z.B. Dampfschiff,schreibfaul, strapazierfähig

Nominalphrase: Wortgruppe im Satz, die ein Nomen alsBezugswort hat, z.B. “Wahl des Bundeskanzlers“

Page 11: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 7FreitextsucheTerminologie

Vorprozessierung

TextbereinigungEntfernen von Markup und Trennungszeichen

Zerlegung von Texten in Wörter (Tokenization)einfach bei westlichen Sprachen: Leer- undInterpunktionszeichen als Separatorenschwierig bei manchen asiatischen Sprachen: keine explizitenWortseparatoren

Stoppworteliminierung:Stoppworte = Wörter, die nicht bedeutungstragend sind(Artikel, Konjunktionen, Präpositionen, Hilfsverben)machen bis zu 50% der Token aus → Effizienzgewinn durchNichtberücksichtigungkönnen aber in Verbindung mit anderen Wörtern wichtig sein,z.B. ’vitamin A’ im Englischen

Satzendeerkennungfür linguistische Analyse und “Suche im selben Satz“ (s.u.)Problem: Unterscheidung zwischen Abkürzungs-undSatzendepunkten

Page 12: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie

Probleme bei der Freitextsuche

Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / Geldinstitut

SynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Page 13: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie

Probleme bei der Freitextsuche

Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / Geldinstitute

FlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Page 14: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie

Probleme bei der Freitextsuche

Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschrieben

DerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Page 15: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie

Probleme bei der Freitextsuche

Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatieren

Komposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Page 16: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie

Probleme bei der Freitextsuche

Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl

Nominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Page 17: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 8FreitextsucheTerminologie

Probleme bei der Freitextsuche

Homographen und PolysemeTenor: Sänger / AusdrucksweiseBank: Sitzgelegenheit / GeldinstitutSynonymeBanken / Sparkassen / GeldinstituteFlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschriebenDerivationsformenFormatierung – Format – formatierenKomposita (zusammengesetzte Wörter)Donaudampfschiffahrtsgesellschaftskapitän BundeskanzlerwahlNominalphrasen Wahl des Bundeskanzlersinformation retrieval – retrieval of information – informationwas retrieved

Page 18: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie

Probleme bei der Freitextsuche (2)

Das generelle Formulierungs-Problem bleibt ungelöst!

selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge

Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.

Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“

Page 19: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie

Probleme bei der Freitextsuche (2)

Das generelle Formulierungs-Problem bleibt ungelöst!

selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge

Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.

Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“

Page 20: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie

Probleme bei der Freitextsuche (2)

Das generelle Formulierungs-Problem bleibt ungelöst!

selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge

Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.

Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“

Page 21: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 9FreitextsucheTerminologie

Probleme bei der Freitextsuche (2)

Das generelle Formulierungs-Problem bleibt ungelöst!

selbsttätig aktivierendes Personen-Rückhaltesystem für Fahrzeuge

Die Fürsorge umfasst den lebenden Menschen einschließlich derAbwicklung des gelebt habenden Menschen.

Ein Bürger soll „das Restmüllbehältervolumen entsprechend derMenge des tatsächlich regelmäßig anfallenden Abfalls von bisher 80auf 120 Liter Gesamtvolumen erhöhen“

Page 22: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 10FreitextsucheInformatischer Ansatz

Informatischer Ansatz

Zeichenketten-Operatoren für die Freitextsuche

TruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben(Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Page 23: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 10FreitextsucheInformatischer Ansatz

Informatischer Ansatz

Zeichenketten-Operatoren für die FreitextsucheTruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben

(Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Page 24: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 10FreitextsucheInformatischer Ansatz

Informatischer Ansatz

Zeichenketten-Operatoren für die FreitextsucheTruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibeschreib$$: schreiben, schreibst#schreiben: schreiben, beschreiben, anschreiben, verschreiben$$schreiben: beschreiben, anschreiben(Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben

Page 25: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 11FreitextsucheInformatischer Ansatz

Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführen(auch für Komposita geeignet)

Vorteil: weniger Schreibarbeit als beim expliziten AufzählenNachteil: möglicherweise unerwünschte Wörter dabei

Page 26: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 11FreitextsucheInformatischer Ansatz

Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführen(auch für Komposita geeignet)

Vorteil: weniger Schreibarbeit als beim expliziten AufzählenNachteil: möglicherweise unerwünschte Wörter dabei

Page 27: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz

Kontextoperatoren

zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!

genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 28: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz

Kontextoperatoren

zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!

genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation loss

maximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 29: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz

Kontextoperatoren

zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!

genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrieval

Wortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 30: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz

Kontextoperatoren

zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!

genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformation

gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 31: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 12FreitextsucheInformatischer Ansatz

Kontextoperatoren

zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen)information AND retrieval:boolesche Operatoren beziehen sich nur auf das Vorkommenirgendwo im Text!

genauer Wortabstand ($):retrieval $ information: retrieval of information, retrieval withinformation lossmaximaler Wortabstand (#):text # # retrieval: text retrieval, text and fact retrievalWortreihenfolge (,):information # , retrieval: information retrieval, retrieval ofinformationgleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .

Page 32: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 13FreitextsucheComputerlinguistischer Ansatz

Computerlinguistischer Ansatz

Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen

basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)

lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken

syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken

Page 33: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 13FreitextsucheComputerlinguistischer Ansatz

Computerlinguistischer Ansatz

Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen

basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)

lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken

syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken

Page 34: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 13FreitextsucheComputerlinguistischer Ansatz

Computerlinguistischer Ansatz

Arten von Verfahren:graphematische Verfahren auf der Analyse von Buchstabenfolgen

basierende Algorithmen, hauptsächlich zurZusammenführung von Flexions- oderDerivationsformen (Morphologie)

lexikalische Verfahren Wörterbuch-basierte Verfahren zurZusammenführung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdrücken

syntaktische Verfahren zur Identifikation von mehrgliedrigenAusdrücken

Page 35: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz

Graphematische Verfahren

(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv

lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → applyformale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit

StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput

Page 36: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz

Graphematische Verfahren

(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv

lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → apply

formale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit

StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput

Page 37: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz

Graphematische Verfahren

(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv

lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → applyformale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit

StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput

Page 38: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 14FreitextsucheComputerlinguistischer Ansatz

Graphematische Verfahren

(für die englische Sprache)GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv

lexikographische Grundformentsteht durch Abtrennen der Flexionsendung und ggfs.Rekodierungapplies → appl → applyformale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit

StammformreduktionEntfernen der Derivationsendungen, d.h. Zurückführen auf denWortstammcomputer, compute, computation, computerization → comput

Page 39: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 15FreitextsucheComputerlinguistischer Ansatz

Lexikographische Grundformreduktion

(nach Kuhlen 77)

% alle Vokale (einschließlich Y)∗ alle Konsonanten/ ,oder’6B Leerzeichen→ ,zu’← ,aus’¬ ,nicht’

Page 40: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 16FreitextsucheComputerlinguistischer Ansatz

1) IES → Y2) ES → 6B wenn ∗O / CH / SH / SS / ZZ / X

vorangehen3) S → 6B wenn ∗ / E / %Y / %O / OA / EA vorangehen4) S’ → 6B

IES’ → YES’ → 6B

5) ’S → 6B’ → 6B

6) ING → 6B wenn ∗∗ / % / X vorausgehenING → E wenn %∗ vorausgehen

7) IED → Y8) ED → 6B wenn ∗∗ / % / X vorausgehen

ED → E wenn %∗ vorausgehen

Page 41: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 17FreitextsucheComputerlinguistischer Ansatz

Regel 1 IES → Y

Beispiele zu 1:APPLIES → APPLYIDENTIFIES → IDENTIFYACTIVITIES → ACTIVITY

Page 42: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 18FreitextsucheComputerlinguistischer Ansatz

Regel 2 ES → 6B, wenn ∗O / CH / SH / SS / ZZ /X vorangehen

Beispiele zu 2:BREACHES → BREACHPROCESSES → PROCESSFISHES → FISHCOMPLEXES → COMPLEXTANGOES → TANGOBUZZES → BUZZ

Page 43: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 19FreitextsucheComputerlinguistischer Ansatz

Regel 3 S → 6B, wenn ∗ / E / %Y / %O / OA /EA vorangehen

Beispiele zu 3:METHODS → METHODHOUSES → HOUSEBOYS → BOYRADIOS → RADIOCOCOAS → COCOAFLEAS → FLEA

Page 44: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 20FreitextsucheComputerlinguistischer Ansatz

Regel 4 S’ → 6BIES’ → YES’ → 6B

Beispiele zu 4:MOTHERS’ → MOTHERLADIES’ → LADYFLAMINGOES’ → FLAMINGO

Page 45: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 21FreitextsucheComputerlinguistischer Ansatz

Regel 5 ’S → 6B’ → 6B

Beispiele zu 5:MOTHER’S → MOTHERCHILDREN’S → CHILDRENPETRUS’ → PETRUS

Page 46: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 22FreitextsucheComputerlinguistischer Ansatz

Regel 6 ING → 6B, wenn ∗∗ / % / X vorausgehenING → E, wenn %∗ vorausgehen

Beispiele zu 6:DISGUSTING → DISGUSTGOING → GOMIXING → MIXLOOSING → LOOSERETRIEVING → RETRIEVE

Page 47: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 23FreitextsucheComputerlinguistischer Ansatz

Regel 7 IED → Y

Beispiel zu 7:SATISFIED → SATISFY

Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehenED → E, wenn %∗ vorausgehen

Beispiel zu 8:DISGUSTED → DISGUSTOBEYED → OBEYMIXED → MIXBELIEVED → BELIEVE

Page 48: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 23FreitextsucheComputerlinguistischer Ansatz

Regel 7 IED → Y

Beispiel zu 7:SATISFIED → SATISFY

Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehenED → E, wenn %∗ vorausgehen

Beispiel zu 8:DISGUSTED → DISGUSTOBEYED → OBEYMIXED → MIXBELIEVED → BELIEVE

Page 49: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 24FreitextsucheComputerlinguistischer Ansatz

Lexikalische Verfahren

besonders für stark flektierte Sprachen (z.B. deutsch) geeignet

Relationen im Wörterbuch:Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehen

Derivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnenKomposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.

Page 50: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 24FreitextsucheComputerlinguistischer Ansatz

Lexikalische Verfahren

besonders für stark flektierte Sprachen (z.B. deutsch) geeignet

Relationen im Wörterbuch:Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehenDerivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnen

Komposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.

Page 51: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 24FreitextsucheComputerlinguistischer Ansatz

Lexikalische Verfahren

besonders für stark flektierte Sprachen (z.B. deutsch) geeignet

Relationen im Wörterbuch:Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehenDerivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnenKomposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.

Page 52: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz

Beispiel: Wortschatz Uni Leipzig

Page 53: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz

Beispiel: Wortschatz Uni Leipzig

Page 54: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz

Beispiel: Wortschatz Uni Leipzig

Page 55: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz

Beispiel: Wortschatz Uni Leipzig

Page 56: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 25FreitextsucheComputerlinguistischer Ansatz

Beispiel: Wortschatz Uni Leipzig

Page 57: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 26FreitextsucheComputerlinguistischer Ansatz

Komposita-Zerlegung

Anteil der Substantivkomposita (letzte Komponente ein Substantiv)im Deutschen:

< 10% der Token> 50% der Types

Kompositazerlegung wichtig, um alle Vorkommen eines Suchworteszu finden, z.B.

Schweinebraten, Rinderbraten, Hirschbraten, Hühnerbraten,. . .Kernenergie, Solarenergie, Kohleenergie, Windenergie, . . .

Page 58: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 27FreitextsucheComputerlinguistischer Ansatz

Komposita-ZerlegungFugenelemente

verbinden die einzelnen Komponenten-∅, -e, -en, -ens, -er, -n, -sbei entlehnten Stämmen: -i, -o, -al(Elektr-o-motor, Agr-i-kultur)Bindestrich

keine allgemeingültigen Regeln:Wind-energie vs. Sonne-n-ergieStadtmitte vs. StädtepartnerschaftSpargelder vs. HilfsgelderSchweinebraten vs. Wildschweinbraten

Page 59: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 28FreitextsucheComputerlinguistischer Ansatz

Komposita-ZerlegungZerlegungsalgorithmus

finde Folge(Substantivform Fugenmorphem)+ Substantivformdie der zu segmentierenden Wortform entspricht

Zerlegung nicht immer eindeutig:Bausch-windel, Hafenbar-kasse, Kopfball-ast, Ster-befall,Tau-sender, Tram-polin

Page 60: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 29FreitextsucheComputerlinguistischer Ansatz

Syntaktische Verfahren

(zur Behandlung von Nominalphrasen)

1 Wortklassenbestimmung2 Parsing3 Identifikation von Nominalphrasen4 Head-Modifier-Strukturen5 Matching

Page 61: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 30FreitextsucheComputerlinguistischer Ansatz

Wortklassenbestimmung

typische Wortklassen:

AT article PN personal pronounBEZ “is” RB adverbCONJ conjunction RBR comparative adverbIN preposition TO “to”JJ adjective VB verb, base formJJR comparative adjective VBD verb, past tenseMD modal (can, have, may,...) VBG verb, present participle, gerundNN singular or mass noun VBN verb, past participleNNP singular proper noun VBP verb, non 3rd singular presentNNS plural noun VBZ verb, 3rd singular presentPERIOD .:?! WDT wh-determiner (what, which)

Page 62: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 31FreitextsucheComputerlinguistischer Ansatz

Datenquellen für die Wortklassenbestimmung

(Vollformen-)Wörterbuchgraphematische Verfahren(insbesondere für nicht im Wörterbuch enthaltene Wörter)

Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play

→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN

Page 63: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 31FreitextsucheComputerlinguistischer Ansatz

Datenquellen für die Wortklassenbestimmung

(Vollformen-)Wörterbuchgraphematische Verfahren(insbesondere für nicht im Wörterbuch enthaltene Wörter)

Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play

→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN

Page 64: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 31FreitextsucheComputerlinguistischer Ansatz

Datenquellen für die Wortklassenbestimmung

(Vollformen-)Wörterbuchgraphematische Verfahren(insbesondere für nicht im Wörterbuch enthaltene Wörter)

Problem:Wortklassenbestimmung in wenig flektierten SprachenThe boys play football vs.She saw the new play

→ zusätzliche Berücksichtigung der syntaktischen Struktur(Bigramme, Trigramme) notwendig:AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN

Page 65: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 32FreitextsucheComputerlinguistischer Ansatz

Beispiel:Wortklassenbestimmung basierend auf dem Kuhlen-AlgorithmusNr. Regel Klasse1 IES → Y NNS/VBP2 ES → 6B NNS/VBP3 S → 6B NNS/VBP4 S’ → 6B, IES’ → Y , ES’ → 6B NNS5 ’S → 6B, ’ → 6B NN6 ING → 6B, ING → E VBG7 IED → Y VBD/VBN/JJ8 ED → 6B , ED → E VBD/VBN/JJ

Page 66: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz

Wortklassenbestimmung mit deterministischem Tagger

nur 70 % korrekte Zuordungen! [Greene & Rubin 77]

aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report

→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]

Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Page 67: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz

Wortklassenbestimmung mit deterministischem Tagger

nur 70 % korrekte Zuordungen! [Greene & Rubin 77]

aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report

→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]

Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Page 68: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz

Wortklassenbestimmung mit deterministischem Tagger

nur 70 % korrekte Zuordungen! [Greene & Rubin 77]

aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report

→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]

Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Page 69: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 33FreitextsucheComputerlinguistischer Ansatz

Wortklassenbestimmung mit deterministischem Tagger

nur 70 % korrekte Zuordungen! [Greene & Rubin 77]

aber:die meisten Wörter kommen in einer bevorzugten Wortklasse vorto flour a panto web the final report

→ seltene Verwendungen ignorieren!90 % korrekte Zuordungen! [Charniak et al. 93]

Verbesserung:statistische Ansätze zur Berücksichtigung der syntaktischenStruktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen

Page 70: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 34FreitextsucheComputerlinguistischer Ansatz

Parsing

eine einfache Grammatik:S → NP VPNP → AT? JJ* NNS+

→ AT? JJ* NN+→ NP PP

VP → VB PP→ VBZ→ VBZ NP

PP → IN NP

Beispiele:The analysis of 25 indexing algorithms shows consistent retrievalperformance.AT NN IN JJ NN NNS VBZ JJ NN NNA good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NN NN VBZ JJ NN

Page 71: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 34FreitextsucheComputerlinguistischer Ansatz

Parsing

eine einfache Grammatik:S → NP VPNP → AT? JJ* NNS+

→ AT? JJ* NN+→ NP PP

VP → VB PP→ VBZ→ VBZ NP

PP → IN NP

Beispiele:The analysis of 25 indexing algorithms shows consistent retrievalperformance.AT NN IN JJ NN NNS VBZ JJ NN NNA good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NN NN VBZ JJ NN

Page 72: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 35FreitextsucheComputerlinguistischer Ansatz

Identifikation von Nominalphrasen

nur bestimmte syntaktische Strukturen relevant→ partielles parsing

einfache Muster (ohne Unterscheidung (NN/NNP/NNS):phrase → NN NN+

→ NN+ IN JJ* NN+Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents

Page 73: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 35FreitextsucheComputerlinguistischer Ansatz

Identifikation von Nominalphrasen

nur bestimmte syntaktische Strukturen relevant→ partielles parsingeinfache Muster (ohne Unterscheidung (NN/NNP/NNS):phrase → NN NN+

→ NN+ IN JJ* NN+Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents

Page 74: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 36FreitextsucheComputerlinguistischer Ansatz

Head-Modifier-Strukturen

basierend auf der Transformation der Nominalphrasen undKomposita in head-modifier-Strukturen:

head: Nomen, das die wesentliche Bedeutung einesKompositums oder einer Nominalphrase ausdrückt:Haustür, Türschloss, Schlosstürindexing algorithm, retrieval of information

modifier: modifiziert/spezialisiert die Bedeutung des Heads

head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume

(((multimedia,document),retrieval),system)(((Tür,Schloss), (Enteiser, Spray))

Page 75: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 36FreitextsucheComputerlinguistischer Ansatz

Head-Modifier-Strukturen

basierend auf der Transformation der Nominalphrasen undKomposita in head-modifier-Strukturen:

head: Nomen, das die wesentliche Bedeutung einesKompositums oder einer Nominalphrase ausdrückt:Haustür, Türschloss, Schlosstürindexing algorithm, retrieval of information

modifier: modifiziert/spezialisiert die Bedeutung des Heads

head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume

(((multimedia,document),retrieval),system)(((Tür,Schloss), (Enteiser, Spray))

Page 76: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 37FreitextsucheComputerlinguistischer Ansatz

the domain of possible categories of linguistic expressions

possible

domain

linguistic

categories

expressions

Page 77: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 38FreitextsucheComputerlinguistischer Ansatz

long term parking courtesy shuttle bus

hm h hm m

m

m

h

h

Page 78: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 39FreitextsucheComputerlinguistischer Ansatz

Matching-Prozess

1 Nominalphrase/Kompositum in Head-Modifier-Strukturüberführen(Transformationsregeln basierend auf der syntaktischenStruktur, und/oder lexikalischen Angaben)

2 Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamenWurzel) müssen übereinstimmen(einzelnes Nomen = Head)

Page 79: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 39FreitextsucheComputerlinguistischer Ansatz

Matching-Prozess

1 Nominalphrase/Kompositum in Head-Modifier-Strukturüberführen(Transformationsregeln basierend auf der syntaktischenStruktur, und/oder lexikalischen Angaben)

2 Vergleich: Head- bzw. Modifier-Rolle (bzgl. der gemeinsamenWurzel) müssen übereinstimmen(einzelnes Nomen = Head)

Beispiel:(((semistructured,data), retrieval) system) wird gematcht von

(retrieval, system)(semistructured, data)(data, retrieval)

aber nicht von(retrieval, data)

Page 80: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

Dokumentationssprachen

Allgemeine EigenschaftenKlassifikationenThesauriOntologienTagging

Page 81: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 41DokumentationssprachenAllgemeine Eigenschaften

Allgemeine Eigenschaften

formulierungsunabhängige Repräsentation von Textinhaltendurch Verwendung eines speziellen Vokabulars

KlassifikationenThesauriOntologienTagging

Page 82: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 42DokumentationssprachenKlassifikationen

Klassifikationen

Strukturierung eines Wissensgebietes nach einem vorgegebenenformalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10

Ein Dokument wird in der Regel einer oder wenigen Klassenzugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur aneinem Platz stehen!)

Page 83: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 42DokumentationssprachenKlassifikationen

Klassifikationen

Strukturierung eines Wissensgebietes nach einem vorgegebenenformalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10

Ein Dokument wird in der Regel einer oder wenigen Klassenzugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buch kann nur aneinem Platz stehen!)

Page 84: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 43DokumentationssprachenKlassifikationen

Beispiele für Klassifikationen

Web-Kataloge (z.B. Yahoo!)Klassifikationen in bestimmtenFachgebieten/Anwendungsbereiche:

LCC Library of Congress ClassificationDDC Dewey Decimal ClassificationUDC Universal Decimal ClassificationMSc Mathematics Subject ClassificationCCS ACM Computing Classification system

Page 85: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 44DokumentationssprachenKlassifikationen

Eigenschaften von KlassifikationssystemenMonohierarchie — Polyhierarchie

Monohierarchie:

Steinobstbaum

Kirschbaum Pfirsichbaum

Kernobstbaum

BirnbaumApfelbaum

Obstbaum

Polyhierarchie:

Birnbaum

NutzholzbaumObstbaum

Kernobstbaum

Page 86: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 44DokumentationssprachenKlassifikationen

Eigenschaften von KlassifikationssystemenMonohierarchie — Polyhierarchie

Monohierarchie:

Steinobstbaum

Kirschbaum Pfirsichbaum

Kernobstbaum

BirnbaumApfelbaum

Obstbaum

Polyhierarchie:

Birnbaum

NutzholzbaumObstbaum

Kernobstbaum

Page 87: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 45DokumentationssprachenKlassifikationen

Monodimensionalität — Polydimensionalität

Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eineweitere Aufteilung in Unterklassen vorgenommen werden kann

Polydimensionalität

Steinobstbaum

Obstbaum

Kernobstbaum niederstämmiger Obstbaum

hochstämmiger Obstbaum

halbstämmiger Obstbaum

aufgelöstObstbaum

nach Stammbildungnach Fruchart

Obstbaum

halbst.

niederst.

ObstbaumObstbaum

hochst.

obstbaum

Kern−

obstbaum

Stein−

Page 88: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 45DokumentationssprachenKlassifikationen

Monodimensionalität — Polydimensionalität

Problem: auf einer Stufe gibt es mehrere Kriterien, nach denen eineweitere Aufteilung in Unterklassen vorgenommen werden kann

Polydimensionalität

Steinobstbaum

Obstbaum

Kernobstbaum niederstämmiger Obstbaum

hochstämmiger Obstbaum

halbstämmiger Obstbaum

aufgelöstObstbaum

nach Stammbildungnach Fruchart

Obstbaum

halbst.

niederst.

ObstbaumObstbaum

hochst.

obstbaum

Kern−

obstbaum

Stein−

Page 89: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 46DokumentationssprachenKlassifikationen

Analytische vs. synthetische Klassifikation

analytische Klassifikation: top-down Vorgehensweise(wie oben)

synthetische Klassifikation: bottom-up1 Erhebung der Merkmale der zu klassifizierenden Objekte und

Zusammenstellung im Klassifikationssystem2 Bildung der Klassen durch Kombination der Merkmale

Page 90: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 46DokumentationssprachenKlassifikationen

Analytische vs. synthetische Klassifikation

analytische Klassifikation: top-down Vorgehensweise(wie oben)

synthetische Klassifikation: bottom-up1 Erhebung der Merkmale der zu klassifizierenden Objekte und

Zusammenstellung im Klassifikationssystem2 Bildung der Klassen durch Kombination der Merkmale

Page 91: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 47DokumentationssprachenKlassifikationen

Facettenklassifikation

Beispiel: Facettenklassifikation Obstbäume

Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochstämmig C1 frühA2 Birne B2 halbstämmig C2 mittelA3 Kirsche B3 niederstämmig C3 spätA4 PfirsischA5 Pflaume

A1B3C1 = niederstämmiger Frühapfelbaum

Regeln:Facetten müssen disjunkt seinmonodimensionale Unterteilung innerhalb einer Facette

Page 92: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 47DokumentationssprachenKlassifikationen

Facettenklassifikation

Beispiel: Facettenklassifikation Obstbäume

Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochstämmig C1 frühA2 Birne B2 halbstämmig C2 mittelA3 Kirsche B3 niederstämmig C3 spätA4 PfirsischA5 Pflaume

A1B3C1 = niederstämmiger Frühapfelbaum

Regeln:Facetten müssen disjunkt seinmonodimensionale Unterteilung innerhalb einer Facette

Page 93: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 48DokumentationssprachenKlassifikationen

FacettenklassifikationBeispiel: heise Preisvergleich

Page 94: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 48DokumentationssprachenKlassifikationen

FacettenklassifikationBeispiel: heise Preisvergleich

Page 95: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 49DokumentationssprachenKlassifikationen

Yahoo! – main categoriesArts & HumanitiesLiterature, Photography...Business & EconomyB2B, Finance, Shopping, Jobs...Computers & InternetInternet, WWW, Software, Ga-mes...EducationCollege and University, K-12...EntertainmentCool Links, Movies, Humor, Mu-sic...GovernmentElections, Military, Law, Taxes...HealthMedicine, Diseases, Drugs, Fit-ness...

News & MediaFull Coverage, Newspapers, TV...Recreation & SportsSports, Travel, Autos, Outdoors...ReferenceLibraries, Dictionaries, Quotati-ons...RegionalCountries, Regions, US States...ScienceAnimals, Astronomy, Engineering...Social ScienceArchaeology, Economics, Langua-ges...Society & CulturePeople, Environment, Religion...

Page 96: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 50DokumentationssprachenKlassifikationen

Yahoo! – Computers & Internet

Art@Bibliographies (6)Communications andNetworking (1146)Computer Science@Contests (26)Conventions andConferences@Countries, Cultures, andGroups (38)Cyberculture@Data Formats (485)Desktop Customization@Desktop Publishing (53)Dictionaries (24)

Employment@Ethics (18)Games@Graphics (316)Hardware (2355)History (106)Humor@Industry Information@Internet (6066)Magazines@Mobile Computing (65)Multimedia (690)Music@News and Media (205)...

Page 97: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 51DokumentationssprachenKlassifikationen

Yahoo!

PolyhierarchieTiefe der Hierarchie variiertDokumente können beliebigen Klassen zugeordnet werden

Page 98: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 52DokumentationssprachenKlassifikationen

ACM Computing Classification System

Ursprünglich Klassifikation in der Zeitschrift ACM ComputingReviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.

Elemente:general terms: vorgegebene Menge von allgemeinen Begriffenclassification codes: dreistufige monohierarchischeKlassifikationsubject headings: vorgegebene Menge vonnatürlichsprachlichen Bezeichnungen für jede einzelne Klasse,die diese weiter differenzieren; außerdem alle Eigennamenfree terms: zusätzliche, frei wählbare Stichwörter

Page 99: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 52DokumentationssprachenKlassifikationen

ACM Computing Classification System

Ursprünglich Klassifikation in der Zeitschrift ACM ComputingReviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.

Elemente:general terms: vorgegebene Menge von allgemeinen Begriffenclassification codes: dreistufige monohierarchischeKlassifikationsubject headings: vorgegebene Menge vonnatürlichsprachlichen Bezeichnungen für jede einzelne Klasse,die diese weiter differenzieren; außerdem alle Eigennamenfree terms: zusätzliche, frei wählbare Stichwörter

Page 100: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 53DokumentationssprachenKlassifikationen

General terms:

These apply to any elements of the tree that are relevant

ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION

Page 101: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 54DokumentationssprachenKlassifikationen

Übersicht über die Hauptklassen

A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX

Page 102: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 55DokumentationssprachenKlassifikationen

H.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and Indexing

Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses

H.3.2 Information StorageFile organizationRecord classification

H.3.3 Information Search and RetrievalClusteringQuery formulationRetrieval modelsSearch processSelection process

H.3.4 System and Software...

Page 103: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 56DokumentationssprachenKlassifikationen

Eigenschaften der ACM-CCS

Monohierarchiefeste Tiefe (vier Ebenen)

Buchstaben/Ziffern-Code für Ebene 1–3“subject heading” auf Ebene 4

Dokumente können nur der 4. Ebene zugeordnet werden

Page 104: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 57DokumentationssprachenKlassifikationen

Dezimalklassifikation

Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen

Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)

Grundelemente der DK:Hierarchisch gegliederten Klassen (130000)Anhängezahlen zur FacettierungSonderzeichen zur Verknüpfung mehrerer DK-Zahlen

Page 105: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 57DokumentationssprachenKlassifikationen

Dezimalklassifikation

Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen

Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)

Grundelemente der DK:Hierarchisch gegliederten Klassen (130000)Anhängezahlen zur FacettierungSonderzeichen zur Verknüpfung mehrerer DK-Zahlen

Page 106: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 57DokumentationssprachenKlassifikationen

Dezimalklassifikation

Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickeltUniversalklassifikation zur Aufstellung von Buchbeständen

Weiterentwickelt durch Paul Otlet und Henri Lafontaine (Belgien)zur Universellen Dezimalklassifikation (DK)(im Gegensatz zur DDC kaum noch benutzt)

Grundelemente der DK:Hierarchisch gegliederten Klassen (130000)Anhängezahlen zur FacettierungSonderzeichen zur Verknüpfung mehrerer DK-Zahlen

Page 107: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 58DokumentationssprachenKlassifikationen

Hauptklassen

Die DK-Haupttafeln umfassen die Hauptabteilungen:0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angewandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik, Spiel, Sport8 Sprachwissenschaft, Philologie, Schöne Literatur,Literaturwissenschaft

9 Heimatkunde, Geographie, Biographien, Geschichte

Page 108: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 59DokumentationssprachenKlassifikationen

Beispiel für die Untergliederung einer Hauptklasse

Beispiel:3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. Börsenwesen336.76 Börsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. Effekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe

Page 109: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 60DokumentationssprachenKlassifikationen

Facettierende Elemente

Anhängezahlen: durch spezielle Zeichen eingeleitetallgemeine Anhängezahlen: Facetten, die überall in der DKverwendet werden dürfenZeichenfolgen/Facetten:= Sprache: =30 =̂ deutsch

(0...) Form: (021) =̂ Handbuch, 53(021)=20=30=40 =̂ Handbuchder Physik in Englisch, Deutsch, Französisch

(...) Ort(=...) Rassen und Völker„...“ Zeit.00 Gesichtspunkt-05 Person

Page 110: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 61DokumentationssprachenKlassifikationen

Verknüpfung von DK-Zahlen

spezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:+ Aufzählung mehrerer Sachverhalte, z.B. 178.1+33 =̂

Alkoholismus und Volkswirtschaft: Beziehung zwischen zwei Sachverhalten, z.B. 178.1:33 =̂Auswirkung von Alkoholismus auf die Volkswirtschaft

/ Erstreckungszeichen (zur Zusammenfassung mehrerernebeneinanderstehender DK-Zahlen), z.B. 592/599Systematische Zoologie: 592 bis einschließlich 599

’ Zusamenfassungszeichen zur Bildung neuer Sachverhalte ausder Kombination einzelner DK-Komponenten

Page 111: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 62DokumentationssprachenThesauri

Thesauri

DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.

Merkmale eines Thesaurus:a) terminologische Kontrolle durch

Erfassung von SynonymenKennzeichnung von Homonymen und PolysemenFestlegung von Vorzugsbenennungen

b) Darstellung von Beziehungen zwischen Begriffen“

Page 112: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 62DokumentationssprachenThesauri

Thesauri

DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.

Merkmale eines Thesaurus:a) terminologische Kontrolle durch

Erfassung von SynonymenKennzeichnung von Homonymen und PolysemenFestlegung von Vorzugsbenennungen

b) Darstellung von Beziehungen zwischen Begriffen“

Page 113: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 62DokumentationssprachenThesauri

Thesauri

DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begriffen mit ihren(natürlichsprachlichen) Bezeichnungen.

Merkmale eines Thesaurus:a) terminologische Kontrolle durch

Erfassung von SynonymenKennzeichnung von Homonymen und PolysemenFestlegung von Vorzugsbenennungen

b) Darstellung von Beziehungen zwischen Begriffen“

Page 114: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri

Terminologische Kontrolle

Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen

Arten von Synonymie:

SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Page 115: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri

Terminologische Kontrolle

Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen

Arten von Synonymie:

SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Page 116: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri

Terminologische Kontrolle

Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen

Arten von Synonymie:SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationen

unterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Page 117: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri

Terminologische Kontrolle

Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen

Arten von Synonymie:SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — Kurzsichtigkeit

Quasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Page 118: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 63DokumentationssprachenThesauri

Terminologische Kontrolle

Reduktion von Mehrdeutigkeiten und Unschärfe der natürlichenSprache

SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenzklassen

Arten von Synonymie:SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationenunterschiedliche Konnotationen, Sprachstile, VerbreitungTelefon — FernsprecherPferd — GaulMyopie — KurzsichtigkeitQuasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk

Page 119: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri

Synonymkontrolle

Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:

unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung

Page 120: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri

Synonymkontrolle

Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:

unterschiedliche SpezifitätSprachwissenschaft — Linguistik

AntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung

Page 121: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri

Synonymkontrolle

Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:

unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheit

zu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung

Page 122: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri

Synonymkontrolle

Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:

unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — Winterweizen

Gleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung

Page 123: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 64DokumentationssprachenThesauri

Synonymkontrolle

Im Thesaurus werden darüber hinaus Begriffe mit geringen /irrelevanten Bedeutungsdifferenzen zu Äquivalenzklassenzusammengefaßt:

unterschiedliche SpezifitätSprachwissenschaft — LinguistikAntonymeHärte — Weichheitzu spezieller UnterbegriffWeizen — WinterweizenGleichsetzung von Verb und Substantiv / Tätigkeit undErgebnisWohnen — Wohnung

Page 124: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 65DokumentationssprachenThesauri

Polysemkontrolle

Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrereÄquivalenzklassen

Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit, Montage)

Polyseme (Bs. Bank, Deckung)

Page 125: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 65DokumentationssprachenThesauri

Polysemkontrolle

Aufteilung von einer (mehrdeutigen) Bezeichnung auf mehrereÄquivalenzklassen

Homonyme (Bs. Tenor, Vollzug, modern, Hochzeit, Montage)Polyseme (Bs. Bank, Deckung)

Page 126: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri

Zerlegungskontrolle

Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)

Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromiß zwischen beiden Ansätzen

Page 127: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri

Zerlegungskontrolle

Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)

Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromiß zwischen beiden Ansätzen

Page 128: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri

Zerlegungskontrolle

Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)

Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromiß zwischen beiden Ansätzen

Page 129: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri

Zerlegungskontrolle

Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)

Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromiß zwischen beiden Ansätzen

Page 130: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 66DokumentationssprachenThesauri

Zerlegungskontrolle

Problem: Wie spezifisch sollen einzelne Begriffe im Thesaurus sein?„Donaudampfschiffahrtskapitän“

Nachteile zu spezieller Begriffe:Thesaurus zu umfangreich / unübersichtlichnur wenige Dokumente zu einer Äquivalenzklasse

UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sachverhaltes(Postkoordination)

Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum

Thesaurusmethode: Kompromiß zwischen beiden Ansätzen

Page 131: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 67DokumentationssprachenThesauri

Äquivalenzklasse — Deskriptor

Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen

Darstellung dieser Äquivalenzklassen:

Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der ÄquivalenzklasseThesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)

Page 132: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 67DokumentationssprachenThesauri

Äquivalenzklasse — Deskriptor

Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen

Darstellung dieser Äquivalenzklassen:Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der Äquivalenzklasse

Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)

Page 133: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 67DokumentationssprachenThesauri

Äquivalenzklasse — Deskriptor

Terminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen

Darstellung dieser Äquivalenzklassen:Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der ÄquivalenzklasseThesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zur Benennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennung betrachtet)

Page 134: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 68DokumentationssprachenThesauri

Beziehungsgefüge des ThesaurusÄquivalenzrelation

zwischen Nicht-Deskriptoren und DeskriptorenBezeichnungen:BS Benutze Synonym (use)BF Benutzt für (used for, UF)Fernsprecher BS TelefonTelefon BF Fernsprecher

Page 135: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 69DokumentationssprachenThesauri

Hierarchische Relation

zwischen DeskriptorenBezeichnungen:UB Unterbegriff (narrower term, NT)OB Oberbegriff (broader term, BT)Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum

Page 136: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 70DokumentationssprachenThesauri

Assoziationsrelation

zwischen begriffsverwandten Deskriptoren, symmetrischBezeichnung: VB verwandter Begriff (see also, SEE)Obstbaum VB ObstObst VB Obstbaum

Page 137: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 71DokumentationssprachenThesauri

Darstellung des ThesaurusDeskriptor-Einträge

BegriffsnummerNotation / Deskriptor-KlassifikationScope note / DefinitionSynonymeOberbegriffe / UnterbegriffeVerwandte BegriffeEinführungs-/Streichungsdatum

Page 138: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 72DokumentationssprachenThesauri

Gesamtstruktur des Thesaurus

(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet

zusätzliche Register mit Verweisen auf die Deskriptor-Einträgesystematisch / alphabetisch (komplementär zum Hauptteil)Index für Komponenten mehrgliedriger BezeichnungenKWIC — keyword in contextKWOC — keyword out of context

Page 139: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 72DokumentationssprachenThesauri

Gesamtstruktur des Thesaurus

(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet

zusätzliche Register mit Verweisen auf die Deskriptor-Einträgesystematisch / alphabetisch (komplementär zum Hauptteil)Index für Komponenten mehrgliedriger BezeichnungenKWIC — keyword in contextKWOC — keyword out of context

Page 140: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 73DokumentationssprachenThesauri

Beispiel: INSPEC-Thesaurus

Information retrievalUF CD-ROM searching

Data accessDocument retrievalOnline literature searchingRetrieval, information

BT Information scienceNT Query formulation

Query processingRelevance feedback

RT Bibliographic systemsInformation analysisInformation storageQuery languages

Query processingUF Data querying

Database queryingQuery optimisation

BT Information retrievalRT Database management systems

Database theoryDATALOGQuery languages

Query formulationUF Search strategiesBT Information retrieval

Relevance feedbackBT Information retrieval

Page 141: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 74DokumentationssprachenThesauri

Beispiel-Thesaurus

0.0058 Magnetismus (Forts.)Magnetband BF HalleffektVB Magnetbandlaufwerk BF Induktion

OB ElektrodynamikUB Magnetfeld

0,0045 BIK GeophysikMagnetbandgerät BFK ErdmagnetismusBS Magnetbandlaufwerk NE7 BIK Optik

BFK Faraday-Effekt0. 0046Magnetbandkassette 0.0070NO NE83 MagnetkarteBF Kassette NO NE87BF MB-Kassette BF TelefonkärtchenOB Datenträger OB DatenträgerVB Magnetbandkassettenlaufwerk VB Kartensystem

0.0051 0.0073Magnetbandkassettengerät MagnetkartensystemBS Magnetbandkassettenlaufwerk NE7 NO ECS

OB Kartensystem

Page 142: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

0.0050Magnetbandkassettenlaufwerk 0.0074NO NE7 MagnetkartentelefonBF Magnetbandkassettengerät NO GK72BF MB-Kassettengerät BF MakatelOB Datenausgabegrät OB KartentelefonOB DateneingabegerätOB DatenspeichertechnikVB Magnetbandkassette 0 0077

MagnetplatteNO NE82

0.0044 OB DatenspeicherMagnetbandlaufwerk OB DatenträgerNO NE7 VB MagnetplattenlaufwerkBF Magnetbandgerät BIK DatenspeicherOB Bandgerät BFK PlattenspeicherOB DatenausgabegerätOB DateneingabegerätOB Datenspeichertechnik 0.0081VB Magnetband Magnetplattengerät

BS Magnetplattenlaufwerk0.0059Magnetfeld 0.0079NO WD2 MagnetplattenlaufwerkOB Magnetismus NO NE7

BF MagnetplattengerätOB Datenausgabegerät

0.0060 OB DateneingabegerätMagnetismus OB DatenspeichertechnikNO WD2 VB MagnetplatteBF Barkhausen-EffektBF Ferromagnetismus

Page 143: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 76DokumentationssprachenThesauri

Thesauruspflege

Anpassung des Thesaurus an Veränderungen in der Anwendungnotwendig aufgrund von

Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimediale SystemeEntwicklung der FachspracheIndexierungsverhalten / IndexierungsergebnisseBenutzerverhaltenRechercheergebnisse

Page 144: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 77DokumentationssprachenOntologien

Ontologien

Ursprung: semantische Netze aus der künstlichen Intelligenz(1970er)weiterentwickelt als terminologische Logiken,Beschreibungslogikenjetzt populär “semantic Web“verschiedene Formalismen (Sprachen)OWL: Web Ontology Language

Weiterentwicklung von Datenbankschemata und Thesauri:aus Thesauri: Begriffshierarchie, Relationen zwischen Begriffenaus Datenbank-Schemata: Attribute und Beziehungen,Instanzen zu Konzepten, Datentypen

Page 145: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 78DokumentationssprachenOntologien

Ontologien: Konstrukte

Konzepte/KlassenVererbungEigenschaften/RelationenFacetten von EigenschaftenInstanzen(Regeln)

Page 146: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 79DokumentationssprachenOntologien

Konzepte/Klassen

Konzepte werden als Klassen aufgefasstKlasse = Menge von Instanzen mit gleichen/ähnlichenEigenschaftenanalog zu objektorientierter ProgrammierungBeispiele:

Student als Klasse aller StudentenReiseziel als Menge aller möglichen DestinationenInformation Retrieval als Menge aller möglichen IR-Themen

Page 147: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 80DokumentationssprachenOntologien

Vererbung

analog zu objektorientierter ProgrammierungVererbung als Teilmengenbeziehung zwischen KlassenBeispiele:

Bachelor-Student und Master-Student als Unterklassen vonStudentHiwi als Unterklasse von Student und MitarbeiterStadt und Strand als Unterklassen von ReisezielKlassifikation als Unterklasse von Information Retrieval

viele Ontologie-Sprachen erlauben keine Mehrfachvererbung

Page 148: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 81DokumentationssprachenOntologien

Beispiel-Klassenhierarchie

Page 149: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 82DokumentationssprachenOntologien

Slots: Eigenschaften/Relationen

ein Konzept hat i.d.R. mehrere Slotsein Slot beschreibt entweder eine Eigenschaft bzw. eineRelationInstanzen eines Konzeptes unterscheiden sich in den Wertenfür die SlotsWert ist entweder von elementarem Datentyp oder einer KlasseBeispiel Student:

Eigenschaften: Name: string, Matrikelnr: integer, Semester:integerRelation: studiert → Studiengang, hört → Vorlesung

Page 150: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 83DokumentationssprachenOntologien

Beispiel-Properties

Page 151: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 84DokumentationssprachenOntologien

Facetten von Slots I

Domain und RangeDomain: Konzepte, bei denen dieser Slot vorkommtRange: Klassen/Datentypen, zu denen die Slot-Werte gehörenBs.: Domain(Name)= {Mitarbeiter,Student},Range(Name)=stringBs.: Domain(studiert)={Student}, Range(studiert) =Studiengang

Kardinalität: Anzahl möglicher Werte für diesen SlotAngabe von minimaler und maximaler AnzahlBs.: card(Name)=(1,1)Bs.: card(studiert)= (1,2)

Page 152: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 85DokumentationssprachenOntologien

Facetten von Slots II

Hierarchien auf SlotsSpezialisierung: Instanzen eines spezielleren Slots sind auchInstanzen des generelleren SlotsBs.: hört_Pflicht und hört_Wahlpflicht als Spezialisierung vonhörtspeziellerer Slot kann bzgl. Domain, Range, und Kardinalitäteingeschränkt sein

Default-Wert: falls kein expliziter Slot-Wert angegeben wird

Page 153: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 86DokumentationssprachenOntologien

Slots und Vererbung

Unterklasse erbt alle Slots ihrer Oberklassezusätzlich kann sie weitere Slots habenvererbte Slots können eingeschränkt werden:

bzgl. Range: Unterklasse des Range der OberklasseBs.: Ingenieurstudent studiert → Ingenieurstudiengangbzgl. KardinalitätBs.: Diplomand: card(hört) = (0,0)speziellerer Slot

Page 154: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 87DokumentationssprachenOntologien

Instanzen

Füllen der Ontologie mit WertenInstanz einer Klasse muss alle Bedingungen der Klasse erfüllenRetrieval = Suche nach Instanzen einer Klasse (mit allenUnterklassen), die zusätzlich bestimmte Wertebedingungenerfüllen

Bs.: Ingenieurstudenten mit ZweitstudiengangBs.: Studenten mit mehr als 8 Semestern, die IR hören

Page 155: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 88DokumentationssprachenOntologien

YAGO

Suche automatisch extrahierter Instanzen aus Wikipedia(siehe auch DBpedia)

Page 156: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 88DokumentationssprachenOntologien

YAGO

Suche automatisch extrahierter Instanzen aus Wikipedia(siehe auch DBpedia)

Page 157: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 89DokumentationssprachenOntologien

YAGO Ontology Browser

Page 158: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 89DokumentationssprachenOntologien

YAGO Ontology Browser

Page 159: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 90DokumentationssprachenOntologien

Freebase

Manuell erstellte Dokumenten/Faktenbasis:http://www.freebase.com

Page 160: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien

Freebase - Suchergebnis

Page 161: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien

Freebase - Suchergebnis

Page 162: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien

Freebase - Suchergebnis

Page 163: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 91DokumentationssprachenOntologien

Freebase - Suchergebnis

Page 164: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 92DokumentationssprachenOntologien

Werkzeuge und Anwendungen

Ontologie-Editoren zur Ontologie-Entwicklungüberprüfen Widerspruchsfreiheit der Ontologie und Erfüllungder Konsistenzbedingungen von InstanzenSysteme:

Protegé: protege.stanford.eduChimaera: www.ksl.stanford.edu/software/chimaera/Java Ontology Editor (JOE):www.cse.sc.edu/research/cit/demos/java/joe/joeBeta-jar.htmlWeitere siehe en.wikipedia.org/wiki/Ontology_editor

Page 165: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:
Page 166: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 94DokumentationssprachenOntologien

Wiederverwendung von Ontologien

Ontologie-Bibliotheken:DAML ontology library: (www.daml.org/ontologies)Ontolingua ontology library(www.ksl.stanford.edu/software/ontolingua/)Protégé ontology library (protege.stanford.edu/plugins.html)

Generelle Ontologien:DOLCE — Descriptive Ontology for Linguistic and CognitiveEngineering (www.loa-cnr.it/DOLCE.html)Cyc (www.cyc.com)DMOZ (www.dmoz.org)WordNet (www.cogsci.princeton.edu/ wn/)

Page 167: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 95DokumentationssprachenTagging

Tagging

Benutzer vergeben Stichwörter zu Dokumenten/Resourceninsbesondere auch für nicht-textuelle Dokumente (Bilder,Videos, . . . ) eingesetztLöst das Problem der Verschlagwortung großerDokumentmengen:

üblicherweise mit großem Aufwand verbundenArbeit wird auf viele Nutzer verteilt

Page 168: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 96DokumentationssprachenTagging

Webseiten: delicio.us

Page 169: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 97DokumentationssprachenTagging

Wissenschaftliche Artikel: Mendeley

Page 170: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 98DokumentationssprachenTagging

Bücher: Librarything

Page 171: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 99DokumentationssprachenTagging

Vorteile von Tagging

einfache, intuitive Nutzungflexibel, erweiterbar (sich änderndes Vokabular/Trends)Inklusiv (populäre Themen ebenso wie Spezialthemen)Gemeinschaftsgefühl (teilen/entdecken in sozialen Kontexten)multi-facettiertunterstützt unterschiedliche Benutzerbedürfnisse/SichtenKann das Vokabularproblem lösenTags spiegeln das Vokabular der Benutzer wieder

Page 172: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 100DokumentationssprachenTagging

Nachteile von Tagging

Inkonsistenzen bzgl. Terminologie und Abdeckungmehrdeutige Tags und Redundanzen erschweren die Navigationidiosynkratische Tags erzeugen RauschenKonzentration auf Popularität verschleiert die Information„tagging bulldozes the cost of classification and piles it ontothe price of discovery“ (Davis)

Page 173: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 101DokumentationssprachenTagging

Probleme und Tücken von Tagging

Kaltstartproblemverrauschte Daten (einige Tags sind nutzlos für dieCommunity)Tippfehlerschlechte Informationskodierung, ungewöhnlichezusammengesetze Terme („inforetriev“)Tags, die keinen Konventionen folgen („topic: informationretrieval“)nur einmal benutze Tags, persönliche Tags („ar15a“, „@home“)Minderheiten-VokabulareAntisoziales Tagging (Spam)

Page 174: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 102DokumentationssprachenTagging

Tagging: Zusammenfassung

+ insbesondere für nicht-textuelle Dokumente hilfreich+ benutzerorientierte Beschreibung von Objekten+ flexibles Vokabular– i.a. keine Strukturierung des Vokabulars

(aber: Folksonomies)– alle Nachteile der Freitextsuche bleiben

Page 175: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

Zusammenhang zwischen Modellen undRepräsentationen

Einfache statistische Modelle

Page 176: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 104Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.

Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents knownStammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document know

Page 177: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 104Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents known

Stammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document know

Page 178: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 104Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

Einfache statistische ModelleBeispiel für computerlinguistischen Ansatz

Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not produced consistentretrieval performance. The best indexing technique for retrievingdocuments is not known.Stoppworteliminierung:experiments indexing methods analysis indexing algorithmsproduced consistent retrieval performance best indexing techniqueretrieving documents knownStammformreduktion:experiment index method analys index algorithm produc consistentretriev perform best index techni retriev document know

Page 179: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 105Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

„semantische“ Sicht

Multimenge von TermsFormen des Vorkommens(Ort, Sicherheit)

Modell:Abbildung auf AttributeSemantik durch Statistik!

Page 180: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 105Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

„semantische“ Sicht

Multimenge von TermsFormen des Vorkommens(Ort, Sicherheit)

Modell:Abbildung auf AttributeSemantik durch Statistik!

Page 181: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 106Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatz

aber:alle Verfahren sind mit Fehlern behaftet!

Page 182: 3. Wissensrepräsentation für Texte - uni-due.de · 2011. 11. 3. · 3. WissensrepräsentationfürTexte 30 Freitextsuche ComputerlinguistischerAnsatz Wortklassenbestimmung typischeWortklassen:

3. Wissensrepräsentation für Texte 106Zusammenhang zwischen Modellen und RepräsentationenEinfache statistische Modelle

Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatzaber:alle Verfahren sind mit Fehlern behaftet!