36
Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar „Projektorientiertes wissenschaftliches Arbeiten“ CIS, SS 2007

Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Embed Size (px)

Citation preview

Page 1: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Was ist ein Thesaurus und wie wird er erstellt?

Elke Pürzer, 31. Mai 2007

Proseminar „Projektorientiertes wissenschaftliches Arbeiten“

CIS, SS 2007

Page 2: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Etymologie „Thesaurus“The|sau|rus der; -, Plur. ...ren u. ...ri < über lat. thesaurus aus gr. thēsaurós „Schatz(kammer)“, eigentl. „Ort zum Einsammeln und Aufbewahren“, zu tithénai, vgl. These>: 1. Titel wissenschaftlicher Sammelwerke, bes. großer Wörterbücher der alten Sprachen. 2. alphabetisch u. systematisch geordnete Sammlung von Wörtern eines bestimmten [Fach]bereichs. 3. (in der Antike) kleineres Gebäude in einem Heiligtum zur Aufbewahrung von kostbaren Weihgaben.

Duden, Das große Fremdwörterbuch

Erster ThesaurusSynonymwörterbuch von P.M. Roget 1852: „Thesaurus of English Words and Phrases“

Gemeinsamkeiten mit heutigem Thesaurus:• Wie finde ich den richtigen Ausdruck?• Hierarchische und assoziative Beziehungen• Synonyme

Page 3: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Thesaurus nach DIN 1463

Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. Er ist durch folgende Merkmale gekennzeichnet:

a) Begriffe und Bezeichnungen werden eindeutig aufeinander bezogen („terminologische Kontrolle“), indem

– Synonyme möglichst vollständig erfasst werden,– Homonyme und Polyseme besonders gekennzeichnet werden,– für jeden Begriff eine Bezeichnung (Vorzugsbenennung,

Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt

b) Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt.

Page 4: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Thesaurus-NormenDeutsches Institut für Normung e.V.

DIN 1463 Teil 1: Erstellung und Weiterentwicklung von Thesauri – Einsprachige Thesauri, 1988 DIN 1463 Teil 2: Erstellung und Weiterentwicklung von Thesauri – Mehrsprachige Thesauri, 1993

International Organization for Standardization

ISO 2788: Guidelines for the establishment and development of monolingual thesauri, 1986 (E)ISO 5964: Guidelines for the establishment and development of multilingual thesauri, 1985 (E)

Thesaurus: The vocabulary of a controlled indexing language, formally organized so that the a priori relationships between concepts (for example as "broader" and "narrower") are made explicit.

ANSI/NISO Z39.19-2005

American National Standards Institute/ National Information Standards Organization: Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabulary

A controlled vocabulary arranged in a known order and structured so that the various relationships among terms are displayed clearly and identified by standardized relationship indicators. Relationship indicators should be employed reciprocally.

Page 5: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Begriffsklärung Begriffe sind gedankliche Abbildungen von Gegenständen. Sachen, Vorgängen, Ideen,

usw. Sie können nicht direkt zwischen Personen ausgetauscht werden, deshalb wird jedem Begriff eine Benennung zugeordnet. Eine Benennung ist also ein Name, eine Bezeichnung, eine Kennzeichnung eines Begriffs. In der Dokumentation redet man einfach von Wörtern (englisch: terms), Thesauruswörtern, Thesauruseingängen oder Eingängen.

Äquivalenzklasse: Zusammenfassung eng verwandter Begriffe, zwischen denen ein Ordnungssystem nicht unterscheiden kann. (Beispiel: Araberpferd, Berberpferd, Brauner, Fohlen, Hengst, Lippizaner, Islandpony, Kaltblut, Ross, Schimmel usw.)

Vorzugsbenennung (Deskriptor): Jede Äquivalenzklasse erhält eine Vorzugs-benennung, die alle in einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert (Beispiel: Pferd). Sie dienen als Gebrauchsvokabular, das für Indexierung und Retrieval zugelassen ist.

Nicht-Vorzugsbenennung (Nicht-Deskriptor): Alle anderen Elemente der Äquivalenzklasse haben den Status von Nicht-Vorzugsbenennungen. Sie sind Bestandteil des Zugangsvokabulars, die selbst nicht für Indexierung und Recherche verwendet werden, aber auf den entsprechenden Deskriptor verweisen.

Page 6: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.1 Systembezug (nach DIN 1463)

• Sachgebiet klar abgrenzen (mit Schwerpunkten und Randgebieten)

• Stand der dokumentarischen Erarbeitung des Sachgebiets

• Umfang des Thesaurus abschätzen: Vokabularumfang, Zahl der Äquivalenzklassen und Nicht-Deskriptoren (abhängig von der inhaltlichen Breite des Gebiets und vom Zuwachs an Dokumenteneinheiten)

• Spezifität: Welchen Grad an Genauigkeit oder Allgemeinheit sollen die Begriffe erreichen? (abhängig von der Größe des Gebiets)

• Art der Dokumentationseinheiten klären

• Anzahl der jährlich zu bearbeitenden Dokumentationseinheiten abschätzen

• Art und Anzahl der Suchfragen abschätzen

• Sprachstil: mehr wissenschaftlich oder auch für Nicht-Fachleute

• Schwerpunkt des Ordnungssystems alphabetisch oder systematisch

Page 7: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.2 Wörtersammlung und Bezeichnungs-kontrolle

• Potentielle Benutzer und Fachleute• Nationale und internationale Fachwörterbücher und Normen• Aktuelle Fachliteratur• Terminologische Abhandlungen oder Bezeichnungslisten• Existierende Thesauri oder klassifikatorische Systeme• Nomenklaturen• Register zu Fachzeitschriften• Sachwortverzeichnisse von Lehrbüchern, Handbüchern und

Standardwerken• Referatedienste• Ergebnisse experimentellen Indexierens von Dokumenten• Freitextsuche, Suchfragen und Bedarfsmeldungen von Benutzern

Geeignete Quellen zur Vokabularsammlung (nach DIN 1463):

Page 8: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.2 Wörtersammlung und Bezeichnungs-kontrolle

• Entwurf einer Grobklassifikation, der die Bezeichnungen zugeordnet werden

• Erfassung jedes Elements nach einem einheitlichen Schema:

Bezeichnung, Quellen, Zuordnung zur Grobklassifikation, Status (Deskriptor oder Nicht-Deskriptor), evtl. Definitionen, formale Anpassungen (Vereinheitlichung von Singular/Plural, Auflösung von Abkürzungen)

• Aufnahme von Deskriptoren-Kandidaten, die vorläufig aufgenommen werden und dann die Kontrollen durchlaufen

• Zusätzlich alphabetische Sortierung

• Häufigkeit ihres Vorkommens in der Literatur• Häufigkeit ihres Vorkommens in Suchfragen• Verwandtschaft mit bereits akzeptierten Deskriptoren• Übereinstimmung mit aktueller Terminologie• Wirksamkeit bzgl. des Bedeutungsumfangs

Eignung der Wörter als Deskriptoren prüfen

Vorgehen

Page 9: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3 Terminologische Kontrolle

1.3.1 Synonymproblem und -kontrolle

• Schreibweisenvarianten: Grafik – Graphik• Kurzform und Vollform: Bus – Omnibus• Abkürzungen und Volltext: VW – Volkswagen• Regionale oder zeitliche Sprachunterschiede: Vesperbrot – Jause, Samstag – Sonnabend• Fremdsprachliche Ausdrücke: Gehweg - Trottoir• Allgemein- und fachsprachliche Unterschiede: Leberentzündung – Hepatitis

• Begriffe mit feinem Bedeutungsunterschied: Pferd – Gaul, Frau – Weib, Dauer – Zeit • Erscheinungen des gleichen Phänomens: Rauhheit – Glätte• Gegensätze: Spannungsabhängigkeit – Spannungsunabhängigkeit• Gleichsetzung von Ober- und Unterbegriff: Nachschlagewerk – Lexikon• Zuordnung von Namen: Senat von Berlin – Landesregierung

• Begriffe, die im Wesentlichen übereinstimmen, aber nicht ganz identisch sind:• Rad – Fahrrad, Holland – Niederlande

Zwei oder mehr Bezeichnungen repräsentieren die gleiche begriffliche Einheit.Problem der Synonymie kann dazu führen, dass für die Suchfrage relevante Dokumente nicht gefunden werden, wenn der Deskriptor z.B. als „Karzinom“ indexiert und unter „Krebs“ gesucht wird.

Vollsynonyme

Quasisynonyme

Teilsynonyme

Page 10: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3.1 Synonymproblem und -kontrolle

• Zusammenfassung der Benennungen zu Äquivalenzklassen und Wahl einer Vorzugsbenennung (Deskriptor), alle anderen Bezeichnungen/Synonyme gelten dann als Nicht-Vorzugsbenennungen (Nicht-Deskriptoren) und verweisen auf die Vorzugsbenennung.

• Äquivalenzverweis von der Nicht-Vorzugsbenennung zur Vorzugsbenennung, z.B. Araberpferd Pferd und Pferd Araberpferd bilden ein Verweispaar (man kann also nach beiden Begriffen suchen und nicht nur nach dem Deskriptor)

• Alle Benennungen bilden eine eigene Äquivalenzklasse und sind gleichberechtigt in Indexierung und Retrieval.

• Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar werden

• Beschränkung auf fachsprachliche Ausdrücke

• Synonymbrücken (implizite Äquivalenzklassen), d.h. ein Verzeichnis, welche Benennungen synonym sind

Kontrolle der Synonymie durch:

Page 11: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3.2 Polysemproblem und -kontrolle

• Homophone: Lehre – Leere, Mohr – Moor

• Echte Homographen (ehemals gemeinsame Sprachentwicklung): Tenor – Tenor

• Unechte Homographen (nicht mehr erkennbare gemeinsame Sprachentwicklung): Stift – Bleistift oder Altersheim

• Allgemeinsprachlich: Tau – Tau

• Allgemein- und Fachsprache: „Masse“ allgemeinsprachlich oder in der Physik

• Zwischen benachbarten Fachgebieten oder innerhalb von Fachgebieten

• Allgemeinwörter (Wörter mit unspezifischer Bedeutung), die in Verbindung mit anderen Wörtern die unterschiedlichsten Bedeutungen haben können: Anlage – Erbanlage/ Parkanlage, System – Nervensystem/ Verteidigungssystem

Eine natürlichsprachliche Bezeichnung repräsentiert mehr als eine begriffliche Einheit.Das Problem der Polysemie kann dazu führen, dass zu viele und unrelevante Dokumentationseinheiten selektiert werden.

Homonyme

Polyseme (unterscheiden sich weder in Schreib- noch Sprechweise)

Page 12: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3.2 Polysemproblem und -kontrolle

• Thematische Begrenzung der Dokumentation (der Kontext klärt die Bedeutung)

• Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar werden

• Sichtbarmachen der hierarchischen Begriffsstrukturen

• Zufügen von spezifizierenden Zusätzen (Qualifikatoren), z.B. Morphologie (Biologie), Morphologie (Sprachwissenschaft)

• Beibehaltung nur eines Bedeutungsteil und Ausschluss der anderen

• Ersetzung der verschiedenen Bedeutungsteile durch Synonyme, z.B. Boxen: Boxsport – Stereoboxen

Kontrolle der Polysemie durch:

Page 13: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3.3 Zerlegungsproblem und -kontrolle

Zur Vermeidung von überlangen Komposita und adjektivischen Phrasen werden komplexe Termini nicht in ihrer vollständigen Form in den Thesaurus aufgenommen, sondern eine festgelegte Kombination von bereits im Thesaurus vorhandenen Deskriptoren. Semantische Zerlegung eines Begriffs in Begriffskomponenten (nicht in Wortteile), so dass die Kombination der zerlegten Bestandteile wieder den Begriff des zusammengesetzten Wortes ergibt (es soll eine semantische Zerlegung stattfinden, keine morphologische).

Vorteil: Ohne die Anzahl der Äquivalenzklassen zu erhöhen, wird durch die Kombination bereits vorhandener Deskriptoren eine Bereicherung des Zugriffsvokabulars erreicht.

Probleme:- Entstehung falscher Kombinationen bei der „Rückübersetzung“ der zerlegten Teile- Kompliziertere Thesaurusstruktur- Bei jeder Suche von nur einem der Teile werden auch alle anderen indexierten

Dokumente mitgefunden.

Page 14: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3.4 Begriffliche Kontrolle Nach der terminologischen Kontrolle (der Bildung von isolierten Äquivalenzklassen) werden nun bei der begrifflichen Kontrolle Beziehungen zwischen den Begriffen gebildet, aus denen dann ein semantisches Netz über den gesamten Thesaurus entsteht. Auf diese Weise sollen alternative und möglicherweise treffendere Begriffe gefunden werden, die zu besseren Ergebnissen bei Indexierung und Retrieval führen.

• impliziter (gelernter, erfahrener) und expliziter (in Lexika, Wörterbüchern dargestellte) Bedeutung

• natürlichsprachlicher und dokumentationssprachlicher Bedeutung

• fachsprachlicher und dokumentationssprachlicher Bedeutung

• Definitionen (natürlichsprachliche Bedeutungsdarstellung)

• Erläuterungen (dokumentationssprachliche Bedeutungsdarstellung, z.B. wenn Benennungen in verschiedenen Fachbereichen gebräuchlich sind)

• Äquivalenzbeziehungen

• Assoziative Begriffsbeziehungen

Sichtbarmachen der Bedeutungsverschiebungen für den Benutzer zwischen

Zur begrifflichen Kontrolle dienen

Page 15: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

1.3.5 Orientierungsfunktion

Ordnen des Thesaurus nach Bezeichnungen, d.h. alphabetisch oder nach begrifflichen Einheiten, d.h. systematisch. Beide Formen sind komplementär, d.h. es sollte trotzdem ein Register in der nicht gewählten Form angelegt werden.

Der systematische Teil muss übersichtlich sein und eignet sich daher nicht für eine große Anzahl an Begriffen. Thesauren mit mehr als 100 Seiten oder mehr als 1000 Deskriptoren sollten alphabetisch angeordnet sein.

• Anordnung der Deskriptoren nach Grobordnung zur schnellen Orientierung oder nach Feinordnung, die alle Äquivalenzklassen zueinander in Beziehung setzt.

• Meist monohierarchische Anordnung dargestellt durch Notation oder Einrückungen

• Innerhalb der Äquivalenzklassen werden die Einträge dann wieder alphabetisch geordnet

Systematischer Teil eines Thesaurus:

Page 16: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2 Thesaurusstruktur

Alle Elemente der Äquivalenzklasse werden gleich behandelt und können für Indexierung und Retrieval genutzt werden. Die Äquivalenzklasse wird von einer Begriffsnummer repräsentiert, die das Bindeglied zwischen den verschiedenen Bezeichnungen bildet.

Vorteil: - Verwendung aller Bezeichnungen für die Suche,- schnelle Änderungen möglich

Nachteil: - sprachnormierender Charakter geht verloren- Fehlinterpretationen passieren leichter

• Jede Äquivalenzklasse erhält eine Vorzugsbenennung (Deskriptor), die alle in einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert.

• Alle anderen Elemente der Äquivalenzklasse haben den Status von Nicht-Vorzugsbenennungen. (Sie sind Bestandteil des Zugangsvokabulars und verweisen auf den entsprechenden Deskriptor.)

Thesaurus ohne Vorzugsbenennung

Thesaurus mit Vorzugsbenennung

Page 17: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.1 Deskriptoren

Namen und Quasi-Namen sollten im Thesaurus wie Benennungen behandelt werden und bei einer Grobordnung als eigene Grobgruppen zusammengefasst werden.

• Allgemeinbegriffe für eine Klasse von Gegenständen (materiell oder nichtmateriell)

• Individualbegriffe für individuelle Einheiten wie Personen, Institutionen usw. (Namen)

• Begriffe von Objektklassen, z.B. Nomenklaturen wie Tiere, Pflanzen, chemische Verbindungen, Anatomie, Artikelnamen usw. (Quasi-Namen)

Arten von Deskriptoren

Allgemeinwörter

• zu allgemein, um für sich allein stehend konkrete Sachverhalte zu beschreiben, z.B. Analyse, Planung, System usw.

• schwer zu definieren, oft Bezeichnungen großer Fachgebiete wie Biologie, Chemie usw.

Ohne sie müsste man jedoch zu viele Deskriptoren schaffen, um die verschiedenen Aspekte eines Deskriptors umfassend darzustellen. Man schafft deshalb eine Grobgruppe „Allgemeinwörter“, in die alle Wörter eingeordnet werden, die nicht zum Fachvokabular gehören, die man aber für die inhaltliche Erschließung braucht. Sie werden innerhalb der Gruppe alphabetisch geordnet.

Page 18: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.1 Deskriptoren

• genau und präzise: möglichst genaue Beschreibung der gesamten Äquivalenzklasse• eindeutig: Verwechslungen ausgeschlossen• gebräuchlich: Auszählen der Worthäufigkeiten• prägnant: kurz, leicht verständlich und gut merkbar• angemessene Sprachebene• unkomplizierter Zeichenvorrat

Anforderungen an Deskriptoren

Nicht-Deskriptoren

• Termini, die nicht den Anforderungen an Deskriptoren entsprechen und somit nicht als Repräsentant einer Äquivalenzklasse verwendet werden, sondern nur als Zugangsvokabulars, das auf den entsprechenden Deskriptor verweist.

z.B. Synonyme, Quasi-Synonyme, Formvarianten (invertierte Formen), Vollformen, fremdsprachliche Äquivalente, Polyseme zu großen Allgemeinheitsgrads, komplexe Benennungen, die semantisch zerlegt wurden

• Formale Kriterien sind weniger streng: auch nicht-substantivische, invertierte oder Plural-Formen sind zugelassen

Page 19: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.1 Deskriptoren

• Substantivische Form, d.h. nur in Ausnahmefällen Adjektivphrasen, Adjektive (z.B. sozial, international) und Verben

• Nominativ Singular, d.h. Plural nur falls der Singular nicht gebräuchlich oder nicht vorhanden ist

• Natürliche Wortfolge (z.B. alphabetisches Register) oder Aufnahme der invertierten Form als Synonym (z.B. Register, alphabetisches)

• Kurzform falls die Bedeutung allgemein bekannt ist (z.B. Pkw), die Vollform wird als Nicht-Deskriptor ausgewiesen.

• Aufnahme der fremdsprachlichen Benennung falls keine eigensprachlichen vorhanden

• Schreibweise: Groß- und Kleinschreibung, Auflösung von Umlauten in internationalen Systemen, großzügiges Setzen von Bindestrichen bei mehrgliedrigen Benennungen

• Transliteration: im Falle eines anderen Alphabets Anwendung der Transliterations-empfehlungen der International Organization for Standardization (ISO)

• Zeichenvorrat: möglichst wenig Satzzeichen, nur runde Klammern und Bindestriche, Punkte nur für Abkürzungen, keine Kommata, Semikola oder Apostrophe, nur arabische Ziffern, extra Regeln für die Behandlung von hoch oder tief gesetzten Zeichen definieren

Formale Kriterien für Deskriptoren (nach DIN 1463)

Page 20: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.4 Relationen zwischen Deskriptoren

Äquivalenzrelationen

Hierarchische Relationen

BS – Benutze Synonym U/USE – Use synonym BF – Benutzt für UF – Used forBK – Benutze KombinationKB – Kombinationsbegriff

OB – Oberbegriff BT – Broader termUB – Unterbegriff NT – Narrower termOA – Oberbegriff/ BTG – Broader term (generic)

AbstraktionsrelationUA – Unterbegriff/ NTG – Narrower term (generic)

AbstraktionsrelationSP – Verbandsbegriff BTP – Broader term (partitive)TP – Teilbegriff NTP – Narrower term (partitive)SB – Spitzenbegriff TT – Top term

Unerlässliches Kriterium für einen Thesaurus. Darstellung durch folgende Standardkürzeln nach DIN 1463 und ISO 2788:

Assoziationsrelationen

VB – Verwandter Begriff RT – Related term

Page 21: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.4.1 Äquivalenzrelationen

Darstellung der begrifflichen Relationen innerhalb der Äquivalenzklassen in der Form von Verweispaaren, d.h. zu jedem Verweis muss es einen Rückverweis geben:

Nicht-Deskriptor DeskriptorSonnabend BS Samstag

„Benutze Synonym“ gibt an, zu welcher Äquivalenzklasse die Benennung gehört.

Deskriptor Nicht-Deskriptor Samstag BF Sonnabend

„Benutzt für“ gibt an, welche Benennungen zu dieser Äquivalenzklasse gehören.

Möglichkeit der Definition eigener Kürzel für weitere Synonym-Kategorien:

• Quasi-Synonyme (weil diese Äquivalenzklassen öfter wieder aufgelöst werden müssen, wenn Deskriptoren stäker differenziert werden sollen.)

• Rechtschreibsynonyme (Fotografie ─ Photographie)

• Abkürzungen

• Fremdsprachliche Synonyme

• Deskriptoren anderer Dokumentationssprachen

Page 22: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.4.1 ÄquivalenzrelationenSonderfall bei Polysemen: Verweis auf mehrere Deskriptoren, die je nach Kontext unterschiedlich zu benutzen sind.

Morphologie BS Morphologie (Biologe)oder

BS Morphologie (Sprachwissenschaft)

Bei semantischer Zerlegung: Verweis von einem unzerlegten Nicht-Deskriptor auf mindestens zwei Deskriptoren.

BK „Benutze Kombination“KB „Kombinationsbegriff“

Luftgekühlter Elektromotor BK Luftkühlung + ElektromotorLuftkühlung KB Luftgekühlter ElektromotorElektromotor KB Luftgekühlter Elektromotor

Ersetzen eines allgemeinen Begriffs durch einen spezifischeren Unterbegriff:

BSU „Benutze spezifischen Unterbegriff“BFO „Benutzt für spezifischen Oberbegriff“

Naturwissenschaft BSU BiologieChemiePhysik

Biologie BFO Naturwissenschaft

Page 23: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.4.2 Hierarchische Relationen

Generische Relation (Abstraktionsrelation)In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der untergeordnete Begriff (Unterbegriff) alle Merkmale des übergeordneten Begriffs (Oberbegriff) besitzt und zusätzlich mindestens ein weiteres spezifizierendes Merkmal.

Baum UB Baumstamm „Unterbegriff“Baumstamm OB Baum „Oberbegriff“

Obstbaum UA Steinobstbaum „Unterbegriff Abstraktionsrelation“Steinobstbaum OA Obstbaum „Oberbegriff Abstraktionsrelation“

Partitive Relation (Bestandsrelation)In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der übergeordnete (weitere) Begriff (Verbandsbegriff) einem Ganzen entspricht und der untergeordnete (engere) Begriff (Teilbegriff) einen der Bestandteile dieses Ganzen repräsentiert.

Baum TP Baumstamm „Teilbegriff“Baumstamm SP Baum „Verbandsbegriff“

Die meisten Thesauri fassen beide Relationen einfach in der Beziehungsart OB und UB zusammen.

Page 24: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2.4.3 Assoziative Relationen

Nach DIN 1436: Eine Assoziationsrelation ist eine zwischen Begriffen bzw. ihren Bezeichnungen als wichtig erscheinende Relation, die weder eindeutig hierarchischer Natur ist, noch als äquivalent angesehen werden kann.

Unspezifische Zusammenfassung von allem, was irgendwie mit dem Ausgangsbegriff zu tun hat. Sinn ist die Schaffung von Querbeziehungen zu anderen evtl. geeigneten Deskriptoren und alternativen Einstiegsmöglichkeiten außerhalb des hierarchischen Thesaurusgefüges.

Obst VB Obstbaum „Verwandter Begriff“Obstbaum VB Obstbaum

Gerichtete Beziehungen:

• Genetische Beziehungen (Vater/Sohn)

• Vorgänger-Nachfolger-Beziehungen

• Urheber-Verursacher-Beziehungen

• Materialbeziehungen (Holz/Tisch)

• Kausalbeziehungen (Lehren/Lernen)

• Zeitlicher Zusammenhang

Ungerichtete Beziehungen:

• Gegensatz (Härte/Weichheit)

• Gleichordnung (Dieselmotor/Ottomotor)

• Ähnlichkeit (Form: Kugel/Ball, Herkunft: Rohseide/Kunstseide)

• Gemeinsamkeiten

Page 25: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

3 Thesaurus-Hauptteil 3.1 Deskriptorensatz

Ordnungsmerkmale• Zuteilung einer Begriffsnummer zum Deskriptorensatz• Einführung einer Notation (Identifikationskennzeichen eines Deskriptors bei größeren Thesauri)Benennung• Deskriptor (BF)• Nicht-Deskriptor (BS/BK)• Homonym-ZusätzeÜbersetzungen• z.B. englisch• z.B. französisch• andere SprachenBegriffsbeziehungen• Synonyme (BS)• Quasi-Synonyme (BS/BK)• Vorzugsbenennung bzw. Kombination von Einzeldeskriptoren (BK)• Oberbegriffe (OB)• Unterbegriffe (UB)

Zusammenfassung der verschiedenen Relationen und sonstiger Angaben zur Äquivalenzklasse im Deskriptorensatz. Für jede Benennung ist eine derartige „Wortkarte“ auszufüllen.

Page 26: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

3.1 Deskriptorensatz

Begriffsbeziehungen• Oberbegriffe (Abstraktionsrelation) (OB)• Unterbegriffe (Abstraktionsrelation) (UB)• Oberbegriffe (Partitive Relation) (SP)• Unterbegriffe (Partitive Relation) (TP)• Verwandte Begriffe (assoziative Relation) (VB)Zusätzliche Informationen• Definition mit Quellenangabe• Zusätze und Erläuterungen (Scope Notes)• Fundstelle der Benennung• Häufigkeitsangaben• Angaben zur Konkordanz mit anderen SystemenBearbeitungsvermerke• Bearbeiter• Einführungs- oder Änderungsdatum• Überarbeitungsvermerke

Fortsetzung

Page 27: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

3.2 Thesaurus-Manual

• Benennung, Erläuterung und Abgrenzung des Sachgebiets

• Angaben für welchen Benutzerkreis und Verwendungszweck der Thesaurus erstellt wurde

• Ordnungsprinzip und Regeln nach denen der Thesaurus erstellt wurde

• Erläuterung aller auftretenden Wort- und Verweistypen anhand von Beispielen

• Angabe der Methoden und Quellen bei der Auswahl und Normierung der Deskriptoren

• Aufbau der Notation erläutern, falls vorhanden

• Verzeichnis der Abkürzungen

• Allgemeine Anleitung für den Gebrauch des Thesaurus (wie man beim Indexieren und Formulieren der Suchfragen vorgehen muss)

• Statistische Angaben über den Thesaurus selbst (Anzahl der Deskriptoren, Nicht- Deskriptoren und Verweispaare)

• Erstellungsdatum des Thesaurus und beabsichtigtes Weiterentwicklungsdatum sowie Angaben, wer wann welche Revision durchgeführt hat

• Angaben zu Bezugsquelle, Copyright und Dateiformat

Nach DIN 1463 sollte die Benutzerversion folgendes enthalten (extra Manuale für Thesaurus-Bearbeiter und professionelle Benutzer wie z.B. Indexierer):

Page 28: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

3.3 Thesaurus-Hauptteil

Alphabetische Anordnung der Deskriptoren

• Geeignet für größere Thesauri mit umfangreichen Begriffssätzen• Für Thesauri mit Vorzugsbenennung• Vorteile: - Neueinfügungen sind leichter zu organisieren

- Alphabetische Suchvorgänge führen schneller zum Ziel

Systematische Anordnung der Deskriptoren

• Geeignet für kleinere Thesauri und Thesauri mit weniger Angaben zu den Deskriptoren• Zwei Varianten:

- Grobsystematische Anordnung: Zusammenfassung der Deskriptoren nach Hauptgruppen und innerhalb der Hauptgruppen alphabetisch

- Feinsystematische Anordnung: klassifikatorische Einordnung jedes Deskriptors

• Vorteile: - Schnellere Übersicht möglich (Visualisierung durch Beziehungsgraphen wie Liniendiagramme, Gruppendiagramme, Flächendiagramme, Koordinatendiagramme)

- Systematische Suchprozeduren gehen schneller

Teil des Thesaurus, der alle Angaben zu einem Begriffssatz enthält. Es gibt zwei Möglichkeiten die Deskriptoren zu ordnen. Sinnvoll ist die Vergabe laufender Deskriptorennummern, einer Notation oder beides.

Page 29: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

3.3 Thesaurus-Hauptteil

• Systematische Anordnung im Hauptteil wird erschwert, weil Deskriptorensätze mehrfach erscheinen und viele Verweise nötig sind.

• Keine expliziten Vorschriften in der DIN-Norm dazu vorhanden.

• Gute Reihenfolge bei mehreren Über- und Unterordnungen: generisch partitiv verwandt sonstige

Thesauri sind meist polyhierarchisch strukturiert, d.h. ein Begriff kann mehrere Oberbegriffe bzw. mehrere Unterteilungsgesichtspunkte haben.

Polyhierarchien

Page 30: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

4 Erstellung eines Thesaurus4.1 Arbeitsablauf

Systemkonzipierungsphase

• Systemkonzept des Thesaurus wird erarbeitet

• Quellen und bereits existierende Dokumentationssprachen müssen betrachtet werden

• Entwurf der Thesaurus-KonzeptionSammelphase

• Quellen für die Wörtersammlung bestimmen

• Kriterien für die Auswahl der Wörter festlegen

• Erfassungsschema festlegen

• Alphabetische Sortierung der WörterBewertungsphase

• Vereinigung gleicher Benennungen

• Bildung von Äquivalenzklassen

• Aussonderung fachlich nicht-relevanter BenennungenKontrollphase

• Terminologiekontrolle: Ausscheiden zu allgemeiner Benennungen, Entscheidung über Vorzugsbenennungen, Differenzierung von Polysemen

Kürzeste und prägnanteste Darstellung in DIN 1463:

Page 31: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

4 Erstellung eines Thesaurus4.1 Arbeitsablauf

Strukturierungsphase• Festlegen der Begriffsbeziehungen• Semantische Zerlegung und Spezifizierung von Allgemeinwörtern• Wörter auf Konsistenz und Vollständigkeit prüfen• Bedeutungsunklarheiten beseitigenTestphase• Testversion des Thesaurus erarbeiten• Erprobung durch Indexierungs- und RetrievaltestsValidierungsphase• Testergebnisse zusammenstellen und auswerten• Entscheidungen und Änderungen planenPraxisphase• Einsatz des Thesaurus in der Praxis• Sammlung von KommentarenFortschreibung• Berücksichtigung der Praxiserfahrungen, der freien Indexierung und der weiteren

Entwicklung des Thesaurus

Fortsetzung:

Page 32: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

4.2 Organisation der Thesaurus-Arbeit

• Fachwissen

• Linguistische Kenntnisse

• Thesauruswissen und -erfahrung

• Wissen über die zu indexierenden Quellen

• Wissen über potentielle Nutzer

• EDV-Kenntnisse

• Kombiniertes Sach- und Sprachwissen bei fremdsprachlichen Arbeiten

• Permanenter Stab für: Erstellung von Richtlinien und Arbeitsunterlagen, Verwaltungsaufgaben, Kontakte

• Externe Experten für die fachlichen Arbeiten: Deskriptorenauswahl, Bildung von Äquivalenzklassen (Schulung der Experten in thesaurustechnischen Fragen)

• Entscheidungsgremium, Redaktionskommission: Entscheidung fachlicher und methodischer Streitfragen

• Gutachter für Spezialprobleme

Teamarbeit

Voraussetzungen

Page 33: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

4.2 Organisation der Thesaurus-Arbeit

1. Auswahl einer ausreichenden Anzahl an Dokumenten, die einen repräsentativen Querschnitt des Fachgebiets darstellen, indexieren und einspeichern

2. Echte oder simulierte Suchfragen formulieren und Probespeicher danach durchsuchen.3. Man sollte bei einigen Suchfragen wissen, welche Dokumente gefunden werden

müssten.4. Einarbeitung der Ergebnisse und Erfahrungen

Queckliste (folgende Fragen sollen geklärt werden):

Anwendungstests

• Entsprechen Struktur und Umfang des Thesaurus den praktischen Erfordernissen?

• Ist die Terminologie angemessen (Fachsprache – Umgangssprache)?

• Sind die Deskriptoren zur Indexierung und zum Retrieval geeignet?

• Kann ausreichend tief verschlagwortet werden?

• Gibt es mehr Einträge zum Kerngebiet des Thesaurus und weniger zu den Randgebieten?

• Ist der Thesaurus erweiterungsfähig?

• Sind die dargestellten Begriffsbeziehungen richtig und ausreichend?

• Sind die Darstellungsformen benutzerfreundlich?

Page 34: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

4.2 Organisation der Thesaurus-Arbeit Thesaurus-Pflege

• In regelmäßigen Abständen durchführen

• Laufende Beobachtung: aktueller Stand der Forschung, fachsprachliche Entwicklung, Indexierungsverhalten, Benutzerverhalten

• Gebrauch eines Kandidatenvokabulars zwischen den Revisionen

• Überprüfung des Wortguts:

- Löschung unbenutzter Deskriptoren

- Erweiterung häufig benutzter Deskriptoren

- Ergänzung fehlender Deskriptoren

- Löschung von veraltetem Zugangsvokabular

- Ergänzung fehlender Relationen

- Entfernung von Überhierarchisierungen

• Vorteile von Thesaurus-Software:

- Automatische Erzeugung der reziproken Einträge

- Verhinderung von Doubletten

- Verhinderung logischer/struktureller Fehler (Plausibilitätskontrolle)

- Direkte Ausführung einer Korrektur in allen betroffenen Deskriptorensätzen

Page 35: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

4.2 Organisation der Thesaurus-Arbeit

Thesaurus-Typen

Druck und Anzeigepflicht

• Merkmal Thesaurusform (alphabetisch oder systematisch)

• Merkmal Thesaurusinhalt (Fachgebiet, bestimmte Aufgabe, Dachthesaurus, Hilfsthesaurus)

• Merkmal Deskriptoren (Benennungsthesaurus, Nummernthesaurus, Bildzeichenthesaurus, Mischthesaurus)

• Merkmal Relation (einfach strukturierter Thesaurus, komplex strukturierter Thesaurus)

• Merkmal Sprache (mehrsprachige Thesauri)

• DIN 1463 enthält keine Empfehlungen zum Druck von Thesauri.

• DIN 1463 sieht vor, die Fertigstellung eines Thesaurus der zuständigen Sammelstelle und anderen Fachinformationszentren und Informationsdiensten zu melden sowie für eine möglichst breite Publikation zu sorgen.

Vorschlag vom Komitee Terminologie und Sprachfragen der DGD (Deutsche Gesellschaft für Dokumentation) heute DGI (Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis), um die Vielfalt zu systematisieren.

Page 36: Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

Literatur American National Standards Institute/ National Information Standards Organization: Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabulary. ANSI/NISO Z39.19-2005.

Buder, M.; Regfeld, W.; Seeger, T; Strauch, D. (Hrsg.): Ein Handbuch zur Einführung in die fachliche Dokumentationsarbeit. Begründet von Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H., 4. völlig neu gefasste Ausgabe München 1997.

Duden, Das große Fremdwörterbuch: Herkunft und Bedeutung der Fremdwörter, hrsg. vom Wissenschaftlichen Rat der Dudenredaktion. Mannheim 2000.

Gaus, Wilhelm: Dokumentations- und Ordnungslehre. Theorie und Praxis des Information Retrieval, 4.Aufl. Berlin 2003.

Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H.: Grundlagen der praktischen Information und Dokumentation. Eine Einführung. 2. Aufl. München 1980.

Ockenfeld, Marlies: Vom Stichwort zum Thesaurus. Fraunhofer-Institut für Integrierte Publikations- und Informationssysteme IPSI. Darmstadt 2007.

Wersig, Gernot: Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München 1978.