268
HHU Düsseldorf Wissensrepräsentation 1 Wissensrepräsentation Wolfgang G. Stock (Stand: Anfang 2003) Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft

Wissensrepräsentation - INFODATA-eDepotfiz1.fh-potsdam.de/volltext/duesseldorf/03079.pdf · HHU Düsseldorf Wissensrepräsentation 5 Wissensrepräsentation - Basisliteratur • Jean

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

HHU Düsseldorf Wissensrepräsentation 1

Wissensrepräsentation

Wolfgang G. Stock

(Stand: Anfang 2003)

Heinrich-Heine-Universität Düsseldorf - Informationswissenschaft

HHU Düsseldorf Wissensrepräsentation 2

Wissensrepräsentation / Themen (1)

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen:

Dokumentarische Bezugseinheit - Dokumentationseinheit, Dokumenta-tionswürdigkeit, Information Indexing - Information Retrieval

Begriffe und Begriffsordnungen:Gegenstände, Begriffe, Synonyme, Homonyme, Definitionen,

Begriffsordnungen, paradigmatische und syntagmatische Relationen, Mono- und Polyhierarchie, Dimensionalität, Facetten

Dokumente und ihre Strukturierung:Datenstrukturierung (Metadaten) - Dokumentstrukturierung (z.B. XML

oder HTML), formale Erfassung, inhaltliche Erschließung

HHU Düsseldorf Wissensrepräsentation 3

Wissensrepräsentation / Themen (2)

Dokumentationssprachen (Taxonomien) I: KlassifikationssystemeKlasse und Notation, Universalklassifikationen (Bsp.: Dezimalklassifika-

tion), Technikklassifikationen (Bsp.: Internationale Patentklassifikation), Wirtschaftsklassifikationen (Bsp.: Branchen- und

Produktklassifikationen), Klassifikationen im WWW (Bsp.: Yahoo!), Medizinklassifikation (Bsp.: ICD-10)

Dokumentationssprachen (Taxonomien) II: ThesauriThesauruserstellung nach DIN 1463, Deskriptoren und Relationen,

multilinguale Thesauri, gleichordnendes Indexieren, syntaktisches Indexieren, „höhere“ Thesaurusformen

Bsp.: Standard-Thesaurus Wirtschaft, Thesaurus Technik und Management, EXPO-INFO 2000

HHU Düsseldorf Wissensrepräsentation 4

Wissensrepräsentation / Themen (3)

Textsprachliche Methoden:Volltextspeicherung, Titelindexierung,

Textwortmethode, Bsp.: Datenbank zur österreichischen Philosophie,Zitationsindexierung, Bsp.: Web of Science (ISI)

Informationsverdichtung:Abstracts, Inhaltsangaben nach DIN 1426, indikative und informative

Abstracts, Sammelreferate,Ontologien, Topic Maps, „semantisches Web“

HHU Düsseldorf Wissensrepräsentation 5

Wissensrepräsentation - Basisliteratur

• Jean Aitchison, Alan Gilchrist, David Bowden: Thesaurus Construction and Use. - 4.Aufl. - London: Fitzroy Dearborn, 2000

• Edward T. Cremmins: The Art of Abstracting. - Philadelphia: ISI Press, 1982

• DIN 1426; DIN 1463; DIN 2331; DIN 31623; DIN 32705• Karl Fill: Einführung in das Wesen der Dezimalklassifikation. -

Berlin, Köln: Beuth Verl., 1981• Eugene Garfield: Citation Indexing. - New York [u.a.]: Wiley, 1979• Norbert Henrichs: Philosophische Dokumentation. - In: Zeitschrift

für philosophische Forschung 23 (1969), 122-131• Winfried Schmitz-Esser: EXPO-INFO 2000. - Berlin [u.a.]: Springer,

2000• Wolfgang G. Stock: Informationswirtschaft. Management externen

Wissens. - München; Wien: Oldenbourg, 2000

Grundlagen der Wissensrepräsentation in

elektronischen Informationssystemen

HHU Düsseldorf Wissensrepräsentation 7

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

• „Wissensrepräsentation“ : Abbildung von Wissen („Content“) in digitalen Systemen; Erschließung des Informationsinhalts; Ziel: Wissen bei Bedarf (möglichst) exakt zu finden und in die aktuellen Arbeitsläufe einzubinden

• hierbei benötigt: METHODEN der Wissensrepräsentation (wie Thesaurus, Klassifikation usw.) und konkrete WERKZEUGE (etwa den Standard-Thesaurus Wirtschaft oder die IPC)

• inhaltlich erschlossene Retrievalsysteme finden Einsatz als– Suchwerkzeug für das WWW oder für einen Ausschnitt daraus

(derzeit kaum realisiert)– Suchwerkzeug bei kommerziellen Anbietern elektronischer

Informationsdienste (nahezu durchgängig realisiert)– Suchwerkzeug bei unternehmensweiten Intranets oder „Enterprise

Information Portals“ (derzeit nur in Ansätzen und vereinzelt realisiert)

HHU Düsseldorf Wissensrepräsentation 8

(gemeintes)Wissen

(verstandenes)Wissen

Informations-sender

Informations-empfänger

Informations-kanal

Informationsübermittlung: In Bewegung gesetztes Wissen

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

HHU Düsseldorf Wissensrepräsentation 9

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

• Wissen– subjektiv (an menschliches Denken gebunden;

Poppers „Welt 2“)– objektiv (unabhängig von menschlichem Denken gespeichert;

Poppers „Welt 3“)• Information

– „Wissen in Aktion“ (gemäß Kuhlen)– aber auch: andere epistemische Gegenstände (z.B. Annahmen

oder Lügen) „in Aktion“• Semiotik der Information

– Syntax (Zeichenebene)– Semantik (Bedeutung der Zeichen: Beziehung zwischen

Zeichen und Gegenständen)– Pragmatik (Handlungsrelevanz der Zeichen: Beziehung

zwischen Zeichen und Benutzer)

HHU Düsseldorf Wissensrepräsentation 10

(gemeintes)Wissen

(subjektives)Wissen des

Intermediators (verstandenes)Wissen

Sender EmpfängerKanal1

Kanal2

Im subjektiven Wissensspeicher kann der semantische Aspekt des Wissens verändert werden.

(verstandenes)Wissen

(gemeintes)Wissen

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

Inter-media-

tion

HHU Düsseldorf Wissensrepräsentation 11

(gemeintes)Wissen

(objektives)Wissen

(verstandenes)Wissen

Sender EmpfängerKanal1

Kanal2

Im objektiven Wissensspeicher wird der semantische Aspekt des Wissens nicht verändert.

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

Informa-tions-

speicher

HHU Düsseldorf Wissensrepräsentation 12

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

• Dokumentarische Bezugseinheit (DBE)stets gleichbleibende Einheit der Vorlagen, die in einen Informationsspeicher aufgenommen werden, hierbei ggf. analytische „Zerlegung“ der VorlagenBeispiele:Buch (als Ganzes) - Buchkapiteldto. - Abbildung; TabelleZeitschrift (als Ganzes) - ArtikelKorrespondenz - einzelner BriefFilm - Filmsequenz

HHU Düsseldorf Wissensrepräsentation 13

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

• Dokumentationswürdigkeit Kriterienkatalog, der die Entscheidung fundiert, ob eine bestimmte DBE in den Informationsspeicher aufgenommen wird oder nichtAspekte:– Informationsbedarf der Nutzer– thematische Kriterien– formale Kriterien (Bsp.: nur wissenschaftliche Artikel) – Finanzrahmen - Personalressourcen - Zeit– ggf.: Neuigkeit– ggf.: kritische Prüfung des Inhalts

HHU Düsseldorf Wissensrepräsentation 14

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

• Dokumentationseinheit Repräsentant der DBE in einem InformationsspeicherBestandteile:– formale Beschreibung – inhaltliche Beschreibung– (nicht immer) dokumentarische Bezugseinheit in

Vollform

HHU Düsseldorf Wissensrepräsentation 15

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

• Information Indexing: Erarbeitung des informationellen Mehr-wertes beim Input. Abbildung der formalen und inhaltlichen Aspekte einer DBE auf eine DE– Datenstrukturierung (Dokumentstruktur, Feldschema,

feldspezifische Datendefinition)– inhaltliche Erschließung (Abbildung der thematisierten

Gegenstände)• Information Retrieval: Erarbeitung des informationellen Mehr-

wertes beim Output. Abbildung einer Suchfrage nach DE mit dem Ziel, über die formalen oder inhaltlichen Aspekte die “richtigen” DBE zu finden– Suchen nach relevanten DBE - Pull-Ansatz– Übermitteln relevanter DE oder DBE - Push-Ansatz– Verdichtungen der Informationen der DE durch informetrische

Verfahren• Weiterverarbeitung der relevanten Informationen

HHU Düsseldorf Wissensrepräsentation 16

(gemeintes)Wissen

(subjektives)Wissen

des Indexers (objektives)Wissen

Autor DBE

Wissensrepräsentation I / Inputbereich:Information Indexing

(verstandenes)Wissen

(Indexer)

(gemeintes)Wissen

(Indexer)

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

DE (physikalischer)WissensspeicherIndexer

HHU Düsseldorf Wissensrepräsentation 17

(objektives)Wissen

(subjektiver)Wissensspeicher

des Recher-cheurs

(verstandenes)Wissen

DE

Wissensrepräsentation II / Outputbereich:Information Retrieval

(verstandenes)Wissen

(Recher-cheur)

(gemeintes)Wissen

(Recher-cheur)

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

DBE(physikalischer)Wissensspeicher

EmpfängerRecher-cheur

HHU Düsseldorf Wissensrepräsentation 18

(subjektives)Wissen

des Nutzers(im günstigenFall): neues

Wissen

Wissensrepräsentation III / Weiterverarbeitung:Handlungsrelevanz der Information

(verstandenes)Wissen

(Nutzer)

(gemeintes)Wissen

(Nutzer)

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

EmpfängerNutzer Handlungen neue

Informationen

HHU Düsseldorf Wissensrepräsentation 19

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

RELEVANZ• Wann sind Informationen für einen Nutzer

handlungsrelevant?• 1. ... wenn das Wissen Entscheidungen

vorbereitet, indem es Unsicherheiten mindert• 2. ... wenn das Wissen bekannte Lücken schließt,

die das Fortkommen einer Arbeit behindern• 3. ... wenn das Wissen „Frühwarnsignale“

beinhaltet, die auf Neues, bisher Unbekanntes hinweisen

HHU Düsseldorf Wissensrepräsentation 20

Grundlagen der Wissensrepräsentation in elektronischen Informationssystemen

Ein Klassiker des Wissensmanagements: Das Matthäus-Evangelium:10 Die Jünger kamen zu Jesus und fragten: "Warum sprichst du in Gleichnissen,

wenn du zu den Leuten redest?“11 Jesus antwortete: "Euch hat Gott die Geheimnisse seines Planes erkennen

lassen, nach dem er schon begonnen hat, seine Herrschaft in der Welt aufzu-richten; den anderen hat er diese Erkenntnis nicht gegeben.

12 Denn wer viel hat, dem wird noch mehr gegeben werden, so dasser übergenug haben wird. Wer aber wenig hat, dem wird auch noch das wenige genommen werden, das er hat.

13 Mit diesem Grund rede ich in Gleichnissen, wenn ich zu ihnen spreche. Denn sie sehen zwar, aber erkennen nichts; sie hören zwar, aber verstehen nichts. ...“Der Bezug in Matthäus 13,12 ist die Erkenntnis, also Wissen. Werviel Wissen hat, dem wird noch mehr gegeben; wer wenig Wissen hat, der verliert im Laufe der Zeit auch noch das wenige.

Begriffe und Begriffsordnungen

HHU Düsseldorf Wissensrepräsentation 22

Begriffe und Begriffsordnungen

Infor-mations-bedarf

DBE

Dok. Bezugs-

einheiten

DEDokumen-

tations-einheiten

Frage

Treffer

Information Retrieval

Information Indexing

Vergleich Vergleich der der

BegriffeBegriffe

HHU Düsseldorf Wissensrepräsentation 23

Begriffe und Begriffsordnungen

GEGENSTAND

• Gegenstand: “alles, was uns entgegensteht”, “etwas als etwas erkennen”

• Gegenstände im Rahmen der “Gegenstandstheorie” (Alexius Meinong):

Gegenstand psychischer Akt ErlebniGegenstand psychischer Akt ErlebnissObjekt Empfindung / Phantasie VorstellenSachverhalt Urteil / Annahme Denken

HHU Düsseldorf Wissensrepräsentation 24

Begriffe und Begriffsordnungen

GEGENSTAND einer dokumentarischen Bezugseinheit• Empfindungsobjekt: Information über reale Gegenstände (Bsp.: Baker

Street in London)• Phantasieobjekt: Information über fiktive Gegenstände (Bsp.: Sherlock

Holmes Wohnung in der Baker Street)• Urteilssachverhalt: Information über Tatsachenaussagen (im Rahmen

einer Theorie für wahr angesehene Aussage)• Annahmesachverhalt: Information über hypothetische Aussagen (im

Rahmen einer Theorie für plausibel angesehene Aussage, deren Wahrheit offen ist)

OBJEKTE in DBE werden in DE durch Begriffe, SACHVERHALTE der DBE werden in DE durch Sätze beschrieben.

HHU Düsseldorf Wissensrepräsentation 25

Begriffe und Begriffsordnungen

BEGRIFF• Ein Begriff ist die Zusammenfassung gewisser Objekte

oder Vorstellungen unter eine Klasse.• Begriffsbestimmung

– extensional (Begriffsumfang; Aufzählung der Elemente der Klasse). M =df {x1, x2, ...., xi, ...}

– intensional (Begriffsinhalt; Angabe der klassen-bildenden Merkmale). M =df ∀ x. f(x)

– Beispiele: Venus; Deutsche Bundesländer• Begriffsarten

– Individualbegriff (Klasse hat genau ein Element)– Allgemeinbegriff (Klasse hat mehrere Elemente)– Kategorie (Begriff allgemeinster Art)

HHU Düsseldorf Wissensrepräsentation 26

Begriffe und Begriffsordnungen

EXAKTHEIT von Begriffen• exakter Begriff: Klassengrenze ist genau bestimmbar• vager Begriff: Klassengrenze ist - an den „Rändern“ - nicht

genau bestimmbar, „fuzzy“)Beispiel: Stuhl-Museum von Max Black

SELBSTÄNDIGKEIT von Begriffen• kategorematischer Begriff: Begriff steht für sich allein• synkategorematischer Begriff: Begriff kann in einem

Kontext nicht allein stehenBeispiel:

10 - 12

HHU Düsseldorf Wissensrepräsentation 27

Begriffe und Begriffsordnungen

• Wort: (nicht unbedingt eindeutiger) sprachlicher Ausdruck eines Begriffs

• Name: Wort, das einen Individualbegriff ausdrückt• Synonym: Begriff, der durch mehrere Worte ausgedrückt

werden kann (Beispiel: Samstag, Sonnabend)• Homonym: Wort, das mehrere unterschiedliche Begriffe

ausdrückt, wobei die Worte unterschiedlichen Ursprüngen entstammen (Beispiel: kosten [„schmecken“ - althochdt. koston], kosten [„wert sein“ - altfrz. coster])

• Homophon: Homonym im Laut (Beispiel: Leere – Lehre)• Polysem: Wort, das mehrere unterschiedliche Begriffe

ausdrückt, wobei die Worte einen gleichen Ursprung haben (Beispiel: Knie [Gelenk am Körper], Knie [Werkstück])

• Der Unterschied zwischen Homonym und Polysem ist nicht immer klar; in der Informationswissenschaft werden die hierdurch entstehenden Probleme gemeinsam behandelt.

HHU Düsseldorf Wissensrepräsentation 28

Begriffe und Begriffsordnungen

STICHWORT - SCHLAGWORT• Stichwort: Wort, das faktisch in einer dokumentarischen

Bezugseinheit vorkommt („token“: konkrete Realisierung eines Wortes, eines „types“)

• Wortstamm (Lexem): grammatikalische Grundform eines WortesBeispiel: ... den Kühen ... ; Wortstamm: Kuh

• Schlagwort: Wort (in Grundform), das einer dokumen-tarischen Bezugseinheit zugeordnet wird

• Thema: Gegenstand, der in einer dokumentarischen Bezugseinheit abgehandelt wird; „das, worüber es geht“; Repräsentation eines Thema in einer Dokumentations-einheit: durch Stich- oder Schlagworte

HHU Düsseldorf Wissensrepräsentation 29

Begriffe und Begriffsordnungen

DEFINITION• (1) Definition als Abkürzung. Definiendum =df Definiens

Beispiele: M =df 1.000Erpel =df männliche Ente

• (2) Deutungsvorschrift von Kalkülen. Deutung bzw. Interpretation von ZeichenBeispiel: p ---> q v ~q

w w w w f w w f w wf w w w ff w f w w

Deutung: p, q Aussagevariablen; w, f Wahrheitswerte~ Negation; --> Implikation; v Disjunktion

HHU Düsseldorf Wissensrepräsentation 30

Begriffe und Begriffsordnungen

• (3) Begriffserklärung Begriff =df Teilbegriff1 + Teilbegriff2 + ...

• Begriffssynthese: ausgehend von Teilbegriffen Begriffsanalyse: ausgehend vom Begriff

• “Klassische” Variante: Definition durch genus und differentia– genus: Artbegriff– differentia: “wesenskonstitutiver” Unterschied– accidens: zufällige Eigenschaft (darf nicht verwendet werden)

Beispiele “Homo est animal rationale”: Mensch =df Lebewesen + vernunftbegabtnicht: Mensch =df Lebewesen + Haarfarbe nicht blond

• Begriffserklärungen eignen sich besonders gut für hierarchische Begriffsordnungen (Klassifikation oder Thesaurus)

HHU Düsseldorf Wissensrepräsentation 31

Begriffe und Begriffsordnungen

• (4) Zeichenerklärung (Nominaldefinition) Feststellung der Bedeutung eines Begriffes in einem bestimmten Kontext. Aussage mit (zu begründendem) Wahrheitsanspruch.Beispiele: “Metaphysik” bei Aristoteles

“Steuererhöhung” bei der Bundesregierung“Armut” in der empirischen Sozialforschung

• (5) Sacherklärung (Realdefinition) Feststellung der Bedeutung eines Begriffes durch das “Wesen” seines Gegenstandes. Aussage mit (zu begründendem) Wahrheitsanspruch. Beispiel: Artikel „Geschirrspülmaschine“ im Brockhaus

• Zeichen- und Sacherklärungen kommen typisch in enzyklopädischen Wörterbüchern vor.

HHU Düsseldorf Wissensrepräsentation 32

Begriffe und Begriffsordnungen

• (6) Explikation Übernahme (ggf. ungenauer) Alltagsbegriffe in die Wissenschaftssprache, dabei Präzisierung

• Bedingungen:– wissenschaftliche Nützlichkeit– Präzision– Ähnlichkeit mit dem Ausgangsbegriff– EinfachheitBeispiel: Alltagsbegriff: Arbeit

Physik: Arbeit =df Kraft * Weg * WinkelSoziologie: Arbeit =df auf ein wirtschaftliches Ziel gerichtete, planmäßige menschliche Tätigkeit

HHU Düsseldorf Wissensrepräsentation 33

Begriffe und Begriffsordnungen

• (7) Definition von Bedeutungsfamilien Einige Begriffe können nicht über eine Konjunktion von Merkmalen definiert werden, die für alle gelten; vielmehr liegen unterschiedliche Teilmengen vor (Ludwig Wittgenstein: “Familienähnlichkeit”)Beispiel: Gemüse =df Wurzel- und Knollengemüse, Blatt- und Stielgemüse, Fruchtgemüse, Kohlgemüse

• (8) Persuasive Definition Begriffsbildung mit emotionalen Einstellungen (gefühls-mäßigen Assoziationen)Beispiele: rein (Waschmittelwerbung; positive Einstellung)Jude (Nazi-Deutschland; negative Einstellung)

HHU Düsseldorf Wissensrepräsentation 34

Begriffe und Begriffsordnungen

• Im Überblick: Definitionsarten

• (1) Definition als Abkürzung

• (2) Deutungsvorschrift eines Kalküls

• (3) Begriffserklärung• (4) Nominaldefinition• (5) Realdefinition • (6) Explikation• (7) Bedeutungsfamilien• (8) persuasive Definition

• Definitionen in Systemen der Wissensrepräsentation:

• jeder in einer Dokumen-tationssprache verwendete Begriff sollte in Extension und Intension klar und deut-lich sein

• für hierarchische Systeme eignen sich besonders Begriffserklärungen und Definitionen mit Bedeutungs-familien

HHU Düsseldorf Wissensrepräsentation 35

Begriffe und Begriffsordnungen

Ordnung• Gesamt einer Menge M von Objekten x, y, ... und einer

Menge von Relationen ρ zwischen den Objekten O = M, ρ

• Bei Begriffsordnungen sind die Objekte Begriffe und die Relationen Beziehungen zwischen Begriffen

• Es gibt zweistellige Relationen (Bsp.: ρ = „x ist Oberbegriff von y“) und mehrstellige Relationen (Bsp.: ρ = „heilt x [jemanden] mittels y [Arznei] von z [Krankheit]“)

• Relationen sind reflexiv (irreflexiv), symmetrisch (asymmetrisch) bzw. transitiv (intransitiv) R - S - T

HHU Düsseldorf Wissensrepräsentation 36

Begriffe und Begriffsordnungen

RST (bei zweistelligen Relationen)• Reflexivität: x ρ x (Bsp.: „ist identisch mit“)• Irreflexivität: -(x ρ x) (Bsp.: „ist Ursache von“)• Symmetrie: x ρ y ➙ y ρ x (Bsp.: „ist gleich“)• Asymmetrie: x ρ y ➙ - (y ρ x) (Bsp.: „liebt (unglücklich)“• Transitivität: [(x ρ y) (y ρ z)] ➙ (x ρ z) (Bsp.: „ist größer als“) • Intransitivität: [(x ρ y) (y ρ z)] ➙ -(x ρ z) (Bsp.: „ist ähnlich mit“)Allgemeine Relationen in Begriffsordnungen• Äquivalenz: x ist äquivalent y (R - S - T)• Unterbegriff: x ist Unterbegriff von y (-R - -S - T)• Oberbegriff: x ist Oberbegriff von y (-R - -S - T)• verwandter Begriff: x ist mit y verwandt (-R - S - -T)

HHU Düsseldorf Wissensrepräsentation 37

Begriffe und Begriffsordnungen

Relationen in Begriffssystemen

Topterm

BottomtermsAssoziations-relation

Hierarchierelation

Poly-hierarchie

Begriffsle

iterA

B C

D E F

G H I

Begriffs- -reihe

HHU Düsseldorf Wissensrepräsentation 38

Begriffe und Begriffsordnungen

Terminologische Kontrolle• durch Zusammenfassung bestimmter Bezeichnungen zu

einem Begriff (Synonyme, Akronyme, Quasi-Synonyme) mittels Äquivalenzrelation

• durch Trennung homonymer Bezeichnungen zu unter-schiedlichen Begriffen

• wenn möglich; stets wenn nötig: Definition• Arten terminologischer Kontrolle:

– mit Vorzugsbenennungen (gearbeitet wird ausschließlich mit der Vorzugsbenennung; von den äquivalenten Bezeichnungen wird verwiesen)

– ohne Vorzugsbenennungen (alle äquivalenten Bezeichnungen sind zugelassen; in der Datenbank werden sie zu einem Begriff zusammengefaßt)

HHU Düsseldorf Wissensrepräsentation 39

Begriffe und Begriffsordnungen

Relationen• Hierarchierelation (Begriffsleiter: Oberbegriff - Unterbegriff,

Begriffsreihe: Begriffe in gleicher hierarchischen Ebene)– Abstraktionsrelation (logische Sicht)

• Ein Unterbegriff im Sinne der Abstraktionsrelation hat alle Merkmale des Ausgangsbegriffs, dazu aber mindestens ein weiteres (Bsp.: Vogel - Singvogel)

– Bestandsrelation (gegenständliche Sicht: Meronyme[Teil einer Ganzheit]; Holonyme [Ganzheit von Teilen])

• Ein Unterbegriff im Sinne der Bestandsrelation drückt einen Teil des Ausgangsbegriffs aus (Bsp.: Vogel - Kralle)

• Geographika sind i.d.R. Begriffe in Bestandsrelation (Bsp.:Deutschland - Nordrhein-Westfalen - Regierungsbezirk Köln - Erftkreis - Kerpen - Kerpen-Sindorf)

HHU Düsseldorf Wissensrepräsentation 40

Begriffe und Begriffsordnungen

Relationen• Assoziationsrelation(en)

– Nachfolgerelation (Vorgänger - Nachfolger)– Kausalrelation (Ursache - Wirkung)– genetische Relation (Produzent - Produkt)– Herstellungsrelation (Material - Produkt)– Transmissionsrelation (Sender - Empfänger)– instrumentelle Relation (Werkzeug - Anwendung des

Werkzeugs)– funktionelle Relation (Argument - Funktion)– Antonymie-Relation (Gegensätze) – Ähnlichkeitsrelation– usw.

HHU Düsseldorf Wissensrepräsentation 41

Begriffe und Begriffsordnungen

• Präkombinationsgrad (bei Begriffen mit mehreren Komponenten)– Präkombination: Kombination mehrerer Begriffe zu

genau einem [zusammengesetzten] Begriff in der Begriffsordnung (Bsp.: Mädchenhandelsschule)

– Präkoordination: Kombination der Begriffe, die als solche in der Begriffsordnung vorkommen, durch Verkettung beim Information Indexing (Bsp.: Mädchen + Handelsschule bzw. Mädchenhandel + Schule)

– Postkoordination: Kombination der Begriffe erst beim Information Retrieval (Bsp.: Mädchen UND Handelsschule)

HHU Düsseldorf Wissensrepräsentation 42

Begriffe und Begriffsordnungen

Monohierarchie:jeder Begriff hat entweder keinen oder genau einen

Oberbegriff

Obstbaum

Kernobstbaum Steinobstbaum

Apfelbaum Birnbaum Kirschbaum Pfirsichbaum

HHU Düsseldorf Wissensrepräsentation 43

Begriffe und Begriffsordnungen

Polyhierarchie:

ein Begriff kann mehrere Oberbegriffe haben

Obstbaum Holzwirtschaft

Kernobstbaum Nutzholz

Apfelbaum Birnbaum Buche

HHU Düsseldorf Wissensrepräsentation 44

Begriffe und Begriffsordnungen

Dimensionalität: Anzahl der Dimensionen der klassenbildenden Merkmale bei der Bildung von Unterbegriffen– monodimensional (nur genau eine Dimension zugelassen).

Bsp.: Obstbaum» Kernobstbaum» Steinobstbaum

Klassenbildung durch die Dimension: Beschaffenheit des Samens– polydimensional (mehrere Dimensionen zugelassen)

Bsp.: Obstbaum» Kernobstbaum» Steinobstbaum» hochstämmiger Obstbaum» niederstämmiger Obstbaum

Klassenbildung durch die zwei Dimensionen: Beschaffenheit des Samens und: Größe des Stammes

HHU Düsseldorf Wissensrepräsentation 45

Begriffe und Begriffsordnungen

Auflösung der Polydimensionalität• aus einer polydimensionalen Ordnung soll eine

monodimensionale gebildet werden• schafft eine übersichtliche und logische Struktur

Bsp.: Obstbaum• Obstbaum nach Samenbeschaffenheit

– Steinobstbaum– Kernobstbaum

• Obstbaum nach Stammgröße– hochstämmiger Obstbaum– niederstämmiger Obstbaum

• bei der Auflösung der Polydimensionalität werden „Zwischen-begriffe“ bzw. „Stützbegriffe“ kreiert

• sehr wahrscheinlich gibt es keine DBE über solche Stützbegriffe

Stützbegriff

HHU Düsseldorf Wissensrepräsentation 46

Begriffe und Begriffsordnungen

Facettierte Begriffsordnung• Mehrere unterschiedliche Begriffsordnungen innerhalb

eines Systems, aufgeteilt nach KategorienBsp.: drei Facetten (Obstbäume):Kategorie 1: Kategorie 2: Kategorie 3:Frucht Stammgröße ErntezeitApfel hoch frühBirne nieder spätBsp.: vier Facetten (Wirtschaftsnachrichten / Factiva):

• Branche• Region• Aspekt• Unternehmen

HHU Düsseldorf Wissensrepräsentation 47

Begriffe und Begriffsordnungen

Begriffsordnung und natürliche Sprache

• unabhängig von natürlicher Sprache: Verwendung eines eigenen Vokabulars aus Ziffern und BuchstabenBsp.: 291.213.4 (in der Dezimalklassifikation: Bezeichnung für„Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten“)Bsp.: H05B-3/00 (in der Internationalen Patentklassifikation:Bezeichnung für „elektrische Heizung / Widerstandsheizung“)

• sprachabhängig (Verwendung von national- bzw. fach-sprachigen Bezeichnungen)

HHU Düsseldorf Wissensrepräsentation 48

Begriffe und Begriffsordnungen

• Paradigmatische Relation

• „fest verdrahtete“ Begriffe durch Relationen in Begriffsordnungen

• Bsp.: Obstbaum sei Ober-begriff zu KernobstbaumObstbaum

Kernobstbaum

• Syntagmatische Relation• Begriffe, deren Beziehung

dadurch zustande kommt, dass sie gemeinsam in DE auftreten

• Bsp.: Eine DE enthalte: Obstbaum, Bauer, SteiermarkObstbaum

Steiermark

paradigmatischeRelation

syntagmatischeRelation

Dokumente und ihre Strukturierung

HHU Düsseldorf Wissensrepräsentation 50

Dokumente und ihre Strukturierung

• Datenstrukturierung::Identifikation kleinster Beschreibungseinheiten für bestimmte Typen von dokumentarischen Bezugseinheiten (DBE)

• Bsp.: wissenschaftlicher Aufsatz. FELDER:

• Autor(en)• Sachtitel• Zeitschriftentitel• Jahrgang• Seitenzahl• Themen usw.

• Dokumentstrukturierung: Zerlegung eines bestimmten Typesvon dokumentarischen Bezugseinheiten (DBE) - auch - im Sinne von Markup-Sprachen

• Bsp.: wissenschaftlicher Aufsatz. STRUKTUR:

• Sachtitel• Autor(en)• Titel des 1. Abschnitts• Text des 1. Abschnitts:

Problemstellung• darin: Fußnote(n)• Titel des 2. Abschnitts • Text des 2. Abschnitts: Methodik

usw.

Meta-daten

Struk-tur-

daten

HHU Düsseldorf Wissensrepräsentation 51

Dokumente und ihre Strukturierung

Datenstrukturierung• Datenbankdesign: Beschreibung des Dokuments in einem

Feldschema, dabei Festlegung von Merkmalen für jedes Feld (Daten ÜBER ein Dokument, deshalb: Metadaten)

– Feldname Jahrgang– Kurzbezeichnung YR– Schlüsselfeld (ja, nein) nein– Anzahl Werte (ein Wert, genau 1 Wert

mehrere Werte: Subfelder)– Typ der Feldwerte (alpha- ganze Zahl

numerisch, Formel, Datum, Betrag, Text, ganze Zahl, ...)

– Normdaten ja– ggf.: Feldlänge 4 Stellen– Index (ja, nein) ja

• Wortindex ja• Phrasenindex nein

HHU Düsseldorf Wissensrepräsentation 52

Dokumente und ihre Strukturierung

• FN file type• VR file format version number• PT publication type• AU author(s)• TI article title• DE author keywords• ID KeyWords Plus• AB abstract• RP reprint addresses• CI research addresses• EM authors’ Internet e-mail

addresses• TC times cited• NR cited reference count• CR cited references• CP cited patents• BP beginning page• EP ending page• PG page count• DT document type• LA language

• SN ISSN• SO full source title• J9 29-character source title

abbreviation• JI ISO source title abbreviation• SE book series title• BS book series subtitle• PY publication year• PD publication date• VL volume• IS issue• PN part number• SU supplement• SI special issue• GA ISI document delivery number• PU publisher• PI publisher city• PA publisher address• WP publisher Web address• ER end of record

Beispiel: Science Citation Index (Institute for Scientific Information)

HHU Düsseldorf Wissensrepräsentation 53

Dokumente und ihre Strukturierung

Ansichteiner

Webseite

Metadatenin

„Meta Tags“

Beispiel: Webseite

HHU Düsseldorf Wissensrepräsentation 54

Dokumente und ihre Strukturierung

Metadaten

Formalbibliographische Metadaten

Inhaltsbezogene Metadaten

FormaleErfassung

Inhalts-erschließung

HHU Düsseldorf Wissensrepräsentation 55

Dokumente und ihre Strukturierung

Metadaten: Formale Erfassung• Abbildung nicht inhaltsbezogener Informationen der

dokumentarischen Bezugseinheit auf die Erfassungsfelder einer Datenbank

• für jedes Feld werden Erfassungsregeln definiert• soweit möglich: für jedes Feld werden Normdaten

gesammelt• Regelwerk für formale Erfassung von

Bibliotheksmaterialen: AACR (Anglo-American Cataloging Rules) (mit Sonderregeln für audiovisuelle Materialien, Musikalien, Karten und unselbständig erschienener Werke)

• für die Erfassung von Internet-Dokumenten werden die Dublin-Core-Elements diskutiert

HHU Düsseldorf Wissensrepräsentation 56

Dokumente und ihre Strukturierung

Formale Erfassung / Regelwerk / NormdatenBeispiel: ... wenn man versucht, ohne auszukommenRegister:Henzinger MHenzinger MonikaHenzinger Monika RHenzinger Monika RauchHenzinger Monika R.Henzinger, MHenzinger, MonikaHenzinger, Monika RHenzinger, Monika RauchHenzinger, Monika R.

Monika HenzingerMonika R HenzingerMonika Rauch HenzingerMonika Rauch-HenzingerMonika R. HenzingerRauch Henzinger MonikaRauch Henzinger, MonikaRauch-Henzinger MonikaRauch-Henzinger, Monika

HHU Düsseldorf Wissensrepräsentation 57

Dokumente und ihre Strukturierung

Formale Erfassung / Regelwerk / Normdaten• mit Regel: bei Personennamen Ansetzung: Nachname

Komma Leerzeichen Vorname (ausgeschrieben) zweiter Vorname oder Mittelname (nur erster Buchstabe mit Punkt)

• Beispiel: Register: Henzinger, Monika R.Rauch, Monika

• mit Normdaten: je Person ein DatensatzName in Normform:Henzinger, Monika R.Geburtsdatum: tt.mm.jjjjZusatzinformationen: Forschungsleiterin GoogleVerweis: Rauch, Monika

• Beispiel: Register: Henzinger, Monika R.

HHU Düsseldorf Wissensrepräsentation 58

Dokumente und ihre Strukturierung

Formale Erfassung / Regelwerk / Normdaten. Beispiele:Gertrud von Le Fort Le Fort, Gertrud von (dt.)Ernst Aus‘m Weerth Aus‘m Weerth, Ernst (dt.)Julia Rauh-von der Schule Rauh-von der Schule, Julia (dt.)Jean de la Fontaine La Fontaine, Jean de (fr.)Louis de Broglie Broglie, Louis de (fr.)Louis de Rouvroy Duc de Saint-Simon, Louis de Rouvroy Saint-Simon Duc de (fr.)Ali ibn Haduga Ibn Haduga, Ali (arab.)Lola Réz (verh.: Kosáry) Kosáryné-Réz, Lola (ungar.)Anton der Kinderen Kinderen, Anton der (nl.)Anton Du Perron Du Perron, Anton (nl.)Andrej N. Rimskij-Korsakov Rimskij-Korsakov, Andrej Nikolajevich (russ.)Constance Lytton (Tochter Lytton, Lady Constance (engl. UK)eines Dukes)

HHU Düsseldorf Wissensrepräsentation 59

Dokumente und ihre Strukturierung

Formale Erfassung • Ansetzung der Namen von Körperschaften

– Beispiel „untergeordnete Körperschaft“: Referat Frauenpolitik der SPD. Ansetzungsform: Sozialdemokratische Partei Deutschlands / Referat Frauenpolitik

– Beispiel „selbständige Körperschaft“: ifo Institut, München. Ansetzungsform: ifo Institut für Wirtschaftsforschung e.V. <München>

– Beispiel „Gebietskörperschaft“: Kongeriget Danmark. Ansetzungsform: Danmark. Bsp.: Polizeidirektion Bonn. Ansetzungsform: Nordrhein-Westfalen / Polizeidirektion <Bonn>

• bei nicht-lateinischen Schriften: Transliteration (etwa nach: ISO)– Beispiel: BAPHA (bulg.). Transliteration: Varna

• bei allen Ansetzungen: Verweise von möglichen Varianten auf die Normansetzung

HHU Düsseldorf Wissensrepräsentation 60

Dokumente und ihre Strukturierung

Formale Erfassung.• Erfassung von Webseiten• „Dublin Core Elements“ Feldname (Version 1.0)

– Titel title– Autor/Urheber creator– Thema/Schlagwörter subject

(vorgeschlagen: kontrolliertes Vokabular oder Klassifikation)– Inhaltsbeschreibung description

(Abstract bzw. Beschreibung nicht-textueller Dokumente)– Herausgeber/Verlag publisher– anderer Beteiligter contributor

(etwa: Illustrator, Übersetzer)– Datum (in der Form: yyyy-mm-dd) date– Dokumenttyp resource type

(etwa: Homepage, Arbeitspapier, Gedicht, Foto)

HHU Düsseldorf Wissensrepräsentation 61

Dokumente und ihre Strukturierung

• „Dublin Core Elements“ (2) Feldname (Version 1.0)– Datenformat format

(Dateityp, ggf. Dateigröße)– Identifikation der Ressource identifier

(URL [uniform resource locator], DOI [digital object identifier], ...)– Quelle source– Sprache language– Beziehungen relation– thematische Abdeckung coverage

(räumliche und zeitliche Charakteristika des Inhalts)– Rechte rights

(Vermerk über Rechteinhaber)

• Bisher konnten sich die „Dublin Core Elements“ im WWW [noch?] nicht durchsetzen.

HHU Düsseldorf Wissensrepräsentation 62

Dokumente und ihre Strukturierung

• Metadaten: Inhaltserschließung• Abbildung inhaltsbezogener Informationen der dokumentari-

schen Bezugseinheit auf die Erschließungsfelder einer Daten-bank

• Inhaltserschließung geschieht durch INDEXIEREN und REFERIEREN – Indexieren ist die Abbildung der Themen (ggf. der

Themenkomplexe) durch Begriffe (Ursprung des Wortes: Buchindex)

– Referieren ist die Abbildung der thematisierten Sachverhalte durch (wenige) Sätze

• Inhaltserschließung geschieht entweder automatisch oder intellektuell (oder Mischform)

• Inhaltserschließung macht von eigenen Methoden und von spezifischen Werkzeugen Gebrauch.

HHU Düsseldorf Wissensrepräsentation 63

Dokumente und ihre Strukturierung

Methoden der Inhaltserschließung

Indexieren Referieren

Textsprachl. Methoden Dokumentationsmethoden

Volltext (ASCII)

Textwortmethode

Zitationsindexierung

Titelindexierung Thesaurus

Klassifikation Abstract

Sammelreferat

OntologieTopic Map

HHU Düsseldorf Wissensrepräsentation 64

Dokumente und ihre Strukturierung

Inhaltserschließung

Funktion 1:Informations-

filter

Funktion 2:Informations-verdichtung

Indexieren Referieren

Optimales Suchen und Finden von Dokumenten

HHU Düsseldorf Wissensrepräsentation 65

Dokumente und ihre Strukturierung

Dokumentstrukturierung– Beschreibung einer Dokumentstruktur innerhalb des

Dokuments mittels einer besonderen Sprache (Markup Language, Seitenbeschreibungssprache)

– für Textverarbeitung und -publikation (seit 1986): Standardized Generalized Markup Language (SGML). Umfassendes Konzept einer Markup-Sprache

– für Beschreibung verlinkter Dokumente (seit 1989): Hypertext Markup Language (HTML). Eingeschränkte Sprache (ohne Möglichkeit zur wissensabbildenden Dokumentstrukturierung), dafür aber für Hypertextstrukturen anwendbar

– Seitenbeschreibung und Hypertext: eXtensible Markup Language (XML). Bündelung der Vorteile von SGML und HTML. „Industriestandard“. Wissensrepräsentation möglich.

HHU Düsseldorf Wissensrepräsentation 66

Dokumente und ihre Strukturierung

XML– XML-Dokumente bestehen aus

• Zeichen und• Markups

– Die Markups werden durch „Tags“ angegeben. Form: Start-Tag ... [Text oder weitere Tags] ... Ende-Tag. Bsp.: <Nachname>Meier</Nachname> für das „Element“ Nachname

– Elemente können über „Attribute“ verfügen. Form: <Start-Tag Anfang Elementname = [Zuweisungsoperator] „Attributname“ [„...“ als Begrenzungszeichen] Start Tag Ende>. Bsp.: <Telefonnummer Art = „Festnetz“>

– Elemente und Attribute werden „deklariert“.

HHU Düsseldorf Wissensrepräsentation 67

Dokumente und ihre Strukturierung

XML– Elementdeklaration: <!ELEMENT name inhalt>. Bsp.:

• <! ELEMENT Nachname ANY> • <! ELEMENT Telefonnummer ANY>• <! ELEMENT Telefonbuch (Nachname, Telefonnummer)>

– Attributdeklaration: <! ATTLIST element.name attribut.definitionen>, wobei jeweils Attributdefinitionen vorliegen: attribut.name attribut.typ vorgabewert. Attributtypen: String-Attribute (beliebige Zeichen), Token-Attribute (vorgegebene Zeichen, etwa ID als Identifikation), Aufzählungsattribute. Bsp.:

• <!ATTLIST Telefonnummer CDATA> (String)• <!ATTLIST Telefonnummer Festnetz ID REQUIRED> (Token)• <!ATTLIST Telefonnummer (Festnetz | Mobil)> (Aufzählung)

HHU Düsseldorf Wissensrepräsentation 68

Dokumente und ihre Strukturierung

XML– Dokumenttyp-Definition (DTD): Bezeichnung der XML-

Dokumente (Eigentümer, Sprache) und Beschreibung des Dokumenttyps (Elemente, Attribute)

– Wissensrepräsentation mittels XML:• Durch die Beschreibung des Dokumenttyps ist ein Zugriff auf

einzelne Textelemente und damit auf das darin abgehandelte Wissen möglich.

• Voraussetzung: „gute“ Strukturierung der Dokumente (XML ist nur das Werkzeug - für die Strukturierung und Wissens-abbildung sorgt der Information Professional). 4Inhaltserschließung

• Eine DTD gilt natürlich nur für genau einen (stets gleichbleibenden) Dokumenttyp (etwa: ein enzyklopädisches Lexikon, eine wissenschaftliche Zeitschrift, Zeitungsartikel). 4Datenstrukturierung

HHU Düsseldorf Wissensrepräsentation 69

Dokumente und ihre Strukturierung

Identifikation von Objekten in verteilten Systemen– Digital Object Identifier (DOI); Aufgaben:

• gleichbleibender Identifikator für ein Objekt auch bei Änderungen des Platzes im System (etwa: Wechsel des URL)

• Verlinkung von Objekten• Lizensierung, Abrechnung

– DOI-System• Datenbank• Verzeichnis (Zuordnung DOI - derzeitige Location)• Identifier (Präfix: Verlagsidentifikation - vergeben von einer

Registrierungsagentur; Suffix: Dokumentidentifikation -vergeben vom Verlag, kann u.U. „alte“ Standards wie ISBN verwenden)

HHU Düsseldorf Wissensrepräsentation 70

Dokumente und ihre Strukturierung

DOI– anwendbar auf alle Arten digitalen Informationsinhalts

• Zeitschriftenartikel (der historische Ursprung von DOI)• Bücher oder Buchkapitel• Zeitungsartikel• usw.

10.1002/asi.10158

10:DirectoryManager

1002:Verlag: Wiley

asi:J ASIST

10158:konkreter

Artikel

Präfix Suffix/

Dokumentationssprachen I:Klassifikationssysteme

(Taxonomien)

HHU Düsseldorf Wissensrepräsentation 72

Klassifikationssysteme

Klassifikation ist ein Hilfsmittel zur ORDNUNG von Gegenständen oder von Wissen über Gegenstände– praktische Aufgabe: Ordnen von Gegenständen (in einem

Lager, im Supermarkt, im Küchenschrank, ...)– informationswissenschaftliche und -praktische Aufgabe:

Anordnen, Bei-, Neben- und Einordnen, Einteilen, Gruppieren, Unterordnen, Zusammenordnen, Zuordnen von Wissen

– wissenschaftliche Aufgabe: angemessene Darstellung von Wissenseinheiten (z.B. Taxonomie in der Biologie: „Systema naturae“ von Carl von Linné, oder Physik: Periodensystem der Elemente)

– erkenntnisvermittelnde Aufgabe: Aufhellung von Zusammenhängen anhand geordneten Wissens

HHU Düsseldorf Wissensrepräsentation 73

Klassifikationssysteme

Grundbegriffe• Klasse: (intensional oder extensional) definierter Gegenstand

(Allgemein- oder Individualbegriff)• Klassifizieren: Erstellen eines Klassifikationssystems; Bilden

von Klassen• Klassieren: Einordnen von DBE in Klassen• Notation: nicht-natürlichsprachiges Wort als Name einer

Klasse • Bezeichnungen: natürlichsprachige Übersetzungen einer

Notation• Die Erstellung und Weiterentwicklung von Klassifikations-

systemen ist in Deutschland normiert.DIN 32705. Klassifikationssysteme (1987)

HHU Düsseldorf Wissensrepräsentation 74

Klassifikationssysteme

Notationsformen• strukturabbildend hierarchische Notation (Notation bildet

Hierarchierelation ab). Bsp.:Klasse A: Notation: 1Klasse B: Notation: 11Klasse D: Notation: 111Klasse C: Notation: 15

• sequentielle Notation. Bsp.:Klasse A: Notation: 1Klasse B: Notation: 3Klasse D: Notation: 8Klasse C: Notation: 5

• hierarchisch-sequentielle Notation - Mischform (Notation auf gewissen Hierarchieebenen hierarchisch, sonst sequentiell)

Relationen in Begriffssystemen

Topterm

BottomtermsAssoziations-relation

Hierarchierelation

Poly-hierarchie

Begriffsle

iterA

B C

D E F

G H I

Begriffs- -reihe

HHU Düsseldorf Wissensrepräsentation 75

Klassifikationssysteme

• Vorteil der Notation: international einsetzbarBeispiel: vacuum cleanerStaubsaugerdammsugarenaspirateur DK 648.525aspiratore di polvereaspirador de polvoodkurzacz

• Nachteil der Notation: mnemotechnisch nicht beherrschbar

HHU Düsseldorf Wissensrepräsentation 76

Klassifikationssysteme

• Präkombinationsgrad der Begriffe: i.d.R. hoch (präkombinierte Begriffe bevorzugt). Bsp.: „Witterungsabläufe in Mittel-gebirgslagen subtropischer Zonen“ als 1 Klasse

• i.d.R. monohierarchisch (ohne Unterscheidung nach Abstraktions-und Bestandsrelation); zusätzlich: (Quasi-)Synonyme; Assoziationsrelation sehr eingeschränkt

• häufig: neben einer Basiskategorie weitere spezielle Kategorien (als „Anhängezahlen“, „Ergänzungszahlen“ oder „Indexcodes“)

• Klassifikationssystem:– (1) Lexikon: systematische Tafeln, ggf. Hilfstafeln (jeweils Notationen

und Bezeichnung/en); hierzu: Register (mit Synonymen)– (2) Grammatik: spezielle Zeichen, Regeln für den Umgang mit den

Zeichen– (3) Hinweise: u.a. Anmerkungen, Querverweise oder Vorrangregeln

HHU Düsseldorf Wissensrepräsentation 77

Klassifikationssysteme

• Grundlegende Regeln: – ein Gegenstand - eine Klasse– damit: ein Gegenstand - eine Notation– eine Notation - mehrere Bezeichnungen (Fremdsprachen,

Akronyme, Synonyme)– jede Bezeichnung sollte für sich selber sprechen (u.U.

definierende Zusätze anbringen)– Einstieg für Nutzer über Systematik (Notationen) und

Bezeichnungen (möglichst in unterschiedlichen natürlichen Sprachen) gewährleisten

– homonyme Bezeichnungen in die einzelnen Gegenstände überführen und auf unterschiedliche Klassen verweisen

– i.d.R. monodimensional (polydimensional nur in Ausnahme-fällen)

– Polyhierarchie schlecht oder gar nicht ausdrückbar

HHU Düsseldorf Wissensrepräsentation 78

Klassifikationssysteme

Klassifikationstypen nach Einsatzgebieten– Universalklassifikationen

• zur Ordnung von Beständen (sprachlich wie fachlich) universal ausgerichteter Informationseinrichtungen (z.B. Universitätsbibliotheken)

• als Zugangshilfe zu Dokumenten im World Wide Web– Klassifikationen gewerblicher Schutzrechte– Wirtschaftsklassifikationen

• Branchenklassifikationen (auch zum Zwecke amtlicher Statistik)

• Produktklassifikationen– Geographische Klassifikationen– Medizinische Klassifikationen

HHU Düsseldorf Wissensrepräsentation 79

Klassifikationssysteme

Universalklassifikationen• Dewey Decimal Classification (DDC) - von Melvil Dewey

1876 erstmals eingeführt• Dezimalklassifikation (DK / UDC) - auf der Basis der

DDC von Paul Otlet und Henri LaFontaine um 1900 entwickelt

• Colon Classification (CC) - facettierte Klassifikation von S.R.Ranganathan (1.Aufl. 1933)

• Allgemeine Systematik für Öffentliche Bibliotheken (ASB) - als Aufstellordnung in ÖBs (seit 1956) verwendet

• Yahoo! • Open Directory Project (ODP) - Systeme zur

Klassierung von Webseiten

DK:unser

1. Beispiel

Yahoo!unser

2. Beispiel

HHU Düsseldorf Wissensrepräsentation 80

Klassifikationssysteme

Dezimalklassifikation (DK)• Haupttafel / Aufbau:

– 0 Allgemeines– 1 Philosophie, Psychologie– 2 Religion, Theologie– 3 Sozialwissenschaften– 4 [derzeit frei]– 5 Mathematik, Naturwissenschaften– 6 Angewandte Wissenschaften, Medizin, Technik– 7 Kunst, Musik, Sport, Spiele– 8 Literaturwissenschaft, Sprachwissenschaft– 9 Geographie, Biographien, Geschichte

HHU Düsseldorf Wissensrepräsentation 81

Klassifikationssysteme

Dezimalklassifikation (DK) - Notationsbeispiel 1

2 Religion, Theologie29 Nichtchristliche Religionen219 Allgemeine und vergleichende Religionswissenschaft291.2 Religiöse Lehren. Dogmen291.21 Gottheiten. Gegenstand der Religion. Verehrung der

Gottheiten. Göttersagen. Funktionen der Götter. Götter-und Geisterwelten

291.213 Verehrung von Menschen, Halbgöttern, Helden, Heiligen, Herrschern (Apotheose)

291.213.4 Ahnenkult. Kult der Hausgötter: Manen, Laren, Penaten

HHU Düsseldorf Wissensrepräsentation 82

Klassifikationssysteme

Dezimalklassifikation (DK) - Notationsbeispiel 2669 Metallurgie. Metalle und Legierungen669.1 Eisenhüttenkunde. Eisen und Stahl669.16 Herstellung von Roheisen669.162 Roheisenerzeugung. Erste Schmelzung669.162.2 Hochöfen669.162.26 Betrieb von Hochöfen669.162.266 Hochofenabstich669.162.266.2 Roheisenabstich669.162.266.23 Abstechen in Gießbetten und Herstellen der Masselbetten669.162.266.232 Abstechen in Gießbetten669.162.266.232.6 Abstechen in Gießmaschinen669.162.266.232.64 in Gießmaschinen mit endlosen Bändern

Synkategorematischer Begriff; wird erst mit nächsthöherer Ebene vollständig.

HHU Düsseldorf Wissensrepräsentation 83

Klassifikationssysteme

• Neben den Systematischen Tafeln hat die DK für spezielle Kategorien Ergänzungstafeln

• Allgemeine Ergänzungszahlen – KATEGORIE SYMBOL– Sprache =...– Form (0...)– Ort (1/... bis 9/...)– Zeit „...“– Materialien -03– Personen -05

• Besondere Ergänzungszahlen– Kennzeichnungen (-...)– Aspekte u.a. (.0...)– Synthese (’...)

HHU Düsseldorf Wissensrepräsentation 84

Klassifikationssysteme

• Allgemeine Ergänzungszahlen der Sprache (Beispiele)

– =00 mehrsprachig– =20 englisch– =30 deutsch– =392 friesisch– =393 niederländisch– =393.2 flämisch– =393.6 afrikaans– =40 französisch– =490 provenzalisch– =499 katalanisch– =50 italienisch– =60 spanisch

• Allgemeine Ergänzungszahlen der Zeit (Beispiele)

– „-“ vorchristliche Zeit– „+“ christliche Zeit– „04/14“ Mittelalter– „15/19“ Neuzeit– „32“ Jahreszeiten– „321“ Frühling– „322“ Sommer– ...– „36“ Zeit in Sicht der

Not– „362“ Friedenszeit– „364“ Kriegszeit

HHU Düsseldorf Wissensrepräsentation 85

Klassifikationssysteme

• Besondere Ergänzungszahlen (Aspekte) im Bereich DK 7 (Beispiele)

– 7.061 Fälschungen– 7.07 Arten der

Beschäftigung mit Kunst

– 7.071 Künstler– 7.072 Kunstwissen-

schaft– 7.073 Kunstliebhaber– 7.075 Kunsthändler– 7.078 öffentliche

Förderung der Kunst

• Systematische Tafel im Bereich DK 7 (Ausschnitt)– 737.1 Münzen– 738.5 Mosaik– 739.8 Nippes

• Kombination Systematik-Notation und besondere Ergänzungszahl

– 737.1.061 Fälschungen von Münzen

– 738.5.061 Fälschungen von Mosaiken

– 739.8.075 Händler von Nippes

HHU Düsseldorf Wissensrepräsentation 86

Klassifikationssysteme

DK-Register• enthält in einer natürlichen Sprache alle Benennungen der

Notationen aus den systematischen Tafeln und aus den Ergänzungstafeln

• enthält Synonyme und Quasi-Synonyme der Benennungen• Assoziationsrelation („siehe auch“)• unterscheidet Homonyme bzw. PolysemeAusschnittbeispiele:Deutschland (Geographie) 914.3--- (Geschichte) 943--- (Ortsanhängezahl) (43)Dock ... siehe auch TrockendocksPinakothek siehe GemäldegalerienSchlangen (Zoologie) 598.12Schlangen (Tierzucht) 636.98

Notation aus Ergänzungstafel

Notation aus systematischer Tafel

Assoziationsrelation

Homonym-kontrolle

Synonym

HHU Düsseldorf Wissensrepräsentation 87

Klassifikationssysteme

Mehrere Klassen verbinden (syntaktisches Indexieren)

– (1.) Beziehung. Symbol: :Beispiel: Lichtbrechung von RubinenRubin 549.517.1Lichtbrechung 535.323also: 549.517.1:535.323

– (2.) Beiordnung. Symbol: +Beispiel: Mathematik und PhysikMathematik 51Physik 53also: 51+53

– (3.) gerichtete BeziehungSymbol: ::

Beispiel: VerkehrsmedizinVerkehr 656Medizin 61also: 61::656

– (4.) Erstreckung (von-bis)Symbol: /

Beispiel: der Gesamtbereich Biologie, Botanik, ZoologieBiologie 57Botanik 58Zoologie 59also: 57/59

HHU Düsseldorf Wissensrepräsentation 88

Klassifikationssysteme

• (5.) Kombination einer DK-Zahl der Haupttafel mit einer allgemeinen Ergänzungszahl

• Zahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl

• Beispiel: Prostitution in DeutschlandProstitution 176.5Zeichen für Ort (...) allgemeine ErgänzungszahlDeutschland 430also: 176.5(430)

• (6.) Kombination einer DK-Zahl der Haupttafel mit einer speziellen ErgänzungszahlZahl aus Haupttafel [Zeichen für Typ der Ergänzungszahl] Ergänzungszahl für markierten BereichBeispiel: Fälschungen von Mosaiken (siehe oben!)Mosaik 738.5Zeichen Ergänzungszahl.0 ... spezielle ErgänzungszahlFälschungen 61 (darf im Bereich 7 eingesetzt werden)also: 738.5.061

HHU Düsseldorf Wissensrepräsentation 89

Klassifikationssysteme

Fallbeispiel: DK-Suche beim Katalog der ETH Zürich: Index

Suchargument

HHU Düsseldorf Wissensrepräsentation 90

Klassifikationssysteme

DK-Suche beim Katalog der ETH Zürich: Katalogkarte

HHU Düsseldorf Wissensrepräsentation 91

Klassifikationssysteme

Yahoo!• Gründer und derzeitige

CEOs: Jerry Yang und David Filo

• entstanden 1993 aus einem Verzeichnis von Bookmarks

• Yahoo: (unsympathische) Wesen aus „Gullivers Reisen“; Akronym für „yet another hierarchical officious oracle“ oder auch schlicht Ausruf

HHU Düsseldorf Wissensrepräsentation 92

Klassifikationssysteme

Polydimensionale Ordnung

@: Wechsel der Begriffsleiter(unechte) Polyhierarchie

HHU Düsseldorf Wissensrepräsentation 93

Klassifikationssysteme

Zuordnung von mehrerenKlassen zu einer

Website

HHU Düsseldorf Wissensrepräsentation 94

Klassifikationssysteme

88malFrauen alsBenennung

fürunterschied-

licheKlassen

Klassen-bezeichnun-

gen beiYahoo! sind

synkate-gorematisch.

HHU Düsseldorf Wissensrepräsentation 95

Yahoo's Main Menu

1 Recreation 16 Restaurants

6 URL 8 Tournaments

9 Boating

21 Joe's Pizza To Go

22 "To Go" Delivery Services

7 Chess

5 URL

20 Food To Go

4 Go

3 Board Games

2 Games

„Game$“„Go$“

Kein direkter Treffer

Yahoo ! - Baumstruktur (Ausschnitt / fingiertes Beispiel: Suchenach: „The Game of Go“) - Patent US 5991756

HHU Düsseldorf Wissensrepräsentation 96

Klassifikationssysteme

Yahoo! Suchalgorithmus• bei Phrase: Anzeige der direkten Treffer (Categories [d.h.:

Klassenbenennungen], Sites, News)• sonst: Elimination von Stoppwörtern• automatische Rechtsfragmentierung (stets: SUCHTERM*)• bei genau 1 Suchwort sowie bei mit ODER verknüpften

Suchwörtern: Anzeige der direkten Treffer• bei mehreren mit UND verknüpften Suchwörtern:• 1. Anzeige der direkten Treffer• 2. Anzeige der indirekten Treffer (min. 1 Suchwort direkter

Treffer, anderes Suchwort Unterbegriff eines direkten Treffers) - Aufhebung der Probleme mit den Synkate-goremata

HHU Düsseldorf Wissensrepräsentation 97

Dokumenten-speicher

1 9 - Recreation Desc. Fun Cat.2 8 1 Games Desc. - Cat.3 8 2 Board Games Desc. - Cat.4 6 3 Go Desc. - Cat.5 - 4 Title / URL Desc. - Site6 - 4 Title / URL Desc. - Site7 8 3 Chess Desc. - Cat.8 ... 7 Tournements Desc. Contests Cat.9 ... 1 Boating Desc. Sailing Cat.

...Game: 2, 3, NullGamele: 10,12, NullGander: 39, 67, 102, Null...Go: 4, 20, 21, 22, ...Gobble: 82, 102, Null...The: Ignore

Wort-index

Such-maschine

The Gameof Go Ausgabeliste

Anfrage

Treffer-liste

AnfrageDoku-ment

Dok. Zeit Intervall der "Kinder"1 xxx 00/00/0000 2-9 -2 xxx 00/00/0000 3-8 -3 xxx 00/00/0000 4-8 -4 xxx 00/00/0000 5-6 -5 xxx 00/00/0000 ∅ 106 xxx 00/00/0000 ∅ 5

Gewichtung

Struktur derIndices

beiYahoo!

PatentUS 5991756

HHU Düsseldorf Wissensrepräsentation 98

Klassifikationssysteme

Klassifikation gewerblicher Schutzrechte

• Patente und Gebrauchsmuster: – Internationale Patentklassifikation (IPC)

• Marken:– Wiener Klassifikation der figürlichen Darstellungen– Nizza Klassifikation der Waren

• Geschmacksmuster:– Locarno Klassifikation der Waren

• alle Klassifikationen gewerblicher Schutzrechte werden von der World Intellectual Property Organization (WIPO) in Genf gepflegt.

unsereBeispiele

HHU Düsseldorf Wissensrepräsentation 99

Klassifikationssysteme

Internationale Patentklassifikation / International Patent Classification (IPC)

• nach dem Straßburger Abkommen über die IPC (1971; in Kraft getreten 1975) einheitliche Klassierung aller Patentschriften weltweit

• neben den Patentämtern halten sich alle Datenbank-produzenten beim Indexieren an die IPC

• Gegenstandsbereich: alles, was patentiert werden kann, d.h. alle technischen Gegenstände (Anm.: Dieser Bereich kann sich von Zeit zu Zeit wandeln; z.Z. etwa bei den Software-patenten)

• derzeit (7.Aufl.) rund 69.000 Klassen

HHU Düsseldorf Wissensrepräsentation 100

Klassifikationssysteme

IPC - Lexikon in 8 Sektionen:– A Täglicher Lebensbedarf (ca. 7.500 Gruppen)– B Arbeitsverfahren; Transportieren (16.500)– C Chemie; Hüttenwesen (13.500)– D Textilien; Papier (3.000)– E Bauwesen; Erdbohren; Bergbau (3.000)– F Maschinenbau; Beleuchtung; Heizung;

Waffen; Sprengen (8.000)– G Physik (7.000)– H Elektrotechnik (7.000)

HHU Düsseldorf Wissensrepräsentation 101

Klassifikationssysteme

Struktur der IPCSektion: 1 Stelle (z.B. B)- Klasse: 2 weitere Stellen (z.B. B64)- Unterklasse: 1 Stelle (z.B. B64C)- Gruppen: 3 Stellen (z.B. B64C 025)- Hauptgruppe: 2 Stellen stets 00 (z.B. B64C 025/00)- Untergruppe: i.d.R 2 Stellen (nicht 00), u.U. bis zu

4 Stellen (z.B. B64C 025/02)• bis zur Gruppenebene: Notationen strukturabbildend hierarchisch• Untergruppenebene: Notationen sequentiell

HHU Düsseldorf Wissensrepräsentation 102

Klassifikationssysteme

B Arbeitsverfahren; TransportierenB64 Luftfahrzeuge; Flugwesen; RaumfahrtB64C Flugzeuge; Hubschrauber; Drehflügelflugz.B64C 025 --B64C 025/00 Start- bzw. LandegestelleB64C 025/02 . FahrgestelleB64C 025/08 .. nicht fest angeordnet, z.B. abwerfbarB64C 025/10 ... einfahrbar, klappbar oder dgl.B64C 025/18 .... BetätigungsmittelB64C 025/26 ..... Steuerung oder Verriegelung dafürB64C 025/30 ...... Notbetätigung

HHU Düsseldorf Wissensrepräsentation 103

Klassifikationssysteme

Hinweise– allgemeine Querverweise

Beispiel: H05B 3/03 Widerstandsheizung / Elektroden (elektrothermische Behandlung von Erzen C22B 4/00)

– Vorrangregel (falls ein Gegenstand an mehreren Stellen klassiert werden kann, aber nur an einer Stelle klassiert werden sollte) Beispiel: H05B 3/40 Heizelemente ... (3/62, 3/68, 3/78 haben Vorrang)

– Orientierungsverweis (Hinweis auf verwandte Gegenstände)

HHU Düsseldorf Wissensrepräsentation 104

Klassifikationssysteme

Hybrid-System– Hybrid-Systeme: an manchen Stellen der IPC sind Index-Codes

vorgesehen, die nur in Verbindung mit (dort definierten) anderenNotationen zu verwenden sind (statt des Schrägstriches hier: Doppelpunkt). Beispiel: B62D (Motorfahrzeuge), B62D 101:00 (Fahrgeschwindigkeit)

– analog zu den speziellen Ergänzungstafeln der DK– Verbundene Index-Codes: Darstellung einer Notation und eines

Index-Codes in einer Klammer; Beispiel: (C08F 210/16, 214:06) -Themenkette i.S. syntaktischen Indexierens

– Nicht verbundene Index-Codes: Darstellung des Index-Codes allein als allgemeine Zusatzinformation

– Index-Codes werden ohne Ermessensspielraum vergeben

HHU Düsseldorf Wissensrepräsentation 105

Klassifikationssysteme• Klassierung von Erfindungsgegenständen

– Funktionsorientierung eines Gegenstandes (z.B. Kolben) undAnwendungsorientierung eines Gegenstandes (z.B. Anordnung von Kolben in einem Motor) berücksichtigen!

– System als Ganzes sei Gegenstand: dann auch die nicht trivialen Einzelheiten klassieren (z.B. gesamte Radaufhängung: wenn wichtig, auch die Blattfeder berücksichtigen)!

– Chemische Formeln (insb. organische Verbindungen): alle vollständig identifizierten Verbindungen berücksichtigen!

– soviele IPC-Notationen wie nötig, um alle Ansprüche des Patentes wiederzugeben

– die Notation(en) des Hauptanspruches als erste nennen, dann Nebenansprüche (einige Patentämter klassieren nur den Hauptanspruch)

– X-Notationen: X (an beliebiger Stelle einer Notation) zeigt an, dass die IPC den abzubildenden Gegenstand nicht genau trifft; hier ist Handlungsbedarf für Weiterentwicklungen der IPC

HHU Düsseldorf Wissensrepräsentation 106

Klassifikationssysteme

Fallbeispiel: IPC bei DEPATISnet (DPMA)• Suche in der IPC: mit schwarzem Balken am Rand:

Indexcodes; sonst: Notationen

Nota-tionen

Index-Codes

HHU Düsseldorf Wissensrepräsentation 107

Klassifikationssysteme

Index-codes

IPC in der Version bei DEPATISnet

HHU Düsseldorf Wissensrepräsentation 108

Klassifikationssysteme

Detailsucheder Experten-

maskenach:

Hauptklasse,Nebenklasse,Doppelstrich-

klasse,Indexklasse

möglich

HHU Düsseldorf Wissensrepräsentation 109

Klassifikationssysteme

Anzeige derbibliogra-phischen

undinhalts-

erschließen-den

Informationen

zusätzlich:Volltext(PDF)

HHU Düsseldorf Wissensrepräsentation 110

Klassifikationssysteme

Wiener Klassifikation der figürlichen Darstellungen– Einsatz bei Markendatenbanken zur inhaltlichen

Beschreibung von Bildmarken (wie die „lila Kuh“ von Milka)

– seit 1973 (verabschiedet in Wien) international eingesetzt

– 3 Hierarchieebenen:• 29 Kategorien• 144 Abteilungen• 1.634 Sektionen (in Haupt- und Hilfstafeln)

– formale Graphikelemente (etwa 26: geometrische Figuren oder 29: Farben) und inhaltliche Aspekte (etwa 2: Menschen oder 22: Musikinstrumente)

HHU Düsseldorf Wissensrepräsentation 111

Klassifikationssysteme

Wiener Klassifikation der figürlichen Darstellungen / Ausschnitt– 03 Animals

• 03.01 Quadrupeds (Series I)– 03.01.01. Lions– 03.01.04. Tigers or other large felines– 03.01.06. Cats or other small felines– 03.01.08. Dogs, wolves, foxes

• ... (gekürzt)• Auxiliary Section Associated with Principal Section 3.1.1

– A 03.01.02 Heraldic lions– Auxiliary Section Associated with Principal Section 3.1.1-3.1.15

– A 03.01.17 Animals of Series I standing– A 03.01.24 Animals of Series I stylized

– Klassierungsbeispiel: stilisierter Hund– 03.01.08 / 03.01.24

HHU Düsseldorf Wissensrepräsentation 112

Klassifikationssysteme

Wirtschaftsklassifikationen• Klassifikationen der Amtlichen Statistik

– NACE (Europäische Union)– WZ 93 (Deutschland)– SIC (USA - veraltet)– NAICS (Nordamerika)

• Spezielle Branchenklassifikationen– European Business Classification (Schober)

• Produktklassifikationen– Predicasts Product Codes (Gale Group)– Kompass– Dun & Bradstreet SIC

HHU Düsseldorf Wissensrepräsentation 113

Klassifikationssysteme

NACE• Nomenclature général des activités économiques dans les

Communautés Européens• NACE (Rev. 1) seit 1993 verbindliche Klassifikation der

Wirtschaftszweige in der EU• 4-stellige Notationen; derzeit 640 Klassen• 3 Hierarchieebenen Beispiel

– Abteilung (2 Stellen) 29– Gruppen (1 weitere Stelle) 29.5– Klassen (1 weitere Stelle) 29.56– zusätzlich: Abschnitte (Buchstabennotationen),die

Abteilungen sequentiell zusammenfassen, Bsp.: D für die Abteilungen 15 - 37

HHU Düsseldorf Wissensrepräsentation 114

A Land- und Fortwirtschaft 01, 02B Fischerei und Fischzucht 05C Bergbau und Gewinnung von Steinen und Erden 10 bis 14D Verarbeitendes Gewerbe 15 bis 37E Energie- und Wasserversorgung 40, 41F Baugewerbe 45G Handel, Instandhaltung und Reparatur von Kraftfahr-

zeugen und Gebrauchsgütern 50 bis 52H Gastgewerbe 55I Verkehr und Nachrichtenübermittlung 60 bis 64J Kredit- und Versicherungsgewerbe 65 bis 67K Grundstücks- und Wohungswesen, Vermietung beweglicher

Sachen, Erbringung von Dienstleistungen f. Unternehmen 70 bis 74L Öffentliche Verwaltung, Verteidigung, Sozialversicherung 75M Erziehung und Unterricht 80N Gesundheits-, Veterinär- und Sozialwesen 85O Erbringung von sonstigen öffentlichen und

persönlichen Dienstleistungen 90 bis 93P Private Haushalte 95Q Exterritoriale Organisationen und Körperschaften 99

Klassifikationssysteme

NACE1. Hierarchie-

ebene

HHU Düsseldorf Wissensrepräsentation 115

Klassifikationssysteme

WZ 93• Übernahme der NACE in die deutsche amtliche Statistik ab

1993 als „Klassifikation der Wirtschaftszweige“ (WZ 93)• 5-stelliger Code (die letzte Stelle gilt nur für Deutschland)• 1.700 Klassen• Einsatz bei

– Statistisches Bundesamt, Bürgel, Creditreform, Hoppenstedt, AZ Bertelsmann, Schober

• Achtung: z.T. Klassen ohne Änderung der Definition gegenüber Oberbegriffen

• Beispiel: 35.3 (Luft- und Raumfahrzeugbau)– 35.30 (Luft- und Raumfahrzeugbau (bis hierhin: NACE Rev. 1) - ohne

Informationsgewinn

» 35.30.0 (Luft- und Raumfahrzeugbau (5. Stelle der WZ 93) - wiederum ohne Informationsgewinn

HHU Düsseldorf Wissensrepräsentation 116

Klassifikationssysteme

NACE - WZ 93 / Beispiel: Druckmaschinen• 29 (Maschinenbau)• 29.5 (Herstellung von Maschinen für sonstige

bestimmte Wirtschaftszweige)• 29.56 (Herstellung von Maschinen für bestimmte

Wirtschaftszweige a.n.g.) - bis hierhin: NACE• 29.56.1 (Herstellung von Maschinen für das

Druckgewerbe) - nur für den Gebrauch in Deutschland

HHU Düsseldorf Wissensrepräsentation 117

Klassifikationssysteme

Standard Industrial Classification (SIC)• 1939 - 1997 Klassifikation der Amtlichen Statistik der USA• letzte erschienene Revision: 1987• abgelöst durch NAICS 1997• wird derzeit noch von vielen Informationsproduzenten

eingesetzt, u.a. Information Access Group, Dun & Bradstreet, Hoppenstedt, Schober

• 4-stellige Notationen - rund 1.000 Klassen• hierarchischer Notationsaufbau, 4 Hierarchieebenen• stets mit „0“ auf vier Stellen aufgefüllt

HHU Düsseldorf Wissensrepräsentation 118

Klassifikationssysteme

SIC / Grundstruktur– 0 Landwirtschaft, Forstwirtschaft, Fischerei– 1 Bergbau, Rohstoffe, Hoch- und Tiefbau– 2 Herstellung kurzlebiger Verbrauchsgüter– 3 Herstellung langlebiger Gebrauchsgüter– 4 Transport, Nachrichtentechnik, Versorgungsbetriebe– 5 Groß- und Einzelhandel– 6 Finanzdienstleistungen– 7 (andere) Dienstleistungen– 8 Gesundheit und Bildung– 9 Staat, Regierung

SIC / Beispiel: Druckmaschinen3000 (Herstellung langlebiger Gebrauchsgüter)

3500 (Maschinenbau)3550 (Maschinenbau - Spezialmaschinen)

3555 (Maschinenbau - Druck)

HHU Düsseldorf Wissensrepräsentation 119

Klassifikationssysteme

NAICS / North American Industry Classification System• keine SIC-Revision, sondern neues System

– durchgehend neu: Notationen– aus SIC unverändert übernommen: 422 Klassen– aus SIC revidiert übernommen: 390 Klassen– neue Klassen: 358 Klassen (z.B. „51 Information“)– 6-stelliger Code - 1.170 Klassen– 5 Hierarchieebenen

• Sektoren (2 Stellen) - sequentielle Notationen• Subsektor (1 weitere Stelle) - ab hier hierarchische Notationen• Branchengruppe (1 Stelle)• Branche (1 Stelle) - bis hierhin international (NAFTA-Länder)• Teilbranche (1 Stelle) - landesspezifisch für USA, Kanada,

Mexiko

HHU Düsseldorf Wissensrepräsentation 120

Klassifikationssysteme

• 11 Agriculture, Forestry, Fishing and Hunting

• 21 Mining• 22 Utilities• 23 Construction• 31-33 Manufacturing• 42 Wholesale Trade• 44-45 Retail Trade• 48-49 Transportation and

Warehousing• 51 Information• 52 Finance and Insurance• 53 Real Estate and Rental and

Leasing• 54 Professional, Scientific, and

Technical Services

• 55 Management of Companies and Enterprises

• 56 Administrative and Support and Waste Management and Remediation Services

• 61 Educational Services• 62 Health Care and Social

Assistance• 71 Arts, Entertainment, and

Recreation• 72 Accommodation and Food

Services• 81 Other Services (except Public

Administration)• 92 Public Administration

NAICS. 1. Hierarchieebene

HHU Düsseldorf Wissensrepräsentation 121

Klassifikationssysteme

NAICS• eingesetzt bei:

– Amtlicher Statistik USA, Kanada und Mexiko– Datenbanken der Gale Group (u.a. PROMT)– (einigen) Firmendatenbanken in den USA

• Beispiel: Druckmaschinen– 31 - 33 (Manufacturing)– 333 (Machinery Manufacturing)– 3332 (Industrial Machinery Manufacturing)– 33329 (Other Industrial Machinery Manufacturing)– 333293 (Printing Machinery and Equipment

Manufacturing)

HHU Düsseldorf Wissensrepräsentation 122

Klassifikationssysteme

Spezielle Branchenklassifikation: Schober– „European Business Classification“ (EBC)– rund 10.000 Klassen für Wirtschaftsbranchen und

Wirtschaftsaktivitäten zur Unterstützung der Suche in einer B-to-B-Adressdatenbank

– Beispiele für Klassen der Wirtschaftsaktivitäten• 6679 DIMA Düsseldorf• 5273 INFOBASE Intern. Fachmesse für Kommunikation Frankfurt

– Beispiel Druckmaschinen• 703 Druckmaschinen Hersteller• 2557 Papier- und Druckmaschinen Hersteller

HHU Düsseldorf Wissensrepräsentation 123

Klassifikationssysteme

Produktklassifikation 1: Gale-Codes (Predicasts-Codes)• Erweiterung der SIC auf 7 Stellen• Beispiel: 0174 (Zitrusfrüchte - bis hierhin SIC)

– 0174007 Pampelmusen– 0174012 Zitronen– 0174013 Limonen– 0174015 Apfelsinen– 0174019 Mandarinen– 0174021 Tangelos– 0174022 Temples– 0174024 Orangen, Valencia– 0174099 Zítrusfrüchte, sonstige

• Einsatz: in diversen Gale-Datenbanken

HHU Düsseldorf Wissensrepräsentation 124

Klassifikationssysteme

Produktklassifikation 2: Dun & Bradstreet SIC• Erweiterung der SIC um zwei weitere Hierarchieebenen

(jeweils 2-stellig)• über 18.000 Klassen• Stellen 1 bis 4: SIC• Stellen 5 und 6: Produktgruppe• Stellen 7 und 8: Produkte• wie bei SIC üblich: Auffüllen nach rechts freier Stellen

durch Nullen• Einsatz: (geplant bzw. derzeit in Arbeit): bei der D&B-

Firmendatenbank

HHU Düsseldorf Wissensrepräsentation 125

Klassifikationssysteme

35550000 (Printing Trades Machinery)35550100 (Printing Presses)

35550101 (Presses, Envelope, Printing)35550102 (Presses, Gravure)

35550200 (Printing Plades)35550201 (Plates, Metal: Engravers')35550202 (Plates, Offset)

usw. (gekürzt)35559900 (Printing Trades Machinery, NEC)

35559901 (Bronzing or Dusting Machines for the Printing Trade)usw. (gekürzt)35559906 (Typographic Numbering Machines).

D&B SIC. Beispiel Druckmaschinen

HHU Düsseldorf Wissensrepräsentation 126

Klassifikationssysteme

Produktklassifikation 3: Kompass• Eigenes Produktklassifikationssystem der Kompass-

Firmendatenbanken• Gegenstand: B-to-B Produkte und Dienstleistungen - rund

50.000 Klassen• 3 Hierarchieebenen:

– Branche (2-stellig)– Fachgruppen (weitere 3 Stellen)– Produkte (weitere 2 Stellen)

• auf der Ebene der Fachgruppe zusätzlich: I / E (Import- bzw. Exportaktivitäten einer Firma)

• auf der Ebene der Produkte zusätzlich P / D / S (Produktion, Distribution, Service)

HHU Düsseldorf Wissensrepräsentation 127

Klassifikationssysteme

KompassMeist hierarchisch strukturiert:• 20 (Nahrungs- und Genussmittel)• 20420 (Fische in Konserven und anderen Verpackungen)• 2042052 (Fischfrikadellen, -bällchen und -kuchen in Dosen)

• ... aber mit Ausnahmen:• 20427 (Fische in Konserven und anderen Verpackungen /

Landesspezifische Produkte / Frankreich)• 2042701 (Bouillabaisse in Konserven)

HHU Düsseldorf Wissensrepräsentation 128

Klassifikationssysteme

44 (Maschinen und Anlagen für die Zellstoff-, Papier- und Druckindustrie.Büromaschinen und Anlagen für die elektronische Datenverarbeitung)

44140 (Druckmaschinen und Zubehör / Teil 1)4414001 (Druckmaschinen, Hochdruck, Flachdruckprinzip)4414002 (Druckmaschinen, Hochdruck, Rotationsoffsetprinzip)usw. (gekürzt)4414053 (Druckmaschinen, Heliografieverfahren)

44141 (Druckmaschinen und Zubehör / Teil 2)4414122 (Druckmaschinen, Mehrfarben)4414124 (Druckmaschinen, multifunktional)usw. (gekürzt)4414151 (Zylinder für Druckmaschinen)4414152 (Trockner für Druckmaschinen)usw. (gekürzt)

44149 (Druckmaschinen und Zubehör)4414901 (Andruckpressen, Flexodruck, Anilindruck)

44160 (Spezielle Druckmaschinen und Zubehör)usw. (gekürzt)

Achtungbei 44140

und 44141:

SequentielleNotation!

Kompass.Bsp.: Druck-maschinen

HHU Düsseldorf Wissensrepräsentation 129

Klassifikationssysteme

Kompass-KlassifikationSuchoberfläche

Produkt-Ebene:Produzent / Handel /

Dienstleister

Branchen-Ebene:Import / Export

HHU Düsseldorf Wissensrepräsentation 130

Klassifikationssysteme

Geographische Klassifikationen– finden in diversen Datenbanken (auch Wirtschaftsdaten-

banken) zusätzlich zu anderen Systemen Einsatz– haben ihre Wurzeln teilweise in der amtlichen Statistik

und finden auch dort ihren Einsatz– werden auch als Gebietsbeschreibungen in wissen-

schaftlichen Untersuchungen (etwa Regionalforschung oder Ökonomie) verwendet

– bedeutende Klassifikationssysteme• NUTS• Gale Group Country Codes• sowie Derivate davon

HHU Düsseldorf Wissensrepräsentation 131

Klassifikationssysteme

NUTS. Nomenclature des unités territoriales statistiques – entwickelt von der EU zur

amtlichen Statistik und zur Verwendung bei eigenen Datenbanken (etwa TED)

– hierarchisches System • Landesbezeichnung (2-stellig

mit Buchstaben) • Untereinheit (1-stellig mit

Zahlen; falls mehr als 10 Untereinheiten: zusätzlich mit Buchstaben)

• weitere Untereinheiten (bis zur Kreisebene bzw. bis zu den kreisfreien Städten)

Beispiele:

AT ÖsterreichAT2 SüdösterreichAT22 SteiermarkAT221 Graz

DE DeutschlandDEA Nordrhein-WestfalenDEA2 Regierungsbezirk KölnDEA27 ErftkreisDEA2A Oberbergischer

Kreis

HHU Düsseldorf Wissensrepräsentation 132

Klassifikationssysteme

GALE Group Country Codes– entwickelt von Predicasts, übernommen von Gale– derzeit Industriestandard im Bereich der Wirtschaftsdatenbanken– beinhaltet Weltregionen (0 bis 9), Staatengemeinschaften (soweit

vorhanden) und einzelne Länder– Gliederung

• 0 Internationales• 1 Nordamerika• 2 Mittelamerika• 3 Südamerika• 4 Europa• 5 Karibik• 6 Afrika• 7 Mittlerer Osten• 8 Australien, Ozeanien• 9 Asien

HHU Düsseldorf Wissensrepräsentation 133

Klassifikationssysteme

GALE Group Country Codes– Beispiele:

1 Nordamerika1USA USA gesamt1U9 Staaten der Westküste1U9CA KalifornienAchtung: Suchen nach USA gesamt und ihrer Staaten in der Form: 1U*

4 Europa4EU Europäische Union4EUGE Deutschland

Hier nicht strukturabbildendhierarchische Notation

HHU Düsseldorf Wissensrepräsentation 134

Klassifikationssysteme

Derivate der GALE Group Country Codes• da die Gale CC nur bis zur Länderebene reichen, gibt es

Erweiterungen• Beispiel: Ländercode der ifo Literaturdatenbank für Deutschland• bis Länderebene: wie Gale CC (also für Deutschland: 4EUGE)• Bundesländergruppe (1-stellig, N für neue Länder, A für alte

Bundesländer)• Bundesland (3-stellig, Buchstabencodes)• Kreise, Städte (Autokennzeichen)• Beispiel:

– 4EUGE Deutschland– 4EUGEA alte Bundesländer– 4EUGEABAY Bayern– 4EUGEABAYFFB Landkreis Fürstenfeldbruck– 4EUGEABAYFS Landkreis Freising

Bei letzter Hierarchie-ebene: sequentielle

Notation

HHU Düsseldorf Wissensrepräsentation 135

KlassifikationssystemeMedizinklassifikation: International Statistical Classification of Diseases – Ausgabe 10 (ICD-10)

• Auf internationaler Ebene erstellt von der World Health Organization (WHO)

• In Deutschland gepflegt von DIMDI (Köln).• Einsatz:

– Abrechnung im öffentlichen Gesundheitswesen (u.a. Krankenhäusern)

– Abrechnung der niedergelassenen Ärzte– Statistik (u.a. Todesursachenstatistik)

• Haupttafeln mit „Schlüsselnummern“ (Notationen)• Bei den Klassen (i.d.R. bei den Dreistellern): Definitionen• Klassierregeln für die jeweiligen Klassen• Allgemeine Klassierregeln• Zusatzkennzeichen (allgemeine Ergänzungszeichen)

HHU Düsseldorf Wissensrepräsentation 136

Klassifikationssysteme

ICD-10 – Haupttafel in 21 Kapiteln. Beispiele:A00-B99 I. Infektiöse und parasitäre KrankheitenC00-D48 II. NeubildungenD50-D89 III. Krankheiten des BlutesE00-E90 IV. Ernährungs- und StoffwechselkrankheitenF00-F99 V. Psychische und VerhaltensstörungenG00-G99 VI. Krankheiten des NervensystemsH00-H59 VII. AugenkrankheitenH60-H95 VIII. Ohrenkrankheiten...S00-T98 XIX. Verletzungen, Vergiftungen und andere Folgen

äußerer UrsachenV01-Y98 XX. Äußere Ursachen von Morbidität und MortalitätZ00-Z99 XXI. Faktoren, die den Gesundheitszustand beeinflussen

und zur Inanspruchnahme des Gesundheitswesens führen

HHU Düsseldorf Wissensrepräsentation 137

Klassifikationssysteme

ICD-10. Beispiel Haupttafel: Verletzung nach FahrradunfallV01-Y98 Äußere Ursachen von Morbidität und Mortalität

V01-X59 UnfälleV01-V99 Transportmittelunfälle

V01-V09 Fußgänger bei Transportmittelunfall verletztV10-V19 Benutzer eines Fahrrades bei Transportmittel-

unfall verletztV10 Benutzer eines Fahrrades bei Zusammenstoß mit

Fußgänger oder Tier verletztV11 Benutzer eines Fahrrades bei Zusammenstoß mit

einem anderen Fahrrad verletzt...V18 Benutzer eines Fahrrades bei Transportmittelunfall

ohne Zusammenstoß verletztjeweils: 4. Stelle: besondere Ergänzungszahl

HHU Düsseldorf Wissensrepräsentation 138

Klassifikationssysteme

ICD-10. Beispiel Haupttafel: Fahrradunfall

Besondere Ergänzungszahlen bei V10-V18:.0 Fahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt.1 Mitfahrer bei Transportmittelunfall außerhalb des Verkehrs verletzt....3 Person beim Auf- und Absteigen verletzt...

Notation einer Verletzung durch Stürzen beim Aufsteigen auf ein Fahrrad (ohne Zusammenstoß)V18.3

HHU Düsseldorf Wissensrepräsentation 139

Klassifikationssysteme

ICD-10. Allgemeine Klassierregeln(1) Kreuz-Stern-System

– Mit einem Kreuz (+) versehene Klassen bedürfen einer Ergänzung– Mit einem Stern (*) versehene Klassen dürfen nur an eine Kreuz-

Klasse angebunden werden.– Beispiel: diabetische Retinopathie bei Typ I-Diabetes

• E10 Primär insulinabhängiger Diabetes mellitus• .3+ (besondere Ergänzungszahl) mit Augenkomplikationen • H36.0* Retinopathia diabetica• Also: E10.3+H36.0*

(2) Optionale Klassen– Mit einem Ausrufezeichen (!) versehene Klassen dürfen an eine

andere Klasse angebunden werden.Beispiel: Z51.0! Strahlentherapie-Sitzung

HHU Düsseldorf Wissensrepräsentation 140

Klassifikationssysteme

ICD-10– Zusatzkennzeichen (allgemeine

Ergänzungsnotationen)– Es sind max. 2 (der 6) Zusatzkennzeichen hinter

einer Notation zugelassen– R rechts– L links– B beidseits– V Verdachtsdiagnose– Z (symptomloser) Zustand nach der

betreffenden Diagnose– A ausgeschlossene Diagnose

HHU Düsseldorf Wissensrepräsentation 141

Klassifikationssysteme

ICD-10Diagnosethesaurus

– Register zur ICD– rund 60.000 Einträge

HHU Düsseldorf Wissensrepräsentation 142

Klassifikationssysteme

ICD-10 bei DIMDI

HHU Düsseldorf Wissensrepräsentation 143

Klassifikationssysteme

Klassifikationen. Fazit• Klassifikationssysteme spielen eine nicht umgehbare Rolle

in der Informationswirtschaft• Universalklassifikationen: Nutzung vorwiegend in großen

Bibliotheken• WWW: Wenn im Web überhaupt intellektuell ausgewertet

wird, dann klassifikatorisch• Gewerbliche Schutzrechte (Patente, Gebrauchsmuster,

Marken, Geschmacksmuster): international eingesetzte und akzeptierte Systeme. Die professionelle Suche nach Schutzrechtsdokumente geht ausschließlich über die jeweiligen Klassifikationssysteme.

• Wirtschaft: in vielen Wirtschaftsdatenbanken werden Branchen- oder Produktklassifikationen eingesetzt

• Medizin: keine Abrechnung, keine Statistik ohne ICD

HHU Düsseldorf Wissensrepräsentation 144

Klassifikationssysteme

Klassifikationen. Fazit• Es gibt einige Klassifikationssysteme, die sich hersteller-

übergreifend durchgesetzt haben:– Wirtschaft

• in Europa: NACE• in Nordamerika: NAICS• weltweit (obwohl veraltet): SIC

– Gewerbliche Schutzrechte• Patente, Gebrauchsmuster: IPC• Marken: Wiener Klassifikation, Nizza Klassifikation

– Länder• Gale CC • NUTS

– Medizin: ICD

HHU Düsseldorf Wissensrepräsentation 145

Klassifikationssysteme

Klassifikationen. Fazit• Aus den „Standardsystemen“ werden Derivate abgeleitet:

• WZ 93 aus NACE• Gale Product-Codes aus SIC• D&B-Product-Codes aus SIC• ifo Ländercode aus Gale CC

• zusätzlich existieren herstellerspezifische Klassifikations-systeme (Schobers EBC, Kompass, ...)

• Eigene, selbsterstellte Klassifikationen eignen sich zum Einsatz in unternehmensweiten Netzen (Intranets, Enterprise Information Portals) sowie zur Strukturierung von Katalogen (im E-Commerce)

HHU Düsseldorf Wissensrepräsentation 146

Klassifikationssysteme

Vorteile von Klassifikationen (egal, ob bei professionellen Datenbanken oder in [irgendeinem] Unternehmen)– übersichtliche Navigation durch die Hierarchieebenen– sprachunabhängiges System (ggf. Nachteil: Notationen sind

für Laien kaum recherchierbar; Ausgleich durch natürlichsprachige Oberflächen)

– vielfältige Ausdrucksmöglichkeiten durch Trennung von Haupttafeln und Ergänzungstafeln

– einfaches hierarchisches Retrieval durch Truncation (bei strukturabbildend hierarchischen Notationen)

HHU Düsseldorf Wissensrepräsentation 147

Klassifikationssysteme

Nachteile von Klassifikationen– Die Struktur ist zwar nach unten hin stetig erweiterbar, aber

nur sehr schwer im Grundaufbau zu verändern. Beispiele für Probleme:

• DK: bildet die Wissenschaftsstruktur des späten 19.Jahrhunderts ab

• SIC: musste als Ganzes abgelöst werden, da die neueren wirtschaftlichen Entwicklungen (etwa: Aufkommen der Dienstleistungen) nicht integriert werden konnten

– Bei den Relationen dominiert eindeutig die Hierarchierelation (in der monohierarchischen Variante). Alle Gegenstände, die sich „natürlich“ monohierarchisch gliedern, können gut klassifikatorisch erfasst werden; alle anderen nicht.

HHU Düsseldorf Wissensrepräsentation 148

Klassifikationssysteme

Klassifikationen ... und was haben Informationswissenschaftler damit zu tun?– Recherchen in professionellen Datenbanken, die

Klassifikationen einsetzen– Mitarbeit bei diesen Informationsanbietern – Aufbau und Pflege von Klassifikationssystemen für Intranets

und Kataloge bei [irgendwelchen] Unternehmen– Klassierung von Dokumenten (oder Organisation der

Klassierung)

HHU Düsseldorf Wissensrepräsentation 149

Dokumentationssprachen II:Thesauri

HHU Düsseldorf Wissensrepräsentation 150

Thesauri

ThesaurusEinsatzgebiete

– in eng umgrenzten Fachgebieten• Terminologie eines Faches• Terminologie eines Unternehmens

– in Gebieten, wo fachliches Wissen durch ein (von den betreffenden Fachleuten akzeptiertes) Begriffssystem repräsentiert werden kann

– wenn ausschließlich mit Begriffen der natürlichen Sprache gearbeitet werden soll

– wenn die Struktur des Gebietes über eine monohierarchische Ordnung hinausgeht

– Anmerkung: Klassifikation und Thesaurus schließen sich nicht gegenseitig aus. Geschickt eingesetzt, ergänzen sie sich.

HHU Düsseldorf Wissensrepräsentation 151

Thesauri

„Thesaurus“ nach DIN 1463/1„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“

• Merkmale eines Thesaurus:• 1. Terminologische Kontrolle durch natürlichsprachige

DESKRIPTOREN• 2. Beziehungen zwischen den Begriffen bzw. Bezeichnungen

durch (zweistellige) RELATIONEN• Thesaurus-Software (Freeware, nicht optimal, aber zum Üben

geeignet):• Thew33 von Tim Craven (Univ. of Western Ontario)• http://publish.uwo.ca/~craven/freeware.htm

HHU Düsseldorf Wissensrepräsentation 152

Thesauri

Terminologische Kontrolle– durch Deskriptoren (Vorzugsbenennungen)– durch Nicht-Deskriptoren (Verweise auf Deskriptoren)– der Deskriptor und die zugehörigen Nicht-Deskriptoren sind

entweder Synonyme (Bsp.: Heirat, Eheschließung) oder Quasi-Synonyme, je nach Zweck des Thesaurus als synonym „erklärte“ Bezeichnungen (Bsp.: Retrieval, Recherche in einem Wirtschaftsthesaurus)

– sowohl beim Indexieren als auch bei Recherchieren wird ausschließlich mit Deskriptoren gearbeitet werden

– eine Recherche mit einem Nicht-Deskriptor im CT-Feld einer professionellen Datenbank führt stets zu null Treffern

HHU Düsseldorf Wissensrepräsentation 153

ThesauriDeskriptoren

– sollten in der Fachliteratur verwendete Terminologie widerspiegeln

– Einwort- wie Mehrwort-Deskriptoren sind möglich– Mehrwort-Deskriptoren in der natürlichen Wortfolge

belassen– bei Mehrwortbegriffen, die in ihre Aspekte zerlegt

werden sollen: Zerlegungskontrolle• morphologische Zerlegung (Bsp.: Blumengesteck

Blume, Gesteck; falsches Bsp.: Eisenbahn Eisen, Bahn)• semantische Zerlegung (Bsp.: Eisenbahn: Schienenbahn,

Überlandverkehr)– zerlegen? (Postkoordination)

• nur dann, wenn die Kombination der Einzelbegriffe den korrekten Mehrwortbegriff ergibt

• nicht, wenn eine hohe begriffliche Spezifizierung angestrebt wird

HHU Düsseldorf Wissensrepräsentation 154

Thesauri

Deskriptoren – nicht zerlegen? (Präkombination)

• dann, wenn die Einzelbegriffe eine andere Bedeutung als die Präkombination haben (Bsp.: Schlüsselbein, Öffentlichkeitsarbeit)

• wenn ballastarme Suche ermöglicht werden soll• ggf. Einsatz eines Kombinationsverweises (Bsp.:

Bibliotheksstatistik benutze Kombination Statistik, Bibliothek

– Wortarten• vorzugsweise Substantive; Verben in substantivierter Form• Adjektive an Substantiv gebunden (Bsp.: Internationale

Beziehungen)• Substantiv im Nominativ Singular; Ausnahmen bei nicht

gebräuchlichen Singularformen (Bsp.: Eltern) oder bei Bedeutungsunterschied Singular – Plural (Bsp.: Kosten)

• Abkürzungen bzw. Akronyme nur bei Bekanntheit (Bsp.: UKW)

HHU Düsseldorf Wissensrepräsentation 155

ThesauriDeskriptoren

– Homonyme / Polyseme:• Unterscheidung durch Klammerzusatz als klärendes Element

Bsp. Homonym: Kiefer [Knochen] – Kiefer [Nadelholz] Bsp. Polysem: Knie [Gelenk] – Knie [Werkstück]

• Unterscheidung durch Verweise von homonymen Nicht-Deskriptoren auf eindeutige Deskriptoren Bsp.: Eiweiß benutze Synonym Eiklar oder Protein

– Deskriptorsatz• Bezeichnung des Deskriptors• Auflistung aller Nicht-Deskriptoren• Auflistung aller Deskriptoren, mit denen der Deskriptor in direkter

Beziehung steht• Erläuterung zum Gebrauch (nicht zwingend) – Abk.: H (Hinweis) oder

SN (Scope Note)• Definition (nicht zwingend)• Übersetzungen (nicht zwingend)• Konkordanzen zu anderen Erschließungssystemen (nicht zwingend)

HHU Düsseldorf Wissensrepräsentation 156

Thesauri

Nicht-Deskriptoren – verweisen auf „ihren“ Deskriptor– alle Synonyme des Deskriptors auflisten– alle Quasi-Synonyme und weitere Bezeichnungen auflisten– Varianten:

• Äquivalenz (Synonyme und Quasi-Synonyme) Bsp: Heirat benutze Synonym (BS) Eheschließung

• Begriffskombination (Verweis von einem Mehrwort-Nicht-Deskriptor auf die einzelnen zerlegten Deskriptoren) Bsp.: Lehrerbildungsgesetz benutze Kombination (BK) Lehrer – Bildung – Gesetz

• Bündelung (Verweis auf einen Oberbegriff) Bsp.: Zitrone benutze Oberbegriff (BO) Zitrusfrucht

HHU Düsseldorf Wissensrepräsentation 157

Thesauri

Deskriptorsatz / Beispiel: Standard-Thesaurus WirtschaftHWWA

Deskriptor

Klasse

NACE-Konkordanz

Nicht-Deskriptoren

Oberbegriffe

verwandteBegriffe

Unterbegriffe

Erläuterung

HHU Düsseldorf Wissensrepräsentation 158

Thesauri

Relationen• Äquivalenzrelation

– Synonyme– Quasi-Synonyme– abweichender Sprachgebrauch (Bsp.:

Massenkommunikationsmittel - Massenmedien)– Abkürzung (Bsp.: DNS – Desoxyribonucleinsäure)– gebräuchliche fremdsprachliche Bezeichnung (Bsp.:

Computer – Rechenanlage)– Schreibweise (Bsp.: Fotografie, Photographie)– invertierte Form (Bsp.: verarbeitendes Gewerbe – Gewerbe,

verarbeitendes)

HHU Düsseldorf Wissensrepräsentation 159

Thesauri

Relationen• Äquivalenzrelation

– Nichtdeskriptor – Deskriptor – RelationAbk.: BS (benutze Synonym) – BF (benutzt für)

USE – UF (used for)Bsp.: Auto BF Personenkraftwagen

Personenkraftwagen BS Auto– Nichtdeskriptor – Begriffskombination – Relation

Abk.: BK (benutze Kombination) – KB (benutzt in Kombination)Bsp.: Binnenschifffahrt KB Binnenschifffahrtsstatistik

Schifffahrtsstatistik KB BinnenschifffahrtsstatistikBinnenschifffahrtsstatistik BK Binnenschifffahrt -Schifffahrtsstatistik

HHU Düsseldorf Wissensrepräsentation 160

Thesauri

RelationenHierarchierelation

Abstraktionsrelation Bestandsrelation

logische Sicht gegenständliche Sicht

HHU Düsseldorf Wissensrepräsentation 161

Thesauri

Relationen• Hierarchierelation (allgemein)

– Nichtdeskriptor – Deskriptor – Hierarchierelation (Bündelung)Abk.: BO (benutze Oberbegriff) – FU (benutzt für Unterbegriff)Bsp.: Zitrusfrucht FU Zitrone

Zitrone BO Zitrusfrucht– Deskriptor – Deskriptor – Relation (der Normalfall)

Abk.: OB (Oberbegriff) – UB (Unterbegriff)BT (broader term) – NT (narrower term)

Bsp.: Universität OB HochschuleHochschule UB Universität

– Deskriptor – oberes Ende der BegriffsleiterAbk.: TT (Top Term)Bsp.: Universität TT Bildungseinrichtung

HHU Düsseldorf Wissensrepräsentation 162

Thesauri

Relationen• Hierarchierelation. Version 1: Abstraktionsrelation• Der Begriffsinhalt des Unterbegriffs enthält mindestens ein

Merkmal mehr als der Begriffsinhalt des Oberbegriffs.• Ober- und Unterbegriff gehören i.d.R. derselben Dimension an.

Abk.: OA (Oberbegriff Abstraktionsrelation) – UABTG (broader term – generic) – NTG

Bsp.: Meise OA SingvogelSingvogel UA Meise

• Aus logischen Gründen kann es u.U. zwingend sein, Hierarchie-ebenen einzuführen, auch wenn es dazu keine Dokumente gibt (Stützdeskriptoren).

HHU Düsseldorf Wissensrepräsentation 163

Thesauri

• Hierarchierelation. Version 1: Abstraktionsrelation• Stützdeskriptor. Beispiel: Thesaurus Technik und Management

Stützdeskriptoren

HHU Düsseldorf Wissensrepräsentation 164

Thesauri

• Hierarchierelation. Version 1: Abstraktionsrelation• Stützdeskriptor. Beispiel: Thesaurus Technik und Management

Stützdeskriptor

HHU Düsseldorf Wissensrepräsentation 165

Thesauri

Relationen• Hierarchierelation. Version 2: Bestandsrelation• Der übergeordnete Begriff (Holonym) entspricht einem Ganzen,

der untergeordnete Begriff einem Bestandteil dieses Ganzen (Meronym).

• alle Geographika sind BestandsrelationenAbk.: SP (Verbandsbegriff) – TP (Teilbegriff)

BTP (broader term – partitive) – NTPBsp.: Putenkeule SP Truthahn

Truthahn TP PutenkeuleKerpen SP ErftkreisErftkreis TP Kerpen

HHU Düsseldorf Wissensrepräsentation 166

Thesauri

Relationen• Hierarchierelation.

Version 2: Bestandsrelation

• Bestandsrelationen eignen sich gut für graphische Darstellungen

• Beispiel: Hoppenstedt Firmendatenbank

HHU Düsseldorf Wissensrepräsentation 167

Thesauri

Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI

Suchargument:EU sowie alle Mitglieds-

länder

Begriffe einsammeln:

-Deskriptor-alle Unterbegriffe-alle Oberbegriffe

-alle verwandten Begriffe-einzelne Begriffe

HHU Düsseldorf Wissensrepräsentation 168

Thesauri

Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI

ausgewählte Begriffe„Begriffskorb“

nächster Schritt:

Auswahl der Datenbank

HHU Düsseldorf Wissensrepräsentation 169

Thesauri

Thesaurus als Recherchehilfsmittel bei der hierarchischen Suche. Beispiel: STW bei GBI

Die ausgewähltenBegriffe werden

in die Suchmaskeübernommen und

mit dem BooleschenODER verbunden.

HHU Düsseldorf Wissensrepräsentation 170

Thesauri

Relationen• Assoziationsrelation

– nach DIN 1463 sehr allgemeine und unspezifische Relation

– „verwandter“ Begriff– Begriffsbeziehung, die weder hierarchischer noch

äquivalenter Art ist– im Sinne von „siehe auch“ oder „denke auch an“Abk.: VB (verwandter Begriff)

RT (related term)Bsp.: Apfel VB Birne

Birne VB Apfel

HHU Düsseldorf Wissensrepräsentation 171

Thesauri

Multilinguale Thesauri (nach DIN 1463/2)• Deskriptoren: müssen stets in allen Sprachen vorhanden

sein• Nicht-Deskriptoren: es können zusätzlich zu übersetzten

Nicht-Deskriptoren weitere Nicht-Deskriptoren für jede Sprache eingeführt werden

• Hierarchierelation(en): es gibt nur genau EINE hierarchische Struktur– ggf. Stützdeskriptoren verwendet– ggf. neue Fremdworte in Sprache einführen

• Assoziationsrelation: die Strukturen sollten multilingual übereinstimmen, es kann jedoch sprachabhängige Ausnahmen geben

HHU Düsseldorf Wissensrepräsentation 172

Thesauri

Multilinguale Thesauri• Fremdwort in einer Sprache (aufnehmen; ggf. Definition)

Bsp.:deutsch: Teenager englisch: teenagersD: Person zwischen 13 und 19 Jahren

• Wortprägung (wenn nicht als Fremdwort aufnehmbar, dann Übersetzung, ggf. mit Hinweis)Bsp.:französisch: enfant a cle deutsch: SchlüsselkindNE: equivalent du terme allemand„Schlüsselkind“

HHU Düsseldorf Wissensrepräsentation 173

Thesauri

Multilinguale Thesauri• Äquivalenz (problemlose Eins-zu-eins-Übersetzung)

– sprachliche VerwandtschaftBsp.: Physik (dt.) – physics (engl.) – physique (franz.)

– sprachliche Unabhängigkeit; semantische GleichheitBsp.: Amsel (dt.) – blackbirds (engl.) – merle (franz.)

– gleicher oder ähnlicher Begriffsumfang, anderer BegriffsinhaltBsp.: alkoholfreies Getränk (dt.) – soft drinks (engl.) – boisson non alcoolisee (franz.)

• Probleme mit der Äquivalenz– Teil-Äquivalenz (engerer oder weiterer Begriffsumfang)

Bsp.: Wissenschaft – scienceLösungsmöglichkeit: einen der Terme als Fremdwort einführenDeskriptorsatz englisch: Wissenschaft; SN: loan term adopted from German; NT scienceDeskriptorsatz deutsch: Wissenschaft; UB Naturwissenschaft

HHU Düsseldorf Wissensrepräsentation 174

Thesauri

Multilinguale Thesauri• Probleme mit der Äquivalenz

– Begriffszerlegung bzw. –kombinationBsp.: skidding (engl.): rutschen und schleudernLösungsmöglichkeit: jeweils parallele Begriffe konstruierenDeskriptorsatz englisch: skidding; NT skidding (forwards), NT skidding (sideways)Deskriptorsatz deutsch: Rutschen/Schleudern; UB Rutschen; UB Schleudern

• Homonym / Polysem sprachübergreifend– Lösung: Sprachkürzel als Homonymzusatz

Bsp.: Gift (de) – poison; Geschenk – gift (en)• International gebräuchliche Abkürzungen

– Lösung: internationale Variante verwenden; nationale Variante als Nicht-Deskriptor

– nur nationale gebräuchliche Abkürzungen vermeiden

HHU Düsseldorf Wissensrepräsentation 175

Thesauri

Multilinguale Thesauri. Beispiel: Thesaurus Technik und Management

Zielsprache deutschWörterbücher dt. – engl. und

engl. - dt.

HHU Düsseldorf Wissensrepräsentation 176

Thesauri

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus

Zielsprache englischWörterbücher engl. – franz. –

span.

Beispiel

HHU Düsseldorf Wissensrepräsentation 177

Thesauri

Multilinguale Thesauri. Beispiel: UNESCO Thesaurus

DeskriptorsatzAbk.: MT: Micro-ThesaurusFR: Deskriptor französisch

SP: Deskriptor spanisch

HHU Düsseldorf Wissensrepräsentation 178

Thesauri

Relationen im Thesaurus, die über den DIN-Thesaurus hinausgehen

• (Quasi-)Synonymie-Relation zwischen Deskriptoren– Quelle: „Regeln für den Schlagwortkatalog“ (RSWK);

„Schlagwortnormdatei“ (SWD)– chronologische Relation (früher – später)

Abk.: Deskriptor(en) des früheren Gegenstandes CS (chronologisch später) Deskriptor(en) des späteren Gegenstandes; umgekehrt: CF (chronologisch früher)

– bei den Deskriptoren als Hinweis den Zeitraum angeben!Bsp.: Sindorf. H: eigenständige Gemeinde bis 31.12.1974

Kerpen-Sindorf. H: Ortsteil von Kerpen ab 1.1.1975

HHU Düsseldorf Wissensrepräsentation 179

Thesauri

• chronologische Relation Bsp. (eineindeutige Relation): Sindorf CS Kerpen-SindorfKerpen-Sindorf CF SindorfBsp.: (einmehrdeutige Relation):Garmisch CS Garmisch-PartenkirchenPartenkirchen CS Garmisch-PartenkirchenGarmisch-Partenkirchen CF Garmisch

CF Partenkirchen– Die chronologische Relation kann u.U. über mehrere Schritte

laufen.Bsp.: Chemnitz CF Karl-Marx-Stadt

Karl-Marx-Stadt CF Chemnitz [vor 1953]

HHU Düsseldorf Wissensrepräsentation 180

Thesauri

weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Generik (analog zur Abstraktionsrelation des DIN-Thesaurus)

Abk.: weiterer/engerer Begriff: WB – EBBsp.: vegetal products EB coconuts

coconuts WB vegetal products– Nützlichkeit

Abk.: nützlich für (NF) – profitiert von (PV)Bsp.: tree planting NF water balance regulation

water balance regulation PV tree planting– Schädlichkeit

Abk.: schädlich für (SF) – wird beeinträchtigt von (WG)Bsp.: overfertilization SF biotopes

biotopes WG overfertilization

HHU Düsseldorf Wissensrepräsentation 181

Thesauri

weitere Relationen (Vorschlag: Winfried Schmitz-Esser für die EXPO 2000) – Partition 1 (dinglich, gedanklich, ideell)

Abk.: ist Bestandteil von (BV) – setzt sich zusammen aus (BA)

Bsp.: booster BV missilemissile BA booster

– Partition 2 (geographisch, topographisch, administrativ)Abk.: ist Teil von (TV) – besteht aus den Teilen (BT)Bsp.: South America TV Latin America

Latin American BT South America

Winfried Schmitz-Esser: EXPO – INFO 2000. Visuelles Besucherinformationssystem für Weltausstellungen. –Berlin [u.a.]: Springer, 2000.

HHU Düsseldorf Wissensrepräsentation 182

Thesauri

Allgemeine Thesaurusstruktur

Deskriptor 1 inSprache 1

Deskriptor 1 inSprache i

Deskriptor 1 inSprache n

Deskriptor n inSprache i

Nicht-DeskriptorSprache i

Nicht-DeskriptorSprache i

Nicht-DeskriptorSprache i

Nicht-DeskriptorSprache i

Deskriptor m inSprache i

Deskriptor n inSprache 1

Deskriptor m inSprache 1

Rel 1 Rel 2

Rel 2Rel 1

HHU Düsseldorf Wissensrepräsentation 183

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung eines Deskriptors

Deskriptor

Definition / Hinweise:

text text text text text text text

text text text text text text text

text text text text text text text

text text text text text text text

Graphik oder

Videosequenz

Anzahl der Dokumente: [Zahl]Thema merken zurück zum Themenraum

HHU Düsseldorf Wissensrepräsentation 184

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung eines Deskriptors. Beispiel

Butter

Definition:(grch. „bútyron“: Kuhquark) Speisefett, das aus Kuhmilch gewonnen wird. Beim Buttern in der Molkerei wird der reife Milchrahm mechanisch bearbeitet, bis sich die Fettkügelchen absetzen.

Graphik oder

Videosequenz

Anzahl der Dokumente: 13Thema merken zurück zum Themenraum

HHU Düsseldorf Wissensrepräsentation 185

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung der Relationen (Themenraum)

DeskriptorDeskriptor

DeskriptorDeskriptor

DeskriptorDeskriptor

DeskriptorDeskriptor

DeskriptorDeskriptor DeskriptorDeskriptor

DeskriptorDeskriptor

DeskriptorDeskriptor

DeskriptorDeskriptor

DeskriptorDeskriptor

ist nützlich für

ist schädlich für

ist Bestandteil von

besteht aus den Teilen

HHU Düsseldorf Wissensrepräsentation 186

Thesauri

Visualisierung eines Thesaurus für LaienDarstellung der Relationen (Themenraum). Beispiel

ButterButter

BrotbelagBrotbelag

Cholesterin-spiegel

Cholesterin-spiegel

BratenBraten

HerzHerz MagenMagen

MilchMilch

ButterfettButterfett

MolkeMolke

SalzSalz

ist nützlich für

ist schädlich für

ist Bestandteil von

besteht aus den Teilen

HHU Düsseldorf Wissensrepräsentation 187

Thesauri

• Thesaurusauf- und –ausbau– Thesaurusaufbau

• Sammlung der Fachbegriffe durch (sprach-)empirische Erhebungen; Quellen: Terminologie der Fachliteratur, Experten, potentielle Benutzer

• Zusammenfassen (quasi-)synonymer Bezeichnungen; Auswahl der (vorläufigen) Vorzugsbenennungen

• Überprüfung jeder Vorzugsbenennung („Deskriptor-Kandidat“); Kriterien für Deskriptoren:

– relative Häufigkeit in der Literatur– erwartetes Vorkommen bei Abfragen– Art der Relationen zu bereits akzeptierten Deskriptoren– Authentizität der Terminologie des Fachgebiets– Zweckmäßigkeit für die Erfassung von Inhalt und Umfang des

Begriffs

HHU Düsseldorf Wissensrepräsentation 188

Thesauri

• Thesaurusauf- und –ausbau– Thesaurusausbau (Thesauruspflege)

• Eliminierung von Deskriptoren (sofern diese beim Indexieren nicht oder kaum genutzt werden)

– alle Relationen des Deskriptors werden mit gelöscht– beim Deskriptorsatz vermerken: verwendet bis ... [Datum]– oder: Dokumente neu indexieren

• Differenzierung von Deskriptoren (sofern sehr viele Dokumente darunter fallen)

– neue Deskriptoren als Unterbegriffe in den Thesaurus einführen

– beim Deskriptorsatz vermerken: ohne Unterbegriffe verwendet bis ... [Datum]

– oder: Dokumente neu indexieren• Aufnahme neuer Deskriptoren (beim Aufkommen neuer

Terme im Fachgebiet)– neue Deskriptoren in die Relationen einhängen– beim Deskriptorsatz vermerken: verwendet ab ... [Datum]

HHU Düsseldorf Wissensrepräsentation 189

Thesauri

• Indexieren mittels eines Thesaurus– gleichordnendes Indexieren (nach DIN 31.623/2)

Deskriptoren werden einem Dokument gleichrangig und unstrukturiert zugeordnetBeispiel: Ein Dokument behandle im ersten Teil den Export italienischer Weine nach Deutschland und im zweiten Teil den Import deutscher Autos nach Italien.Indexat:Export; Import; Italien; Deutschland; Wein; Auto

Problem: führt u.U. zu Informationsballast (Bsp.: Suche nach dem Export deutscher Weine mit dem Argument „Wein AND Deutschland AND Export“ findet fälschlich unser Beispiel)

HHU Düsseldorf Wissensrepräsentation 190

Thesauri

• Indexieren mittels eines Thesaurus– syntaktisches Indexieren (nach DIN 31.623/3)

Deskriptoren werden einem Dokument unter Wahrung ihrer thematischen Zusammenhänge zugeordnet (Bildung von thematischen Teilmengen)Indexat:Wein – Export – Italien.Wein – Import – Deutschland.Auto – Export – Deutschland.Auto – Import – Italien.Italien – Deutschland – Außenhandel - Wein.Italien – Deutschland – Außenhandel - Auto.

– Themenketten werden mit Abstandsoperator (etwa: SAME) und nicht mit dem Booleschen UND durchsucht

– Probleme: wird ggf. von den Nutzern nicht verstanden; ist teuer

HHU Düsseldorf Wissensrepräsentation 191

Thesauri

Zwei Themenketten

Syntaktisches Indexieren Beispiel: HWWA

HHU Düsseldorf Wissensrepräsentation 192

Thesauri

• Indexieren mittels eines Thesaurus. Vorgehen– dokumentarische Bezugseinheit (quer)lesen– Verstehen des Dokumenteninhalts – besondere Konzentration auf Terme aus:

• Titel• Einleitung• Zusammenfassung• Autorenabstract• Kapitelüberschriften• Bildtitel• hervorgehobene Textstellen• Sätze, die Schlussfolgerungen enthalten („Reizterme“:

also, somit, ...)• und auf häufig vorkommende Terme

HHU Düsseldorf Wissensrepräsentation 193

Thesauri

• Indexieren– Ermittlung der Terme

• Extraktionsmethode: Entnahme von Termen, die im vorliegenden Text vorkommen (Minimierung der Gefahr von Missverständnissen)

• Additionsmethode: Zuteilung von Termen, die im Text nicht enthalten sind (Achtung: Fehlinterpretationen sind möglich)einzig mögliche Methode bei nicht-textuellen Medien (Bildern, Videosequenzen, ...)

– alle ermittelten Terme notieren

HHU Düsseldorf Wissensrepräsentation 194

Thesauri

• Indexieren– Aufsuchen der ermittelten Terme im Thesaurus

• ermittelter Term ist Deskriptor: Deskriptor übernehmen• ermittelter Term ist Nicht-Deskriptor: zugehörigen

Deskriptor übernehmen• ermittelter Term ist weder Deskriptor noch Nicht-

Deskriptor: Gibt es einen bestpassenden anderen Deskriptor? Wenn ja: diesen übernehmen

• Wenn nein: 1) Term in Vorschlagsliste für die Modifikation des Thesaurus notieren; 2) ggf. Term als „freien Begriff“ dem Dokument zuordnen

• bei jedem Deskriptor den Relationen folgen: gibt es weitere passende Deskriptoren bei Oberbegriffen, Unterbegriffen, verwandten Begriffen usw.?

• bei mehreren Kandidaten in der selben Begriffsleiter: ggf. nur den spezifischeren Deskriptor wählen (muss durch Regelwerk geklärt werden)

HHU Düsseldorf Wissensrepräsentation 195

Thesauri

• Kriterien der Deskriptor-Auswahl: Indexierungstiefe• muss durch Regelwerk eindeutig vorgegeben sein (sonst

würde die Datenbasis uneinheitlich indexiert)• Kriterium 1: Indexierungsbreite. Anzahl der zu vergebenden

Deskriptoren (pro Dokument, pro Seite, pro Zeichen, ...)Bsp.: ifo Literaturdatenbank: ca. 0,5 bis 2 Deskriptoren pro TextseiteBsp.: Bibliodata: ca. 1 bis 2 Schlagwörter pro Buch

• Kriterium 2: Indexierungsspezifität. Trennschärfe der Deskriptoren

– bereits häufig vergebene Deskriptoren sind wenig selektiv– Deskriptoren, die hoch in einer Begriffsleiter stehen, sind u.U.

wenig selektiv– deshalb: wenig spezifische Deskriptoren möglichst mit anderen,

trennscharfen Deskriptoren kombinieren

HHU Düsseldorf Wissensrepräsentation 196

Thesauri

• Indexierungstiefe: Wie das Optimum finden?– zu wenige oder zu unspezifische Deskriptoren:

Informationsverlust– zu viele oder zu spezifische Deskriptoren: Informationsballast– „gute“ Indexierung: Gratwanderung zwischen

Informationsverlust und Informationsballast• Indexierungstiefe und Nutzertyp (Laie vs. Experte)

– Laie sucht Überblick UND Indexierungstiefe niedrig: Rechercheergebnis zufriedenstellend (+)

– Laie sucht Überblick UND Indexierungstiefe hoch: Rechercheergebnis bringt zu viele Treffer (-)

– Experte sucht Spezialwissen UND Indexierungstiefe niedrig: Rechercheergebnis bringt zu wenige Treffer (-)

– Experte sucht Spezialwissen UND Indexierungstiefe hoch: Rechercheergebnis zufriedenstellend (+)

HHU Düsseldorf Wissensrepräsentation 197

Thesauri

• Sicherung gleichbleibender Indexierungsqualität: Indexierungskonsistenz– Inter-Indexer-Konsistenz (Vergleich der Indexate zur

selben DBE verschiedener Indexer)– Intra-Indexer-Konsistenz (Vergleich der Indexate des

selben Indexers zur selben DBE zu unterschiedlichen Zeiten)

– bei der Produktion der Datenbasis ist eine möglichst hohe Indexierungskonsistenz zu gewährleisten

– Methode: in periodischen Abständen (etwa: monatlich) Tests durchführen; die Ergebnisse im Indexierer-Team besprechen; dabei:

• Verbesserungen des Thesaurus (Thesauruspflege)• Verbesserungen des Indexierungshandbuchs

HHU Düsseldorf Wissensrepräsentation 198

Thesauri

• Thesauri. Fazit– In der kommerziellen Informationswirtschaft sind die

Thesauri DIE Methode der Wissensrepräsentation.– Thesauri eignen sich auch für den Einsatz bei Intranets

bzw. Enterprise Information Portals.– Es existieren weltweit weit über 1.000 Thesauri.– Der „Standard“: Der DIN-Thesaurus kennt Synonyme

(Nicht-Deskriptor – Deskriptor-Relation), Hierarchie-relationen (Abstraktions- und Bestandsrelation) sowie die Assoziationsrelation.

– Weitere (2-stellige) Relationen sind problemlos hinzufügbar (etwa: Nützlichkeit – Schädlichkeit).

HHU Düsseldorf Wissensrepräsentation 199

Thesauri

• Thesauri. Fazit– Neben Profi-Oberflächen sollte man Thesaurus-

Oberflächen für Laien herstellen, die diesen die Navigation erleichtern.

– Thesauri werden ständig überarbeitet und dem Stand der Terminologie eines Faches angepasst (Thesaurus-pflege).

– Indexierung geschieht entweder gleichordnend (der Standardfall) oder syntaktisch (durch Markierung der Themenketten).

– Die Qualität der Indexierung einer Datenbasis ist von der Indexierungstiefe (Indexierungsbreite und –spezifität) und von der Indexierungskonsistenz abhängig.

HHU Düsseldorf Wissensrepräsentation 200

Thesauri

• Vorteile von Thesauri– Navigation durch diverse Relationen möglich– Können die Strukturen eines Fachgebiets umfassend

terminologisch abbilden– Arbeiten mit der natürlichen Sprache (ggf. Nachteil:

Beschränkung auf eine Sprache; Ausgleich durch multilinguale Thesauri)

– Sind (relativ) leicht modifizierbar (zumindest leichter als Klassifikationssysteme)

HHU Düsseldorf Wissensrepräsentation 201

Thesauri

• Nachteile von Thesauri– Der Thesaurusaufbau und die Thesauruspflege ist

aufwendig und damit (z.T.: sehr) teuer.– Laien kommen u.U. (insbesondere, wenn keine eigenen

Laien-Oberflächen geschaffen werden) mit Thesauri nicht zurecht.

– Der Einsatz eines Thesaurus erfordert zusätzlich den Einsatz spezifischer Software (etwa: Weiterleitung bei der Eingabe von Nicht-Deskriptoren, Einbeziehen von Deskriptoren aus Relationen in eine Suche)

– Wie bei der Klassifikation bildet ein Thesaurus nur Begriffe und deren Relationen ab, aber nicht die Sachverhalte, die dazu ausgesagt werden (und die das Wissen des Fachbereichs repräsentieren)

HHU Düsseldorf Wissensrepräsentation 202

Textsprachliche Methoden

VolltextspeicherungTitelindexierung

TextwortmethodeZitationsindexierung

HHU Düsseldorf Wissensrepräsentation 203

Textsprachliche Methoden

• Volltextspeicherung– Speicherung des Fließtextes im ASCII-Format (für die Suche)– Speicherung des Originallayouts im PDF-Format (für die

Anzeige)– falls PDF nicht möglich: Fließtext (wenn möglich in Quasi-

Faksimile) und Links zu Graphiken oder Abbildungen– Grundsatz: Volltexte nie „solo“ (ohne intellektuelle Inhalts-

erschließung oder ohne automatische Indexierung) ablegen• Suchfunktionalität bei Volltexten

– einfache Boolesche Retrievalsysteme ungeeignet– Boolesche Systeme mit Abstandsoperatoren

Mindestanforderung– Systeme mit automatischer Indexierung und mit Relevance

Ranking erforderlich

HHU Düsseldorf Wissensrepräsentation 204

Textsprachliche Methoden

• Volltextspeicherung: Warum nicht den Volltext ohne Inhaltserschließung?– Das Vorkommen eines Wortes bedeutet nicht, dass auch

etwas darüber ausgesagt wird („Dieser Artikel sagt nichts über die Zustände in Ungarn aus“ als Treffer einer Suchfrage nach „Ungarn“).

– keinerlei kontrolliertes Vokabular zur Suche vorhanden:• Probleme mit Synonymen und Homonymen• Probleme mit Fremdsprachen• elliptische Formulierungen oder Wortspiele

– Der Volltext solo erfüllt nicht die Anforderung eines Informationsfilters.

– Volltext (ASCII) ist nur zur ergänzenden Suche geeignet.

HHU Düsseldorf Wissensrepräsentation 205

Textsprachliche Methoden

• VolltextspeicherungZusammenspiel von:

Metadaten,ASCII-Volltext,Faksimile (bei

digitalen Dokumenten),Kopien-Service

(bei nicht-digitalenDokumenten)

Beispiel:Konzeption der deutschen Virtuellen Fachbibliotheken

(EconDoc; GetInfo; MedPilot; BSP)

HHU Düsseldorf Wissensrepräsentation 206

Textsprachliche Methoden

• Titelindexierung– Übernahme von Stichworten aus den Sachtiteln von

Büchern oder Artikeln– frühes Verfahren der Wissensrepräsentation; eingesetzt

vor allem bei Registern– Methoden:

• KWIC (Keyword in Context)• KWOC (Keyword out of Context)• KWAC (Keyword and Context)• Permutierte Stichworte• Stichworte in grammatischer Grundform• stets: Elimination von Stoppworten

HHU Düsseldorf Wissensrepräsentation 207

Textsprachliche Methoden

• TitelindexierungBeispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5)

KWICMehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte von Information – Professionalisierung der Informationsarbeit 5

KWOCInformation Mehrwerte von ... – Professionalisierung der Informationsarbeit 5Informationsarbeit Mehrwerte von Information – Professionalisierung der ... 5Mehrwerte ... von Information – Professionalisierung der Informationsarbeit 5Professionalisierung Mehrwerte von Information – ... der Informationsarbeit 5

HHU Düsseldorf Wissensrepräsentation 208

Textsprachliche Methoden

• TitelindexierungBeispiel: Titel: Mehrwerte von Information – Professionalisierung der Informationsarbeit (lfd.Nr.: 5)

KWACInformation Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Informationsarbeit Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Mehrwerte Mehrwerte von Information – Professionalisierung der Informationsarbeit 5Professionalisierung Mehrwerte von Information – Professionalisierung der Informationsarbeit 5

Permutierte Stichworte (mit grammatischer Grundform)Information – Informationsarbeit 5Information – Mehrwert(e) 5Information – Professionalisierung 5Informationsarbeit – Information 5...

HHU Düsseldorf Wissensrepräsentation 209

Textsprachliche Methoden

• Titelindexierung– Vorteile

• schnell zu erstellen• kostengünstig• bei gewissen bibliothekarischen Projekten (etwa

Retrokatalogisierung): einzig praktikable Methode– Nachteile:

• kein kontrolliertes Vokabular (analog zu den Problemen der Volltextspeicherung)

• Informationsverlust– je nach Dokumenttyp (sehr hoch bei Zeitungsartikeln, bei

Patenten und bei Büchern, weniger hoch bei wissen-schaftlichen Artikeln)

– je nach Fach (hoch bei Geisteswissenschaften, weniger hoch bei Naturwissenschaften und Medizin)

– Beispiel: Philosophie / Artikel: Verlust von über 80% im Vergleich zur Textwortmethode

HHU Düsseldorf Wissensrepräsentation 210

Textsprachliche Methoden

• Titelindexierung– die Nachteile überwiegen– als einzige Methode der Wissensrepräsentation nicht

geeignet– trotzdem: in Datenbanken spezielles Feld (bzw.

speziellen Tag bei HTML- bzw. XML-Dokumenten) für die Aufnahme der Titel definieren, das u.U. im Retrieval genutzt werden kann

– KWIC im Volltext bei der Ausgabe nutzen: die Suchargumente im Kontext (hervorgehoben) anzeigen

KWIC bei derTrefferliste von Google

HHU Düsseldorf Wissensrepräsentation 211

Textsprachliche Methoden

Textwortmethodeentwickelt von:

Norbert Henrichs

an der

Forschungsabt. für philosophische Information und Dokumentation der Universität Düsseldorf

(Ende der 60er Jahre des 20. Jahrhunderts)

Ziel:Entwicklung einer

wörterbuchunabhängigenDokumentationsmethode.

ursprünglicher Einsatzbereich:Philosophie

HHU Düsseldorf Wissensrepräsentation 212

Textsprachliche Methoden

• Textwortmethode– Einsatzgebiet

• außerhalb fester Terminologien– als einzige Methode (in Disziplinen mit prinzipiell nicht-fester

Terminologie; etwa: Philosophie)– oder ergänzende Methode (zur Aufnahme von Begriffen, die

ein aktuelle eingesetztes Klassifikationssystem oder ein Thesaurus nicht enthalten)

• wenn noch keine Terminologie vorhanden ist (Textwortmethode bringt empirisches Termmaterial für den Aufbau von Dokumentationssprachen)

– Basis der Wissensabbildung• ausschließlich der konkret vorliegende Text• KEIN vorgegebenes Begriffssystem

HHU Düsseldorf Wissensrepräsentation 213

Textsprachliche Methoden

• Textwortmethode– Methode

• Auswahlverfahren zur Markierung von „Sucheinstiegen“ in Texte (N.B.: „Die Sprache ist das HAUS des Seins“, Heidegger. Texte werden als Häuser verstanden, die durch unterschiedliche Einstiege betreten werden.)

• syntaktisches Indexieren: keine Einzelthemen, sondern thematische Ketten

– Auswahlregeln• Textwörter aus Titeln und Zwischentiteln• häufig vorkommende Textwörter• Textwörter aus textlichen Schlüsselstellen• Bevorzugung von Neologismen• Bevorzugung von informationsreichen (Mehrwort-)

Ausdrücken• je nach Textdichte ca. 0,5 bis 2 Textwörter pro Textseite im

Durchschnitt

HHU Düsseldorf Wissensrepräsentation 214

Textsprachliche Methoden

• Textwortmethode– Varianten

• nur originalsprachig (Henrichs‘ Methode). Problem: Nutzer muss alle einschlägigen Textwörter in allen Textsprachen der Datenbank kennen

• originalsprachig mit zusätzlicher Übersetzung in eine Zielsprache (Methode der Datenbank „Grazer Schule“)

– Indexierung• intellektuell (sehr aufwendig, daher sehr teuer)• Variante eines automatischen Indexierens (bislang noch

nicht erprobt)• ermöglicht stets gewichtetes Retrieval

HHU Düsseldorf Wissensrepräsentation 215

Textsprachliche Methoden

• Textwortmethode– informetrische Verdichtungsmethoden

• innerhalb genau einer Dokumentationseinheit

– Gewichtungswert der Terme

• gesamte Datenbasis oder Teilmenge davon

– Wortfelder

– Häufigkeit und Wichtigkeit von Termen

– semantische Netze von Termen (Themennetze)

Wolfgang G. Stock: Textwortmethode [Norbert Henrichs zum 65.]. – In: Password Nr 7+8 (2000), S. 26-35.

HHU Düsseldorf Wissensrepräsentation 216

Textsprachliche Methoden

• Textwortmethode. Beispiel eines IndexatsMeinong, Alexius: Über Gegenstandstheorie, in: Untersuchungen zur Gegenstandstheorie und Psychologie, hg. v. Alexius Meinong. Leipzig: Johann Ambrosius Barth, 1904, 1-50.Thematischer Rahmen:Sachthemen: Gegenstandstheorie (1-18); Etwas (1); Gegenstand (1-15); Wirkliche, das (2-3); Erkenntnis (2,10); Objektiv (3,10); Sein (4,6-8); Existenz (4-5); Bestand (4); Sosein (5-6); Nichtsein (5); Unabhängigkeit (6); Gegenstand, reiner (7-8); Außersein (7-8); Quasisein (7); Psychologie (9); Erkenntnisgegenstand (10); Objekt (10); Logik, reine (11); Psychologismus (11-12); Erkenntnistheorie (12); Mathematik (13,18); Wissenschaft (14,18); Gegenstandstheorie, allgemeine (15); Gegenstandstheorie, spezielle (15,18); Philosophie (17); Metaphysik (17); Gegebene, das (17); Empirie (17); Apriorische, das (17); Gesamtheit-der-Wissenschaften (18)Namen: Mally, Ernst (6); Husserl, Edmund (11); Höfler, Alois (16)

HHU Düsseldorf Wissensrepräsentation 217

Textsprachliche Methoden

• Textwortmethode mit Übersetzungsrelation. Beispiel eines Indexats

Veber, France: 07. O samoopazovanju kot posebni metodi znanstvenega raziskovanja, in: France Veber: Analiticna Psihologija. - Ljubljana: Kleinmayr & Bamberg, 1924, 39-50.Thematischer Rahmen:

Sachthemen in Originalsprache: Sachthemen in Einheitssprache:samoopazovanje (1-6) Selbstbeobachtung (1-6)metoda (1) Methode (1)dozivljaj (2,5) Erlebnis (2,5)psihologija (3) Psychologie (3)opazovanje (4) Beobachtung (4)pristnost (5) Echtheit (5)dozivljanje (5) Erleben (5)spoznanje (6) Erkenntnis (6)

HHU Düsseldorf Wissensrepräsentation 218

Textsprachliche Methoden

Basis für – Thesaurus-

aufbau – Wissen-

schafts-geschichte

– Nutzung als „einstell-barer“ Thesaurus

Thematischer Zusammenhang zwischen den Begriffen

HHU Düsseldorf Wissensrepräsentation 219

Textsprachliche Methoden

• Textwortmethode– Vorteile

• nimmt die Sprache der Autoren ernst• einsetzbar in Gebieten, in denen Dokumentationssprachen nicht

anwendbar sind• objektive Basis (im Gegensatz zu Dokumentationssprachen, die

die Texte stets durch die Brille ihres Systems sehen); damit relativ interpretationsarm

• Basis für diverse Weiterverarbeitungen (Thesaurusaufbau, Wissenschaftsgeschichte usw.)

– Nachteile• aufwendig und teuer• u.U. mangelhafte Indexierungskonsistenz• Retrieval schwierig (kann jedoch durch Übersetzungen und

durch informetrische Funktionen gemildert werden)

HHU Düsseldorf Wissensrepräsentation 220

Textsprachliche Methoden

Zitationsindexierung(Citation Indexing)entwickelt von:

Eugene Garfield

am

Institute for Scientific Information (Philadelphia; europäische Zentrale: London)

(Mitte/Ende der 50er Jahre des 20. Jahrhunderts)

HHU Düsseldorf Wissensrepräsentation 221

Textsprachliche Methoden

• Einsatzgebiete: überall, wo zitiert wird– Recht: Urteile– Patente– wissenschaftliche Literatur

• Grundidee: Das Notieren von Fußnoten (oder anderen bibliographischen Angaben) gibt über den Inhalt eines wissenschaftlichen Artikels Auskunft

• das Verfahren erfordert nur minimalen intellektuellen Aufwand und ist daher - als Methode der Inhaltserschließung - relativ kostengünstig herzustellen

• das Institute for Scientific Information (ISI) verfügt nahezu über eine Monopolstellung bei der zitatenanalytischen Auswertung wissenschaftlicher Literatur

HHU Düsseldorf Wissensrepräsentation 222

Textsprachliche Methoden

1 Stegmüller, Wolfgang: Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie. -Band 4: Personelle und Statistische Wahrscheinlichkeit. Studienausgabe Teil A. - Berlin; Heidelberg; New York: Springer, 1973, S. 5.

2 ebd., S. 5.3 ebd., S. 5.4 ebd., S. 6.5 ebd., S. 6.6 Haller, Rudolf: Wandlungen der Wissenschaftsauffassung. -

In: Erhard Busek; Wolfgang Mantl; Meinrad Peterlik (Hrsg.): Wissenschaft und Freiheit. - Wien: Verlag für Geschichte und Politik; München: Oldenbourg, 1989, S. 46-58, hier: S. 57.

7 vgl. ebd., S. 55.

Zitat 1

Zitat 2

Mehrfachnennungen werden übergangen

HHU Düsseldorf Wissensrepräsentation 223

Textsprachliche Methoden

Zitierender Artikel

Zitierter Artikel

Informationsübermittlung

„Referenz“

Zeit

Reputation

„Zitation“

HHU Düsseldorf Wissensrepräsentation 224

Textsprachliche Methoden

• Zitationsindexierung beim ISI. Geschichte• Vorgeschichte: Sheppard‘s Citations, Zitationsindex für

Gerichtsurteile (das Vorbild)• 1955: Garfield entwickelt die Idee wissenschaftlicher

Zitationsindices• 1958: Gründung des Institute for Scientific Information (ISI)

in Philadelphia, MA• erstes Produkt des ISI: Current Contents (CC)• 1961: Science Citation Index (SCI)• 1973: Social Sciences Citation Index (SSCI)• 1976: Journal Citation Reports (JCR)• 1978: Arts & Humanities Citation Index (A&HCI)• 1997: Web of Science (WoS)• 2001: Essential Science Indicators (ESI); Web of Knowledge

HHU Düsseldorf Wissensrepräsentation 225

Textsprachliche Methoden

• Zitatenindexierung wissenschaftlicher Zeitschriftenliteratur beim Web of Science:– SCI. Zuwachs: 17.000 Quellenartikel mit 300.000

Zitationen pro Update (d.h. pro Woche); ab 1945– SSCI. Zuwachs: 2.800 Quellenartikel mit 50.000

Zitationen pro Woche; ab 1956– A&HCI. Zuwachs: 2.200 Quellenartikel mit 15.000

Zitationen; ab 1975• zusätzlich via Online-Archive (z.B. DIALOG)

recherchierbar sowie (als Auftragsforschung) beim ISI (Research Services Group)

HHU Düsseldorf Wissensrepräsentation 226

Textsprachliche Methoden

• Kriterien der Zeitschriftenauswahl (derzeit: rund 8.000 ausgewertet)• Kernzeitschriften pro Disziplin (Ausnutzung des Garfieldschen Gesetzes) -

Problem: Gesetz sagt etwas über eine Anzahl von Zeitschriften im Kern aus, welche Titel jeweils darin sind, ändert sich andauernd

• deshalb: intellektuelle Durchsicht neuer (oder neu angebotener) Zeitschriften (ca. 2000 Zeitschriften jährlich, Auswahl von rund 10-12%)

• Auswahlkriterien nach „Basic Standards“– regelmäßige und termingerechte Erscheinungsweise– aussagekräftiger Zeitschriftentitel– aussagekräftige Artikeltitel– vollständige bibliographische Angaben bei Fuß- und Endnoten– englische Artikeltitel (bei nicht-englischer Literatur: Übersetzungen)– englische Abstracts, englische Keywords– Peer Review– internationale Ausrichtung (ggf. auch wichtige regionale Ausrichtung)– Neuigkeit des Inhalts (liegen schon ähnliche Zeitschriften beim ISI vor?)

• Expertenurteile

HHU Düsseldorf Wissensrepräsentation 227

Textsprachliche Methoden

• Retrievalfunktionen bei Zitationsdatenbanken– Rekonstruktion der

Informationsübermittlungen nach „hinten“, d.h. zur zitierten Literatur (via Referenzen)

– Rekonstruktion der Informationsübermittlungen nach „vorne“, d.h. zur zitierenden Literatur (via Zitationen)

– assoziatives Retrieval nach „verwandter“ Literatur (über gemeinsame Referenzen)

– (Zugang zu den Volltexten)

HHU Düsseldorf Wissensrepräsentation 228

Textsprachliche Methoden

Web of ScienceTrefferanzeige

ReferenzenZitationen

HHU Düsseldorf Wissensrepräsentation 229

Textsprachliche Methoden

Web of ScienceAnzeige der Zitationen

HHU Düsseldorf Wissensrepräsentation 230

Textsprachliche Methoden

• Zitationsindexierung. Probleme– Autoren zitieren nicht alle einschlägigen Quellen (u.a.

„Super-Klassiker“)– Autoren zitieren Quellen, die nicht einschlägig sind (u.a.,

weil sie die eigene Meinung stützen)– Autoren haben unterschiedliche Zitationsstile– Selbstzitationen („Inzest“)– Zitationskartell (Selbstzitation einer Gruppe)– Zitationsebenen (nach Blaise Cronin)

• V. Lebenswerk (im Text, zitatenanalytisch nicht erfasst)• IV. Motiv (im Text, zitatenanalytisch nicht erfasst)• III. Werk: Buch, Artikel (zitatenanalytisch sauber fassbar)• II. Kapitel, Abschnitt (wird Ebene III zugeschrieben)• I. Detail (wird Ebene III zugeschrieben)

HHU Düsseldorf Wissensrepräsentation 231

Textsprachliche Methoden

• Zitationsindexierung beim ISI. Probleme– Repräsentativität der selektierten Zeitschriften von

Disziplin zu Disziplin (und von Land zu Land) unterschiedlich

– Titel der Quellenartikel nur in englisch– Zitationen werden (mehr oder minder) einheitlich

abgekürzt; für Laien: „Verstümmelung von Fußnoten“– versteckte Literaturangaben im Text werden nicht immer

(bei SCI und SSCI: gar nicht) berücksichtigt– Publikations- und Zitationsraten des ISI haben große

Bedeutung in der Wissenschaftsforschung und Wissenschaftsevaluation (auch z.B. bei Lehrstuhlbesetzungen); deshalb sehr wichtig: Kenntnis der methodischen Probleme bei der Zitationsindexierung)

HHU Düsseldorf Wissensrepräsentation 232

Textsprachliche Methoden

• Navigation auf den Zitationen bei CrossRef– CrossRef:

Zusammenschluss wichtiger Wissenschafts-verlage mit digitalen Volltexten

– Die Artikel sind –über die Referenzen –miteinander verlinkt

HHU Düsseldorf Wissensrepräsentation 233

Textsprachliche Methoden

• Zitatenindexierung– Vorteile:

• ergänzt durch die besondere Form der Wissensabbildung jede andere Erschließungsmethode

• ermöglicht Navigation über die Referenzen (CrossRef, ISI) und Zitationen (nur ISI)

• ermöglicht assoziatives Retrieval über die Menge gemein-samer Referenzen bei unterschiedlichen Artikeln

– Nachteile:• nur Artikel in Zeitschriften, Proceedings und

Sammelbänden (keine Monographien) als Quellen• bei Referenzen wird u.U. „geschummelt“• praktische Probleme beim ISI: u.a. Auswahl der

Quellenwerke

HHU Düsseldorf Wissensrepräsentation 234

Informationsverdichtung

AbstractsOntologien – Topic Maps

HHU Düsseldorf Wissensrepräsentation 235

Informationsverdichtung

• Inhaltsangaben nach DIN 1426– Formen von Inhaltsangaben:

• Auszug (Inf.verdichtung: nicht geeignet, da selektiv)• Zusammenfassung (Inf.verdichtung: nicht geeignet, da Kenntnis

des Textes vorausgesetzt wird)• Rezension (Inf.verdichtung: nur sehr bedingt geeignet; i.d.R. zu

lang – günstig aber als Zusatzinformation)• Literaturbericht (Inf.verdichtung über mehrere Dokumente,

wegen zu großer Länge nicht geeignet)• Annotation (Inf.verdichtung über Stichworte: nicht geeignet, so

etwas macht man mittels Thesaurus, Klassifikation oder Textwortmethode)

• Inhaltsverzeichnis (Inf.verdichtung: bei Monographien bedingt geeignet)

• Sammelreferat (Inf.verdichtung über mehrere Dokumente; sehr geeignet)

• Kurzreferat / Abstract (Inf.verdichtung eines Dokuments; sehr geeignet)

HHU Düsseldorf Wissensrepräsentation 236

Informationsverdichtung

• Inhaltsangaben nach DIN 1426– Kurzreferat / Abstract (bei genau einer DBE – der Standardfall)

Sammelreferat (bei mehreren DBE):• Vollständigkeit• Genauigkeit• Objektivität• Kürze• Verständlichkeit

– Ziele:• grundlegende Inhalte der Dokumente sollen vom Nutzer schnell

und exakt erkannt werden• die Relevanz der Dokumente für eine Fragestellung muss klar

werden• Nutzer muss entscheiden können, ob der Volltext benötigt wird • letztlich: Fundierung einer ja/nein-Entscheidung, ob der Volltext

eingesehen wird (dem Link gefolgt wird; das Dokument gekauft oder eine Übersetzung in Auftrag gegeben wird)

HHU Düsseldorf Wissensrepräsentation 237

Informationsverdichtung

• Kurzreferat / Abstract – Gliederung nach DIN 1463

• zentrale Aussage des Dokuments• ggf. Dokumenttyp spezifizieren (etwa: Forschungsbericht; Letter)• ggf. Art der Themenbehandlung nennen (Überblick, theoretische

Arbeit, empirische Arbeit)• Hypothesen• Zielsetzung• Bezug zu anderen Arbeiten• Methodik (Untersuchungsgegenstand, -methoden, -techniken)• Ergebnisse und Schlussfolgerungen• Herkunftsvermerk: entweder „Autor“ oder Kürzel des Bearbeiters

– Länge• Kurzmitteilung: max. 200 Zeichen• Zeitschriftenartikel: max. 500 Zeichen• umfangreiche Monographie: max. 1.000 Zeichen

HHU Düsseldorf Wissensrepräsentation 238

Informationsverdichtung

• Kurzreferat / Abstract– Autorenabstract

• Vorteile: – liegt mit der Publikation direkt vor– Autor bringt einschlägiges Fachwissen mit

• Nachteile: – Autor ist nie objektiv– Autorensprache kann durchaus unverständlich sein– Inter-Abstractor-Konsistenz nicht gegeben

– Fremdabstract• Vorteile:

– objektiver (und wahrscheinlich verständlicher) als ein Autorenabstract

– Konsistenz ist trainierbar– dokumentarisch-informationswissenschaftlicher Sachverstand

• Nachteile:– muss erstellt werden (es fallen Kosten an)– Fachwissen ist nicht immer ausreichend vorhanden

HHU Düsseldorf Wissensrepräsentation 239

Informationsverdichtung

• Kurzreferat / Abstract– Sprache

• in Zielsprache(n) der Datenbasis• Vorteil für Nutzer: Kurzüberblick auch über Dokumente in

Sprachen, die der Nutzer nicht beherrscht• deshalb sinnvoll anzuschließen: Übersetzungsservice für

die Volltexte• bei digital vorliegenden Dokumenten: u.U. langt zunächst

eine automatische Übersetzung (Bsp.: AltaVista‘s Babelfish oder Google‘s „translate tool“)

HHU Düsseldorf Wissensrepräsentation 240

Informationsverdichtung

• Kurzreferat / Abstract– NICHT ins Abstract gehören

• Titel (wäre redundant)• Negativa (wäre im Retrieval über den Abstract-Index irreführend)

– Problem: Wahrheitsgehalt• Lösung 1: Referieren ohne Überprüfung des Wahrheitsgehalts

der Vorlage („... Die Quadratur des Kreises arbeitet nach der Methode ...“)

• Lösung 2: Überprüfung des Wahrheitsgehaltes der Vorlage und Markieren von zweifelhaften Aussagen („... Verf. behauptet, die Quadratur des Kreises geschehe nach der Methode ...“)

– Typen des Kurzreferats / Abstracts• indikatives Referat• informatives Referat• analytisches Referat

HHU Düsseldorf Wissensrepräsentation 241

Informationsverdichtung

• Kurzreferat / Abstract: Was wird aufgenommen?– das, worum es in einem Text geht – „aboutness“

• extensionale Aboutness: inhärente Aboutness eines Textes – diese ist Basis für Abstracts

• intensionale Aboutness: Bedeutung (Stellenwert) eines Textes im Kontext anderer Texte – nicht für Abstracts geeignet

– im Sinne der Textlinguistik: „Makrostruktur“ eines Textes

• Entscheidung, was weggelassen wird• Entscheidung, was (aus den speziellen Aussagen)

verallgemeinert wird

HHU Düsseldorf Wissensrepräsentation 242

Informationsverdichtung

• Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion Text mit

Makrostruktur

homomorphe Reduktion paramorphe Reduktion

HHU Düsseldorf Wissensrepräsentation 243

Informationsverdichtung

• Kurzreferat / Abstract: homomorphe versus paramorphe Reduktion– isomorphe Reduktion: die Makrostrukturen von Text

und Abstract sind gleich (etwa: Thema A im Text 25% und Thema B im Text 16% des Umfangs, dann auch im Abstract A 25% und B 16%) – faktisch nicht durchführbar

– homomorphe Reduktion: die Makrostrukturen von Text und Abstract sind ähnlich – bei Abstracts anzustreben

– paramorphe Reduktion: die Makrostrukturen von Text und Abstract sind unterschiedlich (böse gesagt: das Abstract liegt „daneben“ [para, grch. = neben]) – oder u.U. positiv: perspektivisches Abstract

HHU Düsseldorf Wissensrepräsentation 244

Informationsverdichtung

• Texttypologie– erzählende Texte (Geschichten, Geschichte, ...)– prozedurale Texte (Gebrauchsanweisungen, Rezepte, ...)– verhaltensbeeinflussende Texte (politische Reden,

Werbetexte, ...)– erklärende Texte (wissenschaftliche Literatur, „Essays“, ...)

• disziplinspezifische Texte– etwa: naturwissenschaftliche Texte mit i.d.R. straffer und

anerkannter Strukturierung (hieran orientiert sich die deutsche Norm DIN 1463)

– etwa: geisteswissenschaftliche Texte mit i.d.R. eher loser Strukturierung, wobei die Struktur allgemein kaum vorgegeben ist

• Abstracts sind abhängig vom Texttyp der Vorlage und (bei erklärenden Texten) von der Fachdisziplin

HHU Düsseldorf Wissensrepräsentation 245

Informationsverdichtung

• disziplinspezifisches Abstracting. Beispiel• bei technischen Dokumenten (etwa Patenten oder

Gebrauchsmustern): zusätzlich zentral wichtige Zeichnung

HHU Düsseldorf Wissensrepräsentation 246

Informationsverdichtung

• Indikatives Kurzreferat / Abstract

Inhaltsanalyse

referierwürdiges Dokument

referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen

(schraffierte Kästen)

Indikatives Abstract:Wiedergabe der Themen in vollständigen Sätzen

HHU Düsseldorf Wissensrepräsentation 247

Informationsverdichtung

• Indikatives Kurzreferat / Abstract - Beispiel

• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3

• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels im Januar 1993 wird beschrieben. Skizziert wird der in den nächsten sechs Monaten zu erwartende Geschäftsverlauf. Im einzelnen geht es um den Gebrauchsgüterbereich und den Verbrauchs-güterbereich.

HHU Düsseldorf Wissensrepräsentation 248

Informationsverdichtung

• Informatives Kurzreferat / AbstractInhaltsanalyse

referierwürdiges Dokument

referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen

(schraffierte Kästen)

Informatives Abstract:Wiedergabe der Aussagen zu den Themen in vollständigen Sätzen

HHU Düsseldorf Wissensrepräsentation 249

Informationsverdichtung

• Informatives Kurzreferat / Abstract – Beispiel

• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Abstract: Die Geschäftslage des ostdeutschen Einzelhandels hat

sich im Januar 1993 im Vergleich zum Vormonat deutlich verschlechtert. Hinsichtlich des in den nächsten sechs Monaten zu erwartenden Geschäftsverlaufs äußerten sich die Teilnehmer am ifo Konjunkturtest allerdings zuversichtlich. Im Gebrauchs-güterbereich ist die Geschäftslage im Durchschnitt zufrieden-stellend; im Verbrauchsgüterbereich überwiegen negative Urteile.

HHU Düsseldorf Wissensrepräsentation 250

Informationsverdichtung

• Analytisches Kurzreferat / Abstract (Strukturreferat)Inhaltsanalyse

referierwürdiges Dokument

referierwürdige Inhalts-komponenten- Themen (weiße Kästen)- Aussagen zu den Themen

(schraffierte Kästen)

Analytisches Abstract:Wiedergabe der Themen sowie der Aussagen zu den Themenin tabellarischer Form

HHU Düsseldorf Wissensrepräsentation 251

Informationsverdichtung

• Analytisches Kurzreferat / Abstract – Beispiel

• Russ, Hans: Einzelhandel (Ost): Optimistische Geschäftserwartungen

• Quelle: ifo Wirtschaftskonjunktur 45, Nr. 3, März 1993, S. T3• Inhalt:• Gegenstand: Ostdeutscher Einzelhandel im Januar 1993• Methode: ifo Konjunkturtest• Ergebnisse:• --- Geschäftslage: merklich verschlechtert gegenüber Vormonat• --- Erwartungen: zuversichtlich (für die nächsten 6 Monate)• --- Gebrauchsgüter: schwache Umsatzeinbußen, zufriedenstellend• --- Verbrauchsgüter: starke Umsatzeinbußen, 1/3 aller

Testteilnehmer äußern sich unzufrieden

HHU Düsseldorf Wissensrepräsentation 252

Informationsverdichtung

• Kurzreferat / Abstract - Vor- und Nachteile

Vorteile Nachteile

indikativ kostengünstig informationsarmunübersichtlich

informativ informationsreich bei langen Vorlagen kaumdurchzuführenunübersichtlichteuer

analytisch informationsreich sehr teuerstrukturiert nicht für jede Art von

Vorlagen geeignet

HHU Düsseldorf Wissensrepräsentation 253

Informationsverdichtung

• Sammelreferat– Auswahl eines aktuellen („heißen“) Themas – Zusammenstellung der Menge einschlägiger Dokumente– Abstractingprozess wie bei Einzelabstract; jeweils

jedoch bezug auf die Einzeldokumente nehmen (etwa durch End- oder Fußnoten)

– außer Abstracting auch redaktionelle Arbeiten– Länge: 1 bis 3 Seiten– in den Endnoten oder in einer Bibliographie die

bibliographischen Angaben der Dokumente nennen (ggf. dahin verlinken)

– Einsatzgebiet: thematischer Pushdienst

HHU Düsseldorf Wissensrepräsentation 254

Informationsverdichtung

• Sammelreferat – Beispiel: KnowledgeSummaries

HHU Düsseldorf Wissensrepräsentation 255

Informationsverdichtung

• Sammelreferat – Beispiel: KnowledgeSummaries

HHU Düsseldorf Wissensrepräsentation 256

Informationsverdichtung

• Referate. Fazit– Referate ergänzen den Titel einer DE und ermöglichen dem

Nutzer zu entscheiden, ob die DBE benötigt wird (auch bei fremdsprachlicher Literatur: Übersetzung!)

– außer bei sehr kurzen Dokumenten (z.B. Kurzmeldungen bei Zeitungsartikeln) benötigt jede DE ein Abstract

– die Informationsverdichtung geschieht so knapp, aber auch so aussagekräftig wie möglich, die Makrostruktur der Vorlage bleibt(nahezu) erhalten (homomorphe Reduktion)

– Referate sind abhängig vom Texttyp und vom Fach der DBE– Typen der Informationsverdichtung des Inhalts eines Dokuments

sind das indikative, informative (Standard) und das analytische Abstract

– technische Dokumente benötigen u.U. eine Zeichnung zur Unterstützung des Abstracts

– Informationsverdichtung mehrerer Dokumente geschieht über Sammelreferate, eingesetzt als thematischer Pushdienst

HHU Düsseldorf Wissensrepräsentation 257

Informationsverdichtung

• Ontologien– bilden ab: Objekte (durch Begriffe) – analog zu

Dokumentationssprachen und– (zumindest rudimentär) Sachverhalte (durch Sätze in

einer formalisierten Sprache) – analog zu Abstracts– Die „Ontologie“ ist die explizite Spezifizierung eines

(i.d.R. sehr kleinen) Wissensbereiches, so dass dieser in einem Informationssystem abgebildet werden kann.

– Aspekte• Relationen (2-stellig)• Funktionen (n-stellige Relationen)• Feldschema (Kategorien – Top Level Begriffe)• Klassen (Allgemeinbegriffe)• Instanzen (Individualbegriffe)• Axiome (Regeln)

HHU Düsseldorf Wissensrepräsentation 258

Informationsverdichtung

• Ontologien– Ursprung: Forschungen zur Künstlichen Intelligenz (u.a.

von Tom R. Gruber – Stanford Knowledge Systems Lab)– da Ontologien jeweils einen engen

Wissensbereich repräsentieren, sind Konkordanzen zwischen unterschied-lichen Ontologien nötig

– Realisierung in XML– RDF: Resource Description Framework– innerhalb RDF: URI (Universal Resource

Identifier) – benutzt wie eine URL bei Links (enthält die Relationen bzw. Funktionen zwischen den Klassen bzw. Instanzen)

HHU Düsseldorf Wissensrepräsentation 259

Informationsverdichtung

• Ontologien

DasWorld Wide

Web inheutiger

Form

Quelle:W3C

HHU Düsseldorf Wissensrepräsentation 260

Informationsverdichtung

• Ontologien

DasWorld Wide

Webmit

Ontologie

Quelle:W3C

HHU Düsseldorf Wissensrepräsentation 261

Informationsverdichtung

• Ontologien– Abfrageagenten

• übersetzen die Frage des Nutzers• kommunizieren via Ontologien mit Informations-

systemen• geben bei (einfachen) Faktenfragen eine Antwort• bereiten Transaktionen vor• können sich auch auf (intelligente) Geräte richten

– Beispiel 1: Gerätesteuerung• Stereoanlage läuft – Telefon klingelt: wenn Nutzer ans

Telefon geht, schaltet sich die Stereoanlage leiser (Vor.: Stereoanlage ist URI; Regel: Wenn Telefongespräch, dann Anlage leise)

HHU Düsseldorf Wissensrepräsentation 262

Informationsverdichtung

• Ontologien– Beispiel 2: Faktenfrage

• Anfrage: „Welche Arznei hilft gegen Vampirbisse?“• Klassen: in Kategorie Arznei: Arznei, Vampirbissarznei• ... in Kategorie Krankheit: Vampirbiss• ... in Kategorie Nebenwirkungen: Unsterblichkeit• Instanz: Dracuex • Funktion: ... hilft gegen ... mit Nebenwirkung ... - 3-stellige

Relation• Axiom: [Arznei] hilft gegen [Krankheit] mit Nebenwirkung

[Nebenwirkung] • Relation: Vampirbissarznei UB Arznei• Relationen: ... ist ein/e ...; ... hat Nebenwirkung ...• Axiom: Dracuex ist eine Vampirbissarznei• Axiom: Dracuex hat Nebenwirkung Unsterblichkeit• Ausgabe: Dracuex hilft gegen Vampirbisse mit

Nebenwirkung Unsterblichkeit

HHU Düsseldorf Wissensrepräsentation 263

Informationsverdichtung

• Ontologien– Beispiel 3: Transaktionsvorbereitung

• Anfrage: Wo ist das nächstgelegene koreanische Restaurant, das gebratenen Hund führt und in einer halben Stunde für zwei Personen einen Tisch frei hat?

– Einsatzbereiche von Ontologien• Intranet von Unternehmen• Kataloge im E-Commerce• Informationssysteme in (überschaubaren)

Wissensbereichen

• Ontologien ermöglichen eine Variante des „semantischen Web“ (Tim Berners-Lee)

HHU Düsseldorf Wissensrepräsentation 264

Informationsverdichtung• Topic Maps

– Begriffe und (rudimentär) Sachverhalte (wie bei Ontologien)

– Topic Maps sind eigene Dokumente, die auf andere Dokumente verweisen (letztere haben mit den Topic Maps nichts zu tun)

– aufgebaut seit Beginn der 90er Jahre; federführend u.a. Steven R. Newcomb und Michel Biezunski

– geregelt durch ISO 13.250 (1999)– Basistechnik: XML– unter Verwendung von: URI– Einsatzbereiche:

• Aufbaustruktur einer Website• Strukturierung von Informations-

mitteln (etwa Enzyklopädie)• Zugriff auf Dokumentmengen mittels

unterschiedlicher Topic Maps Steve Newcomb

Michel Biezunski

HHU Düsseldorf Wissensrepräsentation 265

Informationsverdichtung

• Topic Maps– Topic: Begriff– Topic Name: ähnlich wie Deskriptor im Thesaurus (mit

Nicht-Deskriptoren als Synonymen)– Scope: Lösung des Homonymproblems (durch Zusatz)– Type: Einordnung eines Topic in eine Kategorie („vom

Typ“)– Association Role: (n-stellige) Relation– Facet: Aussage zu einem Topic– Occurrence: Dokument (u.a. Webseite) – liegt außerhalb

des Topic Map

HHU Düsseldorf Wissensrepräsentation 266

Informationsverdichtung

• Topic Map (Beispiel)

„D-Mark“„Deutsche Mark“

Deutschland

Occurrence

TopicMark

warWährung inRole

Frankreich

Land

vom Typvom Typ

Type

Paris

ist Haupt-Stadt von

GeographieScope

hat10 Mio.

EinwohnerFacet

grenzt an

HHU Düsseldorf Wissensrepräsentation 267

Informationsverdichtung

• Informationsverdichtung durch Ontologien oder Topic Maps– Vorteile

• nicht nur Begriffssysteme, sondern (zumindest rudimentär) Sachverhalte

• „semantisches Retrieval“• zur Wissensabbildung in kleinen (überschaubaren)

Wissensdomänen geeignet– Nachteile

• der Wissensstand einer Zeit wird festgeschrieben (zwar nicht prinzipiell, aber faktisch wegen riesigem Aufwand, das semantische Netz aktuell zu halten)

• sehr aufwendig in der Entwicklung

HHU Düsseldorf Wissensrepräsentation 268

•• ... nach 267 Folien:... nach 267 Folien:–– LehrLehr--/Lernziel: Sie haben Basiswissen über/Lernziel: Sie haben Basiswissen über

•• linguistische und linguistische und informationswissenschaftliche Grundlagen der informationswissenschaftliche Grundlagen der Wissensrepräsentation Wissensrepräsentation

•• Strukturierung von DokumentenStrukturierung von Dokumenten•• KlassifikationssystemeKlassifikationssysteme•• ThesauriThesauri•• textsprachliche Methoden, insb. textsprachliche Methoden, insb.

Textwortmethode und ZitationsindexierungTextwortmethode und Zitationsindexierung•• AbstractsAbstracts•• aktuelle Methoden des „semantischen aktuelle Methoden des „semantischen

Retrieval“ (Ontologien, Topic Retrieval“ (Ontologien, Topic MapsMaps))