15
ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn Klaus Hahn Zentrum für Psychologische Information und Dokumentation ( ZPID ZPID) der Universität Trier Trier Probleme der Integration digitaler Bibliothekssysteme:

Semantische Heterogenität bei datenbankübergreifenden Recherchen

Embed Size (px)

DESCRIPTION

Probleme der Integration digitaler Bibliothekssysteme:. Semantische Heterogenität bei datenbankübergreifenden Recherchen. Klaus Hahn Zentrum für Psychologische Information und Dokumentation ( ZPID ) der Universität Trier. Szenario: Information Retrieval. attention & performance... - PowerPoint PPT Presentation

Citation preview

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Semantische Heterogenitätbei

datenbankübergreifendenRecherchen

Klaus HahnKlaus HahnZentrum für Psychologische Information

und Dokumentation (ZPIDZPID) der Universität TrierTrier

Probleme der Integration digitaler

Bibliothekssysteme:

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Information Retrieval = TextText Retrieval Retrieval

Internet:Internet: retrieval in riesiger + ständig wachsender Textmenge GOOGLEGOOGLE = ca. 2.ooo.ooo.ooo web pages

pro Tag ca. 1oo.ooo.ooo Anfragen

Standard: Volltext-Suche (+Boole)

optimiert durch individuelle HeuristikenHeuristiken

OutputOutput:: unpräzise + umfangreich

TexteTexte ohne Struktur OutputOutput ohne Struktur

keine semantischesemantische Aufbereitung

W3C: Ontology Inference LayerOntology Inference Layer (OIL)

Szenario:Szenario: Information Retrieval Information Retrieval

attention & attention & performance...performance...

GO!

2.620.000

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Information Retrieval:Information Retrieval: Meta-Daten Meta-Daten

NormalNormal-User kann (will?) explorieren

Professioneller Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision

SemantikSemantik effizienteeffiziente Suche FachFach-Datenbanken als Spezialisierung

mit MetaMeta-Daten-Daten Minimum: Titel, Autor, Quelle, etc.

Standards entwickeln sich: DCI, RDF ... Vorteil: ThesaurusThesaurus

erschlosseneerschlossene Datenbasis indiziert über kontrollierteskontrolliertes

Fachvokabular Klassifikation undund Relationen

Fach-Datenbank(Meta-DatenMeta-Daten)

12

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Nachteil: Kenntnis der jeweiligen ErschließungErschließung / Indizierung unumgänglich akzeptabel für eineneinen Thesaurus inakzeptabel für mehreremehrere Datenbanken zur Zeit (traditionell) getrennte DB

nach wissenschaftlicher Disziplin nach Organisation nach Verwertungsprinzip

InternetInternet fördert / provoziert aber unifiziertenunifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert

User sollte nicht erst DatenbankenDatenbanken aufspüren müssen, sondern schnell hochwertige

InformationenInformationen finden können.finden können.

Fach-Datenbank A(Meta-Daten AMeta-Daten A)

Information Retrieval:Information Retrieval: Thesauri Thesauri

Fach-Datenbank B(Meta-Daten BMeta-Daten B)

Fach-Datenbank C(Meta-Daten CMeta-Daten C)

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Fach-Datenbank C(Meta-Daten CMeta-Daten C)

Thesauri im Thesauri im InternetInternet

Fach-Datenbank B(Meta-Daten BMeta-Daten B)

unser Ansatzunser Ansatz: KommunikationKommunikation aller relevanten (oder selegierten) Datenbanken im HintergrundHintergrund AufbereitungAufbereitung der User-Query für

die verschiedenen DBMS (zB. via XML)

dabei dabei semantischer Transfersemantischer Transfer zwischen den verschiedenen Thesauri

Brave New WorldBrave New World: einein Such-Portal und eineeine Anfrage gegen jedejede gewünschte Datenbasis

62

Fach-Datenbank A(Meta-Daten AMeta-Daten A)

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Informations-Verbund Informations-Verbund BSPBSP

Fach-Datenbanken1..n

(Meta-DatenMeta-Daten)

Zentrum für Psychologische Information Zentrum für Psychologische Information und Dokumentation und Dokumentation (ZPID) ca. 170 000 Literaturnachweise ab 1977 ThesaurusThesaurus mit ca. 7.ooo Termen

Universitätsbibliothek Erlangen-NürnbergUniversitätsbibliothek Erlangen-Nürnberg (UB Erlangen)

Universitäts- und Stadtbibliothek KölnUniversitäts- und Stadtbibliothek Köln (USB Köln)

Saarländische Universitäts- und Saarländische Universitäts- und LandesbibliothekLandesbibliothek (SULB)

Deutsches Institut für Internationale Pädagogische ForschungDeutsches Institut für Internationale Pädagogische Forschung (DIPF) ca. 5oo.ooo Literaturnachweise ab 1980 'Thesaurus''Thesaurus' mit ca. 6o.ooo Termen

Informationszentrum SozialwissenschaftenInformationszentrum Sozialwissenschaften (IZ) ca. 250 000 Literaturnachweise ab 1945 ThesaurusThesaurus mit ca. 11.ooo Termen

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

BSP: Heterogene Systeme

Mimik

Angst

Frustration

Psyche

ProblemeProbleme Ähnliche Semantik,

unterschiedliche Benennung Aufgeschlossenheit /

Offenheit Klinikum / Krankenhaus ...

Ähnliche Benennungen, unterschiedliche Semantik Verband, Bank ...

interne Differenzierungen Prä- / Postkoordination

Jugend - Arbeitslosigkeit

Gesicht Gesichtsausdruck Gesichtsmuskeln Gesichtszüge Kommunikationsfertigkeiten Nonverbale Kommunikation

Angst Angststörungen Angstverarbeitung Erfolgsangst Kastrationsangst Leistungsangst Furcht

Frustration Leistungsmotivation Misserfolg

...?

TB

TATC

??

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

BSP: Heterogene Systeme

bloße Term-WeitergabeTerm-Weitergabe an andere Datenbanken wäre inadäquat VerfehlungVerfehlung des wirklichen

Suchziels nutzlose VergrößerungVergrößerung der

Treffermenge analog bei MehrsprachigkeitMehrsprachigkeit

bloßes Übersetzen reicht nicht aus

Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden

Child discipline Cognition Double bind

interaction Mind Perception Sensation

TB

TATC

??

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Heterogenität: Lösungsansätze

IntellektuelleIntellektuelle Verfahren Verfahren Von Fachleuten erstellte Module

("KonkordanzenKonkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden

kostenintensiv in Aufbau und Wartung

Quantitativ-Quantitativ-StatistischeStatistische Verfahren Verfahren Co-Occurence Analysis, Cond. Prob. Neural Networks

umfangreiche Datenbasis notwendig prinzipiell prinzipiell wartungsarm, aber

Datenbasis-abhängig Scheinkorrelationen

intellektuelle Überarbeitung unverzichtbar: semi-automatischesemi-automatische Verfahren

Thesaurus A

Term a1Term a2Term a3.........

Thes. B

Term b1 Term b2 Term b3 ... ...

Konk. ABKonk. AB

RelationRelationRelation...

HiddenLayer

OutputTerm B

InputLayer

Thesa

uru

s A

Thesa

uru

s A

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Heterogenität: Intellektuelle Zuordnung

Broader Term

mensch > menschliche natur

Narrower Term

lernerfolg < lernen

jeweils auch AND / OR - verknüpft

jeweils dreistufige Relevanz

hoch, mittel, gering

SWD relation relevance ZPIDlernen > h wiederlernen lernen > h zustandsabhängiges lernen lernen = h lernenlernfähigkeit = h lernfähigkeit lernprozess ^ h lernenlernschwierigkeit ^ h lernenlernvoraussetzung ^ m lernenmännlichkeit ^ m männliche homosexualität männlichkeit = h männlichkeit meinung > m öffentliche meinung meinungsbildung ^ m öffentliche meinung mensch ^ m menschenrechte mensch > h menschliche naturmotivation >o h extrinsische motivation motivation >o h intrinsische motivation motivation >o h leistungsmotivation

Equivalent ( männlichkeit = männlichkeit )

Related ( lernprozess ^ lernen )

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Heterogenität: Statistik

Thes. A

Term a1Term a2Term a3.........

Thes. B

Term b1Term b2Term b3.........

DokumenteDokumente

Doc 1Doc 2Doc 3......Doc n

ConditionalProbability

NeuralNetworks

VoraussetzungVoraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000)

ParallelParallel-Korpora / Parallel--Korpora / Parallel-VerschlagwortungVerschlagwortung

Ergebnis: KorrelationsmatrixKorrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B

eingesetzt ebenfalls als Gewichts-Gewichts-VektorenVektoren für die automatische Interpretation als Konkordanz-Tabelle

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Probleme automatischer Verfahren

keine Spezifizierung der RelationsartRelationsart

nicht geeignet zur 1:1 - Abbildung1:1 - Abbildung, Ergebnisse sind von der Art n:mn:m (Zuordnung 'Semantischer Räume')

abhängig vom InputInput-Material

Parallel-Korpus ist meist nicht repräsentativrepräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete

führt zu ScheinkorrelationenScheinkorrelationen

Testkonstruktion – AusländerTestkonstruktion – Ausländer

Gesundheit - AlternGesundheit - Altern

Berufliche Reintegration – RückenschmerzenBerufliche Reintegration – Rückenschmerzen

Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren

kein Problem für P(P(w|xw|x)) Neural NetworksNeural Networks lernen hier kaum

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Ansatz: Konkordanzen

ZPID relation relevance SWD

Thes. A

Term a1Term a2Term a3.........

Thes. B

Term b1Term b2Term b3.........

DokumenteDokumente

Doc 1Doc 2Doc 3......Doc n

Antivirale Medikamente < g ArzneimittelAntonyme = h AntonymAnwälte = h RechtsanwaltAnxiolytika ^ h AntidepressivumAorta = h AortaApathie = h ApathieAphagie ^ m EssstörungAphasie = h AphasieAphrodisiaka = h AphrodisiakumApnoe = h ApnoeApomorphin = h ApomorphinApotheker = h ApothekerApparate = h ApparatApperzeption = h ApperzeptionAppetit = h AppetitAppetitzügler = h AppetitzüglerApraxie = h ApraxieAraber ^ m AraberbildAraber ^ h AraberinArbeiter = h ArbeiterArbeitgeber-Arbeitnehmer-Beziehungen ^+ m Arbeitgeber + ArbeitnehmerArbeitgebereinstellungen ^+ m Arbeitgeber + EinstellungArbeitnehmereinstellungen ^+ m Arbeitnehmer + EinstellungArbeitnehmerfachkenntnisse ^ g ArbeitnehmerArbeitnehmermerkmale ^ m ArbeitnehmerArbeitnehmermotivation ^+ m Arbeitnehmer + MotivationArbeitnehmerproduktivität ^+ m Arbeitnehmer + ProduktivitätArbeit-Ruhe-Rhythmen ^ m Arbeitspause

BidirektionaleKonkordanzenzwischen allenbeteiligten Thesauri

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Thesaurus A

Term a1Term a2Term a3.........

Thes. B

Term b1 Term b2 Term b3 ... ...

Konk. ABKonk. AB

RelationRelationRelation...

Probleme bei Konkordanzen

Verschlagwortung ist permanente

intellektuelle Arbeit

Thesauri werden permanent verändert /

erweitert / umstrukturiert

ZPID • Universität Trier • Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3

Thesaurus A

Term a1Term a2Term a3.........

Thes. B

Term b1 Term b2 Term b3 ... ...

Konk. ABKonk. AB

RelationRelationRelation...

Semantische Heterogenitätbei datenbankübergreifenden

Recherchen

Semantische Heterogenitätbei datenbankübergreifenden

Recherchen

Vielen D

ank

für Ihre

Aufmerks

amkeit!

Vielen D

ank

für Ihre

Aufmerks

amkeit!