„Über sieben Brücken musst Du gehn‘,…“ · Die ZBW ist Mitglied der Leibniz-Gemeinschaft...

Preview:

Citation preview

Die ZBW ist Mitglied der Leibniz-Gemeinschaft

„Über sieben Brücken musst Du gehn‘,…“ Erfahrungsbericht zu Aufbau und Pflege von Crosskonkordanzen des Standard-Thesaurus Wirtschaft zu anderen Vokabularen Andreas Oskar Kempf, Joachim Neubert, Manfred FadenZBW – Leibniz-Informationszentrum Wirtschaft

Göttingen, 11. Mai 2017 SI&IT Workshop

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 2

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 3

Standard-Thesaurus Wirtschaft (STW)

Seite 4

Weltweit umfassendstes bilinguales Fachvokabular zur Repräsentation und Recherche nach wirtschaftswissen-schaftlichen Inhalten

Permanente Weiterentwicklung entsprechend den Veränderungen in der Fachterminologie

Web-Veröffentlichung & freier Download in unterschiedlichen Formaten

Verknüpfung mit anderen Vokabularen über Crosskonkordanzen http://zbw.eu/stw/versions/latest/about

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 5

STW-CK: Gesamtüberblick und Ausblick

Legende:

Seite 6

Jahr Vokabular Aufbau / Pflege Verfahren Projektkontext2002-04 GND DNB, ZBW / DNB, ZBW „CK-Wirtschaft“2004-07 TheSoz GESIS, ZBW / KoMoHe2009 DBpedia ZBW2010-11 AGROVOC FAO2012 WKD WKD LOD2-Projekt2016 Subject-Matter

Domains Class.ZBW

Automatische (Vor-)VerarbeitungIntellektuelle Bearbeitung

Jahr Vokabular Aufbau / Pflege Verfahren Projektkontext2017 JEL ZBW internt.b.c EuroVoc Publication Office (EU), ZBWt.b.c Wikidata ZBW intern

Ausblick:

Bisherige STW-CK:

Seite 7

CK-Einsatz in der ZBWIndexerweiterung in EconBiz

Seite 8

CK-Einsatz in der ZBWIndexerweiterung in EconBiz

Seite 9

CK-Einsatz in der ZBWIndexerweiterung in EconBiz

GND

STW

CK-Einsatz in der ZBW

Seite 10

Erweiterte Suchvorschläge in EconStor

CK-Einsatz in der ZBW

Seite 11

Erweiterte Suchvorschläge in EconStor

inkl. Äquivalenzrelationen aus den CK

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 12

Mapping-Ansatz vorwiegend intellektuellProjekt zur Erstellung der CK-Wirtschaft zu SWD/GND• Projektpartner: DNB, USB Köln, ZBW (HWWA) & unterstützend

VZG• Beantragte/angenommene Projektlaufzeit 18 Monate, nach

Verlängerung 31 Monate (03.2002 – 09.2004)• 8 Personen mit verschiedenen Zeitanteilen, Unterstützung durch

jeweilige IT

Seite 13

Mapping-Ansatz vorwiegend intellektuellZiel:Entwicklung und Implementierung eines Crosswalks zwischen dem

Standard Thesaurus Wirtschaft (STW) und dem Bereich Wirtschaft der Schlagwortnormdatei (SWD) zur Steigerung der Effektivität des Retrievals in den Wirtschaftswissenschaften.

Ausgangslage:

Seite 14

SWDca. 12500 Deskriptoren

(Sachschlagwörter) und ca. 16000 Nicht-Deskriptoren im Bereich WiWi (DNB/USB-Köln)

STWca. 5000 Deskriptoren und

18000 Nichtdeskriptoren (ZBW/HWWA)

Mapping-Ansatz vorwiegend intellektuellBearbeitung in der WinIBW – Aufbau der CK

Seite 15

Doublettencheck - einfaches string

matching-Verfahren, Auswahl der

SWD-Schlagworte durch

Zuordnung zu SWD-

Sachgruppen (SWD-Systematik)

Ergebnis: Ca. 52500 Relationen

Davon nach intellektueller

Bearbeitung ca. 15.000 erhalten.

Löschung der restlichen Relationen

größtenteils von Hand

Mapping-Ansatz vorwiegend intellektuellBearbeitung in der WinIBW – Aufbau der CK

Seite 16

Bearbeitung zuerst in verteilten

Excel-Listen. Wurde als zu

fehleranfällig und aufwändig

verworfen.

Weitere Bearbeitung über

eingespielte Daten im

Pica/WinIBW-System Iltis der

DNB

Mapping-Ansatz vorwiegend intellektuell

Bearbeitung in der WinIBW – Aufbau der CK

Seite 17

Mapping-Ansatz vorwiegend intellektuell

Seite 18

Ansicht in der WinIBW – Pflege der CK

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 19

DBpedia als Mappingziel

- ermöglicht Links zu Wikipedia-Seiten im Online-STW- 2009 Zentrum der „Linked Data Cloud“- aus englischer Wikipedia extrahierter strukturierter Datenbestand (in

RDF)- zusätzlich deutsche (u.a.) Labels auf Grundlage von „interlanguage

links“ in Wikipedia- Redirects von früheren oder gemergten auf aktuelle Seitentitel- große Datenmenge

Seite 20

DBpedia Matchingstrategie

- eigenentwickelte Perlprozeduren- normalisierte Strings aus

- prefLabel + altLabel des STW

- Seitentitel + Redirects von DBpedia

jeweils für Deutsch und Englisch gematcht

- nachgeschaltete Evaluierung der Matches

- skos:closeMatch, falls mindestens einer der prefLabel matcht

- skos:exactMatch, falls beide (de und en) matchen

Seite 21

DBpedia Ergebnisse (2009)

Seite 22

Mängel des DBpedia Mappings und Konsequenzen

- inhaltlich falsche Matches aufgrund von Quasi-Synonymen im STW- z.B. „Tropische Frucht“ (STW) matcht „Ananas“ (DBpedia)

- unzutreffende „interlanguage links“ in Wikipedia / DBpedia- beschränkte Datengrundlage (spezifisch „deutsche“ Begriffe nicht in

englischer Wikipedia enthalten)- Keine Fortschreibung=>- neuer Ansatz auf Grundlage von Wikidata- intellektuelle Verifizierung

Seite 23

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 24

Mapping-Ansatz automatisiert/intellektuell kombiniert Erfahrungen mit dem

Amsterdam AlignmentGeneration Metatool(AMALGAME) auf Basis der STW-Systematik

Ausblick: Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

Seite 25

AMALGAME

page 26

Zwei Mapping-Durchläufe in AMALGAME Erster Mapping-Durchlauf: Upload des STW in SKOS

http://zbw.eu/stw/versions/latest/download/about.de.html

Upload der JEL-Klassifikation in SKOS http://zbw.eu/beta/external_identifiers/jel/about.en.html

Exakter sprachabhängiger String-Abgleich zwischen den Bezeichnungen der STW-Systematik und den JEL-Klassen

AMALGAME Mapping-Graph des ersten Durchlaufs

AMALGAME

page 27

Zweiter Mapping-Durchlauf:Anreicherung der STW-Systematik und der JEL-Klassen: STW-Systematik: STW Deskriptoren + (Quasi-)

Synonyme Äquivalenzrelationen

(exactMatch) zu Begriffen (Deskriptoren & (Quasi-)Synoymen) anderer Vokabulare(GND, TheSoz, DBpedia, AGROVOC)

JEL Klassen: JEL Keywords aus dem JEL

Guide https://www.aeaweb.org/jel/guide/jel.php

Deutsch & Englisch (sofern vorhanden)

AMALGAME Mapping-Graph des zweiten Durchlaufs

AMALGAME

page 28

Angereicherte STW-Systematik: STW Deskriptoren + (Quasi-)Synonyme Äquivalenzrelationen zu Begriffen

(Deskriptoren & (Quasi-)Synoymen) anderer Vokabulare (GND, TheSoz, DBpedia, AGROVOC)

Angereicherte JEL-Klassen: JEL Keywords aus dem JEL Guide

https://www.aeaweb.org/jel/guide/jel.php

Gliederung1. Standard-Thesaurus Wirtschaft (STW)

2. Gesamtüberblick über die STW-Crosskonkordanzen (CK) und Einsatz an der

ZBW

3. Unterteilung der bisherigen Erfahrungen beim Aufbau von CK nach

unterschiedlichen Mapping-Ansätzen:

3.1 Mapping-Ansatz vornehmlich intellektuell

3.2 Mapping-Ansatz ausschließlich automatisiert

3.3 Mapping-Ansatz automatisiert/intellektuell kombiniert

JEL-Mapping unter Verwendung von AMALGAME

Mapping zu Wikidata unter Verwendung des Mix‘n‘match-Tools

4. Fazit: „Lessons learned“

Seite 29

Wikidata-Mapping mit Mix‘n‘match

Öffentlich zugängliches Tool zum Laden externer DBs, um sie mit Wikidata abzugleichen, zu verknüpfen, oder Einträge dort einzufügen

Setzt auf spezifischem Wikidata-Property für das jeweilige Vokabular auf

Derzeit 430 externe Vokabulare Mapping des STW für die nächste Version geplant Mapping für Autoren-IDs der „Research Papers in Economics“ hier

als Beispiel

Seite 30

Import

Seite 31

Mix’n’match Übersichtsseite

Seite 32

“Automatically matched”: Intellektueller Abgleich

Seite 33

… mit Links zu mehr Informationen

Seite 34

“Unmatched” mit Such- und Einfügeoptionen

Seite 35

Visual Matching Tool (Beispiel: Museen)

Seite 36

Wikidata-Property für STW-ID

Seite 37https://www.wikidata.org/wiki/Wikidata:Property_proposal/STW_Thesaurus_for_Economics_ID

Mapping-Vorschläge STW ./. Wikidata

http://zbw.eu/beta/sparql-lab/?endpoint=http://zbw.eu/beta/sparql/stw/query&queryRef=https://api.github.com/repos/zbw/sparql-queries/contents/stw/wikidata_mapping_candidates_via_gnd.rq

Seite 38

… können mit Hilfe der Crosskonkordanz Wirtschaft für alle gemappten GND-Schlagwörter generiert werden, die ihrerseits bereits mit Wikidata verknüpft sind (knapp 2000)

Vorteile des Wikidata-Mappings

Stets aktuelle Links zu deutschen und englischen Wikipedia-Seiten Laufende Pflege und Ergänzung über die Wikidata-Pflegeoberfläche

(z.B. jeweils anhand der Liste neuer Deskriptoren) – keine eigeneDatenhaltung und Arbeitumgebung erforderlich

Crowdsourcing (der Pflege und auch des initialenMappingprozesses!)

Policies und Tools zur Qualitätskontrolle in Place (z.B. RePEc, GND) Automatisiertes Einfügen fehlender Items in Wikidata ist möglich Zusatznutzen durch bereits existierende Mappings

Seite 39

Nachteile des Wikidata-Mappings

Verlust der institutionellen Kontrolle

Seite 40

FazitAls zentrale Einflussfaktoren auf die äußeren Rahmen-bedingungen bei Aufbau und Pflege von Crosskonkordanzenkönnen genannt werden:

Ressourcenverfügbarkeit (z.B. Inwieweit stehen Ressourcen für ein nachhaltiges CK-Management zur Verfügung?)

Kooperationen(z.B. Erfolgen CK-Aufbau und -Pflege kollaborativ?)

Verfügbarkeit von Tools(z.B. Lassen sich Tools für eine automatische Vorverarbeitung nutzen?)

Anwendungsszenarien (z.B. Ist die CK für eine integrierte Suche notwendig oder leistet sie „lediglich“ alternative Sucheinstiege?)

Seite 41

Fazit

Lessons learned:

Zusätzlich zum CK-Aufbau ist die kontinuierliche CK-Pflege wichtig Ausschließlich oder überwiegend manuelle Verfahren sind nicht

mehr finanzierbar Mapping-Strategien, die den intellektuellen Anteil reduzieren helfen,

sind notwendig Ausschließlich automatisierte Verfahren bringen nur unzureichende

Ergebnisse Erforderlich ist die Entwicklung einer Mapping-Strategie aus

automatischen und intellektuellen Mapping-Schritten in Kombination, die die übergeordneten Rahmenbedingungen des Mappings berücksichtigt

Seite 42

Vielen Dank für Ihre Aufmerksamkeit!

KontaktDr. Andreas Oskar Kempfa.kempf@zbw.eu

Joachim Neubertj.neubert@zbw.eu

Manfred Fadenm.faden@zbw.eu

Seite 43

Quellen:Dolud, Lena; Kreis, Constanze. Die Crosskonkordanz Wirtschaft zwischen dem STW und

der GND: Ein Instrument zur kooperativen Inhaltserschließung und zur Vernetzung im Semantic Web. Dialog mit Bibliotheken, 24(2): 13-19, 2012.

Kempf, Andreas O.; Neubert, Joachim; Faden, Manfred The Missing Link: A Vocabulary Mapping Effort in Economics. Presentation at the 14th European Networked Knowledge Organization System (NKOS) Workshop, Poznan, Poland, 2015.

Mayr, Philipp; Petras, Vivien (2008a): Building a terminology network for search: theKoMoHe project. pp. 177-182. In: Greenberg, Jane; Klas, Wolfgang (eds.): Metadata forsemantic and social applications: Proceedings of the 8. International conference on Dublin Core and Metadata Applications. Berlin: Uni.-Verl. Göttingen. URL: edoc.hu-berlin.de/conferences/dc-2008/mayr-philipp-177/PDF/mayr.pdf

Seite 44

Recommended