9
Weitere Beiträge Christian Stein Linked Open Data Wie das Web zur Semantik kam Zusammenfassung: Seit Beginn des Word Wide Web be- steht die Idee der universellen Vernetzung von Information in einem einfachen, standardisierten Verfahren. Ein Com- puter stößt bei der Interpretation von natürlich sprach- licher Bedeutung jedoch schnell an seine Grenzen. Die letzte Generation des Webs, das Semantic Web, schließt diese Lücke und modelliert Semantik explizit und maschinenlesbar und eröffnet damit neue Möglichkeiten. Schlüsselwörter: Semantic Web; Linked Open Data; Onto- logie; LOD; RDF; Europeana; Semantik Linked Open Data How the Web Came to Semantics Abstract: Since the beginning of the World Wide Web, there is the idea of universal networking of information in a simple, standardized way. However, computers are still very limited in the interpretation of natural language. The last generation of the Web, the Semantic Web, closes this gap and models semantics explicit and machine-readable and opens up new possibilities. Keywords: Semantic Web; Linked Open Data; ontology; LOD; RDF; Europeana; semantics DOI 10.1515/bfp-2014-0055 Inhalt 1 Die Idee des Webs ..................... 447 2 Semantic Web ........................ 448 3 Linked Data .......................... 449 4 Technische Grundstruktur ................ 450 5 Erweiterungen ........................ 451 6 Schwierigkeiten und Grenzen ............. 452 7 Anwendung und Anwendungen ............ 454 1 Die Idee des Webs Als Vannevar Bush im Jahr 1945 die Idee zu seinem System MEMEX präsentierte, konnte er sich noch nicht vorstellen, dass Hypertext-Systeme kein halbesJahrhundert später die Welt verändern sollten. Er beschreibt es als a sort of mechanized private file and library. It would use microfilm storage, dry photography, and analog computing to give postwar scholars access to a huge, indexed repository of knowledge any section of which could be called up with a few keystrokes.1 Auch wenn Technologien wie Mikro- film oder analoges Rechnen heute antiquiert wirken mö- gen, wurde damit doch eine Grundidee konzipiert, deren erste technische Realisierung sich bereits ein paar Jahre später mit dem ARPANET ergeben sollte. Das Advanced Research Projects Agency Networkwar ein Kooperations- projekt zwischen nordamerikanischen Universitäten und dem Militär und gilt als Vorläufer des Internets. Mit einem Schlag war es möglich geworden, Informationen zwischen den Forschungsstätten elektronisch zu durchsuchen, an- zufordern und zu übermitteln. Während am Anfang nur ein paar wenige Standorte vernetzt waren, spannte sich 1977 bereits ein respektables Netz zwischen Ost- und West- küste und immer mehr Forscher erkannten den Wert dieser Technik, mit der Information sich spürbar von ihren mate- riellen Datenträgern gelöst hatte. Dieser Ablösungsprozess bedeutete einen Schub für die kollaborative Forschung, hatte aber zu diesem Zeitpunkt noch einen entscheiden- den Nachteil: ARPA- und später Internet wurden von der Kommandozeile aus bedient, man musste wissen, bei wel- chen Servern man welche Informationen finden konnte und die Informationssuche war dementsprechend immer noch schwierig, zeitaufwändig und teuer. Diese Tatsachen machten das Netz zu einem teuren Forschungsinstrument, das nahezu ausschließlich von Experten genutzt wurde bis das World Wide Web kam. 2 Es kam mit Tim Berners-Lee, der als Physiker und Informatiker am CERN in der Schweiz arbeitete. Er kannte das Internet in seiner damaligen Form und war begeistert von den sich bietenden Möglichkeiten. Aber er sah auch, welche Einschränkungen und Inkompatibilitäten es gab und dachte darüber nach, wie sich das Internet zu dem offenen, einfachen, standardisierten und vielfältigen In- Dr. Christian Stein: [email protected] 1 Wardrip-Fruin, Noah; Montfort, Nick (eds.): The New Media Rea- der. Cambridge MA, London 2003, S.35. 2 Marshall T. Poe: A History of Communications. Media and Society from the Evolution of Speech to the Internet. Cambridge 2010. Bibliothek, Forschung und Praxis 2014; 38(3): 447455 Bereitgestellt von | Humboldt-Universität zu Berlin Angemeldet Heruntergeladen am | 12.07.16 12:57

WeitereBeiträge ChristianStein LinkedOpenData ... · a few keystrokes.“1 Auch wenn Technologien wie Mikro-film oder analoges Rechnen heute antiquiert wirken mö-gen, wurde damit

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Weitere Beiträge

Christian Stein

Linked Open Data –Wie dasWeb zur Semantik kam

Zusammenfassung: Seit Beginn des Word Wide Web be-steht die Idee der universellen Vernetzung von Informationin einem einfachen, standardisierten Verfahren. Ein Com-puter stößt bei der Interpretation von natürlich sprach-licher Bedeutung jedoch schnell an seine Grenzen. Dieletzte Generation des Webs, das Semantic Web, schließtdiese Lücke und modelliert Semantik explizit undmaschinenlesbar–underöffnet damit neueMöglichkeiten.

Schlüsselwörter: Semantic Web; Linked Open Data; Onto-logie; LOD; RDF; Europeana; Semantik

Linked Open Data – How theWeb Came to Semantics

Abstract: Since thebeginning of theWorldWideWeb, thereis the idea of universal networking of information in asimple, standardized way. However, computers are stillvery limited in the interpretation of natural language. Thelast generation of the Web, the Semantic Web, closes thisgapandmodels semantics explicit andmachine-readable–andopensupnewpossibilities.

Keywords: Semantic Web; Linked Open Data; ontology;LOD; RDF; Europeana; semantics

DOI 10.1515/bfp-2014-0055

Inhalt

1 Die Idee desWebs . . . . . . . . . . . . . . . . . . . . . 4472 Semantic Web . . . . . . . . . . . . . . . . . . . . . . . . 4483 Linked Data . . . . . . . . . . . . . . . . . . . . . . . . . . 4494 Technische Grundstruktur . . . . . . . . . . . . . . . . 4505 Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . 4516 Schwierigkeiten und Grenzen . . . . . . . . . . . . . 4527 Anwendung und Anwendungen . . . . . . . . . . . . 454

1 Die Idee desWebs

Als Vannevar Bush im Jahr 1945 die Idee zu seinem SystemMEMEX präsentierte, konnte er sich noch nicht vorstellen,

dass Hypertext-Systeme kein halbes Jahrhundert späterdie Welt verändern sollten. Er beschreibt es als „a sort ofmechanized private file and library. It would use microfilmstorage, dry photography, and analog computing to givepostwar scholars access to a huge, indexed repository ofknowledge – any section of which could be called up witha few keystrokes.“1 Auch wenn Technologien wie Mikro-film oder analoges Rechnen heute antiquiert wirken mö-gen, wurde damit doch eine Grundidee konzipiert, derenerste technische Realisierung sich bereits ein paar Jahrespäter mit dem ARPANET ergeben sollte. Das „AdvancedResearch Projects Agency Network“ war ein Kooperations-projekt zwischen nordamerikanischen Universitäten unddem Militär und gilt als Vorläufer des Internets. Mit einemSchlag war es möglich geworden, Informationen zwischenden Forschungsstätten elektronisch zu durchsuchen, an-zufordern und zu übermitteln. Während am Anfang nurein paar wenige Standorte vernetzt waren, spannte sich1977 bereits ein respektables Netz zwischen Ost- undWest-küste und immermehr Forscher erkannten denWert dieserTechnik, mit der Information sich spürbar von ihren mate-riellen Datenträgern gelöst hatte. Dieser Ablösungsprozessbedeutete einen Schub für die kollaborative Forschung,hatte aber zu diesem Zeitpunkt noch einen entscheiden-den Nachteil: ARPA- und später Internet wurden von derKommandozeile aus bedient, man musste wissen, bei wel-chen Servern man welche Informationen finden konnteund die Informationssuche war dementsprechend immernoch schwierig, zeitaufwändig und teuer. Diese Tatsachenmachten das Netz zu einem teuren Forschungsinstrument,das nahezu ausschließlich von Experten genutzt wurde –bis dasWorldWideWeb kam.2

Es kam mit Tim Berners-Lee, der als Physiker undInformatiker am CERN in der Schweiz arbeitete. Er kanntedas Internet in seiner damaligen Form und war begeistertvon den sich bietenden Möglichkeiten. Aber er sah auch,welche Einschränkungen und Inkompatibilitäten es gabund dachte darüber nach, wie sich das Internet zu demoffenen, einfachen, standardisierten und vielfältigen In-

Dr. Christian Stein: [email protected]

1 Wardrip-Fruin, Noah; Montfort, Nick (eds.): The New Media Rea-der. Cambridge MA, London 2003, S. 35.2 Marshall T. Poe: A History of Communications. Media and Societyfrom the Evolution of Speech to the Internet. Cambridge 2010.

Bibliothek, Forschung und Praxis 2014; 38(3): 447–455

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

formationsnetz entwickeln könnte, das wir heute kennen.Er ersann das World Wide Web. Die Kernprinzipien wareneinfach, schlank designt, schnell erlernbar und basiertenauf dem, was es schon gab. Das erste war das Übertra-gungsprotokoll HTTP, das alle Anfragen und Antwortenzwischen Client und Server regelte und die Informations-pakete an die richtige Stelle navigierte. Dieses „HypertextTransfer Protocol“war in erster Linie dazu gedacht, Hyper-text zu versenden. Um solchen Hypertext schreiben zukönnen, entwickelte Berners-Lee HTML gleich mit. DieHypertext Markup Language, die heute in der Version 5gerade ihr letztes großes Update bekommen hat und nachwie vor das Web beherrscht, machte es leicht, Dokumentezu erstellen, zu formatieren und – vor allem – sie überHyperlinks miteinander zu verbinden. HTMLmachte dabeikeine saubere Trennung zwischen Inhalt und Darstellung,was später bemängelt und korrigiert wurde, was das Er-lernen aber ungleich einfacher machte und so wesentlichzur Verbreitung der Sprache beitrug. Um nun tatsächlichVerbindungen zwischen Dokumenten aufbauen zu kön-nen, entwickelte Berners-Lee die URL, den Uniform Res-source Locator, der Dokumente (und Teile davon) einheit-lich referenzierbar machte.3

Damit war alles Notwendige vorhanden, um Informa-tionen einheitlich, technologieübergreifend und einfachauffindbar zu machen, zu präsentieren und zu verbinden.Denn das war die Idee: Kein zentrales Netzwerk in derHand einer einzelnen Autorität, keine Einstiegshürdedurch komplizierten Zugang, keine Abhängigkeit vomHer-steller einer Technologie, keine teuren Lizenzkosten. Vorallem aber: Wissen gibt es nicht isoliert, Informationenstehen immer im Kontext. Diesen Kontext mit zu modellie-ren, die Verbindungen der Informationen zueinander ex-plizit zu machen, das sollte das Wissensnetzwerk der Zu-kunft werden, in dem Computer und Menschen enger undbesser zusammenarbeiten können sollten.

Schnell folgte die erste Webseite info.cern.ch, die esauch heute noch gibt. Und es folgte die erste Suchmaschi-ne, die serverübergreifend einen einfachen Zugang zu die-ser neuen Informationswelt bot. Dieses Web, heute häufigWeb 1.0 genannt, wird auch das „Web of documents“genannt – ein Netz aus mit Hyperlinks verknüpften HTML-Dokumenten. Dieses Netz fand Anwender auf der ganzenWelt und bald auch jenseits der Universitäten. Nur sokonnte es zu einem globalen Informationsnetz in all seinerVielfältigkeit werden. Bei aller Einfachheit jedoch hatte es

seinen größten Sprung an Nutzerzahlen noch vor sich:1999 wurde das Web interaktiv und sozial. Informations-konsumenten wurden selber zu Produzenten, faktisch je-der konnte Inhalte beisteuern, verbessern, kommentierenund vernetzen. Mit diesem Web 2.0, wie es dann genanntwurde, explodierte die Zahl der verfügbaren Inhalte ge-nauso wie die Nutzerzahlen. Wieder war das Prinzip dasder massiven Vernetzung und eines einfachen, partizipati-ven Zugangs für alle, der auf offenen, gemeinsamen Stan-dardtechnologien beruhte.

2 Semantic Web

Heute stehen wir an der Schwelle zur nächsten Generationdes Webs, dem Web 3.0. Eigentlich haben wir sie schonüberschritten. Denn das „Semantic Web“ ist bereits über-all. Nur ist das noch nicht ganz so bewusst, da viel vondem, was das Semantic Web ausmacht, sich im herkömm-lichen Web-Gewand zeigt. Die Versionsnummern desWebs bilden gewissermaßen eine Konzentration auf As-pekte, die bereits in der ersten Idee des Webs vorhandenwaren. So wie das Web 2.0 auf die Einfachheit und Hetero-genität der Partizipation fokussierte, nimmt das Web 3.0jetzt die Bedeutung der Information, die Semantik, insVisier. Denn wenn wir von Informationen reden, meinenwir nicht im eigentlichen Sinne Dokumente, die immerschon Aggregationen von Informationen darstellen, son-dern basale Fakten: Die Bevölkerungszahl einer Stadt, denNamen eines Gebäudes, die Lage einer Straße, die Be-standteile eines Stuhls, das Motiv eines Gemäldes, dieGattung eines Tieres, die Richtigkeit einer Aussage. Es sindgewissermaßen die atomaren Bestandteile von komplexenAussagen, wie sie in einer Diskussion oder einem Doku-ment gemacht werden: Minimalaussagen, die sich zu kom-plexen Aussagen zusammenfügen. Mit diesen Minimal-aussagen ist es dabei tatsächlich ähnlich wie mit Atomen:Sie tauchen immer wieder in unterschiedlichen Zusam-menhängen auf, bleiben in sich aber strukturell gleich.Und was sich wiederholt, kann man wiederverwenden.Ganz im Sinne des ursprünglichen Gedankens des Webs,der vielfältigen Verbindung von Informationen, die einenBezug aufweisen, ist das Semantic Web die technischeModellierung von Minimalaussagen und deren Bezügenzueinander: nicht mehr primär im Sinne von Dokumentenund Hyperlinks zwischen diesen, sondern im Sinne einerbedeutsamen Beziehung. Während der Hyperlink nur eineVerbindung herstellt, ohne etwas darüber zu sagen, wiediese Verbindung beschaffen ist, stellt die semantischeRelation eine bedeutsame Verbindung her. Der Hyperlinkmoduliert: Diese Zeichenfolge in Dokument A ist verbun-

3 Tim Berners-Lee; Mark Fischetti: Weaving the Web: The OriginalDesign and Ultimate Destiny of the World Wide Web by Its Inventor.London 1999.

448 Christian Stein

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

den mit diesem Absatz von Dokument B. Eine Folge se-mantischer Relationen dagegen kann Folgendes modulie-ren: Diese Zeichenfolge ist der Name einer Person X.Person X arbeitet an der Humboldt-Universität. Die Hum-boldt-Universität beinhaltet das Jacob-und-Wilhelm-Grimm-Zentrum. Person X hat ein Büro im Jacob-und-Wil-helm-Grimm-Zentrum. Jeder dieser Sätze stellte dabei einesemantische Relation zwischen zwei Instanzen her. Durchdie Wiederholung der Bezeichner dieser Instanzen könnenso komplexere Informationen abgebildet werden, da sichmehr Informationen zu einem Zusammenhang vernetzenlassen. Und diese Vernetzungen können beliebig großwerden und beliebig viele Details enthalten.

In einem Dokument nun, beispielsweise einem Artikelwie diesem, wird ein kleiner Teil dieser Informationenvom Autor danach ausgewählt, was für die jeweilige Argu-mentation relevant ist. Sie werden in natürlicher Spracheverknüpft und formen so ihre Aussage. Im Semantic Webdagegen befinden sich keine Argumentationen und keineVorauswahl, sondern nur die basale Information selbst –und das in rauen Mengen und ungefiltert. Was zunächstwie ein Nachteil aussieht ermöglicht aber Erstaunliches:Da dieses geballte Wissen nicht nur von Menschen gelesenwerden kann, sondern noch besser von Maschinen, kön-nen diese uns auch besser helfen, die für uns relevantenFakten herauszufiltern. Man kann sich das wie eine riesi-ge, verteilte Datenbank vorstellen, die nicht für einen ein-zigen speziellen Zweck gebaut wurde, sondern für beliebi-ge Aussagen aus allen Bereichen menschlichen Wissens.So sagt Tim Berners-Lee darüber: „The Semantic Web is anextension of the current web in which information is givenwell-defined meaning, better enabling computers andpeople to work in cooperation.“4

Das Semantic Web macht also Semantik explizit undfür Maschinen verständlich. Was für den Computer vor-mals nur Zeichenketten waren, wird nun zu berechenbarerBedeutung. Die Bedeutungen natürlicher Sprache, derenWörter in unterschiedlichen Kontexten immer Unter-schiedlichstes bedeuten können, werden eindeutig undformal definiert. Damit ist eine neue Stufe der Informati-onsmodellierung erreicht.

3 Linked Data

Unter dem Stichwort Linked Data nun verbergen sich imWesentlichen die Ideen und Techniken des Semantic Web.

Der Schwerpunkt liegt dabei zunächst weniger darauf,Daten menschenlesbar darzustellen, als vielmehr darauf,sie maschinenlesbar zu machen. Man muss hier unter-scheiden zwischen Linked Data, Open Data und LinkedOpen Data. Linked Data bezieht sich auf die semantischeVerknüpfung von Daten im technischen Sinne. Die Ver-bindungen zwischen den Daten sind also mit einer explizitdefinierten Bedeutung versehen. Das beinhaltet nichtzwangsläufig, dass diese Daten auch für jedermann offenzugänglich sind; es können ebenso gut nichtöffentlicheDaten, beispielsweise eines Unternehmens, gemeint sein.Open Data dagegen referiert darauf, dass Daten offen fürjeden zugänglich und unter einer offenen Lizenz publiziertsind. Gerade öffentliche Institutionen stellen ihre Informa-tionen vermehrt den Bürgern zur Verfügung. Das Rechtdarauf regelt in den USA beispielsweise der Freedom ofInformation Act. Aber auch in Europa werden inzwischenin großem Umfang Daten für die Bevölkerung geöffnet.Über die Verknüpfung der Daten sagt Open Data nochnichts aus. Es kann sich also um unverknüpfte Informatio-nen handeln, deren Bedeutungserschließung der mensch-lichen Interpretation bedarf. LOD oder Linked Open Datavereint beide Aspekte der Verknüpfung und der Offenheitund stellt daher auch den Königsweg für alle dar, die imöffentlichen Interesse Daten anbieten wollen. Anstatt Da-ten in geschlossenen und proprietären Datenbanken ver-stauben zu lassen bzw. nur über eigene Interfaces anzubie-ten, können sie nun von beliebigen Interessentennachgenutzt und erweitert werden.5

Alle Daten dieser Art bilden zusammen die sogenann-te LOD-Cloud. Sie bildet ein riesiges Konglomerat vernetz-ter Daten und enthielt in der letzten Berechnung vomSeptember 2011 insgesamt 31 634 213 770 Tripel. Inzwi-schen dürften es weit mehr sein. Zu den Datenproviderngehören beispielsweise die DBpedia mit den strukturiertenInhalten der Wikipedia, Project Gutenberg mit Metadatenzu lizenzfreien Texten, LinkedGeoData mit weltumspan-nenden Ortsinformationen, das World Fact Book mit sehraktuellen Daten über alle Länder der Welt, Open Librarymit umfangreichen bibliographischen Daten und vielemehr. Ein Großteil der Daten stammt von öffentlichenEinrichtungen und Regierungsorganisationen. Einen gu-ten Überblick in einer interaktiven Infografik verschafft dieSeite lod-cloud.net, auch wenn sie einen nicht mehr ganzaktuellen Standwiedergibt.

4 Tim Berners-Lee; James Hendler, Ora Lassila: The Semantic Web.In: Scientific American 284 (5) (2001) S. 34–43.

5 Staab, S.; Scheglmann, S.; Leinberger, M.; Gottron, T.: Program-ming the Semantic Web. In: The Semantic Web: Trends and Challen-ges (2014) S. 1–5.

Linked Open Data –Wie dasWeb zur Semantik kam 449

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

Tim Berners Lee hat für die Distribution von Daten fünfaufeinander aufbauende Kriterien definiert, deren Beach-tung gute Datenqualität sicherstellen soll7:

Tab. 1: Tim Berners-Lee‘s 5-Sterne Kriterien für Linked Open Data

« Available on the web (whatever format)but with an open licence, to be Open Data

«« Available asmachine-readable structured data(e.g. excel instead of image scan of a table)

««« As (2) plus non-proprietary format(e.g. CSV instead of excel)

«««« All the above plus: use open standards fromW3C (RDFand SPARQL) to identify things, so that people can pointat your stuff

««««« All the above, plus: link your data to other people’s datato provide context

Die dahinterstehende Idee ist die, dass Daten immerwertvoller werden, je stärker sie vernetzt und interpretier-bar sind. Um diese Interpretierbarkeit plattformübergrei-fend zu gewährleisten, sollten die verwendeten Formateebenso wie die Daten selbst frei nutzbar und offen doku-mentiert sein. Dies wirdmit der technischen Grundstrukturdes Semantic Web gewährleistet, die im folgenden Kapitelbasal erklärt wird.8

4 Technische Grundstruktur

Die wesentlichen Technologien, die das Semantic Webantreiben, sind in offenen Standards desW3C (WorldWideWeb Consortium) festgehalten. Der grundlegende Stan-dard ist RDF, das Ressource Description Framework, aufdem alle weiteren Standards basieren.9 Mit RDF lassen sichAussagen über beliebige Dinge bzw. Ressourcen formen.

Abb. 1: Linked Open Data Cloud Diagramm6

6 Cyganiak, Richard; Jentzsch, Anja: Linking Open Data cloud dia-gram. 2011. URL: http://lod-cloud.net/.7 Berners-Lee, Tim: Linked data-design issues. 2006. URL: http://www.w3.org/DesignIssues/LinkedData.html.

8 Berners-Lee, Tim: Long live the web. In: Scientific American 303 (6)(2010) S. 80–85.9 http://www.w3.org/TR/rdf-primer.

450 Christian Stein

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

Dabei kann es sich sowohl um Dinge der physischen Au-ßenwelt, wie auch digitale, imaginäre oder begrifflicheRessourcen handeln. Die einfachste und wichtigste Formdieser Aussagen konstituiert sich durch sogenannte Tripel,die aus Subjekt, Prädikat und Objekt bestehen. Sie funk-tionieren wie einfache Aussagesätze, z. B.:

:Jacob-und-Wilhelm-Grimm-Zentrum :location :berlin

Dieses Tripel besagt, dass das Jacob-und-Wilhelm-Grimm-Zentrum (Subjekt) in Berlin (Objekt) lokalisiert ist (Prädi-kat). Subjekt, Prädikat und Objekt werden dabei immer miteinem eindeutigen Bezeichner angegeben, der an natürli-che Sprache angelehnt sein kann, aber nicht muss. Wich-tig ist nur, dass die Bezeichnung für den Computer eindeu-tig ist. Genauso gültig wäre also die (gleichbedeutende)Aussage:

:Q1525910 :location :Q64

In diesem Fall sind das Jacob-und-Wilhelm-Grimm-Zen-trum (:Q1525910) und Berlin (:Q64) jeweils durch Codesrepräsentiert, die sich Menschen nicht mehr unmittelbarerschließen. Die eindeutigen Bezeichner, ob menschenles-bar oder nicht, nennen sich URI für Uniform RessourceIdentifier. URIs sehen meist aus wie die allseits als Web-adresse bekannten URLs. Da diese auf dem Domain NameSystem basieren, sind sie weltweit eindeutig. Das ist eingroßer Vorteil, denn so können URIs aus verschiedenstenQuellen in RDF verwendet und kombiniert werden, ohnedass es zu Ambiguitäten kommt. Während wir in denobigen Beispielen eine Kurznotation gewählt haben, be-stünden unsere Beispiel-Tripel also eigentlich aus dreikompletten URIs für Subjekt, Prädikat und Objekt:

<http://de.dbpedia.org/resource/Jacob-und-Wilhelm-Grimm-Zentrum><http://dbpedia.org/ontology/location><http://de.dbpedia.org/resource/Berlin>

Das ist für Menschen zwar etwas langwieriger zu lesen, diekomplette Notation der URIs erlaubt uns jedoch zu sehen,wer die entsprechenden Ressourcen ursprünglich definierthat.10

Mit Tripeln wie diesen können in RDF beliebig vieleAussagen getroffen werden, die zusammen einen so-

genannten RDF-Graph bilden. Die Informationen, diedurch solche RDF-Graphen beschrieben werden, könnendabei in anderen Graphen wiederverwendet werden. DieTripelstruktur von RDF und die RDF-Graphen, die dadurcherzeugt werden können, bilden die Basis für alles Weitere.Auf RDF basieren alle Erweiterungen, mit denen Schematadefiniert, Abfragen gestellt oder komplexe logische Aus-sagen getätigt werden können.11

5 Erweiterungen

Zur Definition von Schemata dient RDFS (RDF Schema),mit der Ober- und Unterklassen sowie die verwendbarenPrädikate und ihre Verwendung definiert werden. Wäh-rend RDF sich immer auf konkrete Aussagen über konkreteRessourcen bezieht (z. B. :Berlin, :Jacob-und-Wilhelm-Grimm-Zentrum), wird mit RDFS die generelle Strukturvon möglichen Tripeln bestimmt (z. B. :City als abstrakteKlasse für :Berlin). Solche Schemata, auch Vokabulariengenannt, existieren bereits zu einer Vielzahl von Anwen-dungsgebieten und können einfach nachgenutzt werden.Es ist aber auchmöglich, eigene Schemata zu definieren.

Abb. 2: RDF und RDFS im Beispiel

Im abgebildeten, vereinfachten Beispiel ist im oberen Be-reich ein Schema in RDFS modelliert. In ihm sind die Klas-sen Medium und Nutzer definiert, die jeweils speziellereUnterklassen besitzen (Buch und DVD als Unterklasse fürMedium und Student und Mitarbeiter als Unterklasse fürNutzer). Das Prädikat isBorrowedBy gibt eine Möglichkeitan, Instanzen beider Klassen zu verknüpfen. Der untereTeil der Abbildung zeigt dann die Anwendung diesesSchemas in RDF, also konkreten Instanzen, bei denen ein

10 In dem obigen Beispiel greifen wir auf die umfangreichen Bestän-de der DBpedia zu, die die strukturierten Informationen der Wikipe-dia in RDF bereitstellt: http://wiki.dbpedia.org/.

11 Hitzler, Pascal; Krötzsch, Markus; Rudolph, Sebaastian: Founda-tions of Semantic Web Technologies. Boca Raton 2011.

Linked Open Data –Wie dasWeb zur Semantik kam 451

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

konkretes Medium von einem konkreten Nutzer als aus-geliehen definiert ist.

Hat man einen umfangreichen RDF-Graph erstellt, be-nötigt man einen Weg, spezifische Informationen aus die-sem abzufragen. Dazu dient die Abfrage-Sprache SPARQL(SPARQL Protocol And RDF Query Language). Sie ähneltder verbreiteten Datenbankabfragesprache SQL und ver-wendet ebenfalls Tripel in ihren Abfragen. Mit SPARQLlassen sich beliebig komplexe Abfragen formulieren undentsprechend passgenaue Informationen extrahieren. Sokönnte man beispielsweise mit SPARQL erfragen, welcheKünstler in Berlin zwischen 1900 und 1910 geboren wur-den, wann sie gestorben sind und wie sich ihr Name inanderen Sprachen schreibt.12 SPARQL ist aber nicht nureine Abfragesprache, sondern auch ein Protokoll zu Kom-munikation mit einem Server. Typischerweise verwaltetein Server für RDF-Graphen diese mithilfe eines Triplesto-res, also einer Datenbank, die für Tripel optimiert ist. EinTriplestore bietet einen SPARQL-Endpoint, an denSPARQL-Abfragen per HTTP adressiert werden könnenund der die entsprechenden Ergebnisse maschinenlesbarzurückliefert.

Für die Verbindung zur Dokumentenwelt sorgt derStandard RDFa (RDF in Attributes). Mit seiner Hilfe lassensich RDF-Aussagen in HTML- und XML-Dokumente einbet-ten. Taucht beispielsweise auf einer HTML-Webseite einbestimmter Name auf, kann mit RDFa eindeutig auf dieentsprechende, tatsächlich gemeinte Ressource verwiesenwerden.Findet sichbeispielsweisedieZeichenfolge „Paris“auf einer Webseite, kann RDFa im Hintergrund klarstellen,ob sich diese auf Paris in Frankreich, Texas oder Idahobezieht oder gar der Stummfilm gemeint ist. Das kann dannauch ein Suchalgorithmus berücksichtigen und bessereErgebnisse liefern. So kannRDFadazubeitragen, dieAmbi-guität natürlicher Sprache zu klären und Eindeutigkeit fürMenschundMaschine gleichermaßenherzustellen.

Mit der Erweiterung OWL (Web Ontology Language)schließlich lassen sich komplexe logische Aussagen erstel-len, wie sie in der Prädikatenlogik möglich sind. Damitkönnen sogenannte Ontologien aufgebaut werden. So las-sen sich beispielsweise implizite Klassen, Beschränkun-gen, Schnittmengen, inverse Relationen oder explizite Dif-ferenzen modellieren. Mit diesen Erweiterungen wird esmöglich, Zusammenhänge zu berechnen, die niemals ex-plizit angelegt worden sind, sich jedoch rein logisch er-geben. Eine solche Berechnung nennt sich Reasoning. Sol-

che Verfahren werden beispielsweise genutzt, umautomatisch Entscheidungen in komplexen Situationentreffen zu können, die Bedeutung von Texten zu analysie-ren oder versteckte Verbindungen aufzudecken.

6 Schwierigkeiten und Grenzen

Bei allen positiven Aspektenwerden in der Forschung aberauch grundsätzliche Probleme der Architektur diskutiert,die zu tieferliegenden Fragen führen. Eine fundamentaleUnterscheidung, die für RDF und RDFS konstituierend ist,bezieht sich auf das Verhältnis von Klassen, Instanzenund realweltlichen Objekten. In der Philosophie sind Onto-logien definiert als die Ordnung bzw. Einteilung des Seien-den. Diesen Anspruch hat die Informatik gewissermaßenübernommen, allerdings in einem simplifizierenden Sin-ne, der der Komplexität dieses Problems nicht immer ge-recht werden kann. Gewissermaßen ist es ein semiotischesProblem, das hier virulent wird, wenn es um eine saubereUnterteilung von Klassen und Instanzen geht. Die Klarheitdieser Unterscheidung stammt aus der objektorientiertenProgrammierung, einem heute dominierenden Program-mierparadigma. In diesem wird davon ausgegangen, dassKlassen gewissermaßen Konstruktionspläne für Instanzensind, aus denen zur Laufzeit dann beliebig viele Instanzengeneriert werden können. Das bedeutet, dass die Klasseimmer zuerst da ist und aus ihr dann Instanzen generiertwerden. In einer solchen Umgebung ist immer klar, zuwelcher Klasse eine Instanz gehört, da sie ja aus diesergeneriert wird.

Dieses Prinzip wurde im Semantic Web nun als grund-legendes Paradigma übernommen. Klassen werden hierallerdings definiert als „sets of individuals“13. Immer dann,wenn man von etwas physisch Konkretem spricht, bei-spielsweise dem Eifelturm oder Albert Einstein, verwendetman Individuals. Gehören diese zu einer Klasse, sprichtman von Instanzen dieser. RDF-Aussagen sind dabei nurzwischen Individuals bzw. Instanzen möglich. Im Ver-gleich zur Objektorientierten Programmierung ist das Ver-hältnis von Klasse und Instanz als Beschreibungsmusterfür eine bereits existierende Welt und Sprache aber pro-blematisch. In der exemplarischen Wine-Ontologie14, dieimmer wieder für auch vomW3C selbst als Beispielontolo-gie herangezogen wird, wird das deutlich. EinzelneWeine,beispielsweise ein Longridge Merlot werden hier als In-stanzen definiert, wohingegen der Merlot eine Klasse bil-

12 Entsprechende Informationen stellt beispielsweise die DBpediafür jeden kostenlos und offen zur Verfügung: http://wiki.dbpedia.org/OnlineAccess#h28-6.

13 http://www.w3.org/TR/owl2-syntax/#Classes.14 http://www.w3.org/TR/owl-guide/.

452 Christian Stein

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

det. Die Frage die sich hier stellt ist, ob ein LongridgeMerlot tatsächlich eine Instanz darstellt oder nicht viel-mehr selbst eine Klasse ist, nämlich die aller Jahrgängeund Abfüllungen. Ein anderes Beispiel: Ist der Film Fitz-carraldo eine Instanz oder können wir von Instanzen erstbei einer konkreten DVD oder Filmrolle sprechen?

Abb. 3:Merlot als Klasse (gelber Kreis) und LongridgeMerlot alsInstanz (lila Raute) mit weiteren verknüpften Instanzen in der Onto-Graf-Visualisierung des Ontologie-Editors Protegé

Noch gravierender wird das Problem mit Begriffen. Ist einBegriff wie „Tier“ eine Instanz, wie es in der weitverbreite-ten Ontologie SKOS (Simple Knowledge Organisation Sys-tem) definiert ist, obwohl der Begriff selbst eine Klassebeschreibt? Was ist mit Begriffen wie „Einhorn“, die keinephysischen Instanzen aufweisen, aber als Begriff existie-ren? Sind Begriffe nicht per se Klassen des SystemsSprache, weil sie immer auf unterschiedliche konkreteSachverhalte anwendbar sind? Wie geht man mit den un-terschiedlichen Definitionen eines Begriffs um, die alle inunterschiedlichen Kontexten als korrekt angesehen wer-den? Die vorgeschlagenen und praktizierten Lösungen da-zu bewegen sich im Bereich der Metamodellierung15 undversuchen, Mischformen zwischen Instanzen und Klasseneinzurichten, was ebenfalls problematisch und nicht ab-schließend geklärt ist. Die Unterscheidung hat für die Mo-dellierung mitunter massive Konsequenzen, denn je nach-dem ob etwas eine Klasse oder eine Instanz ist, könnenunterschiedliche Verknüpfungen angelegt und berechnetwerden.

Da Modellierung immer eine Designfrage ist, die un-terschiedliche Modellierer unterschiedlich lösen, entste-hen verschiedene Varianten semantisch sehr ähnlicheroder äquivalenter Aussagen. Wie gleich aber sind diesewirklich? Immer wieder zu Verwirrungen und Kritik führtbeispielsweise das Prädikat owl:sameAs, das auch ver-wendet wird, um unterschiedliche URIs als inhaltlich iden-tisch auszuweisen. Identität ist aber nur bei physischen

Objekten eindeutig zu bestimmen. Werden Begriffe model-liert, muss geprüft werden, ob die jeweils gültigen Defini-tionen eine identische Bedeutung haben. Diese Entschei-dung ist schwierig und subjektiv, führt aber bei einerangelegten Relation dazu, dass alle zukünftigen Berech-nungen durch Reasoner die Instanzen als identisch behan-deln, so dass falsche Schlüsse entstehen.16 Generell gehenReasoner davon aus, dass alle verwendeten Prädikate kor-rekt verwendet wurden. Immer wieder kommt es jedoch zuFehlern, die sich in sehr großen Graphen kaum noch loka-lisieren lassen. Bei allen Vorteilen des Semantic Web wirftdas die Frage auf, wie es um die Qualität der Daten be-stimmt ist, wie sich diese Qualität messen, einschätzenoder gewährleisten lässt und ob fehlerhafte Daten nichtdie Gesamtaussagekraft von berechneten Semantiken inFrage stellen.17

Damit verbunden ist die FragenachdenVersionen: FürDokumente ist es noch relativ leicht, verschiedene Versio-nen kenntlich zumachen und auch alte Versionen als Refe-renz aufzubewahren. In vielfach vernetzten, kollaborativerstellten Graphen jedoch ist jede Ergänzung, Löschungoder Änderung eines Tripels eigentlich eine neue Versiondes Gesamtgraphen, deren Auswirkungen unter Umstän-den weitreichend sein können. Wie versioniert man solcheÄnderungen und wie macht man bestimmte Versionen alsReferenz zugänglich? Wie schließlich entscheidet man, obeineAussage, die sichauf eine vergangeneVersionbezieht,auch in einer neuennochvoll gültig ist?

All diese und weitere Fragen beschäftigen die For-schung und fließen in neue Versionen der Standards ein.Auch werden neue Sprachen und Ansätze zur Semantik-modellierung entwickelt, die versuchen, diese Problemezu lösen. In diesem Sinne trägt die aktive Forschung zumSemantic Web zu einer konstanten Verbesserung der Stan-dards und Prozesse, aber auch zu einem größeren Pro-blembewusstsein bei den Modellierern und Anwendernbei. Auch werden die Grenzen semantischer Modellierungsichtbar: Weder lässt sich alles modellieren, was model-liert werden kann, noch gibt es einen einzigen richtigenWeg der Modellierung. Kontextabhängigkeit und derenModellierung wird für die Zukunft semantischer Netze ge-nauso wichtig werden wie die Quantifizierung von Daten-qualität und die Abschätzung des unbekannten, nicht-modellierten Anteils. Die Verschränkung von Linguistik

15 Glimm, Birte; Rudolph, Sebastian; Völker, Johanna: IntegratedMetamodeling and Diagnosis in OWL 2. Technical Report Nr. 3006Institute AIFB, KIT. http://www.cs.ox.ac.uk/files/3318/TR-GRV-Metamodelling.pdf.

16 Halpin, Harry; Herman, Ivan; Hayes, Patrick J.: When Owl:same-As Isn’t the Same: An Analysis of Identity Links on the Semantic Web.2010. URL: http://www.w3.org/2009/12/rdf-ws/papers/ws21.17 Hogan, Aidan; Umbrich, Jürgen; Harth, Andreas; Cyganiak, Ri-chard; Polleres, Axel; Decker, Stefan: An Empirical Survey of LinkedData Conformance. In: Journal of Web Semantics 14 (2012) S. 14–44.

Linked Open Data –Wie dasWeb zur Semantik kam 453

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

und Informatik zeigt sich hier besonders deutlich, da dieAmbiguität natürlicher Sprache eine gewisse Widerstän-digkeit gegen ihre Formalisierung an den Tag legt, dernicht mit denMitteln der Informatik allein zu begegnen ist.

7 Anwendung und Anwendungen

Semantic Web Prinzipien und Technologien finden sichheute in einer Vielzahl von Anwendungen. InteressanteProjekte sind auch und besonders im Umfeld von Museen,Archiven und Bibliotheken anzutreffen. So sei exempla-risch das British Museum mit seinem Research Space ge-nannt.18 Dabei handelt es sich um eineWebanwendung fürkollaborative Forschung zu seinen Beständen, die kom-plett auf Basis von RDF unter Verwendung des VokabularsCIDOC CRM realisiert ist19. Diese Architektur ermöglichtden Forschern das Auffinden von Zusammenhängen, diesonst verborgen bleiben würden. Ein anderes interessan-tes Projekt ist das Web-Annotations-Tool Pundit20, das inverschiedenen Forschungsprojekten weiter entwickelt undgenutzt wird und in der Lage ist, beliebige Webseitensemantisch zu annotieren. Pundit ermöglicht es, RDF-ba-sierte Tripel direkt im Browser anzufertigen und mit ande-ren zu teilen, sodass explizite semantische Aussagen überElemente von Webseiten entstehen. Die BBC verwendetRDF-Architekturen für die Verarbeitung ihrer umfangrei-chen Daten zu ihren Programmen, Sport, Tierwelt, Musikund Radio. Die deutsche Nationalbibliothek bietet ebensoeine RDF-Schnittstelle wie die UK National Archives. Zahl-reiche Bibliotheksverbünde veröffentlichen ihre DatenRDF-basiert und immer mehr Forschungsprojekte setzenSemantic Web Technologien ein und stellen ihre Ergeb-nisse als Linked Open Data zur Verfügung.

Die Technische Universität Braunschweig entwickeltdas ontologiebasierte Terminologiemanagementsystem ig-los (intelligentes Glossar), das Fachsprache in interdiszip-linären Teams visuell modellieren und so Missverständ-nisse minimieren kann.21 Die Humboldt-Universität zuBerlin baut in ihrem Exzellenzcluster Bild Wissen Gestal-tung eine RDF-basierte Ontologie auf, die sehr heterogenewissenschaftliche Arbeitsprozesse modellieren und doku-mentieren kann. Ziel ist es, mit Hilfe dieser Ontologie zueinem besseren Verständnis von interdisziplinärer For-schung und ihren Schwierigkeiten zu kommen und die

wesentlichen Faktoren für ihr Gelingen zu identifizieren.22

Eine Vielzahl von Tools ist in diesem Kontext entstan-den und kann zuallermeist kostenlos genutzt werden. Ver-breitet sind beispielsweise der Ontologie-Editor Protegé23

der Stanford University oder der Java-basierte TriplestoreSesame24. Für die Einbindung in alle etablierten Program-miersprachen stehen Frameworks zur Verfügung. Aus-gereifte kommerzielle Produkte und professionelle Unter-stützung finden sich aber ebenso.

Der Einsatz von SemanticWeb Technologie eignet sichbesonders für Bibliotheken, Archive und Museen. Hierkann auf viel domänenspezifische Vorarbeiten zurück-gegriffen werden. Da für diese Institutionen die Organisati-on von Information und deren Erschließung für breiteNutzerkreise eine zentrale und komplexe Aufgabe ist, ge-langen statischeMetadatenschemata an ihre Grenzen.

Die Europeanamacht vor, was auf diesem Gebiet mög-lich ist. Ihre Aufgabe ist es, das vielfältig distribuierteKulturerbe Europas mit einer zentralen digitalen Schnitt-stelle zu versehen und zu erschließen. Dazu integriert siedie Metadaten von z. Z. nahezu 150 Providern aus Biblio-theken, Museen, Galerien, Archiven, Projekten und Unter-nehmen aus ganz Europa.25 Da diese verschiedenen Daten-lieferanten sehr unterschiedliche Inhalte verwalten, liegenauch sehr verschiedene, häufig spezialisierte Datenforma-te der Ursprungsdaten vor. Die Europeana erstellt dazu einMapping, das diese verschiedenen Formate im RDF-basier-ten Europeana Data Model zusammenführt, ohne die da-hinterliegenden Spezialisierungen zu verlieren (EDM stehtfür Europeana Data Model26). Das EDM basiert auf denVokabularen OAI ORE (Open Archives Initiative ObjectReuse & Exchange), Dublin Core, SKOS (Simple Knowled-ge Organization System) und CIDOC CRM. Darüber hinauserlaubt das EDM, domänenspezifische Spezialisierungenvorzunehmen, wie beispielsweise im Projekt DM2E (DigitalManuscripts for Europeana), das Spezialisierungen für Ma-nuskripte ergänzt.27 Alle in EDM vorliegenden oder dahinkonvertiertenMetadatenwerden über die Europeana-Web-applikation aggregiert, wobei das jeweilige CHO (CulturalHeritage Object) im Sinne eines objektorientierten Ansat-zes als Basis gewählt wird.

18 http://www.researchspace.org.19 http://www.cidoc-crm.org.20 https://thepund.it.21 http://www.iglos.de.

22 https://www.interdisciplinary-laboratory.hu-berlin.de/de/basisprojekte/architekturen-des-wissens.23 http://protege.stanford.edu.24 http://www.openrdf.org.25 http://europeana.eu/portal/europeana-providers.html.26 http://pro.europeana.eu/edm-documentation.27 Dröge, Evelyn; Iwanowa, Julia; Hennicke, Steffen: A Specialisati-on of the Europeana Data Model for the Representation of Manu-scripts: The DM2E model. In: Libraries in the Digital Age (LIDA) 13(2014).

454 Christian Stein

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57

So wird eine Semantic Web Application zur Verfügunggestellt, die heterogene Datenformate und verteilte Origi-naldaten semantisch zusammenführt, vernetzt und er-schließt.

Gerade das Browsen zwischen vernetzen Objektenund Informationsträgern, das zielgerichtete Filtern, dieNachnutzung bestehender Daten und die Verknüpfungmit externen Daten und anderen Anbietern sind mit se-mantischen Technologien sehr gut möglich. Auch moder-ne Suchmaschinen, die sich eher an natürlicher Spracheanlehnen als an reinen Keywords, profitieren stark vonsemantischen Netzen. Googles Knowledge Graph ist einBeispiel dafür, auch wenn er intern nicht mit RDF model-liert ist.29

Bei allen Vorteilen muss jedoch auch bedacht werden,dass der Umgang mit semantischen Technologien im De-tail nicht trivial ist. Gerade wenn es um die Nutzung kom-plexer Ontologien geht, darf die Einarbeitungszeit nichtunterschätzt werden. Auch gehört der Umgang mit dendazugehörigen Sprachen und Technologien nicht unbe-dingt zur regulären Ausbildung eines Entwicklers undmuss u.U. neu erlernt werden. Die Vielzahl von Semantic-Web-Projekten in unterschiedlichsten Disziplinen undCommunities macht einen guten Überblick verhältnis-mäßig schwierig. Für die Definition einer eigenen Ontolo-

gie, die an die spezifischen Bedürfnisse angepasst ist,müssen in der Regel eine Vielzahl existierender Ontologienauf mögliche Nachnutzbarkeit geprüft werden, um mög-lichst keine Redundanzen zu erzeugen. Das gestaltet sichnicht immer übersichtlich, auch wenn Verzeichnisse wiedie Linked Open Vocabularies dabei helfen können.30

Wer jedoch die Chance hat, über das Semantic WebExpertise aufzubauen und die eigenen Informationsstruk-turen an die nächste Generation des Webs anzupassen,wird daran viel lernen und nachhaltig profitieren. DieInformationsflut – das merken wir alle tagtäglich – steigtständig an. Nur wer in der Lage ist, die Intelligenz derMaschinen wirksam für Filterung, Vernetzung und Struk-turierung einzusetzen, kann seine Wissensschätze für dieZukunft öffnen.

Dr. Christian SteinExzellenzcluster BildWissen GestaltungUnter den Linden 6D-10099 [email protected]

Abbildung 1: Ausschnitt aus einer exemplarischen EDM-Modellierung, die den objektorientierten Ansatz demonstriert.28

28 EDM Primer, http://pro.europeana.eu/edm-documentation.29 Eder, Jeffrey Scott: Knowledge graph based search system. In:U. S. Patent Application 13/404,109. URL: http://www.google.com/patents/US20120158633. 30 http://lov.okfn.org/dataset/lov.

Linked Open Data –Wie dasWeb zur Semantik kam 455

Bereitgestellt von | Humboldt-Universität zu BerlinAngemeldet

Heruntergeladen am | 12.07.16 12:57