63
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC ). Vorlesung Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2010/11 Semantic Web Technologien Blog zur Vorlesung: http://web-flakes.blogspot.com/

14 Semantische Suche - Semantic Web Technologien WS2010/11

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).

VorlesungDr. Harald Sack

Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam

Wintersemester 2010/11

Semantic Web Technologien

Blog zur Vorlesung: http://web-flakes.blogspot.com/

Page 2: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

2

Joseph Wright of Derby:The Alchymist, In Search of the Philosopher’s Stone, 1771

Linked

Data

&

Semant

ic Web

Applic

ations

Page 3: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

3

Semantic Web Technologien

Page 4: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

4 1. Einführung

2. Semantic Web BasisarchitekturDie Sprachen des Semantic Web - Teil 1

3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2

4. Ontology Engineering

5. Linked Data und Semantic Web Anwendungen

Semantic Web Technologien Vorlesungsinhalt

Page 5: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

5

Semant

ic

Search

Albrecht Dürer: Melancholia I, 1514

Page 6: 14 Semantische Suche - Semantic Web Technologien WS2010/11

5.Linked Data und Semantic Web Anwendungen

5.1.Linked Data Engineering

5.2.Semantische Suche

5.2.1.Klassisches Information Retrieval und Multimedia Retrieval

5.2.2.Semantisch unterstütztes Information Retrieval

5.2.3.Explorative Suche

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

6

Semantic Web Technologien Vorlesungsinhalt

Page 7: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

7

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Wie findet man etwas im WWW?

Page 8: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

8

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Das ,Google-Dilemma‘

• Eingabe einer Suchphrase

• Boolesche Verknüpfung einzelner Suchbegriffe

• Volltextsuche

• Normalisierung (Stemming)

Page 9: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

9

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Das ,Google-Dilemma‘

Page 10: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

10

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Das ,Google-Dilemma‘

• Erzeugung einer linearen (nach Relevanz

gewichteten) Ergebnisliste

• TFIDF / PageRank

• Personalisierung (Logdatenanalyse)

Page 11: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

11

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

“Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und

Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte

Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der

Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.”

(nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983)

Menge von Anfragen

informationrequests

Menge von Dokumenten

files of records

Indexierungs-sprache

similarityIndexierungAnfrage-

formulierung

Klassisches Information Retrieval

Page 12: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

12

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Klassisches Information RetrievalInformationRetrieval

Bereitstellenvon

Informationen

Suchfunktionenund

Navigationsformen

Interne Wissens-repräsentationen

Verfahren derWissensrekonstruktion

Analyse/Modellierungder im Objektbereich

festgelegtenWissensobjekte

mit dem Zielberuht auf

durch Anwendung von durch Anwendung von

operieren überErgebnisse abgelegt alsAllgemeines Modell des Information Retrievalnach [Kuhlen 1995]

Informations-aufbereitung

Retrieval

Page 13: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

13

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Information Retrieval Modelle

Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004.

Page 14: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

14

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Information Retrieval Modelle

• Boolean Retrieval

• Vector Space Model

• Probabilistic ModelA B

C(A ∧ ¬B) ∧ C

•verwendet Aussagenlogik als Retrievalsprache•erlaubt Selektion und Verknüpfung beliebiger

Dokumentenmengen aus einer einer Dokumentenkollektion•mit Hilfe Boolescher Junktoren (Suchoperatoren) •einfache Implementierung•keine differenzierte Termgewichtung möglich•keine Rangreihenfolge der Ergebnisse (Ranking)

Page 15: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

15

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Information Retrieval Modelle

• Boolean Retrieval

• Vector Space Model

• Probabilistic Model

Deskriptor1

Deskriptor2

Deskriptor3

Dokument = (2,4,2)Suchabfrage = (1,0,0)

Dokument

Suchanfrage

2

2

4

Bsp.: n = 3

ρ

•Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert

•Zum Retrieval wird die Distanz zwischen Suchanfrage- und Dokumentenvektor verwendet

•Relevanzbewertung (Ranking) erfolgt nach der ermittelten Distanz

•Differenzierte Termgewichtung möglich• lineare Termanordnung im Dokument geht

verloren •mangelnde semantische Sensitivität

(Vokabularabhängigkeit)

Page 16: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

16

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Information Retrieval Modelle

• Boolean Retrieval

• Vector Space Model

• Probabilistic Model

• Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet

• IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab

Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988.

Page 17: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

17

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Evaluation von Information Retrieval Systemen

relevante Dokumente gefundene Dokumente

relevante Dokumente, die gefunden wurden

R P

Recall=| R ∩ P |

|R|

Precision=| R ∩ P |

|P|

Text REtrieval Conference (TREC, seit 1992)veröffentlicht jährlich Challenges in unterschiedlichen Gebieten des Information Retrievals mit zugehörigen Testdaten

Page 18: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Suchmaschinen im WWW

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

18

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

• World Wide Web ist ein verteiltes Hypermediasystem

• multimediale Dokumente

• über Hyperlinks miteinander vernetzt

• WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben

• Erstellung und Pflege eines Indexes (Web Crawler + Indexing)

• Verarbeitung von Suchabfragen (Retrieval + Ranking)

• Aufbereitung der Ergebnisse (Visualisierung)

Page 19: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

19

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Web-Crawler (Web Robot)

URL Liste

http://www.xxxx.de/1234...http://www.xxxx.de/2234...http://www.xxxx.de/3234...http://www.xxxx.de/4234...http://www.xxxx.de/5234...http://www.xxxx.de/6234...http://www.xxxx.de/7234......

<a href=“...“ .../>

<a href=“...“ .../>

HTMLDokumente

WWW-ServerHTTP Request

WWW-Server liefert angefragteHTML-Dokumente an denWeb-Crawler zurück

1

2

3

4

Page 20: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Preprocessing und Indexierung

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

20

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Datennormalisierung

Wortidentifikation

Sprachidentifikation

Word Stemming

POS-Tagging

Deskriptorengenerierung

Web Crawler

Datenanalyseund Anlegender Index-

Datenstrukturen

Page 21: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

21

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Effiziente Indexdatenstrukturen

Aachen

Altavista

Ananas

……

Zustand

Zypern

Indexdatei

AnanasDocID Pos Frequenz GewichtD123 1;13;77;132 4 9.4D456 22;38 2 6.7 … … … …D998 15 1 1.2

Location List D123Frequenz URL <H1> … <H6> <title> … text

4 1 1 0 1 … 1

D123 http://producers.ananas.org/index.htm

<html><head><title=“Ananas around the World“></head><body> … </body></html>

Invertierte Datei

Direkte Datei

Page 22: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

22

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Relevanzbewertung (Ranking)

• Ranking erfolgt nach Linkpopularität (Google PageRank)

A

1.0

D

1.0

B

1.0

C

1.0

Ausgangssituation

Nr. PR(A) PR(B) PR(C) PR(D)1 1,0 1,0 1,0 1,0

2 1,0 0,575 2,275 0,15

3 2,083 0,575 1,1912 0,15

… … … … …

n 1,49 0,7833 1,577 0,15

Iteration der PageRank Berechnung A

1.49

D

0,15

B

0,78

C

1.57

resultierender PageRank

Page 23: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

23

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Das WWW ist ,ziemlich groß`•ca. 25 x 109 in Suchmaschinen

indizierte Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005)

•Web Crawler: > 1012 Dokumente(The Official Google Blog: We knew the Web was Big....., Juli 25, 2008)

•Google Search Index Caffeine umfasst ca.100 Million Gigabytes i.e. 1017 Byte (SMX Video: Google’s Matt Cutts On Caffeine Launch, June 9, 2010,

http://searchengineland.com/smx-video-googles-matt-cutts-on-caffeine-launch-43933)

•DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001)

Page 24: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

24

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Multimedia, Real-Time Data, Sensor Data, ....

in 06/2010: 7 TB/day

in 05/2010: •24 h of video upload / minute•2 Milliarden streamed videos per day

Page 25: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

25

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Problemfeld 1: Informationssuche• Keyword-Suche führt zu

vielen nicht relevanten Ergebnissen

• Bedeutungsunterschiede• Homonyme• unterschiedlicher Kontext

• Keyword-Suche findet nichtalle relevanten Ergebnisse

• Synonyme• fehlende

Kontextpräzisierung

Suchbegriff: „Golf“

Page 26: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

26

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.1 traditionelles IR

Problemfeld 2: Informationsextraktion

• kann nur von menschlichem“Agenten“ korrekt durchgeführt und bewertet werden

• heterogene Anordnung von Information

• Software-Agent verfügt nicht über• Kontextwissen• Weltwissen• um Informationen aus der

Text-/Bilddarstellung zu lösen

• implizites Wissen, muss durch logische Schlussfolgerungenaus der Kombination vorhandener Informationen ermittelt werden

bild.de

Page 27: 14 Semantische Suche - Semantic Web Technologien WS2010/11

5.Linked Data und Semantic Web Anwendungen

5.1.Linked Data Engineering

5.2.Semantische Suche

5.2.1.Klassisches Information Retrieval und Multimedia Retrieval

5.2.2.Semantisch unterstütztes Information Retrieval

5.2.3.Explorative Suche

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

27

Semantic Web Technologien Vorlesungsinhalt

Page 28: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

28 Inhalte im Web maschinell „verstehen“

Text: „Diego zu Bayern?“

Diego Ribas da Cunha (Instanz)

Fußballspieler

ist ein

(Klasse)

Person

ist eine

(Klasse)

Superklasse

Subklasse

ist eine

Klassen-zugehörigkeit

Entitäten-zuweisung

• Die Bedeutung (Semantik) der Klassenmuss ebenfalls explizit definiert werden.

• Bedeutung wird über geeignete Wissens-repräsentationen (Ontologien) kodiert

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 29: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

29 Inhalte im Web maschinell „verstehen“

Text: „Diego zu Bayern?“

Diego Ribas da Cunha

Fußballspieler

ist ein

Person

ist eine

Entity Mapping / Named Entity Recognition

Wo finde ich die passende Entität ?

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 30: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

30 Inhalte im Web maschinell „verstehen“

Text: „Diego zu Bayern?“

Diego Ribas da Cunha

Fußballspieler

ist ein

Person

ist eine

Entity Mapping / Named Entity Recognition

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Wo finde ich die passende Ontologie ?

Page 31: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

31 Linked Data

http://dbpedia.org/

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 32: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

32 Entity Mapping

Text: „Diego zu Bayern?“

Diego Ribas da Cunha

Fußballspieler

ist ein

Person

ist eine

Entity Mapping

rdf:type dbpedia-owl:SoccerPlayer

rdfs:label Diego Ribas da Cunha

rdf:type dbpedia-owl:Person

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 33: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

33 Entity Mapping

Text: „Diego zu Bayern?“

Diego Ribas da Cunha

Entity Mapping

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

http://dbpedia.org/resource/Diego_Ribas_da_Cunha

Aber wie finde ich die passende Entität ?

Page 34: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

34 Entity Mapping

Text: „Diego zu Bayern?“

Diego Ribas da Cunha

Determine possible Entity Mapping Candidates

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Diego Kolumbus (Vizekönig)

Diego Kolumbus (Seefahrer)

Diego Alberto Milito

Diego von Österreich

Diego Giacometti

Diego Carlone

Diego Baldenweg

Diego Galeri

Diego Barreto

Diego Hypolito

Diego Morais Parcheco

Diego Hostettler

San Diego

Diego Maradonna

San Diego Mariners

USS San Diego

+ 200 mehr...

Page 35: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

35 Entity Mapping

Text: „Diego zu Bayern?“

Determine possible Entity Mapping Candidates

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

We have to examine the Context...

Page 36: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

36 Entity Mapping

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Der Kontext (lat. contextus = verflochten) wird durch das Umfeld eines Wortes (Begriffes) bzw. dessen Zusammenhang mit umgebenden Worten (Begriffen) gebildet.

Page 37: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

37 Entity Mapping

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Context Analysis

Diego zu Bayern?Ich will nicht den gleichen Fehler wie Klose machen!

Extract Text Data

Page 38: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

38 Entity Mapping

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Diego zu Bayern?Ich will nicht den gleichen Fehler wie Klose machen!

Determine Named Entities from Text

Diego

Bayern

Fehler

Klose

Create all possible Sets of Mapping Candidates

Page 39: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

39Entity Mapping

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Diego Bayern Fehler Klose

Create all possible Sets of Mapping Candidates

Diego Ribas da Cunha

Diego Kolumbus (Vizekönig)

Diego Kolumbus (Seefahrer)

Diego Alberto Milito

Diego von Österreich

Diego Giacometti

Diego Carlone

Diego Baldenweg

Diego Galeri

Diego Barreto

Diego Hypolito

Diego Morais Parcheco

Diego Hostettler

San Diego

Diego Maradonna

San Diego Mariners

USS San Diego

BayernKönigreich Bayern

Herzogtum Bayern

F.C. Bayern München

FDP Bayern

SPD Bayern

Landtag Bayern

Maximilian I. von BayernAltbayern

Albrecht V. von BayernBayern (Volk)

Bayernliga

Fehler

Sytematischer Fehler

Menschlicher FehlerProgrammfehler

Messfehler

Erratum

Ausnahmebehandlung

Absoluter Fehler

Fehler 1. ArtRelativerFehler

Byzantinischer Fehler

Adolf Fehler

Logischer Fehler

Mittlerer Fehler

Adolf Klose

Miroslav Klose

Hans Helmut Klose

Sepp Klose

MargareteKlose

Bob Klose

Hans Klose

Oscar Klose

Josef Klose

Peter Klose

Walter Klose (Maler)

Senat Klose

Dennie Klose

Alfred Klose

Carl Klose

Hans-Ulrich Klose (CDU)

Wilhelm Klose

Kai Klose

Alfred Klose (Politologe)

Page 40: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Entity Mapping

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

40

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Diego Bayern Fehler Klose

(1) Co-occurence Analysis(2) Semantic Analysis(3) Machine Learning

Diego Kolumbus (Vizekönig) FDP Bayern Programmfehler Hans Helmut Klose

‣For all possible Combinations do:‣Determine the probability of the co-occurence of a

term combination in an arbitrary text document corpus‣Select the combination with the maximum probability

Page 41: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Entity Mapping

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

41

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IRAber wie finde ich die passende Entität ?

Diego Bayern Fehler Klose

(1) Co-occurence Analysis(2) Semantic Analysis(3) Machine Learning

‣For all Candidat Entities do:‣Determine semantic network graph‣Select largest connected components

Diego Ribas da Cunha

Diego Kolumbus (Vizekönig)

Diego Kolumbus (Seefahrer)

Diego von Österreich

Diego Barreto

Bayern

Königreich Bayern

Herzogtum Bayern

F.C. Bayern München

FDP Bayern

SPD Bayern

Fehler

Sytematischer Fehler

Menschlicher Fehler

Programmfehler Logischer Fehler

Adolf Klose

Miroslav Klose

Hans Helmut Klose Hans-Ulrich Klose (CDU)

Alfred Klose (Politologe)

Page 42: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

42 Entity Mapping

Text: „Diego zu Bayern?“

Diego Ribas da Cunha

Entity Mapping

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

http://dbpedia.org/resource/Diego_Ribas_da_Cunha

Page 43: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

43

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Wie kann ich semantische Annotationen im Information Retrieval nutzen?

Page 44: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

44• Semantische Annotationen ermöglichen eine Verbesserung der

traditionellen Schlüsselwort-basierten Suche durch

(1) Erweiterung / Präzisierung der Suchergebnisse(Query String Refinement)

(2) Herstellung von Querverweisen(Cross Referencing)

(3) Nutzung von semantischen Beziehungen zur

• Visualisierung und

• Navigation durch den Suchraum (Explorative Suche)

(4) Herleitung von impliziten Informationen (Reasoning)

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 45: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

45 (1) Erweiterung der Suchergebnisse• Keyword-basierte Suche liefert nicht alle inhaltlich relevanten Suchergebnisse zu einer

Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben.

• Erweiterung der ursprünglichen Suchphrase (Query Refinement)

• Nutzung von Wörterbüchern und Thesauri

• Synonyme, Ober- und Unterbegriffe

• Nutzung von Domain Ontologien

• Meronyme, Holonyme, Assoziationen

Suchphrase: Bank

Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ...

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 46: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

46 (1) Präzisierung der Suchergebnisse• Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante Suchergebnisse zu

einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden.

• Verfeinerung der ursprünglichen Suchphrase (Query Refinement)• Nutzung von Wörterbüchern und Thesauri

• Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren

• Nutzung von Domain Ontologien

• Meronyme, Holonyme

Suchphrase: Bank

Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 47: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

47 (3) Herstellung von Querverweisen□ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff nicht

notwendigerweise enthalten, aber mit diesem in inhaltlichem Zusammenhang stehen

□ Nutzung von Domain Ontologien

□ Nutzung von Thesauri und Kookurrenzanalysen repräsentativer Dokumentenkorpora

Suchphrase: Miroslav Kloseermittelter Oberbegriff: FC Bayern Munich PlayersAusweitung der Suche auf andere Teammitglieder

dbpedia:Miroslav_Klose

category:FC_Bayern_Munich_Players

rdf:type

Miroslav Klose

Entity Mapping

dbpedia:Luiz_Gustavo

rdf:type

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR

Page 48: 14 Semantische Suche - Semantic Web Technologien WS2010/11

5.Linked Data und Semantic Web Anwendungen

5.1.Linked Data Engineering

5.2.Semantische Suche

5.2.1.Klassisches Information Retrieval und Multimedia Retrieval

5.2.2.Semantisch unterstütztes Information Retrieval

5.2.3.Explorative Suche

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

48

Semantic Web Technologien Vorlesungsinhalt

Page 49: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

49 Suchen ist nicht gleich Suchen•Ein einfaches Beispiel:

Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 50: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

50 Suchen ist nicht gleich Suchen•Wenn man genau weiß, was man sucht, ist es einfach.....

Ich suche das Buch „Brave New World“ von Aldous Huxleyin der ersten in Deutschland erschienenen Ausgabe...

Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“

II 1, 2506, 34548

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 51: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

51 Suchen ist nicht gleich Suchen•...aber was, wenn man nicht genau weiß, was man sucht?

Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich weiß nicht genau, was ich als nächstes lesen sollte....

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 52: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

52 • Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll?

• Was, wenn der Benutzer komplexere Antworten sucht?

• Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt?

• Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt?

• Explorative Suche

• ...,Stöbern‘ statt ,Suchen‘

• ...etwas ,zufällig‘ finden

• ...Serendipity

• ...einen Überblick gewinnen

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 53: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

53 ■How to Explore the Web of Data?

dbpedia:Aldous_Huxley

Wie soll das semantischeNetzwerk um dbpedia:Aldous_Huxleyherum durchsucht werden?

http://dbpedia.org/page/Aldous_Huxley

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 54: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

54 ■How to Explore the Web of Data?

Aldous Huxley

Yago:EnglishScienceFictionWriters

rdfs:type

dbpedia:ontology/influences

George Orwell

rdfs:type

dbpedia:ontology/influences

H.G. Wells

rdfs:type

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 55: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

55

Aldous Huxley

dbpedia:ontology/influences

George Orwell

dbpedia:ontology/influences

Kurt Vonnegut

dbpedia:notableWorks dbpedia:notableWorks

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 56: 14 Semantische Suche - Semantic Web Technologien WS2010/11

■Problem: Was ist eigentlich wichtig?

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

56

http://dbpedia.org/page/Aldous_Huxley

Aldous Huxley

• z.B.., Aldous Huxley• > 600 Fakten (RDF-triples)• > 80 Eigenschaften (properties)• keine Reihenfolge• keine Relevanzbewertungen

• Linked Data beinhaltet ungewichtetes Wissen• ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig

• Entwicklung von Heuristischen Verfahren zur Relevanz-Bewertung von Linked Data Fakten• semantische Graphenanalyse• statistische Verfahren

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Page 57: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Aldous Huxley‘

• Identifikation einer Entität dbpedia:Aldous Huxley

• Bestimmung eines geeigneten Properties

57

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

dbpedia:Aldous_Huxley foaf:name “Aldous Huxley“ .dbpedia:Aldous_Huxleyy rdfs:type yago:EnglishScienceFictionWriters ....dbpedia:Aldous_Huxley dbpedia:ontology/influences dbpedia:H._G._Wells .dbpedia:H._G._Wells rdfs:type yago:EnglishScienceFictionWriters ....dbpedia:George_Orwell dbpedia:ontology/influences dbpedia:Ernest_Hemingway .dbpedia:George_Orwell rdfs:type yago:EnglishScienceFictionWriters .

Page 58: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

Explorative Suche - ein einfaches Beispiel• Suche im Grunddatenbestand nach ,Aldous Huxley‘

• Identifikation einer Entität dbpedia:Aldous Huxley

• Bestimmung eines geeigneten Properties

• Nutzung der gefundenen Properties zur Navigation des Suchraums

58

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche / 5.2.3 Explorative Suche

Aldous Huxley

Yago:EnglishScienceFictionWriters

rdfs:type

dbpedia:ontology/influences

George Orwell

rdfs:type

dbpedia:ontology/influences

H.G. Wells

rdfs:type

Page 59: 14 Semantische Suche - Semantic Web Technologien WS2010/11

3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack

59

Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009.

http://mediaglobe.yovisto.com:8080/

Page 60: 14 Semantische Suche - Semantic Web Technologien WS2010/11

5.Linked Data und Semantic Web Anwendungen

5.1.Linked Data Engineering

5.2.Semantische Suche

5.2.1.Klassisches Information Retrieval und Multimedia Retrieval

5.2.2.Semantisch unterstütztes Information Retrieval

5.2.3.Explorative Suche

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

60

Semantic Web Technologien Vorlesungsinhalt

Page 61: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

61 1. Einführung

2. Semantic Web BasisarchitekturDie Sprachen des Semantic Web - Teil 1

3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2

4. Ontology Engineering

5. Linked Data und Semantic Web Anwendungen

Semantic Web Technologien Vorlesungsinhalt

Page 62: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

62

Page 63: 14 Semantische Suche - Semantic Web Technologien WS2010/11

Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

63

Materialien

□Bloghttp://web-flakes.blogspot.com/

□Materialien-Webseitehttp://www.hpi.uni-potsdam.de/meinel/lehre/lectures_classes/semanticweb_ws1011.html

□bibsonomy - Bookmarkshttp://www.bibsonomy.org/user/lysander07/swt1011_14

5. Linked Data und Semantic Web Anwendungen5.2 Semantische Suche