66
<is web> ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung von Bewertungen

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

Embed Size (px)

Citation preview

Page 1: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 1

3.3 Relevance Feedback

Bewertung von Ergebnisdokumenten

Auswertung von Bewertungen

Page 2: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 2

Vereinfachter IR-Prozess

Page 3: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 3

Motivation

erstes Ergebnis oft nicht zufriedenstellend

Gründe:

vage Vorstellung des Nutzers über Suchergebnisse

schlechte Anfrageformulierung

unbekannte Dokumentenkollektion

keine relevanten Dokumente verfügbar

Page 4: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 4

Reaktion auf nicht zufriedenstellendes Ergebnis

Abbruch

Browsing

manuelle Abfragemodifikation

Relevance Feedback

Page 5: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 5

Vorteile Relevance Feedback

Anwender braucht keine Anfragemodifikation durchzuführen → muss Systeminterna nicht kennen

Anwender bewertet nur Ergebnisse

Annähern an Ergebnis iterativ oft einfacher als mit einer einzigen Anfrage

Relevanzwerte vom Nutzer zum System → Relevance Feedback

Page 6: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 6

Beispiel Relevance Feedback

Page 7: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 7

Bewertung von Ergebnisdokumenten

zu berücksichtigende Aspekte:

Anzahl der zu bewertenden Dokumente soviel wie möglich versus Aufwand: <=10

reduzierte Darstellung der Ergebnisdokumente z.B. Thumbnails, Zusammenfassungen

Page 8: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 8

Bewertung von Ergebnisdokumenten (2)

Art der Bewertung relevant und keine Bewertung relevant, irrelevant und keine Bewertung gestufte Relevanzwerte

Page 9: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 9

Bewertung von Ergebnisdokumenten (3)

Bewertungsgranulat: Dokument oder Dokumenteneigenschaften bzgl. mehreren Anfrageobjekten (Suchtermen) einer

zusammengesetzten Anfrage, z.B.„Korsika and Strand“

bzgl. verschiedener Eigenschaftswerte z.B.: Bildersuche anhand Form und Größe, aber getrennte Bewertung

Page 10: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 10

Beispiel gestufte Relevanzwerte

Page 11: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 11

Pseudorelevanz

automatische Bewertung, also Entlastung des Nutzers

erste relevante Dokumente gelten automatisch als relevant → Anfragemodifikation

schlechtere Ergebnisse als bei manueller Relevanzbewertung

oft bessere Ergebnisse als ohne Anfrage-Iteration

Page 12: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 12

Auswertung von Bewertungen

Finden eines besseren Ergebnisses

Anfragemodifikation: Modifikation von Nutzerprofilen

z.B. Text-Retrieval: Profil enthält nutzerspezifische Suchterme (etwa „Ferienwohnung“ für Reisebüro)

Modifikation der Dokumentenbeschreibungen z.B. Modifikation des Indexvokabulars → erfordert hohen Aufwand

Modifikation des Suchalgorithmusz.B. andere Distanzfunktion

Modifikation von Anfragetermgewichten in zusammengesetzten, gewichteten Anfragen

Page 13: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 13

Anfragemodifikation im Vektorraummodell: Rocchio

Verschiebung des Anfragevektors in Richtung der als relevant bewerteten Dokumente weg von als irrelevant bewerteten Dokumenten

Anfrage: q

alt

relevant (irrelevant) bewertete Dokumente: Dr (D

i)

Page 14: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 14

Anfragemodifikation im Verkorraummodell: Rocchio (2)

α und β wichten Einfluss relevanter und irrelevanter Dokumente

Page 15: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 15

Beispiel Rocchio

Page 16: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 16

3.4 Bewertung von Retrieval-Systemen

Einführung

Precision, Recall und Fallout

Kombinierte Precision- und Recall-Werte

Precision- und Recall-Werte abhängig von der Ergebnisgröße

Page 17: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 17

Einführung

Bewertung (Qualitätsvergleich) verschiedener Retrieval-Systeme

quantitative Maße vonnöten

Page 18: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 18

Ergebnisbewertung bzgl. versch. Formulierungsebenen

inwieweit ist Ergebnis relevant zu

nicht formuliertem Informationsbedarf Informationsbedarf als natürlichsprachliche Frage Informationsbedarf als Anfrage

Page 19: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 19

Ergebnisbewertung bzgl. versch. Formulierungsebenen (2)

Bewertungsunterschiede bzgl. Informationsbedarf und Frage:

mangelnde Fähigkeit des Nutzers, Informationsbedarf adäquat als Frage zu formulieren (Bewertung des Nutzers)

Frage und Anfrage: mangelnde Formulierung einer Frage als Anfrage

(Bewertung des Nutzers und der Abfragesprache)

Page 20: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 20

Nützlichkeit und Relevanz

Relevanz: inwieweit befriedigt Ergebnis den Informationsbedarf

Nützlichkeit: inwieweit ist das Ergebnis hilfreich

Unabhängigkeit zwischen Nützlichkeit und Relevanz

Beispiel: irrelevant aber (vielleicht?) nützlich:Suche nach Urlaubsmöglichkeiten in Korsika liefert Flugmöglichkeiten

Page 21: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 21

Nützlichkeit und Relevanz (2)

Beispiel: relevant aber nutzlos:Suche nach Urlaubsmöglichkeiten in Korsika liefert veraltete Dokumente zu Ferienwohnungen

im Folgenden Konzentration auf Relevanz und Irrelevanz von Ergebnissen bzgl. Anfrage

Page 22: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 22

Precision, Recall und Fallout

zunächst Ergebnis als Menge

zwei verschiedene Fehlentscheidungen

1.false alarms (fa) bezeichnet diejenigen Dokumente, die vom Retrieval-System irrtümlicherweise als relevant zurückgeliefert werden

2.false dismissals (fd) sind Dokumente, die fälschlicherweise vom Retrieval-System als irrelevant eingestuft wurden

Page 23: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 23

Precision, Recall und Fallout (2)

zwei korrekte Entscheidungen:

1.correct alarms (ca)

2.correct dismissals (cd)

fa, fd, ca, cd stehen für entsprechende Dokumentanzahlen bzgl. einer Anfrage

Page 24: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 24

fa, fd, ca, cd

Page 25: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 25

fa, fd, ca, cd im Euler-Venn-Diagramm

Page 26: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 26

Precision P

Precision: Wieviele (als Verhältnis) Ergebnisdokumente sind tatsächlich relevant?

Page 27: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 27

Recall R

Recall: Wieviele (als Verhältnis) tatsächlich relevante Dokumente erscheinen im Ergebnis

Page 28: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 28

Fallout F

Verhältnis falsch gefundener zur Gesamtzahl irrelevanter Dokumente

Page 29: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 29

Ermittlung von fd und ca

normalerweise nur fa+ca+fd+cd und ca+fa bekannt

für fd und ca Nutzerbewertung notwendig

ca durch Relevanzbewertung der Ergebnisdokumente

fd durch Relevanzbewertung der zurückgehaltenen Dokumente

Page 30: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 30

Ermittlung von fd und ca (2)

Problem: meist hoher Aufwand aufgrund hoher Dokumentenanzahl, insbesondere für fd

Lösungsansatz: Verwendung von kleiner, repräsentativer Testdatenbank

Page 31: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 31

Durchschnitt über Anfrageserie

Precision, Recall, Fallout definiert bzgl. einer Anfrage

besser: mehrere Anfragen und entsprechende Durchschnittswerte

Page 32: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 32

Beispiel

20 Dokumente, 2 Anfragen, jeweils 10 Ergebnisdokumente

Page 33: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 33

Precision versus Recall

beide Werte gleich wichtig, da

gute Precision auf Kosten Recall: möglichst kleine Ergebnismenge z.B. Ergebnismenge enthält nur ein relevantes Dokument: P = 100% und R → 0

gutes Recall auf Kosten Precision: möglichst große Ergebnismenge z.B. Ergebnismenge enthält alle Dokumente: R = 100% und P → 0

Page 34: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 34

Abhängigkeit von Dokumentanzahl

Ergebnis als Liste

ca, cd, fa, fd, Precision und Recall sind abhängig von Ergebnisgröße r

daher ca(r), cd(r), fa(r), fd(r), Pq(r) und R

q(r) bzgl. der r

ersten Ergebnisdokumente

Page 35: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 35

Kombinierte Precision- und Recall-Werte

beim Inkrementieren von r, pro neues Dokument zwei Varianten

Page 36: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 36

Beispiel

20 Dokumente, 1 Anfrage, 2 Retrieval-Systeme

die selben 20 Dokumente, neue Anfrage, 3. Retrieval-System

Page 37: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 37

Beispielwerte für Precision und Recall tabellarisch

Page 38: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 38

Beispielwerte für Precision und Recall graphisch

Page 39: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 39

Abbildung zwischen Precision und Recall

Linie ist Sägezahnlinie→ keine Funktion

Ziel: Precision als Funktion über Recall

Lösung: pro Recall-Wert maximalen Precision-Wert verwenden

Optimum: 100%-Linie

System besser, je näher zum Optimum

Page 40: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 40

Precision als Funktion über Recall

Page 41: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 41

Unterschiedliche Recall-Werte

unterschiedliche Anfragen erzeugen oft unterschiedliche Recall-Wertez.B. Anfrage 1,2 versus 3

Ziel: Vergleich Retrieval-System immer bzgl. 11 Standard-Recall-Stufen

11 Standard-Recall-Stufen: 0%, 10%, ..., 100%

Page 42: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 42

Unterschiedliche Recall-Werte (2)

Lösung: Precision-Werte aus Intervallen berechnen: r

jS ist j-te Stufe der 11 Stufen und r

i sind ursprüngliche

Recall-Stufen

Page 43: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 43

11 Standard-Recall-Stufen grafisch

Page 44: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 44

Alternative Precision-Recall-Funktion

ursprüngliche Abbildung ist keine Funktion (Sägezahnlinie)

alternative Lösung: pro Recall-Wert den größten Precision-Wert des aktuellen und aller nachfolgenden Recall-Werte übernehmen

Page 45: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 45

11 Standard-Recall-Stufen grafisch

Page 46: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 46

Durchschnitt über Standard-Recall-Stufen

Recall-unabhängiger Vergleich

Durchschnittswerte zum Vergleich nutzen

wenn gewünscht: zusätzlich Durchschnitt über mehrere Anfragen

Page 47: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 47

Precision-Werte abhängig von Ergebnisgröße

Page 48: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 48

Harmonisches Mittel

Kombination von Precision und Recall einer Ereignisgröße

Page 49: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 49

Beispiel harmonisches Mittel

Page 50: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 50

Beispiel harmonisches Mittel grafisch

Page 51: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 51

3.5 Nutzerprofile

Retrieval-Szenarien

Einfluss von Nutzerprofilen auf den Retrieval-Prozess

Page 52: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 52

Motivation

bis jetzt keine Unterscheidung von Anwender und Anwendergruppen

Verhalten bzw. Suchbedarf verschiedener Nutzer differiert oft

Idee: Subjektivität wird als Nutzerprofil modelliert und bei Suche berücksichtigt

nur sinnvoll bei häufigem Zugriff von einzelnen Nutzern mit Identifikation

Page 53: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 53

Beispiel

Bibliothekarin in einer Informatik-Bibliothek kennt Nutzer Professoren interessiert an spezieller Fachliteratur Studenten interessiert an Lehrbüchern

Page 54: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 54

Bestandteile eines Nutzerprofils

etwa eine feste Anfrage vorgegeben vom Nutzer oder aus Suchläufen ermittelt

zusätzlich möglich:

Bildungsstand: Vorkenntnisse

Vertrautheitsgrad mit Interessensgebiet: Anfänger versus Experte

Page 55: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 55

Bestandteile eines Nutzerprofils (2)

Spachfähigkeit: Deutschkenntnisse

Retrieval-Historie: Ergebnisse vorheriger Sitzungen

spezielle Präferenzen: z.B. Bevorzugung eines bestimmten Journals

Page 56: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 56

Retrieval-Szenarien

Page 57: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 57

Filtering mit Profilen

Vergleich Nutzerprofile mit neu eingefügten Dokumenten

Relevanz → Nutzer wird informiert

Dokument quasi als Anfrage und Profile als Datenkollektion

System ist aktiv → Push-Dienst oder Current-Awareness-System oder Subscription

Page 58: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 58

zusätzliche Sortierung anhand Relevanz: Routing

Beispiel: Ärzte bleiben informiert anhand medizinischer Artikel, die entsprechend ihren Profilen gefiltert werden

Filtering mit Profilen (2)

Page 59: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 59

Retrieval mit Profilen

Nutzerstamm statisch

zwei Realisierungsmöglichkeiten

1.Nachfiltern: Filtering auf Anfrageergebnis hoher Berechnungsaufwand durch u.U. großem

Zwischenergebnis reduzieren nur false alarms

2.Vorfiltern: Nutzerprofil beeinflusst Retrieval-Prozess direkt Reduzierung von false alarms und false dismissals

Page 60: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 60

Nachfiltern

Page 61: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 61

Einfluss von Nutzerprofilen auf den Retrieval-Prozess

Annahme: Anfrage als Profil

einfache Realisierung: Verschiebung Anfragepunkt q in Richtung Profilabfragepunkt p

Page 62: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 62

Einfluss von Nutzerprofilen auf den Retrieval-Prozess (2)

Problem: relevante Dokumente bzgl. q können irrelevant bzgl. q' werden, gewünscht: Reduzierung false dismissals statt Reduzierung false alarms

Page 63: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 63

Minimumsfunktion

Erweiterung der Anfragesemantik statt -modifikation

naiver Ansatz: Min-Funktion

Page 64: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 64

Minimumsfunktion

Problem 1: Profil liefert immer selbe Dokumentmenge

Problem 2: Dokumente zwischen q und p erscheinen nicht unbedingt im Ergebnis

Page 65: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 65

Summenbildung

Problem: Suchbereich wird zu groß

Page 66: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 66

Multiplikation

Kompromiss zwischen Min-Funktion und Summenbildung

3 Varianten in Abhängigkeit

von r: