10
Spree SoSe 2011 Qualität einer Erschließung Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in erster Linie das Speichern, sondern das Wiederauffinden von Dokumenten und Informationen Die Qualität der Erschließung ist also daran zu messen, inwiefern alle für den Benutzer relevanten Dokumente vom Informationsanbieter wiedergefunden werden.

Qualität einer Erschließung Relevanz- und Vollständigkeitsrate

  • Upload
    ursula

  • View
    26

  • Download
    0

Embed Size (px)

DESCRIPTION

Qualität einer Erschließung Relevanz- und Vollständigkeitsrate. Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in erster Linie das Speichern, sondern das Wiederauffinden von Dokumenten und Informationen - PowerPoint PPT Presentation

Citation preview

Page 1: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Spree SoSe 2011

Qualität einer ErschließungQualität einer ErschließungRelevanz- und VollständigkeitsrateRelevanz- und Vollständigkeitsrate

Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in erster Linie das Speichern, sondern das Wiederauffinden von Dokumenten und Informationen

Die Qualität der Erschließung ist also daran zu messen, inwiefern alle für den Benutzer relevanten Dokumente vom Informationsanbieter wiedergefunden werden.

Page 2: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Qualitätskriterien – qualitativ und quantitativPrecision & recall

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

• Angemessenheit – Entspricht die Antwort dem Informationsbedarf?

• Neuigkeit – Anteil der Dokumente, die der Nutzer noch nich kennt

• Nützlichkeit – kann auch für Informationen zutreffen, nach denen der Nutzer gar nicht recherchiert hat

Qualitative Kriterien

• Relevanz / Precision – Grad der Übereinstimmung der inhaltlichen Aussage eines Dokumentes mit der Suchanfrage

• Vollständigkeit / Recall – Anteil der wiedergefundenen vorhandenen Dokumente

Raten Sie mal. Wie hoch ist die Vollständigkeit im

Durchschnitt?

Quantitative Kriterien

Page 3: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Qualitätskriterien der Experten – LexisNexis SmartIndexingPrecision & recall

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Quelle: http://wiki.lexisnexis.com/academic/index.php?title=SmartIndexing

1. Accuracy: LexisNexis indexers and analysts run […] tests on new index terms and periodically re-test and update existing index terms to ensure the highest levels of recall and precision. 2. Consistency: The same taxonomies are used throughout news and business content in LexisNexis Academic 3. Currency: Index terms and hierarchies change over time, […] The automated processes of SmartIndexing are run against all documents in the database on a quarterly schedule so that all indexing is current. 4. Indexing to concepts, not words: […] SmartIndexing uses indexing codes, not words. This means that changes in terminology, such as when a company or a country changes its name, can be made instantly. 5. Language-neutral: The same SmartIndexing codes are used in English- (US and UK), German- and French-language documents, so you can search for foreign-language sources and documents using English index terms. 6. Narrower term roll up: Subordinate terms are included in searches for higher level terms unless explicitly excluded by the user. This approach matches the natural assumption of most users that, for example, a search on (the broad term) Insurance Products should return an article indexed to (narrower terms) Automobile Insurance or Health Insurance.

Page 4: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Bewertungskriterien für IndexierungsergebnissePrecision & recall

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

• Indexierungsbreite

Anzahl der vergebenen Deskriptoren oder Notationen

• Indexierungsspezifität

Annäherung durch das hierarchische Niveau der Indexierungsbezeichnungen, spezielle Deskriptoren vergeben

• Indexierungstiefe

Kombination aus Breite und Spezifität

• Indexierungskonsistenz

Die Indexierungskonsistenz ist hoch, wenn ähnlich Dokumente einheitlich verschlagwortet werden.

Quelle: Die DIN 31 623, Teil 1, Abschnitt 5

Page 5: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Recherche als Mengenlehrevollständig

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Recherchefrage an eine Filmdatenbank: Gesucht werden alle Spielfilme, in denen Rock Hudson und Doris Day zusammen mitgespielt haben.

CLover..

Send …

B Lionpower

APillow ..

C: Menge der relevanten Dokumente, die nicht gefunden wurden (2 Filme mit Rock Hudson und Doris Day: Lover come back; Send me no more flowers)

Selektierte Dokumente im gelben Feld:

Pillow Talk

Lionpower

Berechnung Relevanz:

Anzahl der relevanten gefundenen Doks geteilt durch Anzahl der selektierten Dokumente

A /(A + B) = 1/ (1 + 1) = ½

Berechnung Recall:

Anzahl der relevanten gefundenen Doks geteilt durch Anzahl der relevanten Dokumente

A /(A + C)= 1/ (1 + 2) = 1/3

A: Mengel der relevanten gefundenen Dokumente (1 Pillow Talk)

B: Menge der nicht relevanten gefundenen Datensätze (1 Lionpower)

Page 6: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Verteilung von Recall und Precision eines Suchergebnisses

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Recall

Präzision

1

0

Nach Gaus: Dokumentations- und Ordnungslehre. Berlin u.a., 2003. S. 220

1

Präzision

1

0

1

o o oooooooooooooo oooooo oooo oo o oo ooooooo ooooo

oooooooooooooooooooooooo ooooooo oooooooooooo ooooooooo oooooo ooooooo oooooo

Welches Ergebnis ist besser?

Page 7: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Zusammenhang von Recall und Precision

vollständig

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Verteilung von Recall und Präzision bei Recherchen in einer Datenbank von relativ schlechter Indexierungsqualität. Beide Werte liegen dicht an 0.

Nach Gaus: Dokumentations- und Ordnungslehre.Berlin u.a., 2003. S. 220

Die Qualität ist niedrig, wenn wenige allgemeine, also unpräzise Dokumente gefunden wurden.

Verteilung von Recall und Präzision bei Recherchen in einer Datenbank von relativ guter Indexierungsqualität. Beide Werte liegen dicht an 1.

Die Qualität ist hoch, wenn viele relevante Dokumente gefunden wurden.

Page 8: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Übung: genau

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Eine Studentin sucht für das Fach Berufsfeldanalyse Dokumente zum Berufsbild „Informationswirt". Mit einer Suche im Titelfeld einer Jobdatenbank findet sie 12 Dokumente, wovon 7 relevant sind. Weitere 10 relevante Dokumente hat sie nicht gefunden, da Informationswirt nicht im Titel des Dokumentes vorkommt.

Berechnen Sie bitte

• Relevanz/Präzision (wie zutreffend sind die Dokumente)?

• Recall (wie viele der tatsächlich vorhandenen Dokumente wurde bei der Recherche gefunden?)

FORMEL

Berechnung Relevanz:

Anzahl der relevanten gefundenen Doks/Anzahl der selektierten Dokumente

Berechnung Recall:

Anzahl der relevanten gefundenen Doks/Anzahl aller relevanten Dokumente

Page 9: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Übung: Lösunggenau

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Die Präzision liegt bei (7/12 ca. 0,58)Wie wird die Studentin das Ergebnis bewerten, wenn sie wenig

Zeit hat und möglichst relevante Dokumente finden will?

Der Recall liegt bei (7/17 ca. 0,41)Wie wird die Studentin die Informationssuche bewerten, wenn

sie möglichst viele Dokumente finden will?

Berechnung Präzision/Relevanz:

Anzahl der relevanten gefundenen Doks/Anzahl der selektierten Dokumente

Berechnung Recall:

Anzahl der relevanten gefundenen Doks/Anzahl der relevanten Dokumente in der Datenbank

Page 10: Qualität einer Erschließung Relevanz- und  Vollständigkeitsrate

Literaturgenau

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

DIN 31 623: Indexierung zur inhaltlichen Erschließung von Dokumenten; Teil 1: Begriffe, Grundlagen. Stand: September 1988

Gaus, Wilhelm: Dokumentations- und Ordnungslehre. Berlin: Springer, 2003

Stock, Wolfgang G.: Information Retrieval : Informationen suchen und finden. München, Wien : R. Oldenbourg Verlag, 2007