Upload
angelika-gerhold
View
108
Download
0
Embed Size (px)
Citation preview
13.03.2014 lbsffm/pop
Suchportal Informationen zum Ranking
213.03.2014
Level 0personperson_lc_wordtitle title_lc_word title_lc_phrase topic… Level 1 / Level 2kls_3shelfmark_3topic_3topic_lc_word_3…
Fremddaten(z.B. Titelanreicherungen)
HDS-Index
HDS-IndexCBS-Retro
CBS
Tlw. Einsatz von „Filtern“(Stemming, Phonetische Unschärfe, etc.)
313.03.2014
Indexierung - Beispiel
Indexfeld Indexierungsverfahren Autor: „Gerthsen, Christian“Titel: „Gerthsen Physik“ wird im Index gespeichert als …
person Wortweise mit Modifikation(Phonetische Unschärfe)
gerdzen | gertsen | dZertsen | tSristjan| xriStjan| xristjan
person_lc_word Wortweise „exakte Schreibweise“(auf Kleinschreibung normiert)
gerthsen | christian
title Wortweise mit Modifikation(Phonetische Unschärfe + „starkes“ Stemming)
gerts | fisik | fizik | phisik | phizik
title_lc_word Wortweise „exakte Schreibweise“(auf Kleinschreibung normiert)
gerthsen | physik
title_lc_phrase Phrase gerthsen physik
misc Wortweise mit Modifikation(„schwaches“ Stemming)
gerths | physik
…
413.03.2014
Suchanfrage
Indexfeld Autor: „Gerthsen, Christian“Titel: „Gerthsen Physik“ wird im Index gespeichert als …
Suchanfrage: „Gerdsen Physik“wird im Index gesucht als …
person gerdzen | gertsen | dZertsen | tSristjan| xriStjan| xristjan
gerdzen | gertsen | dZertsen | fisik | fizik | phisik | phizik
title_lc_word gerthsen | physik gerdsen | physik
title_lc_phrase gerthsen physik gerdsen physik
513.03.2014
DismaxFields: - person - person_lc_word ^5^2 - title_lc_word ^4 - id - isxn - topic ^0.6 - topic_lc_word ^0.6 - topic_3 ^0.5 - topic_lc_word_3 ^0.5 - kls_3 ^0.5 - kls_lc_word_3^0.5 - misc ^0.01 - shelfmark_3 - series_statement ^0.01 - retroocr - retroocr_lc_word - part_of
Ranking-Einstellungen der Einfachen Suche I
Kein eigener ALL-Index, wie im OPAC Stattdessen ein Suchfeld „allfields“, in dem
festgelegt wird, welche Indexfelder bei der Suche berücksichtigt werden
Relevanz-Grundwert multipliziert mit ^Wert
Stärkere Gewichtung / Boosting (>1) bzw. Schwächere Gewichtung (<1) eines Indexfelds
613.03.2014
Ranking-Einstellungen der Einfachen Suche II
DismaxParams:Parameter zum Einstellen, wie viele Suchbegriffe gefunden werden müssen- [mm, 4<-1 7<80%]Erscheinungsjahr-Boosting- [boost, sum(product(max(0,sum(product(abs(ms(NOW/YEAR,pub_date_max)),- 5.285e-13),1)),6.5),1)]Dämpfung der Relevanzwerte von Titelaufnahmen aus dem Retrokatalog- [boost, if(exists(query({!v='id:HEBr*'})),0.4,1)]Automatische Phrasenbildung- [ps, 3]- [pf, title_lc_word^3 kls_3]
Mehr Infos unter: http://lucidworks.lucidimagination.com/display/solr/The+Extended+DisMax+Query+Parser
713.03.2014
publisher: DismaxFields: - publisher - publisher_lc_word^5 DismaxParams: - [mm, 4<-1 7<80%] - [bf, product(max(0,sum(product(abs (ms(NOW/YEAR,pub_date_max)), -5.285e-13),1)),250)] QueryFields: - publisher: - [and, 100] - [or, ~] - publisher_lc_word: - [and, 100] - [or, ~]
Ranking-Einstellungen der Erweiterten Suche I
Für die Erweiterte Suche werden die Suchfelder einzeln definiert
allfields
title
fulltitle
author
topic
publisher
misc
shelfmark
isn
813.03.2014
Ranking-Einstellungen der Erweiterten Suche II
title:DismaxFields: - title_lc_word^2DismaxParams: - [mm, 4<-1 7<80%] - [bf, product(max(0,sum(product (abs(ms(NOW/YEAR,pub_date_max)), -5.285e-13),1)),250)] - [ps, 1] - [pf, title_lc_word]
fulltitle: QueryFields: - title_lc_phrase: - [onephrase, 10]
Suchbegriffe, die nur sinnvoll als Phrase gesucht werden können, z.B. „Vollständiger Titel“, „Klassifikationen“ und „Signaturen“ müssen über den Standard-Query-Parser gesucht werden.
Tlw. andere Parameter als in der Einfachen Suche, da in der Erweiterten Suche nicht alle DisMax-Parameter funktionieren.
913.03.2014
Auswertung I
https://fantasio.rz.uni-frankfurt.de/ubffm2
1013.03.2014
Auswertung II
Seitenquelltext anzeigen lassen …
… und diesen komplett kopieren.
1113.03.2014
Auswertung III
„http://explain.solr.pl“ aufrufen und dort den Seitenquelltext einfügen.
1213.03.2014
Auswertung IV
1313.03.2014
Berechnung des Relevanz-Wertes I
Pro Suchbegriff wird für jedes Indexfeld ein Relevanz-Grundwert ermittelt, der sich an Hand der folgenden Kriterien berechnet:
Je seltener ein Suchwort im Index vorhanden ist, desto höher ist sein Beitrag zum Ranking.
Je länger der Feldinhalt ist, in dem ein Suchwort gefunden wurde, desto geringer ist sein Beitrag zum Ranking.
Dokumente, in denen die Suchworte häufiger vorkommen, werden höher bewertet.
Dokumente, in denen mehr Suchworte vorkommen, werden höher bewertet.
Den Relevanz-Grundwert kann man nur bedingt mit den Ranking-Einstellungen in der searchspecs.yaml beeinflussen, z.B. stärker oder schwächer gewichten mit '^'.
Die Berücksichtigung der Feldlänge ist bei bibliographischen Daten allerdings nicht sinnvoll und sollte daher nur bei Indexfeldern mit Volltexten berücksichtigt werden.
1413.03.2014
Berechnung des Relevanz-Wertes II
Pro Suchbegriff wird für jedes Indexfeld ein Relevanz-Grundwert ermittelt.
1513.03.2014
Berechnung des Relevanz-Wertes III
Pro Suchbegriff wird der größte Relevanz-Grundwert eines Indexfeldes mit der Summe der übrigen Relevanz-Grundwerte x 0,1 * addiert.
1,5657005 + ((0,642657 + 0,0003096999 + 0,3055427 + 0,3834857) x 0,1) = 1,6989001
* Der Faktor kann über den "tie-Parameter" geändert werden.
1613.03.2014
Berechnung des Relevanz-Wertes IV
Die so ermittelten Werte werden addiert und mit dem Wert des Erscheinungsjahr-Boostings multipliziert.
(0,99749726 + 1,6989001) x 7,066367 = 19.053734