27
Praxisteil Seminar „experimentelle Evaluierung in IR“ WS05/06 Gruppe A

Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Embed Size (px)

Citation preview

Page 1: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

PraxisteilSeminar „experimentelle Evaluierung in IR“

WS05/06Gruppe A

Page 2: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Experimental setup

• Collections: TREC-123, wt10g• Index: BM25 und TFIDF• Queries:

- Topics 51-100 aus trec123.topics

(für den ersten Teil)

- Topics 736083,... Aus wt10g.topics.1000

(100 aus 1000 Topics für den zweiten Teil)

Page 3: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Aufgabenstellung Experiment (1)

DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=0.5 P0=0.5 vs. P0=1

Experiment (2) DTF vs. DTF max. 10 DLs

c=0.5 vs. c=1 P0=1

Page 4: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise• Indexierung

• Resource description

• Kostenberechnung

• Resource selection

Page 5: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise• Indexierung

eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern

Page 6: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise• Indexierung (cont.)• Show tables from exp_a like ‚ap88%‘;

| ap88_8c_text_stemen_bm25_dl || ap88_8c_text_stemen_bm25_docid || ap88_8c_text_stemen_bm25_expectation || ap88_8c_text_stemen_bm25_idb_rd || ap88_8c_text_stemen_bm25_rd || ap88_8c_text_stemen_bm25_tf || ap88_8c_text_stemen_bm25_tmp1 || ap88_8c_text_stemen_bm25_variance || ap88_8c_text_stemen_bm25_weight || ap88_8c_text_stemen_tfidf_df || ap88_8c_text_stemen_tfidf_dl || ap88_8c_text_stemen_tfidf_docid || ap88_8c_text_stemen_tfidf_expectation || ap88_8c_text_stemen_tfidf_idb_rd || ap88_8c_text_stemen_tfidf_maxTF || ap88_8c_text_stemen_tfidf_rd || ap88_8c_text_stemen_tfidf_tf || ap88_8c_text_stemen_tfidf_tmp1 || ap88_8c_text_stemen_tfidf_variance || ap88_8c_text_stemen_tfidf_weight |+-------------------------------------------------------------+

Page 7: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise• Resource description

Page 8: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise

• Resource selection

Page 9: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise• Resource selection

ResourceSelection{

GenericDL[ap88_4c]=[num=50,costs=0.15566352713854062],Generic DL[ap88_4a]=[num=71,costs=0.2210565707566304], GenericDL[ap88_2c]=[num=41,costs= 0.12752493057416925], GenericDL[ap88_3a]=[num=42,costs=0.13079528016015488],GenericDL[ap88_4b]=[num=96,costs=0.29874969566379744]}

ResourceSelection{

GenericDL[ap88_3b]=[num=62,costs=0.1706536429720925], GenericD L[ap88_4a]=[num=55,costs=0.15093146996168677], GenericDL[ap88_2c]=[num=56,costs= 0.15418909002719608], GenericDL[ap88_3a]=[num=58,costs=0.1593030015695942], Gene ricDL[ap88_1b]=[num=69,costs=0.18973110056079268]}

...

Page 10: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vorgehensweise

• Resource selection (Durchlaufen von 100 Topics):Relevanzurteile: (DTF5, bm25)

051 0 AP880212-0020 1 0.999999999999978 1

051 0 AP880212-0093 1 0.673631123919296 1

051 0 AP880212-0120 1 0.655220742817087 1

052 0 AP880212-0060 1 1.0 1

052 0 AP880212-0009 1 0.970960077124136 1

052 0 AP880212-0056 1 0.438141643714791 1

052 0 AP880212-0019 1 0.400958727204647 1

Page 11: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

BM25 vs. TFIDF• BM25

- Ein Ranking Modell- Die Performance von BM25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter.- Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen,

die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind.

• TF-IDF

- TF: Term Frequency

- IDF: Inverse Document Frequency log(N/DF)

N: Gesamtzahl der Dokumente der Kollektion

DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt

Page 12: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

BM25 vs. TFIDF (cont.)

• BM25

• TFIDF

)(

||log

)(5.15.0),(

),(:),(

tdf

DL

avgdl

ddldttf

tdtftdw

5.0log)(

5.0log

),(max

),(:),(

N

tdf

N

tdtf

tdtftdw

dt

Page 13: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Trec_eval (Bsp.)• Queryid (Num): 100• Total number of documents over all queries• Retrieved: 29157• Relevant: 48365• Rel_ret: 2030• Interpolated Recall - Precision Averages:• at 0.00 0.3369• at 0.10 0.0481• at 0.20 0.0120• at 0.30 0.0022• at 0.40 0.0000• at 0.50 0.0000• at 0.60 0.0000• at 0.70 0.0000• at 0.80 0.0000• at 0.90 0.0000• at 1.00 0.0000• Average precision (non-interpolated) for all rel docs(averaged over queries)• 0.0142• Precision:• At 5 docs: 0.1580• At 10 docs: 0.1460• At 15 docs: 0.1493• At 20 docs: 0.1525• At 30 docs: 0.1450• At 100 docs: 0.1095• At 200 docs: 0.0836• At 500 docs: 0.0406• At 1000 docs: 0.0203• R-Precision (precision after R (= num_rel for a query) docs retrieved):• Exact: 0.0480

Page 14: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Ergebnisse

Page 15: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on n

DTF

DTF5

DTF10

Evaluation: fixed number of selected DLs (BM25)

Page 16: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Evaluation: fixed number of selected DLs (BM25)

Precision DTF DTF5 DTF10

At 5 docs: 0,216 0,00% 0,24 11,11% 0,22 1,85%

At 10 docs: 0,207 0,00% 0,22 6,28% 0,232 12,08%

At 15 docs: 0,212 0,00% 0,1933 -8,82% 0,2213 4,39%

At 20 docs: 0,219 0,00% 0,18 -17,81% 0,205 -6,39%

At 30 docs: 0,212 0,00% 0,161 -24,06% 0,1873 -11,65%

At 100 docs: 0,144 0,00% 0,0838 -41,81% 0,1158 -19,58%

At 200 docs: 0,1065 0,00% 0,053 -50,23% 0,076 -28,64%

At 500 docs: 0,0498 0,00% 0,0234 -53,01% 0,0351 -29,52%

At 1000 docs: 0,0249 0,00% 0,0117 -53,01% 0,0175 -29,72%

Average Precision 0,02 0,00% 0,0103 -48,50% 0,014 -30,00%

R Precision 0,0575 0,00% 0,0284 -50,61% 0,0419 -27,13%

DTF vs. DTF5 vs. DTF10 (BM 25, c = 0.5, P0=1)

Page 17: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Evaluation: fixed number of selected DLs (BM25)

-60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00% 20,00%

1

2

3

4

5

6

7

8

9

DTF

DTF10

DTF5

Page 18: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

DTF vs. DTF5 vs. DTF10 (TFIDF, c = 0.5, P0=1)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on n

DTF

DTF5

DTF10

Page 19: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Evaluation: fixed number of selected DLs (TFIDF)

Precision DTF DTF5 DTF10

At 5 docs: 0,158 0,00% 0,168 6,33% 0,156 -1,27%

At 10 docs: 0,146 0,00% 0,142 -2,74% 0,155 6,16%

At 15 docs: 0,1493 0,00% 0,1313 -12,06% 0,146 -2,21%

At 20 docs: 0,1525 0,00% 0,121 -20,66% 0,136 -10,82%

At 30 docs: 0,145 0,00% 0,108 -25,52% 0,125 -13,79%

At 100 docs: 0,1095 0,00% 0,0622 -43,20% 0,0799 -27,03%

At 200 docs: 0,0836 0,00% 0,037 -55,74% 0,0527 -36,96%

At 500 docs: 0,0406 0,00% 0,0153 -62,32% 0,0216 -46,80%

At 1000 docs: 0,0203 0,00% 0,0077 -62,07% 0,0108 -46,80%

Average Precision 0,0142 0,00% 0,0063 -55,63% 0,0082 -42,25%

R Precision 0,048 0,00% 0,0189 -60,63% 0,028 -41,67%

Page 20: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Evaluation: fixed number of selected DLs (TFIDF)

-70,00% -60,00% -50,00% -40,00% -30,00% -20,00% -10,00% 0,00% 10,00%

1

2

3

4

5

6

7

8

9

DTF

DTF10

DTF5

Page 21: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Ergebnisse (BM25 vs. TFIDF)

Run

Number of retrieved relevant

documents

Average Precision

R Precision

BM25, DTF2489 out of

291760.0200 0.0575

TFIDF, DTF2030 out of

291570.0142 0.0480

BM25, DTF101754 out of

289390.0140 0.0419

TFIDF, DTF101081 out of

198840.0082 0.0280

BM25, DTF51172 out of

287690.0103 0.0284

TFIDF, DTF5767 out of

192180.0063 0.0189

Page 22: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Parameterauswahl

• Die Veränderung von dem Parameter p0 wird die gesamten Retrievalergebnisse nicht beeinflussen.

• Die Veränderung von c führt aber zur Änderung der Retrievalqualität.

Run

Number of retrieved relevant

documents

Average Precision

R Precision

TFIDF, DTF10

c = 0.5 1081 out of

198840.0082 0.0280

TFIDF, DTF10

c = 11434 out of

288710.0104 0.0348

Page 23: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Experiment Teil2

• Fast gleicher Code für Retrieval• Unterschiedliche Topics• Änderung von Operator

(plain statt stemen_bm25 oder stemen_tfidf)• Größere Kollektionsmenge

Page 24: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Probleme• (1) ArrayIndexOutOfBounds Exception bei ComputeForTopic

Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die

ArrayIndexOutOfBoundsException aus.Lösung: Erst Indexierung, um die Datenbanken zu erzeugen.

• (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei.

Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt.

Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit

anderem Namen auswählen.

Page 25: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Probleme (cont.)

• (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert.Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt,

so dass Resource Description nicht richtig funktioniert hat.Lösung: Bei DTFPDatalogConfig „exp_“ durch „wt10g_“

ersetzen

• (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java.lang.OutOfMemoryError geliefert...Grund: Das hat irgendwie mit Speicher von Heap zu tun...Lösung: ?

Page 26: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Zusammenfassung• DTF:

- guter Ranking Algorithmus- abhängig von der Anzahl der zu selektierenden DLs

- bessere Ergebnisse – ohne Beschränkung auf die

Anzahl der zu selektierenden DLs• Bei BM25 können im Vergleich zu TFIDF bessere Ergebnisse

geliefert werden.• Die Recall-Precision Funktion p0 hat keinen Einfluss auf die

Retrievalergebnisse.• Eine Erhöhung von der linearen mapping Funktion c führt

aber zur Verbesserung der Retrievalqualität.• Wie kann man die Ergebnisse noch verbessern?

-> Relevance Feedback, DTF-cori

Page 27: Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Vielen Dank für die Aufmerksamkeit!