93
Motivation Ansätze Menczers Agents Ergebnisse Complementing search engines with online web mining agents Filippo Menczer (2003) Sebastian Land TU Dortmund 20.11.2007 Seminar “Intelligente Anwendungen im Internet” Sebastian Land Complementing search engines with online web mining agents

Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse

Complementing search engines with online webmining agents

Filippo Menczer (2003)

Sebastian Land

TU Dortmund

20.11.2007 Seminar “Intelligente Anwendungen im Internet”

Sebastian Land Complementing search engines with online web mining agents

Page 2: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 3: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Eine kleine Geschichte des Information Retrieval

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 4: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Eine kleine Geschichte des Information Retrieval

Altertum

Informationen liegen inhandgeschriebenenSchriften vor

Retrieval durch Lesen

Sebastian Land Complementing search engines with online web mining agents

Page 5: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Eine kleine Geschichte des Information Retrieval

Neuzeit

Einführung des Buchdruckserleichtert Vervielfältigungvon Schriften

Entstehung großerBibliotheken und ersterVerzeichnisse

Sebastian Land Complementing search engines with online web mining agents

Page 6: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Eine kleine Geschichte des Information Retrieval

Informationszeitalter

Einführung von Computernund Internet vermehrt(e)zugängliche Schriftenexplosionsartig

Retrieval durch Lesenunmöglich

Daher manuelle Erstellungvon Verzeichnissen sehraufwändig

Schriften nicht mehrstatisch: Können Qualitätund Inhalt täglich ändern

Dies führt statischeVerzeichnisse ad absurdum

Sebastian Land Complementing search engines with online web mining agents

Page 7: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 8: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

“Information Retrieval”Information Retrieval ist die Wissenschaft, die sich mitcomputergestütztem inhaltsorientiertem Suchen beschäftigt. [. . . ] Wieder Begriff Retrieval (deutsch Wiedergewinnung, Auffindung) sagt,sind Informationen in großen Datenbeständen zunächst verloren undmüssen wieder gewonnen bzw. wieder gefunden werden.

Information Retrieval stellt verschiedene Werkzeuge zur Verfügung:

Term Frequency

Cosinus Ähnlichkeit

Recall und Precision

Sebastian Land Complementing search engines with online web mining agents

Page 9: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Term Frequency

Die Term Frequency (TF) ist ein Vektor der Häufigkeiten aller Worte ineinem Dokument. Sinnvollerweise werden Stopworte entfernt und dieWorte in ihre Grundform überführt.

Beispiel:Original Die Term Frequency ist ein Vektor der Frequencies

aller Terme in einem Dokumentohne Stopworte Term Frequency Vektor Frequencies Terme Dokument

Grundformen Term Frequency Vektor Frequency Term Dokument

Vektor2 2 1 1

Term Frequency Vektor Dokument

Sebastian Land Complementing search engines with online web mining agents

Page 10: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Cosinus Ähnlichkeit

Die Cosinus Ähnlichkeit misst Ähnlichkeit θ zwischen zweiDokumenten. Dazu benutzt sie den Winkel zwischen den TF-Vektorender beiden Dokumente:

θ = ∠(A,B)

= arccosA ·B|A| ∗ |B|

= arccos∑i ai ·bi√∑i a2

i ·∑i b2i

Nachteile:

Für alle Dokumente muss Term Frequency bekannt sein

Berechnung bei vielen Dokumenten aufwendig

Sebastian Land Complementing search engines with online web mining agents

Page 11: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Beispiel

~q =

1111

~d =

2031

θ = arccos

(1 ·2 + 1 ·0 + 1 ·3 + 1 ·1√

(12 + 12 + 12 + 12) · (22 + 32 + 02 + 12)

)

= arccos

(6√

4 ·14

)= arccos(0.80178)

= 0.64

Sebastian Land Complementing search engines with online web mining agents

Page 12: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

RecallDer Recall ist ein Gütemaß für Suchergebnisse. Er gibt den Anteil dergefundenen relevanten an der Gesamtmenge der relevantenDokumente an:

Recall =|relevante Dokumente∩gefundene Dokumente|

|relevante Dokumente|

PrecisionDie Precision ist ein Gütemaß für Suchergebnisse. Sie gibt den Anteilder gefundenen relevanten an der Menge der gefundenen Dokumentean:

Precision =|relevante Dokumente∩gefundene Dokumente|

|gefundene Dokumente|

Sebastian Land Complementing search engines with online web mining agents

Page 13: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

RecallDer Recall ist ein Gütemaß für Suchergebnisse. Er gibt den Anteil dergefundenen relevanten an der Gesamtmenge der relevantenDokumente an:

Recall =|relevante Dokumente∩gefundene Dokumente|

|relevante Dokumente|

PrecisionDie Precision ist ein Gütemaß für Suchergebnisse. Sie gibt den Anteilder gefundenen relevanten an der Menge der gefundenen Dokumentean:

Precision =|relevante Dokumente∩gefundene Dokumente|

|gefundene Dokumente|

Sebastian Land Complementing search engines with online web mining agents

Page 14: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 15: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

IndexsuchmaschinenIndexsuchmaschinen suchen auf Wortlisten, den sogenanntenIndexlisten. Diese werden vor der Suche erstellt und nehmengefundene Worte und deren Fundstellen auf. Aktuelle Suchmaschinenbenutzen Crawler, die die Internetseiten regelmäßig besuchen umÄnderungen aufzunehmen.

Nachteile:

Durchsucht niemals “Jetzt”-Zustand des Internets: MangelndeAktualität

Gefunden werden nur Dokumente, die die Suchwörter enthalten

Sebastian Land Complementing search engines with online web mining agents

Page 16: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 17: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Künstliche neuronale Netze

Lernverfahren, inspiriert von menschlicher Art des Lernens

Basieren dabei auf mehr oder weniger komplexen Graphen

Trainierte Modelle lassen sich entsprechend schlechtinterpretieren

In der Hypezeit wurden sie daher fast als magisch behandelt

Heute entzaubert: “Nur” noch nichtlineare statistische Modelle

Sebastian Land Complementing search engines with online web mining agents

Page 18: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Vergleich menschliches und künstliches neuronales Netz

Das Gehirn

besitzt ca. 1011 Neuronen

jedes Neuron hat ca. 104

Verbindungen

Schaltzeit eines Neuronsca 10−3 Sekunden

Entscheidung in 0,1Sekunden

entsprechend bis zu 100Hops

Künstliches neuronales Netzwenige hundert bis einigetausend Neuronen

Anzahl Verbindungen inselber Größenordnung

Schaltzeit eines Computersca 10−10 Sekunden

Entscheidung inSekundenbruchteilen,aber:

nur sehr wenige Hops,selten mehr als 4

Sebastian Land Complementing search engines with online web mining agents

Page 19: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Vergleich menschliches und künstliches neuronales Netz

Das Gehirn

besitzt ca. 1011 Neuronen

jedes Neuron hat ca. 104

Verbindungen

Schaltzeit eines Neuronsca 10−3 Sekunden

Entscheidung in 0,1Sekunden

entsprechend bis zu 100Hops

Künstliches neuronales Netzwenige hundert bis einigetausend Neuronen

Anzahl Verbindungen inselber Größenordnung

Schaltzeit eines Computersca 10−10 Sekunden

Entscheidung inSekundenbruchteilen,aber:

nur sehr wenige Hops,selten mehr als 4

Sebastian Land Complementing search engines with online web mining agents

Page 20: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Vergleich menschliches und künstliches neuronales Netz

Das Gehirn

besitzt ca. 1011 Neuronen

jedes Neuron hat ca. 104

Verbindungen

Schaltzeit eines Neuronsca 10−3 Sekunden

Entscheidung in 0,1Sekunden

entsprechend bis zu 100Hops

Künstliches neuronales Netzwenige hundert bis einigetausend Neuronen

Anzahl Verbindungen inselber Größenordnung

Schaltzeit eines Computersca 10−10 Sekunden

Entscheidung inSekundenbruchteilen,aber:

nur sehr wenige Hops,selten mehr als 4

Sebastian Land Complementing search engines with online web mining agents

Page 21: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Vergleich menschliches und künstliches neuronales Netz

Das Gehirn

besitzt ca. 1011 Neuronen

jedes Neuron hat ca. 104

Verbindungen

Schaltzeit eines Neuronsca 10−3 Sekunden

Entscheidung in 0,1Sekunden

entsprechend bis zu 100Hops

Künstliches neuronales Netzwenige hundert bis einigetausend Neuronen

Anzahl Verbindungen inselber Größenordnung

Schaltzeit eines Computersca 10−10 Sekunden

Entscheidung inSekundenbruchteilen,aber:

nur sehr wenige Hops,selten mehr als 4

Sebastian Land Complementing search engines with online web mining agents

Page 22: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Vergleich menschliches und künstliches neuronales Netz

Das Gehirn

besitzt ca. 1011 Neuronen

jedes Neuron hat ca. 104

Verbindungen

Schaltzeit eines Neuronsca 10−3 Sekunden

Entscheidung in 0,1Sekunden

entsprechend bis zu 100Hops

Künstliches neuronales Netzwenige hundert bis einigetausend Neuronen

Anzahl Verbindungen inselber Größenordnung

Schaltzeit eines Computersca 10−10 Sekunden

Entscheidung inSekundenbruchteilen,aber:

nur sehr wenige Hops,selten mehr als 4

Sebastian Land Complementing search engines with online web mining agents

Page 23: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Vergleich menschliches und künstliches Neuron

Analogienoffensichtlich

Aber:UnterschiedeinArbeitsweise:analogeZeitreihen vs.transformierteSumme

Sebastian Land Complementing search engines with online web mining agents

Page 24: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Arbeitsweise

Eingabewerte werden mit Gewichtenwi oder ωi,j multipliziert

Darüber wird die Summe gebildet

Diese Summe wird mit einerAktivierungsfunktion σ transformiert

Der Wert der Aktivierungsfunktionwird ausgegeben

Verschiedene Aktivierungsfunktionenmöglich:

Sigmoid-Funktion σ(x) = 11+e−x

Identität σ(x) = x

Signum σ(x) = sign(x)

Praktisch relevant jedoch nurdifferenzierbare Funktionen!

Sebastian Land Complementing search engines with online web mining agents

Page 25: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Einfaches Künstliches neuronales Netz

Bestandteile:

2 Inputs x1,x2

3 Neuronen hj im hidden Layer:h1,h2,h3

mit je 2 Gewichten ωj,1,ωj,2

und einem Ziel y mit Gewichtenw1,w2,w3

Generell sind mehr hidden Layer, mehrNeuronen in den hidden Layern, aberauch mehr als eine Zielvariablemöglich!

w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 26: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Einfaches Künstliches neuronales Netz

Bestandteile:

2 Inputs x1,x2

3 Neuronen hj im hidden Layer:h1,h2,h3

mit je 2 Gewichten ωj,1,ωj,2

und einem Ziel y mit Gewichtenw1,w2,w3

Generell sind mehr hidden Layer, mehrNeuronen in den hidden Layern, aberauch mehr als eine Zielvariablemöglich!

w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 27: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Einfaches Künstliches neuronales Netz

Bestandteile:

2 Inputs x1,x2

3 Neuronen hj im hidden Layer:h1,h2,h3

mit je 2 Gewichten ωj,1,ωj,2

und einem Ziel y mit Gewichtenw1,w2,w3

Generell sind mehr hidden Layer, mehrNeuronen in den hidden Layern, aberauch mehr als eine Zielvariablemöglich!

w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 28: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Einfaches Künstliches neuronales Netz

Bestandteile:

2 Inputs x1,x2

3 Neuronen hj im hidden Layer:h1,h2,h3

mit je 2 Gewichten ωj,1,ωj,2

und einem Ziel y mit Gewichtenw1,w2,w3

Generell sind mehr hidden Layer, mehrNeuronen in den hidden Layern, aberauch mehr als eine Zielvariablemöglich!

w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 29: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Funktionsweise

Vorgehen um neuronales Netzanzuwenden:

Eingabewerte werden als Wertedes Eingabe Layers benutzt

Jedes Neuron im hidden Layerverarbeitet Eingabe

Jedes Neuron im Ausgabe Layerverarbeitet Ausgaben des hiddenLayer w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 30: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Funktionsweise

Vorgehen um neuronales Netzanzuwenden:

Eingabewerte werden als Wertedes Eingabe Layers benutzt

Jedes Neuron im hidden Layerverarbeitet Eingabe

Jedes Neuron im Ausgabe Layerverarbeitet Ausgaben des hiddenLayer w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 31: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Funktionsweise

Vorgehen um neuronales Netzanzuwenden:

Eingabewerte werden als Wertedes Eingabe Layers benutzt

Jedes Neuron im hidden Layerverarbeitet Eingabe

Jedes Neuron im Ausgabe Layerverarbeitet Ausgaben des hiddenLayer w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 32: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Funktionsweise

Vorgehen um neuronales Netzanzuwenden:

Eingabewerte werden als Wertedes Eingabe Layers benutzt

Jedes Neuron im hidden Layerverarbeitet Eingabe

Jedes Neuron im Ausgabe Layerverarbeitet Ausgaben des hiddenLayer w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 33: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Und weiter?

Wir wissen jetzt, wie wir das Model anwenden können.AberWir wissen nicht, wie wir es trainieren können!Klar:Training des Modells über Anpassung der Gewichte. Aber wie guteGewichtskombination finden?

Sebastian Land Complementing search engines with online web mining agents

Page 34: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Auf der Suche nach den optimalen Gewichten

Gegeben initiale Gewichte wi und ωi,j

Desweiteren Trainingsdaten < X ,Y > mit Attributwerten X undZielwerten Y

Wiederhole für gesamte Daten mehrmals:

Wähle zufälliges Trainingsbeispiel i

Netz berechnet f (xi ,W ,Ω) (Forward Schritt)

Damit lässt sich dann Fehler bestimmen:

Err(xi ,yi ,W ,Ω) = (yi − f (xi ,W ,Ω))2

Sebastian Land Complementing search engines with online web mining agents

Page 35: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 36: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 37: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 38: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 39: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 40: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 41: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 42: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Naheliegende Idee: Partielles Differenzieren

Wir wollen über Wahl der Gewichte Fehler minimierenZunächst beschränken auf Ausgabe LayerAusgabewerte hj(xi ,Ω) des hidden Layers aus Forward Schrittbekannt

∂Err(xi ,yi ,W ,Ω)

∂wk

=∂ (yi − f (xi ,W ,Ω))2

∂wk

= 2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·−∂σ(∑j wj ·hj(xi ,Ω))

∂wk

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xi ,Ω)

= δk ·hk (xi ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 43: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Und jetzt?

−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·hk (xj ,Ω)

Werte bereits aus Forward Schritt bekannt

Können also leicht Steigung des Fehlers in Abhängigkeit von wk

an wk berechnen

(Hier differenzierbares σ nötig!)

Wir können nun Gradientenabstieg mit Lernrate ν nutzen umGewichte anzupassen:

w ′k = wk −ν ·δk ·hj(xj ,Ω)

Sebastian Land Complementing search engines with online web mining agents

Page 44: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Gradientenabstieg

Schritte in Richtung des steilsten Abstiegs: Hier nur 1-dimensional

f x

f ' x

x

Sebastian Land Complementing search engines with online web mining agents

Page 45: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Gradientenabstieg

Schritte in Richtung des steilsten Abstiegs: Hier nur 1-dimensional

f x

f ' x

x

Sebastian Land Complementing search engines with online web mining agents

Page 46: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Gradientenabstieg

Schritte in Richtung des steilsten Abstiegs: Hier nur 1-dimensional

f x

f ' x

x

Sebastian Land Complementing search engines with online web mining agents

Page 47: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Gradientenabstieg

Schritte in Richtung des steilsten Abstiegs: Hier nur 1-dimensional

f x

f ' x

x

Sebastian Land Complementing search engines with online web mining agents

Page 48: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Problem

Gradientenabstieg ist Heuristik: Findet nicht garantiertes Optimum

f x

f ' x

x

Sebastian Land Complementing search engines with online web mining agents

Page 49: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Problem

Gradientenabstieg ist Heuristik: Findet nicht garantiertes Optimum

f x

f ' x

x

Sebastian Land Complementing search engines with online web mining agents

Page 50: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Wie hidden Layer behandeln?

Gewichte der Ausgabeschichtüber Fehler optimiert

Aber im hidden Layer keinSoll-Wert vorhanden

Naiv: Wieder Fehler derAusgabeschicht differenzieren,entsprechend nach ω

w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 51: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Wie hidden Layer behandeln?

Gewichte der Ausgabeschichtüber Fehler optimiert

Aber im hidden Layer keinSoll-Wert vorhanden

Naiv: Wieder Fehler derAusgabeschicht differenzieren,entsprechend nach ω

w1 w2 w3

2, i 3, i

x2

h1 h2 h3

y

x1

1,i

Sebastian Land Complementing search engines with online web mining agents

Page 52: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Differenzieren, die zweite

∂Err(xi ,yi ,W ,Ω)

∂ωw ,m

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

=δk ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

Im Prinzip mit wk gewichteter Fehlergradient derVorgängerschicht

Sebastian Land Complementing search engines with online web mining agents

Page 53: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Differenzieren, die zweite

∂Err(xi ,yi ,W ,Ω)

∂ωw ,m

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

=δk ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

Im Prinzip mit wk gewichteter Fehlergradient derVorgängerschicht

Sebastian Land Complementing search engines with online web mining agents

Page 54: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Differenzieren, die zweite

∂Err(xi ,yi ,W ,Ω)

∂ωw ,m

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

=δk ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

Im Prinzip mit wk gewichteter Fehlergradient derVorgängerschicht

Sebastian Land Complementing search engines with online web mining agents

Page 55: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Differenzieren, die zweite

∂Err(xi ,yi ,W ,Ω)

∂ωw ,m

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

=δk ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

Im Prinzip mit wk gewichteter Fehlergradient derVorgängerschicht

Sebastian Land Complementing search engines with online web mining agents

Page 56: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Differenzieren, die zweite

∂Err(xi ,yi ,W ,Ω)

∂ωw ,m

=−2(yi −σ(∑j

wj ·hj(xi ,Ω))) ·σ ′(∑j

wj ·hj(xi ,Ω)) ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

=δk ·wk ·σ ′(∑p

ωk ,pxi,p) · xi,m

Im Prinzip mit wk gewichteter Fehlergradient derVorgängerschicht

Sebastian Land Complementing search engines with online web mining agents

Page 57: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Information Retrieval Indexsuchmaschinen Neuronale Netze

Backpropagation Algorithmus

ω′k ,p = ωk ,p−ν ·δk ·wk ·σ ′(∑

pωk ,pxi,p) · xi,m

Dies liefert Idee für Algorithmus:

Der Backpropagation Algorithmus

Fehler in der Ausgabeschicht berechnen

Gewichte der Ausgabeschicht anpassen

Gradienten gewichten und als Fehler rückwärts propagieren

Sebastian Land Complementing search engines with online web mining agents

Page 58: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 59: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Idee

Verwende Menge von unabhängigen Agenten, die zur SuchzeitInternet durchsuchen

Agenten lernen dabei Relevanz von Links im Dokument zuerkennen

Evolutionärer Ansatz soll Realisierung eines großen Suchraumesmit Beschränkung auf relevante Dokumente ermöglichen

Sebastian Land Complementing search engines with online web mining agents

Page 60: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Probleme

Wie Relevanz von Dokument bestimmen?Ohne Benutzerinteraktion schwer. Verwendung der CosinusÄhnlichkeit aus der Theorie des Information Retrieval alsHeuristik.

Wie Relevanz von Links bestimmen?Links entspringen textuellem Kontext, entsprechendcharakterisieren nahe Worte den Link besser und könnenentsprechend ihrer Nähe gewichtet werden.

Was heißt Nähe?Begriff der Nähe unscharf und variabel mit der Textform.Verwende daher relatives Entfernungsmaß dist(k , l) in Bezug aufeinen Link l :Die Entfernung entspricht der Anzahl Links zwischen demKeyword und dem Bezugslink.

Sebastian Land Complementing search engines with online web mining agents

Page 61: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Probleme

Wie Relevanz von Dokument bestimmen?Ohne Benutzerinteraktion schwer. Verwendung der CosinusÄhnlichkeit aus der Theorie des Information Retrieval alsHeuristik.

Wie Relevanz von Links bestimmen?Links entspringen textuellem Kontext, entsprechendcharakterisieren nahe Worte den Link besser und könnenentsprechend ihrer Nähe gewichtet werden.

Was heißt Nähe?Begriff der Nähe unscharf und variabel mit der Textform.Verwende daher relatives Entfernungsmaß dist(k , l) in Bezug aufeinen Link l :Die Entfernung entspricht der Anzahl Links zwischen demKeyword und dem Bezugslink.

Sebastian Land Complementing search engines with online web mining agents

Page 62: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Probleme

Wie Relevanz von Dokument bestimmen?Ohne Benutzerinteraktion schwer. Verwendung der CosinusÄhnlichkeit aus der Theorie des Information Retrieval alsHeuristik.

Wie Relevanz von Links bestimmen?Links entspringen textuellem Kontext, entsprechendcharakterisieren nahe Worte den Link besser und könnenentsprechend ihrer Nähe gewichtet werden.

Was heißt Nähe?Begriff der Nähe unscharf und variabel mit der Textform.Verwende daher relatives Entfernungsmaß dist(k , l) in Bezug aufeinen Link l :Die Entfernung entspricht der Anzahl Links zwischen demKeyword und dem Bezugslink.

Sebastian Land Complementing search engines with online web mining agents

Page 63: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Keyword-Link-Relevanz rel(k , l)

Die Relevanz eines Keywordvorkommen k ∈Ki zu einem Link lentspricht:

rel(k , l) =

1dist(k ,l) falls dist(k , l)≤ ρ

0 sonst

Distanz dist(k , l)

dist(k , l)∼ Anzahl Links zwischen Keyword und Bezugslink inklusive

Beispiel

xx key link xxx xxxxx xx link xxxx xx x xx xxbezug xx xxxx xxxrel(key ,bezug) = 1

3

Sebastian Land Complementing search engines with online web mining agents

Page 64: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Keyword-Link-Relevanz rel(k , l)

Die Relevanz eines Keywordvorkommen k ∈Ki zu einem Link lentspricht:

rel(k , l) =

1dist(k ,l) falls dist(k , l)≤ ρ

0 sonst

Distanz dist(k , l)

dist(k , l)∼ Anzahl Links zwischen Keyword und Bezugslink inklusive

Beispiel

xx key link xxx xxxxx xx link xxxx xx x xx xxbezug xx xxxx xxxrel(key ,bezug) = 1

3

Sebastian Land Complementing search engines with online web mining agents

Page 65: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Keyword-Link-Relevanz rel(k , l)

Die Relevanz eines Keywordvorkommen k ∈Ki zu einem Link lentspricht:

rel(k , l) =

1dist(k ,l) falls dist(k , l)≤ ρ

0 sonst

Distanz dist(k , l)

dist(k , l)∼ Anzahl Links zwischen Keyword und Bezugslink inklusive

Beispiel

xx key link xxx xxxxx xx link xxxx xx x xx xxbezug xx xxxx xxxrel(key ,bezug) = 1

3

Sebastian Land Complementing search engines with online web mining agents

Page 66: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 67: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Menczers Agenten

Agenten sind autonome Instanzen eines Programms, die jeweils überdiese Daten verfügen:

EnergiezählerGibt die Energie an, die dem Agenten zur Verfügung steht.Energie wird verbraucht zum Durchführen verschiedenerAktionen.

neuronales Netz3-schichtiges neuronales Netz zur Regression. Hiermit erfolgtSchätzung der Relevanz von Links anhand vonKeyword-Relevanz-Vektoren.

KeywordvektorVektor der Suchworte

Sebastian Land Complementing search engines with online web mining agents

Page 68: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 69: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 1

1. Initialisiere:1. Kreiere eine Menge A von Agenten auf Startseiten. Als

Startseiten lassen sich nutzen:- statische Bookmarks- Suchergebnisse von Indexsuchmaschinen

2. Initialisiere neuronale Netze mit zufälligen Gewichten3. Als Keywordvektoren benutze TF-Vektor der Anfrage

Sebastian Land Complementing search engines with online web mining agents

Page 70: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 2

2. Führe dann parallel für alle Agenten Ai durch:1. Extrahiere aus Seite Positionen Ki aller Keywords in Ki und Links

L2. Berechne für jeden Link l ∈ L Keyword-Relevanz-Vektor dl :

dl =

∑k∈K1rel(k , l)...

∑k∈K|K | rel(k , l)

Sebastian Land Complementing search engines with online web mining agents

Page 71: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 2

2. Führe dann parallel für alle Agenten Ai durch:1. Extrahiere aus Seite Positionen Ki aller Keywords in Ki und Links

L2. Berechne für jeden Link l ∈ L Keyword-Relevanz-Vektor dl :

dl =

∑k∈K1rel(k , l)...

∑k∈K|K | rel(k , l)

Beispiel

xx key link xxx xxxxx xx link xxxx xx x key xxbezug xx xxxx key

∑keyi∈Kmrel(keyi ,bezug) =?

Sebastian Land Complementing search engines with online web mining agents

Page 72: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 2

2. Führe dann parallel für alle Agenten Ai durch:1. Extrahiere aus Seite Positionen Ki aller Keywords in Ki und Links

L2. Berechne für jeden Link l ∈ L Keyword-Relevanz-Vektor dl :

dl =

∑k∈K1rel(k , l)...

∑k∈K|K | rel(k , l)

Beispiel

xx key link xxx xxxxx xx link xxxx xx x key xxbezug xx xxxx key

∑keyi∈Kmrel(keyi ,bezug) = 1

3

Sebastian Land Complementing search engines with online web mining agents

Page 73: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 2

2. Führe dann parallel für alle Agenten Ai durch:1. Extrahiere aus Seite Positionen Ki aller Keywords in Ki und Links

L2. Berechne für jeden Link l ∈ L Keyword-Relevanz-Vektor dl :

dl =

∑k∈K1rel(k , l)...

∑k∈K|K | rel(k , l)

Beispiel

xx key link xxx xxxxx xx link xxxx xx x key xxbezug xx xxxx key

∑keyi∈Kmrel(keyi ,bezug) = 1

3 + 11

Sebastian Land Complementing search engines with online web mining agents

Page 74: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 2

2. Führe dann parallel für alle Agenten Ai durch:1. Extrahiere aus Seite Positionen Ki aller Keywords in Ki und Links

L2. Berechne für jeden Link l ∈ L Keyword-Relevanz-Vektor dl :

dl =

∑k∈K1rel(k , l)...

∑k∈K|K | rel(k , l)

Beispiel

xx key link xxx xxxxx xx link xxxx xx x key xxbezug xx xxxx key

∑keyi∈Kmrel(keyi ,bezug) = 1

3 + 11 + 1

1

Sebastian Land Complementing search engines with online web mining agents

Page 75: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 3

2. Fortsetzung:3. Benutze dl als Eingabe für neuronales Netz, dieses schätzt

Relevanz λl des Links l4. Wähle zufällig einen Link nach Verteilung:

Pr(l) =eβλl

∑l ′∈L eβλl′

Sebastian Land Complementing search engines with online web mining agents

Page 76: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 4

2. Fortsetzung:5. Lade Seite Sl des gewählten Links l mit Energiekosten c6. Berechne mit Cosinus Ähnlichkeit zwischen TF-Vektoren der Seite

Sl und der Suchanfrage “tatsächliche” Relevanz Rel(Sl ) der Seite.7. Erhöhe Energie um Rel(Sl )8. Trainiere neuronales Netz nach:

Verwende Rel(Sl ) als Ziel mit alter Eingabe dl

Sebastian Land Complementing search engines with online web mining agents

Page 77: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Idee Die Agenten Der Algorithmus

Der Algorithmus - 5

3. Sterben oder Vermehrung der Agenten1. Lösche alle Agenten ohne Energie2. Verfügt ein Agent Ai über genug Energie, kann er θ bezahlen um

sich fortzupflanzen:Erzeuge neuen Agenten Ai ′ auf der aktuellen SeiteAddiere Rauschen auf zufällige Teilmenge der Gewichte seinesneuronalen NetzesFüge häufigstes Keyword der Seite Sl(Ai) zum Keywordvektor vonAgent Ai ′ hinzu

4. Wiederhole Schritte 2 und 3 solange, bis

kein Agent mehr lebtder Benutzer abbricht

Sebastian Land Complementing search engines with online web mining agents

Page 78: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 79: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Performancebeurteilung

Um Suchergebnisse zu bewerten, müssen verschiedene Aspektebetrachtet werden:

Wie viele relevante Dokumente wurden gefunden?

Wie hoch ist der Anteil an relevanten Dokumenten?

Wie ist die Reihenfolge im Suchergebnis?

Wie aktuell sind die gefundenen Dokumente?

Problem:Eingeführte Maße Recall und Precision nicht nutzbar:

Gesamtmenge nicht bekannt

Relevante Teilmenge nicht bekannt

Relevanz nur durch Benutzer bestimmbar

Aktualität wird nicht betrachtet

Sebastian Land Complementing search engines with online web mining agents

Page 80: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Performancebeurteilung

Um Suchergebnisse zu bewerten, müssen verschiedene Aspektebetrachtet werden:

Wie viele relevante Dokumente wurden gefunden?

Wie hoch ist der Anteil an relevanten Dokumenten?

Wie ist die Reihenfolge im Suchergebnis?

Wie aktuell sind die gefundenen Dokumente?

Problem:Eingeführte Maße Recall und Precision nicht nutzbar:

Gesamtmenge nicht bekannt

Relevante Teilmenge nicht bekannt

Relevanz nur durch Benutzer bestimmbar

Aktualität wird nicht betrachtet

Sebastian Land Complementing search engines with online web mining agents

Page 81: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 82: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Neue Performancemaße

Um diese Probleme zu umgehen, werden neue Maße definiert, dieRelevanz anhand der Cosinus Ähnlichkeit messen:

Estimated Precision

Estimated Recall

Estimated Recency

Sebastian Land Complementing search engines with online web mining agents

Page 83: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Estimated PrecisionSei eine Suchanfrage q gegeben und dazu eine Ergebnismenge Cq

sowie ein Vektor rq der relevanten Worte. Dann ist die estimatedprecision:

P(Cq) ≡ 1|Cq|

˙∑p∈Cq

sim(rq,p)

Zur Erinnerung: Precision

Precision =|relevante Dokumente∩gefundene Dokumente|

|gefundene Dokumente|

Sebastian Land Complementing search engines with online web mining agents

Page 84: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Estimated RecallSei eine Suchanfrage q gegeben und dazu eine Ergebnismenge Cq

sowie ein Vektor rq der relevanten Worte. Dann ist der estimatedrecall :

R(Cq) ≡ ∑p∈Cq

sim(rq,p)

Zur Erinnerung: Recall

Recall =|relevante Dokumente∩gefundene Dokumente|

|relevante Dokumente|

Sebastian Land Complementing search engines with online web mining agents

Page 85: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Estimated Recency

Sei eine Suchanfrage q gegeben und dazu eine Ergebnismenge Cq .Ordne tm(p) und ti(p) jeder Seite p das Datum der letztenModifizierung bzw. der letzten Indizierung zu. Dann ist die estimatedrecency :

T (Cq) ≡ 1|Cq|

˙∑p∈Cq

11 + δt(p)

mit

δt(p) =

tm(p)− ti(p) falls tm(p) > ti(p)

0 sonst

Sebastian Land Complementing search engines with online web mining agents

Page 86: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Beispiel:

tm t i

t

tm t i

11t1

Sebastian Land Complementing search engines with online web mining agents

Page 87: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Beispiel:

tm t i

t

tm t i

11t1

Sebastian Land Complementing search engines with online web mining agents

Page 88: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Outline

1 MotivationEine kleine Geschichte des Information Retrieval

2 AnsätzeInformation RetrievalIndexsuchmaschinenNeuronale Netze

3 Menczers AgentsIdeeDie AgentenDer Algorithmus

4 ErgebnisseProblemeNeue MaßeErgebnisse

Sebastian Land Complementing search engines with online web mining agents

Page 89: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Die Testumgebung

Vergleich MySpiders mit AltaVista

Benutze 100 Yahoo Leaf-Topics mit je mehr als 10 externen Linksals Suchanfrage

Initialisiere MySpiders mit 100 top ranked AltaVistaSuchergebnissen

Entferne alle Yahoo Seiten aus den Ergebnissen

Benutze Yahoos Textbeschreibung als rq

Vergleiche dann mittels der Heuristiken:

Estimated Precision

Estimated Recall

Estimated Recency

Sebastian Land Complementing search engines with online web mining agents

Page 90: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Estimated Recall ∼ gefundene RelevanteRelevante

Sebastian Land Complementing search engines with online web mining agents

Page 91: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Estimated Precision ∼ gefundene RelevanteGefundene

Sebastian Land Complementing search engines with online web mining agents

Page 92: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Estimated Recency

Sebastian Land Complementing search engines with online web mining agents

Page 93: Complementing search engines with online web mining agents ... fileMotivationAnsätzeMenczers AgentsErgebnisse Outline 1 Motivation Eine kleine Geschichte des Information Retrieval

Motivation Ansätze Menczers Agents Ergebnisse Probleme Neue Maße Ergebnisse

Literaturhinweise

Filippo MenczerComplementing search engines with online web mining agtensDecision Support Systems, 35(2003):195–212

Tom M. MitchellMachine LearningMcGraw-Hill, 1997

Trevor Hastie, et alThe Elements of Statistical LearningSpringer, 2001

Sebastian Land Complementing search engines with online web mining agents