22
Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: [email protected]

Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: [email protected]

Embed Size (px)

Citation preview

Page 1: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Kohonennetze für Information Retrieval mit User Feedback

Georg Ruß

Otto-von-Guericke-Universität Magdeburg

E-mail: [email protected]

Page 2: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Gliederung

• Motivation der präsentierten Datenverarbeitungsmethode

• Kohonennetze / Self Organizing Maps (SOM)• Information Retrieval am Beispiel von Email-

Sammlungen• User Feedback• Zusammenfassung der Ergebnisse

Page 3: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Einleitung / Motivation

- großes Datenaufkommen in digitaler Form (Datenbanken, E-Mail-Sammlungen, Newsgroups, ...)

- zunehmende Unübersichtlichkeit

→ Methode zur Klassifikation und Filterung der Informationen notwendig

→ gewünschte Eigenschaften:

1. Verständlich 2. Fehlerfrei

3. Automatisch

→ Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist

Page 4: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Self-Organizing Maps (1)

1. Verständlich- bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab- Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen

Page 5: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Self-Organizing Maps (2)

2. Fehlerfrei- Verfahren basiert auf Voronoi-Zerlegung→ „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten→ hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal

Page 6: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Self-Organizing Maps (3)

3. Automatisch

- “self-organizing“ als Begriff

- modellhafte Nachbildung von neuronalen Strukturen

- Lernen als automatisierter Prozeß

- Paradigma des „unsupervised learning“

- einfache mathematische Vektor-Methoden

)(),( :Gewichte

),(),( :tÄhnlichkei

'

1

isss

m

k jkikji

wwicvwi:w

wwDDS

Page 7: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Information Retrieval (1)

Definition:

Information Retrieval ist ein Prozeß zur

1. Gewinnung,

2. Speicherung und

3. Pflege von Informationen.

- Visualisierung kommt noch hinzu

- im Folgenden an einem „Text-Mining“-Beispiel

Page 8: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Information Retrieval (2)

zu 1. Informationsgewinnung

- filtering (Entfernen von Stop-Words)

- stemming (Bilden der Wortstämme)

- indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“)

- Erstellen von Kontextvektoren für jedes Wort

- Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“

Page 9: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Information Retrieval (3)

Page 10: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Information Retrieval (4)

zu 2. Speicherung (mit Visualisierung)

- Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander

→ ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein

→ Aufbau der Wortkarte erfolgt sukzessive

Page 11: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Information Retrieval (5)

zu 2. Speicherung (mit Visualisierung)

- ähnliche Dokumente besitzen ähnliche Vektoren

→ ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“)

→ Aufbau der Dokumentenkarte erfolgt sukzessive

→ zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden

Page 12: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

User Feedback

Problem:

- Dokumente könnten in mehrere Cluster der Karte gut passen

Lösung:

- Einbeziehung der oft guten Intuition des Nutzers

- z.B. Abfrage per Drag-and-Drop

- Anpassung des gewünschten Ähnlichkeitsmaßes

(d.h. Änderung von Prioritäten einzelner Features)

Page 13: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Ergebnisse / Nutzen (1)

Ergebnis: mehr Möglichkeiten einer Datenbankanfrage

- herkömmliche Suche nach Keyword

- visuelle Suche auf den erstellten Karten

i) auf der Wortkarte (Finden neuer Keywords)

ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente)

- Content Based Search (Query by Example)

Page 14: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Ergebnisse / Nutzen (2)

Ablauf einer Suche:

1. Herkömmliche Keyword-Suche

2. Anzeige der Treffer auf der Wort- / Dokumentenkarte

Wortkarte:

3a. Inspizieren der Wortkarte zum Finden neuer Keywords

Dokumentenkarte:

3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente

Page 15: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Ergebnisse / Nutzen (3)

Content Based Search / Classification / Query by Example

a) e-mail als Vorlage für die Suche nach ähnlichen e-mails:

- Berechnung des Fingerprints

- Anzeige auf der Dokumentenkarte

- Ergebnis: ähnliche e-mails

b) Automatische Klassifikation von eingehenden e-mails:

- Berechnung des Fingerprints

- Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können

Page 16: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de
Page 17: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de
Page 18: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de
Page 19: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de
Page 20: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de
Page 21: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Zusammenfassung

Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile:

- automatisches Lernen sowie Visualisierung großer Dokumentsammlungen

- mehr Möglichkeiten zur Suche

- intuitive Verständlichkeit des Systems

- Möglichkeit zur Einbeziehung des Nutzers

- Flexibilität ohne großen Aufwand

- Prototypen: SOMAccess auf DUST-2 CD-ROM

Websom (http://websom.hut.fi)

Page 22: Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Vielen Dank für Ihre Aufmerksamkeit !