Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität...

Preview:

Citation preview

Kohonennetze für Information Retrieval mit User Feedback

Georg Ruß

Otto-von-Guericke-Universität Magdeburg

E-mail: georg.russ@student.uni-magdeburg.de

Gliederung

• Motivation der präsentierten Datenverarbeitungsmethode

• Kohonennetze / Self Organizing Maps (SOM)• Information Retrieval am Beispiel von Email-

Sammlungen• User Feedback• Zusammenfassung der Ergebnisse

Einleitung / Motivation

- großes Datenaufkommen in digitaler Form (Datenbanken, E-Mail-Sammlungen, Newsgroups, ...)

- zunehmende Unübersichtlichkeit

→ Methode zur Klassifikation und Filterung der Informationen notwendig

→ gewünschte Eigenschaften:

1. Verständlich 2. Fehlerfrei

3. Automatisch

→ Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist

Self-Organizing Maps (1)

1. Verständlich- bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab- Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen

Self-Organizing Maps (2)

2. Fehlerfrei- Verfahren basiert auf Voronoi-Zerlegung→ „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten→ hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal

Self-Organizing Maps (3)

3. Automatisch

- “self-organizing“ als Begriff

- modellhafte Nachbildung von neuronalen Strukturen

- Lernen als automatisierter Prozeß

- Paradigma des „unsupervised learning“

- einfache mathematische Vektor-Methoden

)(),( :Gewichte

),(),( :tÄhnlichkei

'

1

isss

m

k jkikji

wwicvwi:w

wwDDS

Information Retrieval (1)

Definition:

Information Retrieval ist ein Prozeß zur

1. Gewinnung,

2. Speicherung und

3. Pflege von Informationen.

- Visualisierung kommt noch hinzu

- im Folgenden an einem „Text-Mining“-Beispiel

Information Retrieval (2)

zu 1. Informationsgewinnung

- filtering (Entfernen von Stop-Words)

- stemming (Bilden der Wortstämme)

- indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“)

- Erstellen von Kontextvektoren für jedes Wort

- Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“

Information Retrieval (3)

Information Retrieval (4)

zu 2. Speicherung (mit Visualisierung)

- Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander

→ ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein

→ Aufbau der Wortkarte erfolgt sukzessive

Information Retrieval (5)

zu 2. Speicherung (mit Visualisierung)

- ähnliche Dokumente besitzen ähnliche Vektoren

→ ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“)

→ Aufbau der Dokumentenkarte erfolgt sukzessive

→ zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden

User Feedback

Problem:

- Dokumente könnten in mehrere Cluster der Karte gut passen

Lösung:

- Einbeziehung der oft guten Intuition des Nutzers

- z.B. Abfrage per Drag-and-Drop

- Anpassung des gewünschten Ähnlichkeitsmaßes

(d.h. Änderung von Prioritäten einzelner Features)

Ergebnisse / Nutzen (1)

Ergebnis: mehr Möglichkeiten einer Datenbankanfrage

- herkömmliche Suche nach Keyword

- visuelle Suche auf den erstellten Karten

i) auf der Wortkarte (Finden neuer Keywords)

ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente)

- Content Based Search (Query by Example)

Ergebnisse / Nutzen (2)

Ablauf einer Suche:

1. Herkömmliche Keyword-Suche

2. Anzeige der Treffer auf der Wort- / Dokumentenkarte

Wortkarte:

3a. Inspizieren der Wortkarte zum Finden neuer Keywords

Dokumentenkarte:

3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente

Ergebnisse / Nutzen (3)

Content Based Search / Classification / Query by Example

a) e-mail als Vorlage für die Suche nach ähnlichen e-mails:

- Berechnung des Fingerprints

- Anzeige auf der Dokumentenkarte

- Ergebnis: ähnliche e-mails

b) Automatische Klassifikation von eingehenden e-mails:

- Berechnung des Fingerprints

- Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können

Zusammenfassung

Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile:

- automatisches Lernen sowie Visualisierung großer Dokumentsammlungen

- mehr Möglichkeiten zur Suche

- intuitive Verständlichkeit des Systems

- Möglichkeit zur Einbeziehung des Nutzers

- Flexibilität ohne großen Aufwand

- Prototypen: SOMAccess auf DUST-2 CD-ROM

Websom (http://websom.hut.fi)

Vielen Dank für Ihre Aufmerksamkeit !

Recommended