Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität...

Kohonennetze für Information Retrieval mit User Feedback

Georg Ruß

Otto-von-Guericke-Universität Magdeburg

E-mail: georg.russ@student.uni-magdeburg.de

Gliederung

• Motivation der präsentierten Datenverarbeitungsmethode

• Kohonennetze / Self Organizing Maps (SOM)• Information Retrieval am Beispiel von Email-

Sammlungen• User Feedback• Zusammenfassung der Ergebnisse

Einleitung / Motivation

- großes Datenaufkommen in digitaler Form (Datenbanken, E-Mail-Sammlungen, Newsgroups, ...)

- zunehmende Unübersichtlichkeit

→ Methode zur Klassifikation und Filterung der Informationen notwendig

→ gewünschte Eigenschaften:

1. Verständlich 2. Fehlerfrei

3. Automatisch

→ Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist

Self-Organizing Maps (1)

1. Verständlich- bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab- Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen

2. Fehlerfrei- Verfahren basiert auf Voronoi-Zerlegung→ „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten→ hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal

3. Automatisch

- “self-organizing“ als Begriff

- modellhafte Nachbildung von neuronalen Strukturen

- Lernen als automatisierter Prozeß

- Paradigma des „unsupervised learning“

- einfache mathematische Vektor-Methoden

)(),( :Gewichte

),(),( :tÄhnlichkei

k jkikji

wwicvwi:w

Information Retrieval (1)

Definition:

Information Retrieval ist ein Prozeß zur

1. Gewinnung,

2. Speicherung und

3. Pflege von Informationen.

- Visualisierung kommt noch hinzu

- im Folgenden an einem „Text-Mining“-Beispiel

zu 1. Informationsgewinnung

- filtering (Entfernen von Stop-Words)

- stemming (Bilden der Wortstämme)

- indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“)

- Erstellen von Kontextvektoren für jedes Wort

- Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“

zu 2. Speicherung (mit Visualisierung)

- Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander

→ ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein

→ Aufbau der Wortkarte erfolgt sukzessive

zu 2. Speicherung (mit Visualisierung)

- ähnliche Dokumente besitzen ähnliche Vektoren

→ ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“)

→ Aufbau der Dokumentenkarte erfolgt sukzessive

→ zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden

User Feedback

Problem:

- Dokumente könnten in mehrere Cluster der Karte gut passen

Lösung:

- Einbeziehung der oft guten Intuition des Nutzers

- z.B. Abfrage per Drag-and-Drop

- Anpassung des gewünschten Ähnlichkeitsmaßes

(d.h. Änderung von Prioritäten einzelner Features)

Ergebnisse / Nutzen (1)

Ergebnis: mehr Möglichkeiten einer Datenbankanfrage

- herkömmliche Suche nach Keyword

- visuelle Suche auf den erstellten Karten

i) auf der Wortkarte (Finden neuer Keywords)

ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente)

- Content Based Search (Query by Example)

Ablauf einer Suche:

1. Herkömmliche Keyword-Suche

2. Anzeige der Treffer auf der Wort- / Dokumentenkarte

Wortkarte:

3a. Inspizieren der Wortkarte zum Finden neuer Keywords

Dokumentenkarte:

3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente

Content Based Search / Classification / Query by Example

a) e-mail als Vorlage für die Suche nach ähnlichen e-mails:

- Berechnung des Fingerprints

- Anzeige auf der Dokumentenkarte

- Ergebnis: ähnliche e-mails

b) Automatische Klassifikation von eingehenden e-mails:

- Berechnung des Fingerprints

- Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können

Zusammenfassung

Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile:

- automatisches Lernen sowie Visualisierung großer Dokumentsammlungen

- mehr Möglichkeiten zur Suche

- intuitive Verständlichkeit des Systems

- Möglichkeit zur Einbeziehung des Nutzers

- Flexibilität ohne großen Aufwand

- Prototypen: SOMAccess auf DUST-2 CD-ROM

Websom (http://websom.hut.fi)

Vielen Dank für Ihre Aufmerksamkeit !

Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität...

Documents

Retrieval und Ranking von Dokumenten

Ruß in Deutschland: Hintergrundinformationen für ... · Die Immission von Ruß in Deutschland ist nicht effektiv und nur indirekt über Grenzwerte für Feinstaub (PM 10 und PM 2.5)

Studieren im Ausland - student.uni-stuttgart.de · 2 Studieren im Ausland Universität Stuttgart Vorwort Liebe Studierende, ein Auslandsstudium gehört heute schon fast zum guten

Sprachübergreifendes Retrieval von ähnlichen Dokumenten ... · Es zeigt sich, daß der Fingerprinting-Ansatz das schnellste Verfahren ist. Jedoch ist die Retrieval-Qualität mit

Information Retrieval Systeme - HAW Hamburgubicomp/projekte/master06-07... · Information Retrieval Systeme Raoul Pascal Pein Department Informatik WHA Hamburg 21. Dezember 2006 Raoul

Distance Based Retrieval Method

1. Introduction to information retrieval · IR & WS, Lecture 1: Introduction to Information Retrieval 11.2.2019. Text information retrieval This course is about retrieval of text,

Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

Differentiation of information retrieval · differentiation of the relevance of search results. This article describes the new features evaluation of information retrieval, including

Information Retrieval (SS 2011) - IR-Modellekberberi/teaching/... · Informaon#Retrieval#(SS#2011) 3.#IRModelle Rückblick Vielfaltund Vagheit#natürlicher#Sprache Tokenisierungund

Folksonomies Indexing Und Retrieval In Bibliotheken

Charakterisierung von Ruß-Kautschuk-Mischungen mittels ... · Charakterisierung von Ruß-Kautschuk-Mischungen mittels dielektrischer Spektroskopie Dissertation zur Erlangung des

Maximaler Fluß und minimaler Schnittfuzzy.cs.ovgu.de/studium/graph/txt/thurm.pdf · Maximaler Fluß und minimaler Schnitt Von Sebastian Thurm sebastian.thurm@student.uni-magedburg.de

Multilinguales Information Retrieval Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva

Minderung der Feinstaub-, Ruß- und Stickstoff ... · Minderung der Feinstaub-, Ruß- und Stickstoffemissionen auf dem Fahrgastschiff „Jan von Werth“ Landesamt für Natur, Umwelt

An Information Retrieval Approach to Visualization of High-dimensional Datausers.ics.aalto.fi/~jtpelto/pittsburgh2015_jaakkopel... · 2015. 9. 2. · An Information Retrieval Approach

Visualisierung von Thesauri im Bereich des Information Retrieval

Temperature retrieval from Rayleigh-Brillouin scattering ...wimu/Publications/OE-Temp-2014.pdf · Temperature retrieval from Rayleigh-Brillouin scattering proﬁles measured in air

Social Information Retrieval (Diploma Thesis) - INKAsites.inka.de/moebius/docs/socialir-thesis.pdf · Diploma Thesis in Computer Science Social Information Retrieval ... eased the

Information Retrieval