24
<is web> ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von in Matrizen enthalten orthonormale Spaltenvektoren Matrix ist Diagonalmatrix reduzierte, zerlegte Matrizen bedeuten Speichereinsparung Zerlegung entspricht Abbildung auf minimale, „schlummernde“ (latente), künstliche Konzepte

ISWeb - Information Systems & Semantic Web Marcin Grzegorzek [email protected] 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

Embed Size (px)

Citation preview

Page 1: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 1

5.4 Latent Semantic Indexing und Singulärwertzerlegung

Zerlegung von in Matrizen enthalten orthonormale Spaltenvektoren Matrix ist Diagonalmatrix reduzierte, zerlegte Matrizen bedeuten

Speichereinsparung

Zerlegung entspricht Abbildung auf minimale, „schlummernde“ (latente), künstliche Konzepte

Page 2: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 2

Zerlegung der Feature-Matrix

entspricht dem Rang der Matrix F

Page 3: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 3

Beispiel Feature-Vektoren

Page 4: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 4

Beispiel Feature-Vektoren nach Zerlegung

Vektoren

in Matrix :

Page 5: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 5

Analyse der Matrix

Diagonalwerte der Matrix

geben Relevanz der einzelnen Konzepte an→ niedrige Werte entsprechen geringer Relevanz und umgekehrt

absteigende Sortierung der Diagonalelemente durch geschicktes Tauschen der Spalten/Zeilen

Page 6: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 6

Dimensionsreduzierung: Entfernen der Konzepte mit den kleinsten Diagonalwerten→ minimierter Approximationsfehler

reduzierte Matrizen bedeuten häufig reduzierten Speicheraufwand

Analyse der Matrix (2)

Page 7: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 7

Dimensionsreduzierung graphisch

Page 8: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 8

Korrespondenz von Spalten und Zeilen

Page 9: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 9

Ähnlichkeitsvergleiche

Ähnlichkeitsberechnung auf der Basis der drei Matrizen

Vergleich von Feature-Vektoren: Skalarprodukt auf Matrizen und berechenbar daher Kosinusmaß und euklidsche Distanz leicht

berechenbar

Page 10: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 10

Vergleich der Dimensionen Skalarprodukt auf Matrizen und berechenbar

→ z.B. Synonymerkennung in Texten Skalarprodukt ähnlich der Kovarianz zweier Dimensionen

Ähnlichkeitsvergleiche

Page 11: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 11

Dynamische Feature-Matrix

ständige Neuberechnung der Zerlegung ist zu aufwändig

Lösungsansatz: Zerlegung einer repräsentativen, statischen Untermenge der Feature-Vektoren

neue Feature-Vektoren werden dann mit und multipliziert

Page 12: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 12

Bewertung des LSI-Verfahrens

Bewertung ähnlich zur KLT

Hauptunterschiede: Zerlegung der Feature-Matrix an Stelle der Kovarianzmatrix Speichern und Manipulieren der zerlegten Matrizen an

Stelle Rücktransformation nach Reduktion

Page 13: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 13

Beispiel Feature-Matrix

Beispiel Feature-Matrix:

Erzeugung einer dritten Dimension durch Summierung der ersten beiden plus 0,5:

Page 14: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 14

Singulärwertzerlegung

ist spaltenorthonormale -Matrix

ist -Diagonalmatrix

ist zeilenorthonormale -Matrix

ist Rang der Matrix

Page 15: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 15

Singulärwertzerlegung (2)

Berechnung durch Ausnutzung folgender Gesetze:

Page 16: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 16

Singulärwertzerlegung des Beispiels

Page 17: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 17

Reduzierung der Matrizen

Zeilen-/Spaltentausch damit Diagonalwerte von absteigen

Reduzieren heißt Streichen entspr. -Spalten→

Page 18: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 18

Reduzierung der Matrizen (2)

Approximationsfehler ist abhängig von entfernten Diagonalwertensiehe Matrizenproduktion in dyadischer Schreibweise:

Page 19: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 19

Reduzierung im Beispiel

Wert 0,2295 im Vergleich zu anderen Werten verschwindend klein

dritte Dimension wurde künstlich erzeugt

Reduzierung der dritten Dimension

Page 20: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 20

Transformation neuer Feature-Vektoren

Annahme: Zerlegung erfolgte auf repräsentativer Feature-Matrix

Ziel: Erzeugung der entsprechenden -Spaltenvektoren

es gilt:

Page 21: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 21

Transformation neuer Feature-Vektoren (2)

sei zu transformierender Feature-Vektor

erzeugt durch Multiplikation mit Matrizen und

Page 22: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 22

Transformation im Beispiel

Transformation von

zu

Page 23: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 23

Berechnungen auf transformierten Vektoren

Ausnutzung von zur Berechnung Skalarprodukt

Kosinusmaß:

Page 24: ISWeb - Information Systems & Semantic Web Marcin Grzegorzek marcin@uni-koblenz.de1 5.4 Latent Semantic Indexing und Singulärwertzerlegung Zerlegung von

<is web>

ISWeb - Information Systems & Semantic Web

Marcin [email protected] 24

Berechnungen auf transformierten Vektoren (2)

Ausnutzung von zur Berechnung Skalarprodukt

euklidsche Distanz: