Upload
dinhdieu
View
226
Download
0
Embed Size (px)
Citation preview
Institut für Informatik
Dokumentenmodelle
Gerhard Heyer, Patrick JähnichenUniversität Leipzig
heyer@informa [email protected]
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Ziel
• Retrieval von Information– Clustering von Wörtern anhand Bedeutung(Semantik)– Identifizierung von Synonymien und Polysemien– Themenzuordnung von Dokumenten– ...?
• Dimensionsreduktion– Trivial ist nur das Auszählen von Wörtern– Dimension hierbei: V (V aber oft sehr groß, oft >> 1000000)– Wie reduzierbar?
Institut für Informatik
Grundlagen
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Aufbau von Textkorpora
• Korpus C enthält Menge von D Dokumenten• Jedes Dokument enthält Menge von Nd Wörtern• Gesamter Korpus enthält Vokabular von V voneinander
verschiedenen Wörtern• Länge des Korpus ist N
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Vektorraummodell
• Dokumente werden als Vektoren dargestellt– Jede Komponente im Vektor entspricht einem separaten Term– wenn dieser im Dokument vorkommt, ist der Vektor an dieser Stelle
von 0 verschieden– Die Dimension des Vektors ist V (Größe des Vokabulars)
– Möglichkeit der Nutzung von Vektoroperationen zum Vergleich vonDokumenten, z.B. Kosinusmaß
– Häufig werden statt reinen Termfrequenzen tf-idf Gewichte alsVektorkomponenten genutzt
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Tf-idf
• Zähle Auftreten von Termen in Dokument• Vergleiche Auftreten von Term in Dokument mit Logarithmus
von inversem Auftreten des Terms in anderen Dokumentendes Korpus
• Ergebnis: Term-Dokumentmatrix (∈ RVxD) mit tf-idf Werten derTerme des Vokabular
• Reduktion von Dokumenten(unbestimmter Größe) auf Listevon Werten fixer Länge
• Berechnung:
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Statistik
• Multinomiale Verteilung– Generalisierung der Binomialverteilung– Binomialverteilung ist Wahrscheinlichkeitsverteilung der Anzahl Erfolge
von n unbhänigen Bernoulli-Experimenten– Analogon der Bernoulli-Verteilung in mult. Verteilung ist die Kategoriale
Verteilung, hier resultiert jeder der n Versuche in genau einem von KAusgängen mit Wahrscheinlichkeiten p1, ..., pK und
– Zeigt ein Zufallsvariable Xi die Anzahl der Ausgänge mit Ergebnis i an,so folgt der Vektor X = (X1, ..., XK) einer Multinomialverteilung mitParameter n und p = (p1, ..., pK)
– Im Bereich der automatischen Sprachverarbeitung sprechen wir meistvon multinomialer Verteilung wenn wir eigentlich die KategorialeVerteilung meinen
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Statistik
• Bedingte Wahrscheinlichkeit– Wahrscheinlichkeit für eine Beobachtung x unter der Voraussetzung
dass Beobachtung y zuvor eingetreten ist heißt bedingeWahrscheinlichkeit
Sind x und y voneinander unabhängig, so gilt
Und damit
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Statistik
• Bayestheorem
• In Worten
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Bag-of-words assumption
• Reihenfolge der Wörter wird nicht berücksichtigt• Ein Dokument entspricht einem „Sack“ voller Wörter• Für jedes Wort wird Frequenz gespeichert• Annahme:
– Informationen über Art und Anzahl von Wörtern reicht aus umRückschlüsse auf die Struktur von Text zu ziehen
– Grundlage: Satz von de Finetti• Annahme der Austauschbarkeit:
• Austauschbare Zufallsvariablen folgen einer vermischten Verteilung(mixture distribution), meist unendlich
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Singulärwertzerlegung
• Ist die Darstellung einer Matrix als Produkt von drei speziellenMatrizen
• Singulärwerte sind spezifische Eigenschaft einer Matrix,vergleichbar mit Eigenwerten
• Singulärwertzerlegungenexistieren für jede Art vonMatrix
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Singulärwertzerlegung - Anwendungen
• Statistik– Hauptkomponentenanalyse (engl. Principal Component Analysis, PCA)
• Strukturierung von Datensätzen durch Näherung von vielen statistischenVariabeln durch geringe Zahl von Linearkombinationen (denHauptkomponenten)
– Heißt auch Karhunen-Loève-Transformation• Bildkompression
– Bild (Matrix aus Farbwerten) wird zerlegt– Nur stark von Null verschieden Singulärwerte werden berücksichtigt– Rekonstruktion des Bildes möglich– Weglassen kleiner Singulärwerte ist verlustbehaftete Modellreduktion
Institut für Informatik
Latent Semantic Analysis - LSALatent Semantic Indexing - LSI
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA (Deerwester et. al.)
• Form der linearen Faktorisierung• Grundlage bildet eine Wort-Dokument Kookkurrenzmatrix• Diese wird per Singulärwertzerlegung in drei Matrizen zerlegt• Alle bis auf n höchste Singulärwerte werden 0 gesetzt• Ursprüngliche Matrix wird rekonstruiert (hat nun geringeren
Rang n)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel - Termfrequenzmatrix
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel - Singulärwertzerlegung
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA Beispiel - rekonstruierte Matrix mit geringerem Rang
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA
• Vorteil:– Keine Eins/Null Entscheidungen mehr– Dimensionsreduktion auf n Dimensionen („semantische Kategorien“)
• Nachteil:– Verlustbehaftete Methode– Schlechtes zugrundeliegendes statistisches Model --> schlechte
Begründbarkeit• Gemeinsame Verteilung von Wörtern und Dokumenten folgt nicht Gauss
sondern Poissonverteilung– Kein Vorwissen über n– Polysemie
• Jedes Wort wird genau einer semantischen Bedeutung zugeordnet(gleicher Datenpunkt im semantischen Raum)
• D.h. Ergebnis ist Durchschnitt aller verschiedenen Bedeutungen einerWortes (als Vektor)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
LSA
• Geometrische Interpretation– Reduzierte Dimensionen spannen „semantischen Raum“– In Wortmatrix U
• Winkel zwischen Wortvektoren (Cosinus-Maß) entspricht ihrersemantischen Ähnlichkeit
• Möglichkeit semantisches Clustern– Ähnlich für Dokumentmatrix V
• Clustering von ähnlichen Dokumenten
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Latente Variablen
• Theoretische Konstrukte, abhängig von Modell• Sind nicht direkt messbar• Können ausgehend von messbaren Variablen (Observablen)
bestimmt werden (auch: Operationalisierung)• Beispiel: Intelligenzquotient
– Kann nicht direkt gemessen werden– Wird anhand von vielen Testergebniss (Fragen) bestimmt– Da latente Variablen nur theoretische Konstrukte sind, ist der IQ nur so
aussagekräftig, wie die Theorie plausibel (daher teils massive Kritik anIQ Messung)
Institut für Informatik
probabilistic Latent SemanticIndexing - pLSI
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI (Hofmann)
• Stammt nicht aus linearer Algebra (wie LSI)• Geht von vermischten Verteilungen und einem Modell der
latenten Klassen aus• Basiert auf Aspect-Modell
– Ordnet jeder Beobachtung (Term) eine latenten Variable (Klasse) zu– Gemeinsame Wahrscheinlichkeit über Dokument und Terme wird
definiert
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Generiert Dokumente:– Auswählen eines Dokuments d mit Wkt. P(d)– Auswählen einer latenten Klasse z mit Wkt. P(z|d)– Generieren von Wort w mit Wkt. P(w|z)
• Übersetzung in Multivariates Modell
• Modell basiert auf zwei Annahmen von Unabhängigkeit– Beispieltupel (d,w) werden unabhängig generiert (Bag-of-words)– Bedingte Unabhängigkeit zwischen w und d, sind nur über latente
Klasse z gekoppelt
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Umstellen mit Hilfe des Bayestheorem
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Ähnlichkeit zu LSA– Definiere 3 Matrizen:
– Gemeinsames Wahrscheinlichkeitsmodell gegeben durch:
• Beobachtung– Äußere Produkte zwischen Zeilen von Û und V zeigen bedingte
Unabhängigkeit– K Faktoren entsprechen Mischkomponenten aus Aspect-Model– Mischanteile ersetzen Singulärwerte
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Unterschied zu LSA– Funktion zum Bestimmen der optimalen Annäherung bei LSA: L2- oder
Frobenius-Norm– Entspricht der Annahme eines Gauss-Rauschens auf den
Termanzahlen– pLSI nutzt Likelihood-Funktion zur expliziten Maximierung der
Vorhersagequalität des Modells• Dies entspricht der Minimierung der Kullback-Leibler Divergenz zwischen
tatsächlicher und approximierter Wahrscheinlichkeitsverteilung
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Geometrische Deutung– K klassenspezifische Multinomialverteilungen werden im M-1
dimensionalen Simplex über alle möglichen Multinomialverteilungendargestellt
– Bilden K-1 dimensionalen Subsimplex– P(w|d) gegeben durch konvexkombinierte P(w|z)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
pLSI
• Würdigung– Approximation in P ist für jedes Wort eine wohldefinierte
Wahrscheinlichkeitsverteilung– Faktoren haben klare probabilistische Bedeutung– LSA arbeitet nicht mit Wahrscheinlichkeiten, sogar negative Werte sind
möglich– Keine offensichtliche Interpretation der Richtung im semantischen
Raum von LSA, in pLSI ist Richtung interpretierbar als multinomialeWortverteilung
– Da probabilistisches Modell: Möglichkeiten der Modellselektion,Herausfinden von optimalem K (Anzahl der latenten Klassen)
Gerhard Heyer, Patrick Jähnichen Modul Textmining
Bildquellen
• Wikipedia, Singulärwertzerlegung• Deerwester, Dumais, Furnas, Landauer, Harshman: Indexing
by Latent Semantic Analysis, Journal of the American Societyfor Information Science, 1990
• Hofmann: Probabilistic Latent Semantic Indexing, Proceedingsof the Twenty-Second SIGIR, 1999