Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Preview:

Citation preview

Spree SoSe 2011

Automatisches Clustering und automatische Automatisches Clustering und automatische KlassifikationKlassifikation

Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg

http://www.ecm.irislink.com/Documents/Image/images/Illustrations/classeur.jpg

Ausgangssituationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Folgende 4 Dokumente sollen geclustert werden:

D1 Fische in Olivenöl anbraten und mit Wasser ablöschen

D2 Fische braten und mit Wasser ablöschen

D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben

D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben

Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen?

Clusteringindexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Festlegung der Indexterme, die Dokument beschreiben

Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser

D1: 1 1 1 0 0 1

D2: 1 1 0 0 0 1

D3: 1 0 0 1 1 1

D4: 1 0 0 1 1 1

Paarweise Multiplikation der Vektoren (verkürzt)indexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster

Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser

D1: 1 1 1 0 0 1

D2: 1 1 0 0 0 1

D3: 1 0 0 1 1 1

D4: 1 0 0 1 1 1

Cluster 1 (benenne ichIntellektuell Kochen)

Cluster 2 (benenne ich intellektuell Aquarium)

Clusterzentroid berechenenindexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen

D1: 1 1 1 0 0 1

D2: 1 1 0 0 0 1

D3: 1 0 0 1 1 1

D4: 1 0 0 1 1 1

ZentroidvektorCluster 1: Kochen

Zentroidvektor

Cluster 2 Aquarium

1 1 0 0 0 1

1 0 0 1 1 1

Neues Dokument mit den Zentroidvektoren vergleichen

indexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Welchem Cluster wird das neue Dokument D5 zugeordnet?

Zentroidvektor Kochen

Zentroidvektor Aquarium

1 1 0 0 0 1

1 0 0 1 1 1

D5 „Fisch mit Olivenöl in Wasser braten“

Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren

1 1 1 0 0 1

Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster

1 1 0 0 0 1 = 3:6 =0,5

1 0 0 0 0 1 = 2:6 = 0,33

Neues Dokument wird Cluster Kochen zugeordnetindexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Welchem Cluster wird das neue Dokument D5 zugeordnet?

1 1 0 0 0 1

D5 „Fisch mit Olivenöl in Wasser braten“

Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren

1 1 1 0 0 1

1 1 0 0 0 1 = 3:6 = 0,5

Automatische Zuordnung zu einer KlassifikationAutomatische klassifikation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

1. Merkmale eine Klassifikation werden festgelegt

• Merkmale können einer Klasse zugeordnete Wörter sein

• In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert

1. Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen.

1. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen.

Automatische Zuordnung zu einer Klassifikationbeispiel

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Mail a

Sehr geehrte Frau Spree,

Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.

Mail b

Hi,

Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now

Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?

Automatische Zuordnung zu einer Klassifikationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

04/11/23

Klasse/

Attribut

SPAM Kein Spam

Viagra Sehr geehrte

Sex Hochachtungsvoll

selling wissenschaftlich

buy Hausarbeit

pills Referat

Dok a

Sehr geehrte Frau Spree,

Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.

Dok b

Hi,

Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage

Merkmale der Klassen

Automatische Zuordnung zu einer Klassifikationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

04/11/23

SPAM a b Kein SPAM a b

Viagra 1 1 Sehr geehrte 1 0

sex 0 1 Hochachtungsvoll 0 0

selling 0 1 wissenschaftliche 1 0

buy 0 0 Hausarbeit 1 0

pills 0 1 Referat 1 0

Skalarprodukt: Klasse/Dok

1/5 4/5 4/5 0

Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes

Dok a

Sehr geehrte Frau Spree,

Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.

Dok b

Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

Automatische Zuordnung zu einer Klassifikationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

SPAM a b Kein SPAM a b

Viagra 1 1 Sehr geehrte 1 0

sex 0 1 Hochachtungsvoll 0 0

selling 0 1 wissenschaftliche 1 0

buy 0 0 Hausarbeit 1 0

pills 0 1 Referat 1 0

Skalarprodukt: Klasse/Dok

1/5 4/5 4/5 0

Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes

Mail a ist :

= 20% Spam

= 80% kein Spam

Einordnung kein Spam

Mail b:

= 0% kein Spam

= 80% Spam

Einordnung Spam

Recommended