12
Spree SoSe 2011 Automatisches Clustering und Automatisches Clustering und automatische Klassifikation automatische Klassifikation Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanCl ustering.jpg http://www.ecm.irislink.com/Documents/ Image/images/Illustrations/classeur.jpg

Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Embed Size (px)

Citation preview

Page 1: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Spree SoSe 2011

Automatisches Clustering und automatische Automatisches Clustering und automatische KlassifikationKlassifikation

Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg

http://www.ecm.irislink.com/Documents/Image/images/Illustrations/classeur.jpg

Page 2: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Ausgangssituationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Folgende 4 Dokumente sollen geclustert werden:

D1 Fische in Olivenöl anbraten und mit Wasser ablöschen

D2 Fische braten und mit Wasser ablöschen

D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben

D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben

Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen?

Page 3: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Clusteringindexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Festlegung der Indexterme, die Dokument beschreiben

Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser

D1: 1 1 1 0 0 1

D2: 1 1 0 0 0 1

D3: 1 0 0 1 1 1

D4: 1 0 0 1 1 1

Page 4: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Paarweise Multiplikation der Vektoren (verkürzt)indexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster

Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser

D1: 1 1 1 0 0 1

D2: 1 1 0 0 0 1

D3: 1 0 0 1 1 1

D4: 1 0 0 1 1 1

Cluster 1 (benenne ichIntellektuell Kochen)

Cluster 2 (benenne ich intellektuell Aquarium)

Page 5: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Clusterzentroid berechenenindexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen

D1: 1 1 1 0 0 1

D2: 1 1 0 0 0 1

D3: 1 0 0 1 1 1

D4: 1 0 0 1 1 1

ZentroidvektorCluster 1: Kochen

Zentroidvektor

Cluster 2 Aquarium

1 1 0 0 0 1

1 0 0 1 1 1

Page 6: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Neues Dokument mit den Zentroidvektoren vergleichen

indexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Welchem Cluster wird das neue Dokument D5 zugeordnet?

Zentroidvektor Kochen

Zentroidvektor Aquarium

1 1 0 0 0 1

1 0 0 1 1 1

D5 „Fisch mit Olivenöl in Wasser braten“

Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren

1 1 1 0 0 1

Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster

1 1 0 0 0 1 = 3:6 =0,5

1 0 0 0 0 1 = 2:6 = 0,33

Page 7: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Neues Dokument wird Cluster Kochen zugeordnetindexvektor

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Welchem Cluster wird das neue Dokument D5 zugeordnet?

1 1 0 0 0 1

D5 „Fisch mit Olivenöl in Wasser braten“

Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren

1 1 1 0 0 1

1 1 0 0 0 1 = 3:6 = 0,5

Page 8: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Automatische Zuordnung zu einer KlassifikationAutomatische klassifikation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

1. Merkmale eine Klassifikation werden festgelegt

• Merkmale können einer Klasse zugeordnete Wörter sein

• In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert

1. Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen.

1. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen.

Page 9: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Automatische Zuordnung zu einer Klassifikationbeispiel

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

Mail a

Sehr geehrte Frau Spree,

Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.

Mail b

Hi,

Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now

Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?

Page 10: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Automatische Zuordnung zu einer Klassifikationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

04/11/23

Klasse/

Attribut

SPAM Kein Spam

Viagra Sehr geehrte

Sex Hochachtungsvoll

selling wissenschaftlich

buy Hausarbeit

pills Referat

Dok a

Sehr geehrte Frau Spree,

Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.

Dok b

Hi,

Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage

Merkmale der Klassen

Page 11: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Automatische Zuordnung zu einer Klassifikationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

04/11/23

SPAM a b Kein SPAM a b

Viagra 1 1 Sehr geehrte 1 0

sex 0 1 Hochachtungsvoll 0 0

selling 0 1 wissenschaftliche 1 0

buy 0 0 Hausarbeit 1 0

pills 0 1 Referat 1 0

Skalarprodukt: Klasse/Dok

1/5 4/5 4/5 0

Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes

Dok a

Sehr geehrte Frau Spree,

Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.

Dok b

Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

Page 12: Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Automatische Zuordnung zu einer Klassifikationausgangssituation

Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011

SPAM a b Kein SPAM a b

Viagra 1 1 Sehr geehrte 1 0

sex 0 1 Hochachtungsvoll 0 0

selling 0 1 wissenschaftliche 1 0

buy 0 0 Hausarbeit 1 0

pills 0 1 Referat 1 0

Skalarprodukt: Klasse/Dok

1/5 4/5 4/5 0

Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes

Mail a ist :

= 20% Spam

= 80% kein Spam

Einordnung kein Spam

Mail b:

= 0% kein Spam

= 80% Spam

Einordnung Spam