Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für...

Cluster-Cluster-

Projekt

Präsentiert von Dominik Henn & Torben Pastucham Seminar für Computerlinguistik der Uni Heidelberg

Datum: 28.01.2002

Was ist Cluster-X ?Was ist Cluster-X ?

ist eine Windows-Anwendung

Cluster-X...

fasst thematisch ähnliche Dokumente zu Clustern zusammen

verwendet hierzu den Oh!™ Algorithmus(Oh!™ = Orphan Hunting! & Topic Merging)

ermöglicht die Ausweitung einer bool´schen Suche

EntwicklungEntwicklung

Cluster-X wurde in C++ unter MS-Windows entwickeltEs wurde Wert auf kurze Laufzeiten gelegt

Verwendete Bibliotheken:

- MFC für die GUI- selbst entwickelte Matrix- & Vektorklassen

Die ArchitekturDie Architektur

Korpus IRPreProcess

DocTermMatrix

TermList

DocumentListIRCluster

Cluster

IRBoolSearch

SearchResults ClusterView

DisplayEngine

Die TechnikDie Technik

Oh!™ basiert auf dem k-Means AlgorithmusDieser wird durch verschiedene Elemente erweitert

TopicMerging OrphanHunting

k-Means

Oh!™

k-Meansk-Means

Erzeuge k ZV

Ordne DV zufälligden ZV zu

Berechne neue ZV

Ordne DV den jeweilsähnlichsten ZV zu

Neuzuordnung?Ja

Termination

ZV = Zentroidvektor

DV = Dokumentvektor

i ii i

d cd c

sim d cd c

FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF

FFFFFFFFFFFFFF

Orphan HuntingOrphan Hunting

Topic MergingTopic Merging

Oh!™-AlgorithmusOh!™-AlgorithmusErzeuge n ZV

(n = Anz. der Dok.)

Ordne jedem ZV genaueinen DV zu

Berechne neue ZV

Ordne DV den jeweilsähnlichsten ZV zu

Neuzuordnung?Ja

TerminationNein

ZV mit nureinem zug. DV?

Ordne DV dem nächstähnlichen ZV zu

Lösche dennun leeren ZV

Übertrage DV inähnlichen ZV

Lösche den nunleeren ZV

Exisitieren2 ähnliche ZV?

Diese beiden Vorgänge werden nur ausgeführt, wenn eine

festgesetzte Ähnlichkeit

überschritten wird

DatenstrukturenDatenstrukturen

Für Cluster-X wurden 3 angepasste Datentypen verwendet1) CVector<TYPE>

(Hilfsklasse für Operationen mit Vektoren)

2) CMatrix<TYPE>(Speicherung der Zentroiden)

3) CSparseDataMatrix<TYPE>(Speicherung der Dokument-Term-Matrix)

SparseDataMatrixSparseDataMatrix

CSparseDataMatrix<TYPE> ist auf Speicherung von Matrizen mit überwiegend nicht verwendeten Elementen zugeschnitten (0-Werte)

Originalmatrix

0 0 0 0 0 0 2 0

3 1 0 0 0 0 0 0

0 0 0 1 0 0 0 0

0 0 4 0 0 0 0 0

1 7 0 2 0

2 1 2 3 1

1 4 0 1 0

1 3 0 4 0

SparseDataMatrix

Beispielersparniss:Dokument-Term-Matrix (Bibel-Korpus)Originalmatrix: >10.000 KByte SparseDataMatrix: 880 KByte

Nun zur Praxis...Nun zur Praxis...

1) 1) Cluster-X starten

Ihre Optionen:Ihre Optionen:

2) 2) Zigarettenpause

Probleme & ToDoProbleme & ToDo

Extrem hohe Speicherbelastung Temporäre Berechnung der ZV Latent Semantic Indexing (SVD)

Korpusabhängige Idealparameterevtl. mashine learning Methoden (user feedback)

Parameterabhängige Laufzeiten (worst case: O(n²))

Lösung N/A (algorithmusinhärent)

The End...The End...

Dozentin: Priv.-Doz. Dr. Karin Haenelt

Ort: Seminar für Computerlinguistik / Uni Heidelberg

Veranstaltung: Information Retrieval (WS2001/02)

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch am Seminar für...

Documents

Referat: TV-Karten, TV-Technik von Markus Henn IT04 06.06.2005

INFORMATIONEN FÜR DIE SCHULKINOARBEIT · Buch: Lea Schmidbauer, Kristina Magdalena Henn Darsteller/innen: Atila (als Ostwind), Hanna Binke (als Mika), Amber Bongard (als Funny),

Werbeplanung.at SUMMIT 15 – Premium Programmatic Stragie – Rui de Freitas & Torben Heimann

Kultur- und Veranstaltungshaus Weikersheim HENN Kultur- und Veranstaltungshaus Weikersheim 18. FEBRUAR 2013

Westtrasse Trier – Gute Bürgerbeteiligung in … · Westtrasse Trier – Gute Bürgerbeteiligung in westlichen Stadtteilen? Prof. Dr. Wolfgang H. Lorig/Stefan Henn, M.A./Sascha

Leseprobe Marc-Uwe Kling / Astrid Henn, Prinzessin Popelkopf

RUBRIK Metabolic Fingerprinting - tuhh.de · RUBRIK Metabolic Fingerprinting Kakaoschalennachweis in Kakaoprodukten Unsere Autoren: 1Nicolas Cain, Torben Segelke1, Alina Stahl2, Heike

Rice-Formel & Verallgemeinerungen · Rice-Formel & Verallgemeinerungen Torben Freisinger Stefan Schindler Seminar Zufällige Felder Universität Ulm 16. Dezember 2008 Torben Freisinger,

fair Das offizielle Messemagazin top › en › wp-content › uploads › sites › 2 › 2019 › … · Farbenpsychologie und Trends Anne Henn, Design Consultant 13:00 – 13:30

Henn Architekten bauen für VW, bMW – natürlich mit VectorWorks · 2008-05-04 · Anwenderbericht Architektur: HENN ArcHitEktEN bAuEN für VW, bMW uNd PorscHE – Mit VEctorWorks

Ungesättigte Wasserleitfähigkeit Bodenkundliches Praktikum I 2005 Benjamin Fricke, Tobias Hohenbrink, Felix Kruck, Tobias Lange, Daniel Müller und Torben

Kultur- und Veranstaltungshaus Weikersheim · Kultur- und Veranstaltungshaus Weikersheim HENN NUTZUNGSPOTENZIALE • Saal: • Bankettbestuhlun g für 264 Personen • Kleiner Saal

Referenten: Elisabeth Borbonus, Torben Anschau 1 Evaluation Arbeitsmarktpolitischer Maßnahmen

Torben 2016

Portfolio - Torben Tigges

Gläserne Manufaktur Dresden Volkswagen AG Henn Architekten ...uwe-pret.de/fabrikplanung/fabriken/glaeserne-manufaktur-dresden.pdf · Volkswagen AG, Wolfsburg Automobilmanufaktur

Veranstalter Sponsoren Partner VERANTWORTUNG & KREATION MIT RTA Torben Heimann Managing Director D/A/CH – Improve Digital – München

Implizites Wissen Jens Otten Bernd Hinrichs Torben Saade

Warum manchmal Katzen vom Himmel fallen... oder... Von guten und von schlechten Modellen Hans-Wolfgang Henn

OAS 2013 Keynote - Torben Heimann