246
Algorithmen und Applikationen zur interaktiven Visualisierung und Analyse chemiespezifischer Datensätze Den Naturwissenschaftlichen Fakultäten der Friedrich-Alexander-Universität Erlangen-Nürnberg zur Erlangung des Doktorgrades vorgelegt von Frank Oellien aus Oldenburg

Algorithmen und Applikationen zur interaktiven Visualisierung und Analyse chemiespezifischer Datensätze

Embed Size (px)

DESCRIPTION

PhD Thesis Frank Oellien, Naturwissenschaftlichen Fakultäten der Friedrich-Alexander-Universität Erlangen-Nürnberg

Citation preview

Page 1: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Algorithmen und Applikationen zur interaktiven

Visualisierung und Analyse chemiespezifischer Datensätze

Den Naturwissenschaftlichen Fakultäten der

Friedrich-Alexander-Universität Erlangen-Nürnberg

zur

Erlangung des Doktorgrades

vorgelegt von

Frank Oellien

aus Oldenburg

Page 2: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Als Dissertation genehmigt von

den Naturwissenschaftlichen Fakultäten der Universität Erlangen-Nürnberg

Tag der mündlichen Prüfung: 17.02.2003

Vorsitzender der Promotionskommission: Prof. Dr. A. Magerl

Erstberichterstatter: Prof. Dr. J. Gasteiger

Zweitberichterstatter: PD Dr. T. Clark

Page 3: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Mein besonderer Dank gilt meinem DoktorvaterHerrn Prof. Dr. Johann Gasteiger

für die herzliche Aufnahme in seinen Arbeitskreis, für die vielen anregenden Diskussionen undfür die stete und engagierte Unterstützung und Betreuung.

Mein besonderer Dank gilt ferner meinem ProjektleiterHerrn Dr. Wolf-Dietrich Ihlenfeldt

für die vielfältige Unterstützung in wissenschaftlichen und programmiertechnischen Fragen,für die wertvollen Anregungen sowie die engagierte Betreuung, ohne die diese Arbeit nichtmöglich gewesen wäre.

Für die sehr erfolgreiche Zusammenarbeit danke ich meinen Projektpartnern des DFG-Projekts"ChemVis" Prof. Dr. Thomas Ertl, Dr. Klaus Engel und Guido Reina. Mein Dank gilt darüberhinaus dem Initiator des DFG-Schwerpunktprogramms "Verteilte Verarbeitung undVermittlung digitaler Dokumente" (V3D2) Prof. Dr. Dieter Fellner sowie allen Kolleginnenund Kollegen der anderen V3D2-Projekte.

Weiteren Dank schulde ich allen ehemaligen und augenblicklichen Mitarbeiterinnen undMitarbeitern unseres Arbeitskreises, insbesondere

Frau Ulrike Burkhard, Herrn Dr. Thomas Engel, Frau Dr. Sandra Handschuh, HerrnMarkus Hemmer, Herrn Achim Herwig, Frau Angelika Hofmann, Herrn Dr. RobertHöllering, Herrn Alexander von Homeyer, Herrn Norbert Karg, Herrn ThomasKleinöder, Herrn Dr. Thomas Kostka, Herrn Dr. Giorgi Lekishvili, Frau Gisela Martinek,Herrn Jörg Marusczyk, Herrn Udo Ottmann, Herrn Dr. Matthias Pförtner, Herrn MartinReitz, Herrn Dr. Oliver Sacher, Herrn Dr. Christian Scholten, Herrn Dr. Axel Schunk,Herrn Dr. Christof Schwab, Herrn Dr. Paul Selzer, Herrn Markus Sitzmann, Herrn Dr.Joao de Sousa, Herrn Simon Spycher, Herrn Dr. Alexei Tarkov, Herrn Dr. AndreasTeckentrup, Herrn Dr. Lothar Terfloth, Herrn Dr. Jaroslaw Tomczak, Herrn Dr. DietrichTrümbach, Herrn Jörg Wegener und Frau Dr. Ai-Xia Yan

für ihre Hilfsbereitschaft in wissenschaftlichen und technischen Fragen, für die Bereitstellungund Pflege einer stabilen und effektiven Hard- und Softwareumgebung sowie für diefreundliche Arbeitsatmosphäre.

Meinen Kolleginnen und Kollegen vom Laboratory of Medicinal Chemistry, National CancerInstitute, NCI Herrn Dr. Marc Nicklaus, Herrn Dr. Bruno Bienfait und Herrn Dr. JohannesVoigt möchte ich für die freundliche Aufnahme und die Möglichkeit der Mitarbeit in ihrerArbeitsgruppe sowie den wissenschaftlich und privat anregenden Aufenthalt danken.

Für die finanzielle Unterstützung dieser Arbeit im Rahmen des DFG-Schwerpunktprogramms"Verteilte Verarbeitung und Vermittlung digitaler Dokumente" (V3D2) danke ich derDeutschen Forschungsgemeinschaft DFG.

Frank Oellien

Page 4: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze
Page 5: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Für meine Eltern,für Sonja

Page 6: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze
Page 7: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Inhaltsverzeichnis

1 Einführung 11.1 Zielsetzung und Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Grundlagen 92.1 Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Wissenschaftliche Visualisierung - Eine Definition . . . . . . . . . . . . . . . . . . 9

2.1.2 Die Visualisierungspipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.3 Dreidimensionale Visualisierungstechniken . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.3.1 Pseudo-3D-Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.3.2 3D-Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.3.3 Virtual Reality-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Internet-Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.1 Multipurpose Internet Mail Extension (MIME) . . . . . . . . . . . . . . . . . . . . . 17

2.2.2 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.3 JavaScript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.4 Java . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.5 VRML und X3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.6 Java3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Verwendete Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1 Das chemische Managementsystem CACTVS . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1.2 Die Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.2 Der 3D-Strukturgenerator CORINA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.3 Das semiempirische MO-Programm VAMP . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Visualisierung chemischer Datenobjekte 273.1 Molekulare Modelle und ihre Repräsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1.1 Ein historischer Rückblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1.2 Struktur-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

i

Page 8: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Inhaltsverzeichnis

3.1.2.1 Wireframe-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.2.2 Ball & Stick-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.2.3 Space filling-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.1.2.4 Capped Sticks-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.1.2.5 Modelle für biologische Makromoleküle . . . . . . . . . . . . . . . . . . . 31

3.1.2.6 Kristallographische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1.3 Molekulare Oberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1.3.1 Van der Waals-Oberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.3.2 Connolly-Surface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.3.3 Solvent Accessible Surface (SAS) . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.3.4 Solvent Excluded Surface (SES) . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.3.5 Bindungstaschen-Oberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.3.6 Isowert-basierte Elektronendichte-Oberflächen . . . . . . . . . . . . . . 33

3.1.3.7 Experimentell ermittelte Oberflächen . . . . . . . . . . . . . . . . . . . . . . 34

3.1.4 Molekulare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1.4.1 Molekülorbitale (Isowert-basierte Eigenschaften) . . . . . . . . . . . . 34

3.1.4.2 Skalare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.1.4.3 Vektorielle Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.1.4.4 Volumetrische Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.1.5 Animationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 Internetbasierte Applikationen in der Chemie . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.1 Die frühen Jahre: 1970 - 1993 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.2 Vom Durchbruch bis zum Stand der Technik . . . . . . . . . . . . . . . . . . . . . . 37

3.3 Client-Server-Ansätze zur chemischen Visualisierung . . . . . . . . . . . . . . . . . . . . . 41

3.3.1 Datentransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3.2 Softwaretransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.3.3 Graphiktransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4 Client-Server-basierte Visualisierung 454.1 Hybride Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1.2 VRML-Generator für chemische Austauschdateien . . . . . . . . . . . . . . . . . . 46

4.1.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1.2.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.1.2.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

ii

Page 9: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Inhaltsverzeichnis

4.1.2.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1.3 VRML-Animationsgenerator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.1.3.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.1.3.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.1.3.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.1.3.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1.4 ComSpec3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.1.4.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.1.4.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.1.4.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1.4.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.1.5 MolSurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.1.5.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.1.5.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.1.5.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.1.5.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.1.6 Weitere hybride Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.2 Client-seitige Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2.2 OrbVis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.2.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.2.2.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.2.2.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.2.2.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.2.3 Weitere Client-seitige Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.3 Server-seitige Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.3.2 Server-seitige Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.4 Diskussion der Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5 Data Mining und Datenvisualisierung 895.1 Data Mining und Knowledge Discovery in der Chemie . . . . . . . . . . . . . . . . . . . . 89

5.2 Data Mining-Methoden in der Chemie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.2.1 Mulivariate Statistikmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.2.1.1 Principal Component Analysis (PCA) . . . . . . . . . . . . . . . . . . . . . . 94

iii

Page 10: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Inhaltsverzeichnis

5.2.1.2 Multi-Dimensional Scaling (MDS) . . . . . . . . . . . . . . . . . . . . . . . . 95

5.2.2 Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.2.2.1 Kohonen-Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.2.2.2 Counterpropagation-Netzwerk . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.2.3 Genetische Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.2.4 Weitere Data Mining-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.2.5 Datenvisualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.3 Visuelles Data Mining - Eine Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.3.1 Visualisierung von Data Mining-Ergebnissen . . . . . . . . . . . . . . . . . . . . . . 102

5.3.2 Visualisierung von Zwischenergebnissen . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.3.3 Visualisierung von (Roh-)Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.4 Methoden der Informationsvisualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.4.1 Datentypen und Dimensionalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.4.1.1 Eindimensionale Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.4.1.2 Zwei- und dreidimensionale Datensätze . . . . . . . . . . . . . . . . . . . . 106

5.4.1.3 Multidimensionale Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.4.1.4 Spezielle Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.4.2 Die Visualisierungstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.4.2.1 Geometrie-basierte Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5.4.2.2 Icon- und Glyph-basierten Techniken . . . . . . . . . . . . . . . . . . . . . . 109

5.4.2.3 Pixel- und Voxel-orientierte Techniken . . . . . . . . . . . . . . . . . . . . 112

5.4.2.4 Hierarchische und Graph-basierte Techniken . . . . . . . . . . . . . . . . 113

5.4.2.5 Hybride Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.4.3 Techniken zur Interaktion und Verzerrung . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.4.3.1 Dynamische Projektionstechniken . . . . . . . . . . . . . . . . . . . . . . . . 115

5.4.3.2 Interaktive Filter-Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.4.3.3 Interaktives Zooming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.4.3.4 Interaktive Distortion-Techniken . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.4.3.5 Interaktive Linking- und Brushing-Techniken . . . . . . . . . . . . . . . 116

6 Visuelle Data Mining-Applikationen 1176.1 NCI Antitumor-Datenbank-Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.1.1 Motivation und Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.1.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6.1.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

iv

Page 11: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Inhaltsverzeichnis

6.1.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

6.2 Das InfVis-Programm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6.2.2 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.2.3 Daten-Integration und -Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

6.2.4 Datenvisualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6.2.5 Visuelles Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.2.5.1 Orthogonale Raumachsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6.2.5.2 Größe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

6.2.5.3 Farbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

6.2.5.4 Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

6.2.6 Interaktive und dynamische Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

6.2.6.1 Navigationswerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

6.2.6.2 Filterwerkzeuge (Dynamic Queries) . . . . . . . . . . . . . . . . . . . . . . . 139

6.2.6.3 Selektionswerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.2.6.4 Detailwerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

6.2.7 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6.2.8 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6.3 NCI Screening Data 3D Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

6.3.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

6.3.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

6.3.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

6.3.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

6.4 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

7 Anwendungsbeispiele 1637.1 ChemCodes-Reaktionsdatenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

7.1.1 Zielsetzung und Aufbau der Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

7.1.2 Reaktionsoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

7.1.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

7.1.2.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

7.1.2.3 Visuelles Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

7.1.2.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

7.1.3 Reaktionsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.1.3.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

v

Page 12: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Inhaltsverzeichnis

7.1.3.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

7.1.3.3 Visuelles Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

7.1.3.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

7.2 NCI Antitumor-Screening-Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

7.2.1 Zielsetzung und Aufbau der Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

7.2.2 QSAR-Studien mit Platin-Verbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . 179

7.2.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

7.2.2.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

7.2.2.3 Visuelles Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

7.2.2.4 Auswertung und Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

8 Zusammenfassung 189

9 Literaturverzeichnis 193

Anhang A Farbabbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-3

B Hyperlinksammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-13

C Krebszelllinien im NCI In Vitro Screen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-15

D Platinverbindungen im NCI In Vitro Screen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-17

E Publikationsliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-25

F Lebenslauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-26

vi

Page 13: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 1

Einführung

Chemische Daten und Information zeichnen sich gegenüber Information aus anderen Wis-

senschaften durch eine kleine Anzahl einfacher, klar definierter und nicht textorientierter

Datenobjekten wie Strukturen, Reaktionen, Spektren und Oberflächen sowie den damit ver-

bundenen Darstellungsformen aus. Der Visualisierung solcher Datenobjekte ist dabei eine

hohe Bedeutung beizumessen, da der Mensch von Natur aus dazu tendiert, einen Sachverhalt

oder ein Modell leichter zu akzeptieren, wenn er sich ein Bild davon machen kann. Hierbei

werden mikroskopische Sachverhalte oder komplexe und abstrakte Modelle in ein sichtbares

Model projiziert.

Die zweidimensionale Repräsentation von Strukturinformation stellt dabei wohl den älte-

sten und bis heute bekanntesten Vertreter zur Darstellung chemischer Information dar und

ermöglichte erst das Verständnis und die Entwicklung der klassischen Chemie. Während sich

im 18. Jahrhundert die Darstellung noch auf verschiedene Symbole für die Elemente

beschränkte, war das 19. Jahrhundert durch die Entwicklung der Bindungsformel geprägt.

Diese standardisierte, rationale und leicht zugängliche Repräsentation wird bis heute weltweit

von Chemikern angewendet und spielt noch immer eine bedeutende Rolle bei der Mole-

küldarstellung.

Für die Anwendung in der modernen Chemie reichen solche zweidimensionalen Darstel-

lungsformen aber längst nicht mehr aus. Wichtige Sachverhalte, Wirkungsweisen und Mecha-

nismen insbesondere in den Bereichen der Biochemie und Pharmazie lassen sich heute nur

noch durch Analyse und Betrachtung der räumlichen Struktur von Molekülen verstehen

(Abbildung 1-1). So hängt beispielsweise die Bindungsaffinität an einen Rezeptor oder ein

Enzym von der definierten Anordnung der Atome im aktiven Zentrum des Proteins ab. Viele

Jahrzehnte lang wurde zum Verständnis dieses Vorgangs das bekannte von Emil Fischer ent-

wickelte Schlüssel-Schloss-Prinzip [1] zu Grunde gelegt. Während dieses Modell das puz-

zleartige Zusammenfügen von zwei starren molekularen Geometrien beschreibt, geht man

heute vielmehr von einer induzierten Anpassung von Ligand und Protein aus. Bei dieser

induced fit genannten dynamischen Erkennung werden in Abhängigkeit von der Zeit viele

1

Page 14: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

1 Einführung

molekulare Wechselwirkungen zwischen verschiedenen Konformationen des Liganden und

Proteins ausgebildet bis sich schließlich der Protein-Ligand-Komplex bildet. Dieses von

Daniel E. Koshland 1958 postulierte Modell [2] verdeutlicht, dass neben der molekularen

3D-Struktur auch noch weitere Dimensionen wie Zeitachsen (z.B. Reaktionsabläufe oder

Dynamiken) oder mit dreidimensionalen Raumpunkten oder Flächen verknüpfte molekulare

Eigenschaften (Oberflächenpotentiale, Wasserstoffbrückenbindungen) eine weitere und

bedeutende Rolle spielen.

Abb. 1-1: 2D-Struktur, 3D-Struktur und molekulare Oberfläche des Hormons Testosteron.

Die Nutzung von dreidimensionalen Darstellungsformen hat jedoch nicht nur im Bereich

der chemischen Forschung eine zentrale Stellung eingenommen. 3D-Modelle und Animatio-

nen spielen auch eine zunehmend wichtigere Rolle im wissenschaftlichen Unterricht. Das

Erlernen eines komplexen Sachverhaltes ist mittels graphischer Repräsentationen wesentlich

leichter, da diese Form der Darstellung einer dem Betrachter bekannten Wirklichkeit wesent-

lich näher kommt. Dieser Sachverhalt wird bei der Betrachtung der in Abbildung 1-2 darge-

stellten nukleophilen Substitutionsreaktion deutlich.

Abb. 1-2: Nucleophile Substitution SN 2 von Brommethan mit Chloridion.

Diese für herkömmliche Chemielehrbücher übliche Darstellung von Reaktionen als Strich-

formeln setzt zum einen die Kenntnis von chemischen Konventionen (Keilpfeile) und zum

anderen Abstraktionsvermögen voraus. Der Einsatz einer dreidimensionalen, animierten Ver-

sion ermöglicht hingegen auch dem ungeübten Betrachter das leichte Verständnis des abstrak-

ten Sachverhaltes. Durch Nutzung von zusätzlichen interaktiven Elementen können somit

auch theoretisch schwer zugängliche Thematiken (z.B. Quantenchemie) auf fast spielerische

Art und Weise erlernt werden.

H H

H

OH

O

C

H

Br

H

H

+ C

HH

H

Br Cl C

H

Cl

H

H

+ BrCl

2

Page 15: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Im Gegensatz zu den papierbasierten 2D-Darstellungen war die Nutzung dreidimensiona-

ler Repräsentationen bis auf wenige Ausnahmen wie beispielsweise Stereobilder oder Ana-

glyphen auf die Entwicklung computergestützter Visualisierungstechniken angewiesen. Erste

Applikationen zur Visualisierung von Röntgenkristallstrukturen wurden dabei bereits in den

späten Sechziger-Jahren des 20. Jahrhunderts entwickelt. Heute steht dem Chemiker eine

unüberschaubare Anzahl von kommerziellen und frei verfügbaren Anwendungen zur Analyse

dreidimensionaler Strukturen und molekularen Eigenschaften zur Verfügung. Hauptmerkmale

dieser plattformabhängigen Applikationen sind vor allem die eng an einzelne Frage- und Pro-

blemstellung angelehnte Entwicklung und die im Allgemeinen fehlende Kompatibilität unter

den einzelnen Programmpaketen. Dieser Umstand steht jedoch im Widerspruch zum chemi-

schen Alltag, der zu großen Teilen auf einem schnellen, unkomplizierten und vollständigen

Zugriff und einer weitergehenden Analyse von bereits bestehendem Wissen basiert.

Das hohe Potential des Internets in Bezug auf Austausch, Abfrage und Darstellung chemi-

scher Information wurde daher in der Chemie sehr schnell erkannt und führte zu einer rasan-

ten Entwicklung von webbasierten, chemischen Informationsdiensten. Der Vorteil gegenüber

den alten Druckmedien lag dabei vor allem im nicht unterbrochenen Informationsfluss (direk-

ter Zugriff auf chemische Dateiaustauschformate) und den erweiterten Darstellungsmöglich-

keiten. Während anfänglich nur die Kommunikation, Publikation und der Austausch

chemischer Information im Vordergrund standen [3-7], entwickelten sich im Laufe der Zeit

auch zunehmend Techniken wie Plugins und Java-Applets, die eine Visualisierung von che-

mischen Daten eingebettet in digitalen Dokumenten erlaubten [8-11]. Letztere Techniken

ermöglichen heute interaktive Repräsentationen von molekularen 3D-Strukturen und Spek-

tren und sind Stand der Technik. Im begrenzten Maße können diese Visualisierungstools auch

einfache Oberflächen und Animationen darstellen.

Bei der genaueren Betrachtung dieser Standardwerkzeuge fällt jedoch auf, dass viele

Anwendungen aufgrund ihres plattformabhängigen Charakters nicht universell einsetzbar

sind. Des Weiteren zeigt sich, dass für Visualisierungsanforderungen, die über die einfache

Strukturvisualisierung hinausgehen wie zum Beispiel Orbitale, molekulare Oberflächen,

molekulare Eigenschaften oder Animationen, keine portablen und einfach nutzbaren Anwen-

dungen existieren oder die verfügbaren Applikationen nur sehr ineffiziente Lösungen unter-

stützen. Diese Situation ist unter anderem deshalb als ernst einzustufen, da sich heute

standardmäßig Internettechnologien in Form von Intranet-Informationssystemen [12] und

elektronischen Laborbüchern in der chemischen Industrie etabliert haben und diese aus den

oben beschriebenen Gründen eine portable Visualisierung gewährleisten müssen. Darüberhin-

aus sind auch Schulen und Universitäten im Bereich der Lehre auf webbasierte Visualisie-

rungsalternativen angewiesen, da sie aus Budgetgründen nicht immer auf teure kommerzielle

Produkte zurückgreifen können.

3

Page 16: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

1 Einführung

Neben steigenden Anforderungen bei der Behandlung von Einzelszenen mit aufwendigen

Oberflächen- und Volumendarstellungen ist ein weiterer wichtiger Trend in der Pharmafor-

schung und auch anderen Disziplinen zu beobachten - der enorme Anstieg an chemischer

Information.

Während bis zur Mitte des letzten Jahrhunderts chemische Information noch durch

gedruckte Referatedienste wie dem Chemischen Zentralblatt oder der papierbasierten Version

des Chemical Abstracts Service (CAS) verwaltet werden konnten, ist seit einigen Jahrzehnten

die Referenzierung und Verwaltung der exponentiell zunehmenden Datenmengen nur noch

mit Hilfe elektronischer, informationsverarbeitender Systeme möglich. Eine Auswahl an frei

verfügbaren und kommerziellen chemischen Datenbanken ist in Abbildung 1-3 dargestellt.

Abb. 1-3: Ausgewählte Chemische Datenbanken im Überblick (Stand: Juli 2002) [14].

Diese Tendenz hat durch die Entwicklung neuer Synthesetechnologien zur Verminderung

von Zeitbedarf und Entwicklungskosten in den letzten Jahren eine weitere Steigerung erfah-

ren. Automatisierte Technologien wie parallele bzw. kombinatorische Synthese sowie ent-

sprechende Testsysteme wie das High-Throughput-Screening haben den chemischen Alltag

vor allem in der Wirkstoffforschung grundlegend verändert [13]. Diese automatisierten

Robotikanlagen werden permanent weiterentwickelt und generieren heute bereits Datenvolu-

mina, die die Zahl früherer Versuchsergebnisse um mehrere Größenordnungen überragen

(Abbildung 1-3: Pfeil, Aktuelle Datensatzgrößen durch automatisierte Labortechniken).

Obwohl die resultierenden Datensätze ein hohes Potential für die Entwicklung neuer Wirk-

stoffe beinhalten, gestaltet sich das Auffinden relevanter Information mit zunehmender

Datenbankgröße als schwierig.

4

Page 17: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

1.1 Zielsetzung und Gliederung der Arbeit

Datensätze mit einigen tausend, Millionen oder sogar zehn Millionen [15] von Verbindun-

gen können nicht mehr durch Betrachtung einzelner Moleküle analysiert werden. Aktuelle

Standardanwendungen zur Analyse chemischer Datenbanken repräsentieren die Ergebnisse

daher in Form von molekularen Spreadsheets oder erlauben Struktur-Aktivitätskorrelationen

mittels struktureller bzw. physikochemischer Deskriptoren oder dreidimensionaler

Strukturinformation [16].

Obwohl deskriptorenbasierte Systeme durchaus für die Auswertung großer Datensätze

konzipiert sind, ist ihr Einsatz nicht immer unproblematisch. Das erhebliche Spezialwissen,

welches zur Bedienung derartiger Anwendungen nötig ist, fordert im Allgemeinen eine teure

und zeitaufwendige Datenbearbeitung durch spezialisierte Modelling-Experten und verhin-

dert letztendlich eine schnelle Interpretation der Ergebnisse durch den Synthesechemiker. Im

Gegensatz dazu können Spreadsheet-Anwendungen direkt vom Synthesechemiker zur Inter-

pretation und Analyse eingesetzt werden. Die tabellarische Datenrepräsentation dieser Appli-

kationen beschränkt deren Einsatz jedoch auf kleine bis mittlere Datensätze. Darüber hinaus

macht der zunehmend höherdimensionale Charakter der Datensätze eine Auswertung mittels

dieser Programme sehr schwierig oder sogar unmöglich.

Die Entwicklung von Software zur einfachen und interaktiven Analyse, Interpretation und

Visualisierung großer multidimensionaler Datensätze ist somit eines der großen Anliegen in

der chemischen Forschung und Entwicklung.

1.1 Zielsetzung und Gliederung der Arbeit

Komplexe chemische oder wissenschaftliche Zusammenhänge im Allgemeinen lassen sich

durch Einbettung interaktiver, drei- und mehrdimensionaler Repräsentationen in digitale

Dokumente besser verstehen. Der Zugriff auf digitale Dokumente ist insbesondere in der

Chemie bereits zur Routine geworden und über eine große Anzahl an unterschiedlichen Rech-

nerplattformen und Netzwerkinfrastrukturen möglich. Trotz der Notwendigkeit von Applika-

tionen zur Visualisierung mehrdimensionaler Darstellungsformen beherrschen heutige

webbasierte Visualisierungswerkzeuge nur einfache dreidimensionale Moleküldarstellungen.

Ein Ziel dieser Arbeit war daher die Entwicklung von portablen, sich an Internetstandards

orientierenden Systemen, die die Einbettung von dynamischen Visualisierungen in digitale

Dokumente erlauben. Da zur interaktiven Visualisierung von multidimensionalen und multi-

variaten Datenobjekten häufig große Datenmengen übertragen und dargestellt werden müs-

sen, stand zunächst die Entwicklung von intelligenten Client-Server-Strategien zur verteilten

Vermittlung und Verarbeitung im Vordergrund. Dabei sollten insbesondere Faktoren wie

Netzwerkinfrastruktur (z.B. Internet oder Intranet), Netzbandbreite, Netzlatenz, Verfügbar-

5

Page 18: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

1 Einführung

keit von Ressourcen aber auch das Vorhandensein von Server- und Client-seitiger Hardware

berücksichtigt werden. Die allgemeine Einsatzfähigkeit und der Nutzen dieser Strategien

wurde mit Hilfe von webbasierten Applikationen und Online-Diensten dargestellt und verifi-

ziert.

Ein weiteres Ziel dieser Arbeit war die Entwicklung von plattformunabhängigen Metho-

den und Applikationen zur interaktiven Visualisierung und Analyse von großen, multidimen-

sionalen und multivariaten Datensätzen. Zur Lösung dieser Problematik dienten im Rahmen

dieser Arbeit Ansätze aus dem Bereich der Informationsvisualiserung als Ausgangspunkte.

Die entwickelten Methoden sollten dabei im Gegensatz zu spreadsheetbasierten Standard-

applikationen die Möglichkeit bieten, sowohl große als auch hochdimensionale Datensätze zu

analysieren und zu visualisieren. Des Weiteren sollten die Applikationen eine einfache Bedie-

nung als auch eine schnelle und einfache Interpretation der Datensätze erlauben, so dass die

Analyse der Daten direkt durch den nicht-spezialisierten Synthesechemiker möglich ist. Wei-

tere Kriterien bei der Entwicklung waren ebenso die Nutzung aktueller low-budget Graphik-

hardware-Fähigkeiten aktueller PC-Systeme als auch die plattformübergreifende

Implementation der Applikationen.

Die vorliegende Arbeit gliedert sich in folgende Abschnitte:

In Kapitel 2 werden zunächst wichtige Begriffe und Grundlagen aus den Bereichen des

Internets und der Visualisierung erklärt. Weiterhin werden wichtige Programmpakete erläu-

tert, die im Rahmen dieser Arbeit für die Generierung, Speicherung und das Management von

chemischen Daten von zentraler Bedeutung waren.

Kapitel 3 widmet sich der portablen, Client-Server-basierten Visualisierung chemischer

Datenobjekte wie beispielsweise Strukturen, Oberflächen oder Animationen. Nach einem

kurzen, historischen Rückblick werden die wichtigsten chemischen Darstellungsformen

beschrieben. Des Weiteren wird auf die Bedeutung des Internets innerhalb der Chemie und

hier insbesondere im Bereich der Visualisierung eingegangen. Schließlich werden die wich-

tigsten Client-Server-Ansätze zur Visualisierung chemischer Daten erläutert, wobei vor allem

die Prinzipien des im Rahmen dieser Arbeit eingesetzten Graphiktransfers näher beschrieben

werden.

Kapitel 4 beschreibt anhand der drei grundsätzlichen, Graphiktransfer-basierten Client-

Server-Strategien die im Rahmen dieser Arbeit entwickelten, portablen Methoden und Appli-

kationen zur plattformunabhängigen Visualisierung chemischer Daten. Neben den Aspekten

der Implementierung werden die einzelnen Anwendungen im Vergleich mit aktuellen Stan-

dardapplikationen diskutiert. Schließlich werden die Vor- und Nachteile der drei Client-

Server-Strategien zusammengefasst und ein Ausblick auf zukünftige Arbeiten gegeben.

6

Page 19: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

1.1 Zielsetzung und Gliederung der Arbeit

Kapitel 5 befasst sich mit der Problematik der chemischen Datenflut sowie mit dem Pro-

zess des Data Mining, welcher nützliche und neuartige Information aus den enormen Daten-

mengen extrahieren kann. Zunächst wird die Definition des Data Minings sowie die

Aufgaben und Einsatz in der Chemie erläutert. Anschließend erfolgt eine Kurzvorstellung der

wichtigsten, in der chemischen Forschung gebräuchlichen Data Mining-Methoden. Der

zweite Teil des Kapitels widmet sich dem relativ jungen Gebiet des visuellen Data Minings.

Neben einer Einführung in die Grundlagen werden die verschiedenen Informationsvisualisie-

rungstechniken des visuellen Data Minings vorgestellt.

Kapitel 6 beschreibt die im Rahmen dieser Arbeit entwickelten Anwendungen und Pro-

gramme zum visuellen Data Mining von großen, multidimensionalen, chemischen Datensät-

zen. Dabei wird insbesondere auf das umfangreiche, plattformunabhängige Programm InfVis

eingegangen. Neben der Vorstellung der einzelnen Funktionalitäten werden die diversen

Applikationen im Vergleich mit aktuellen, chemieorientierten Standardapplikationen disku-

tiert. Schließlich wird ein Ausblick auf zukünftige und zum Teil bereits in der Entwicklung

befindliche Forschungsarbeiten gegeben.

Kapitel 7 stellt anhand von drei ausgewählten, chemischen Anwendungsbeispielen die

Fähigkeiten visueller Data Mining-Ansätze im Allgemeinen als auch des InfVis-Programms

im Speziellen vor. Die ersten beiden Anwendungsbeispiele basieren auf der neuartigen Reak-

tionsdatenbank der Firma ChemCodes und beschreiben eine Reaktionsoptimierungs- sowie

eine Reaktionsplanungs-Fragestellung. Das dritte Beispiel beschreibt schließlich eine visuelle

Analyse von Struktur-Aktivitäts-Beziehungen anhand von Platinverbindungen in der Antitu-

mor Datenbank des amerikanischen Krebsforschungsinstituts.

Kapitel 8 fasst schließlich die im Rahmen dieser Arbeit entwickelten Methoden und

Applikationen zusammen.

Aufgrund der thematischen Ausrichtung enthält die vorliegende Arbeit eine Reihe von

Farbabbildungen. Aus drucktechnischen Gründen wurden alle notwendigen Farbabbildungen

im Anhang A zusammengefasst. Die Kapitel enthalten an den entsprechenden Stellen eine

Schwarz-Weiß-Abbildung und eine Referenz auf die Farbkopie.

Diese Arbeit wurde von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen des

Schwerpunktprogramms ’Verteilte Vermittlung und Verarbeitung Digitaler Dokumente’

(V3D2) unterstützt und im Teilprojekt ’ChemVis - Chemische Visualisierung im Internet’ rea-

lisiert. Durch die Ausrichtung auf das Internet und den Einsatz von portablen Technologien

sind viele der hier vorgestellten Methoden und Applikationen in Form von webbasierten

Demonstrationsanwendungen und/oder als mittlerweile etablierte Online-Dienste nutzbar.

Eine Übersicht aller wichtiger Webseiten findet sich im Anhang B.

7

Page 20: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

1 Einführung

8

Page 21: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 2

Grundlagen

In diesem Kapitel sollen die elementaren Grundlagen und Methoden beschrieben werden,

die zum Verständnis der nachfolgenden Kapitel notwendig sind. Der erste Abschnitt befasst

sich mit der Thematik der Visualisierung und geht dabei vor allem auf das Gebiet der wissen-

schaftlichen Visualisierung ein. Darüber hinaus werden einige wichtige dreidimensionale

Visualisierungstechniken vorgestellt.

Der zweite Teil widmet sich dem Internet sowie den verwandten Techniken und Program-

miersprachen, die für die plattformunabhängige Repräsentation von chemischen Datenobjek-

ten eine relevante Rolle spielen.

Im letzten Teil dieses Kapitels folgt die Beschreibung wichtiger Programme, die für die

Generierung, Speicherung und das Management chemischer Information verwendet wurden.

2.1 Visualisierung

2.1.1 Wissenschaftliche Visualisierung - Eine Definition

Seit Anbeginn der Menschheit spielt die Visualisierung eine zentrale und bedeutende Rolle

bei der Übertragung und dem Verständnis von Information. Die Gründe für dieses Phänomen

beruhen dabei auf der Physiologie des menschlichen Auges und den mit ihm verbundenen

visuellen Cortex. Von allen Sinnesorganen des Menschen besitzt der Sehapparat die größte

Bandbreite bei der Aufnahme von Information. Diese Tatsache wird auch durch die allgemein

bekannte Redewendung „ein Bild sagt mehr als tausend Worte“ untermauert.

Der vergleichbar leichte Zugang zur Information über den Sehvorgang wird in den Wis-

senschaften und hier vor allem in den naturwissenschaftlichen Disziplinen zur Vermittlung

von abstrakten und/oder mikroskopisch kleinen Phänomenen und Modellen genutzt. Inner-

halb der Computergraphik wird dieses spezielle und weitläufige Forschungsfeld im Allgemei-

nen als "Wissenschaftliche Visualisierung" bezeichnet.

9

Page 22: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

Über einen langen Zeitraum war die wissenschaftliche Visualisierung aufgrund fehlender,

alternativer Medien nur auf zweidimensionale Schemata und Darstellungen begrenzt. Wäh-

rend dieser Zeit wurden die bis heute gültigen und von jeden Chemiker verständlichen Struk-

tur- und Konstitutionsformeln entwickelt. Neben der Darstellung von Spektren und

Atombindungen wurden aber auch abstraktere Repräsentationen wie die Fischer-Projektion,

das Keilpfeil-Tetraeder-Modell oder das Kugel-Stab-Modell zur Visualisierung von steri-

schen Effekten eingesetzt (Abbildung 2-1).

Abb. 2-1: Fischer-Projektion, Keilpfeil-Tetraeder-Modell und Kugel-Stab-Modell von 2-Hydroxypropanol.

Die Einführung des Computers führte schließlich zu Beginn der Sechziger Jahre zu voll-

kommen neuen Möglichkeiten der graphischen Repräsentation und zu der Entstehung des

Forschungsgebiets der Computergraphik. Rechnergestützte, dreidimensionale Darstellungen

und Animationen gewannen innerhalb kürzester Zeit enorme Bedeutung innerhalb des natur-

wissenschaftlichen Umfeldes und besonders in der Chemie. Neben der Verfügbarkeit von

alternativen Repräsentationen spielte ein weiterer Vorteil der graphischen Datenverarbeitung

eine wichtige Rolle - die Möglichkeit der Benutzerinteraktion. Mit Hilfe der interaktiven

Visualisierung war nun erstmals die direkte Manipulation der visualisierten Datenobjekte

möglich, was vollkommen neue Freiheitsgrade bei der Analyse unbekannter und komplexer

Szenen zuließ.

Heute stellt sich die computergestützte, wissenschaftliche Visualisierung, wie in Abbil-

dung 2-2 schematisch skizziert, dar. Durch experimentelle Beobachtungen von makroskopi-

schen und mikroskopischen Vorgängen ist der Wissenschaftler in der Lage ein abstrahiertes

Modell und letztendlich eine Theorie der zugrunde liegenden Vorgänge aufzustellen. Die gra-

phische Darstellung des abstrakten Modells stellt dabei eine Transformation von Unsichtba-

ren in Sichtbares dar. Darüber hinaus können die aus Modell, Theorie und graphischer

Repräsentation gewonnenen Erkenntnisse als Ausgangspunkt für weitere interaktive Analy-

sen und Simulationen dienen. Die Ergebnisse der Analyse erlauben schließlich die Vorher-

sage von Meßgrößen aus der realen Welt. Durch ständigen Vergleich der experimentellen

Meßwerte und der vorhergesagten Meßgrößen lässt sich letztendlich das aufgestellte Modell

verifizieren und verfeinern.

C

CH3

CH2OH

H OH

CH3

C

CH2OH

OHH

10

Page 23: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.1 Visualisierung

Abb. 2-2: Schematische Darstellung der Benutzerinteraktionen in der wissenschaftlichen Visualisierung.

2.1.2 Die Visualisierungspipeline

Während bei zweidimensionalen Repräsentationen nur ein zweidimensionales Abbild

generiert und dargestellt wird, sind für die Realisierung von dreidimensionalen Darstellungen

mehrere, computergestützte Methoden notwendig. Dieser mehrstufige Prozess wird als

Visualisierungspipeline bezeichnet (Abbildung 2-3) [17].

Der erste Schritt bei der Visualisierung wissenschaftlicher Daten ist dabei der Einsatz von

Filtern, um beispielsweise für die Visualisierung irrelevante Datenpunkte oder Parameter zu

entfernen oder Rohdaten zu konvertieren. In einem anschließenden Abbildungsmodul

(Mapper) werden die Daten dann in eine darstellbare Repräsentation überführt. Hierbei han-

delt es sich im Allgemeinen um geometrische Objekte wie Volumen und Primitive, die mit

zusätzlichen Attributen wie Farbe, 3D-Koordinaten, Transparenz und Textur versehen wer-

den. Im letzten Schritt der Visualisierungspipeline wird die erzeugte geometrische Repräsen-

tation der Daten von einem Darstellungsmodul (Renderer) durch Projektion auf eine

Bildebene in ein Rasterbild abgebildet.

Wie bereits im vorausgegangenen Abschnitt erläutert, stellt die Benutzerinteraktion einen

wichtigen und wesentlichen Freiheitsgrad bei der Analyse und Exploration von wissenschaft-

lichen Daten dar. Der Aufbau der Visulisierungspipeline erlaubt die Interaktion durch den

Benutzer an jeder beliebigen Stelle. Vor allem bei unbekannten Daten ist eine Erkenntnis

über die in den Daten vorhandene Information häufig erst durch die interaktive Manipulation

der Visualisierungsparameter aller Visualisierungsstufen möglich.

Modell

Interaktion/Simulation

Experiment

Reale Welt

Visualisierung

Theorie

Vorhersage

Mes

sun

g

11

Page 24: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

Die dafür erforderlichen, hohen Interaktionsraten setzen effiziente Algorithmen und

Datenstrukturen sowie entsprechende Verarbeitungskapazitäten voraus. Die in Kapitel 3 vor-

gestellten Client-Server-basierten Strategien und Applikationen beschreiben die Realisierung

entsprechender Ansätze im Detail.

Abb. 2-3: Die Visualisierungspipeline [26].

2.1.3 Dreidimensionale Visualisierungstechniken

Im folgenden Abschnitt werden die bekanntesten Techniken zur Darstellung von räumli-

chen Darstellungen vorgestellt. Neben der Beschreibung der Vor- und Nachteile der einzelnen

Ansätze werden dabei auch bekannte chemische Beispielapplikationen vorgestellt.

2.1.3.1 Pseudo-3D-Visualisierung

Wie der Name bereits zu erkennen gibt, handelt es sich bei diesem Verfahren aus Sicht der

graphischen Datenverarbeitung nicht um eine dreidimensionale Visualisierungstechnologie.

Vielmehr werden mit Hilfe dieser Methode nur zweidimensionale Bilder generiert, die im

visuellen Cortex des Betrachters einen räumlichen Eindruck vermitteln. Diese Methode der

geistigen Täuschung funktioniert vor allem in Verbindung mit zusätzlichen Interaktionsmög-

lichkeiten so gut, dass dem Benutzer der nicht-dreidimensionale Charakter der Darstellung

vollkommen verborgen bleibt. Um einen räumlichen Effekt zu erzielen, müssen dabei drei

Grundvoraussetzungen realisiert werden: das Depth Cueing, die Perspektive und die Interak-

tion. Anhand eines beliebigen Moleküls soll die Funktionsweise dieser Methoden erläutert

werden.

Ausgehend von der dreidimensionalen Struktur und in Abhängigkeit von der Blickrichtung

wird in einem ersten Schritt die Tiefe bzw. der Abstand zum Betrachter der einzelnen Atome

bestimmt. Dabei wird ermittelt, ob sich ein Atom vor oder hinter einem anderen Atom bzw.

einer Bindung befindet. Der räumliche Eindruck wird darüber hinaus durch Veränderung der

Größen der dargestellten Atome verstärkt (Perspektive). Vom Betrachter weiter entfernte

Filter Mapper Renderer

Darstellung

Simulation

Datenbank

Sensoren

Rohdaten BilderVideo

Interaktion

Visualisierungspipeline

12

Page 25: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.1 Visualisierung

Atome werden dabei kleiner dargestellt als solche, die sich näher am Betrachter befinden. In

einem weiteren Schritt wird das Depth Cueing-Verfahren eingesetzt. Dabei nimmt mit zuneh-

mender Tiefe der Atome und Bindungen die Helligkeit dieser Objekte ab, wodurch der räum-

liche Eindruck nochmals verstärkt wird. Schließlich wird der Mechanismus der Täuschung

durch den Einsatz von Interaktionsmechanismen perfektioniert. Durch Auswertung der

Benutzeraktionen (z.B. Mauszeigerbewegungen) wird zunächst die neue Aufsicht auf das

Molekül berechnet. Im Anschluss werden die bereits beschriebenen Schritte erneut durchlau-

fen und das alte Bild durch die neuberechnete Darstellung ersetzt. Durch diese Vorgehens-

weise können Interaktionen wie Rotation, Translation und Zoom realisiert werden.

Bis vor einigen Jahren war die dreidimensionale Visualisierung nur auf speziellen, teuren

Serversystemen mit hochleistungsfähiger Graphik-Hardware und durch den Einsatz entspre-

chender Spezialsoftware möglich. Im Gegensatz dazu ist die Pseudo-3D-Technik nicht auf

das Vorhandensein von 3D-Funktionalitäten angewiesen und kann deshalb auch auf PC-

Systemen mit Standard-Graphikkarten zum Einsatz kommen. Diese Tatsache hat dazu

geführt, dass Pseudo-3D-basierte Applikationen schnell eine weite Verbreitung in der chemi-

schen Visualisierung erfahren haben. Darüber hinaus wird die Interaktionsrate nur gering

durch die Anzahl und Größe der dargestellten Objekte beeinflusst. Dies ermöglicht somit

auch die unkomplizierte Darstellung von sehr vielen und/oder großen Datenobjekten.

Zu den bekanntesten Vertretern dieser Methode zählen der Java-Molekülviewer von

ChemSymphony [11, 18] und die RasMol-Applikation [19] bzw. das Chime-Plugin [32].

2.1.3.2 3D-Visualisierung

Die enormen graphischen Anforderungen moderner Computerspiele haben seit einigen

Jahren zu der Entwicklung PC-kompatibler 3D-Graphikkarten geführt. Die dreidimensiona-

len Fähigkeiten dieser Hardwaresysteme haben seitdem exponentiell zugenommen und wer-

den sich auch in Zukunft unvermindert schnell weiterentwickeln. Dank dieser Entwicklung

sind heute dreidimensionale Darstellungen von wissenschaftlichen Daten allgemein auf Per-

sonalcomputern verfügbar. Neuere Untersuchungen haben darüber hinaus gezeigt, dass aktu-

elle Graphiksysteme wie die GeForce-Serie im Bereich der wissenschaftlichen Visualisierung

an die Fähigkeiten heutiger Graphikserver heranreichen und in einigen Fällen diese sogar

übertreffen [20].

Die für die dreidimensionale Visualisierung notwendigen und in Kapitel 2.1.2 beschriebe-

nen Stufen der Visualisierungspipeline greifen im Allgemeinem nicht direkt auf die 3D-Funk-

tionalitäten der Graphikkarten zu. Vielmehr wird dieser Zugriff durch sogenannte 3D-

Graphikschnittstellen vermittelt. Zu den beiden etablierten Systemen gehört das von Silicon

Graphics (SGI) als offener Standard eingeführte OpenGL [21]. OpenGL wird von einem

13

Page 26: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

internationalen Konsortium weiterentwickelt und ist für alle gängigen Plattformen und

Betriebssysteme erhältlich. Der zweite de-facto Standard (Direct3D) wurde von Microsoft für

Windows-Plattformen entwickelt und ist in der bekannten DirectX API enthalten [22].

Das hohe Potential der dreidimensionalen Visualisierung stand im Mittelpunkt bei der Ent-

wicklung der in dieser Arbeit beschriebenen Applikationen und Strategien. Dabei wurde vor

allem die Volumenvisualisierung [23] zur Darstellung chemischer Information verwendet.

Diese Visualisierungsform hat sich mittlerweile zu einem selbstständigen Forschungsfeld

innerhalb der Computergraphik entwickelt und beschreibt die Repräsentation, Manipulation

und Darstellung von Volumendaten. Eine detaillierte Beschreibung dieser Darstellungsform

würde den Rahmen dieser Arbeit sprengen. Daher werden im Folgenden nur die beiden wich-

tigsten im ChemVis-Projekt verwendeten Ansätze kurz skizziert.

Isoflächen-basierte Volumenvisualisierung. Bei diesem auch als indirekte Volumenvi-

sualisierung bezeichneten Verfahren werden die Volumendaten in eine intermediäre Reprä-

sentation abgebildet, deren Darstellung mit einem geringeren Aufwand verbunden ist. Dabei

kommt es im Allgemeinen zu einem Informationsverlust gegenüber den Originaldaten. Die-

ser kann jedoch bewusst hingenommen werden, da man häufig nur an der Darstellung der

Grenzfläche interessiert ist und nicht an der darunterliegenden Information. Zur Veranschau-

lichung dieses Sachverhaltes kann man die in einer Gaussian-Cube-Datei enthaltenen Daten

betrachten. Das vom Programm GAUSSIAN [24] generierte Datenformat dient zum Aus-

tausch von molekularen Oberflächen oder Orbitalen und speichert diese Information in Form

einer Volumendichte. Bei der Visualisierung dieser Objekte ist jedoch nicht die gesamte Volu-

meninformation notwendig, sondern nur die darin enthaltene Grenzflächeninformation. Die

Extraktion der Grenzflächen geschieht mittels Algorithmen. Der bekannteste Vertreter dieser

Klasse von Grenzflächen-extrahierenden Algorithmen ist der Marching-Cubes-

Algorithmus [25]. Die vom Marching-Cubes-Algorithmus berechneten Dreiecksgitter kön-

nen schließlich mit konventioneller Graphikhardware dargestellt werden.

Die Vorteile dieser Darstellungsform gegenüber der Pseudo-3D-Visualisierung sind unter

anderem die qualitativ bessere Repräsentation der Daten und die wesentlich größeren Mög-

lichkeiten zur Benutzerinteraktion und Animation. Das Verfahren birgt aber auch Nachteile.

Da die Rendering-Geschwindigkeit direkt von der Anzahl der berechneten Dreiecke abhängt,

ist die Anzahl und die Größe der dargestellten Objekte limitiert.

Die in Kapitel 3 vorgestellten Ansätze beschreiben Client-Server-basierte Strategien zur

Lösung dieser Problematik. Beispiele für entsprechende Standardapplikationen werden daher

dort beschrieben.

14

Page 27: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.1 Visualisierung

Textur-basierte Volumenvisualisierung. Im Gegensatz zu der Isoflächen-basierten

Visualisierung ist die Renderinggeschwindigkeit Textur-basierter Verfahren nicht von der

Anzahl und der Größe der dargestellten Objekte abhängig. Diese Beobachtung begründet sich

dadurch, dass das Volumen nicht in Form einer großen Anzahl von Primitiven visualisiert

wird, sondern in seiner ganzheitlichen Form als 2D- oder 3D-Textur im Texturspeicher der

Graphikkarte abgelegt und anschließend gerendert wird. Aus diesem Grund bestimmt die

Texturspeichergröße die Grenzes dieses Ansatzes. Die für die qualitativ hochwertige Reprä-

sentation wissenschaftlicher Daten notwendigen 3D-Texturen waren in der Vergangenheit

nicht durch PC-basierte Graphikkarten realisierbar und konnten nur mit Hilfe spezieller

Workstation-Hardware generiert werden. Erst durch die Entwicklung moderner Spielegra-

phikkarten, welche Technologien wie Multi-Texturing und programmierbarer Rasterisie-

rungseinheiten unterstützen, sind qualitativ hochwertige, Textur-basierte Darstellungen heute

auch auf Personalcomputern verfügbar. Darüber hinaus ermöglichten erst die PC-basierten

Graphiksysteme die Visualisierung großer Texturen. Technische Einzelheiten und die Reali-

sierung entsprechender Applikationen waren nicht Gegenstand der vorliegenden Arbeit und

werden an anderer Stelle besprochen [26].

2.1.3.3 Virtual Reality-Verfahren

Monitor- bzw. Display-vermittelte dreidimensionale Darstellungen basieren auf einer

zweidimensionalen Zentralprojektion, die im menschlichen Gehirn und durch dessen Fähig-

keit zum räumlichen Denken als dreidimensionale Objekte interpretiert werden. Darüber hin-

aus existieren Techniken, die beim Betrachter den Eindruck erwecken, dass die dargestellte

3D-Szene tatsächlich existiert. Dieser Sachverhalt wird im Allgemeinen als virtuelle

Realität bezeichnet. Die im Folgenden beschriebenen Vertreter dieser Technologie erwecken

diesen plastischen Eindruck durch die Kombination der bereits im letzten Abschnitt beschrie-

benen 3D-Techniken in Verbindung mit speziellen, graphischen Ein- und Ausgabegeräten.

Häufig wird dabei der gewünschte Effekt durch sogenannte Stereobild-Techniken

erreicht [27]. Beim Stereosehen werden zwei verschiedene Bilder betrachtet, die auf dem

ersten Blick vollkommen identisch sind sich jedoch durch unterschiedliche Blickwinkel

unterscheiden. Indem jedes Auge eines der beiden Bilder betrachtet, entsteht somit ein räum-

licher Eindruck. Während geübte Betrachter diesen Effekt durch Fokussierung eines unend-

lich weit entfernten Punktes (paralleles Sehen) erzielen können, steht dem ungeübten

Betrachter mit der Stereobrille ein geeignetes Hilfsmittel zur Verfügung.

Ähnliche Verfahren wie Anaglyphen (rot/grün Bilder in Verbindung mit colorierten Bril-

len) oder Autostereogramme (besser bekannt als random dot Stereogramme) wurden eben-

falls zur chemischen Visualisierung vor allem in chemischen Lehrbüchern eingesetzt.

15

Page 28: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

Eine breitere Anwendung fanden weiterentwickelte Verfahren wie die sogenannten

Shutter-Brillen. Diese anfänglich nur für Workstations erhältlichen Ausgabesysteme werden

vor allem im Bereich des Molecular Modelling eingesetzt und bestehen aus transparenten

LCD-Displays, die für jedes Auge einzeln verdunkelt werden können. Die Verdunklung des

Glases geschieht dabei sehr schnell und synchron zum Austausch der beiden

korrespondierenden Bildansichten auf dem Monitor, so dass jedes Auge letztendlich nur ein

Stereobild wahrnimmt. Im Gegensatz zu parallelen Stereobildern lässt diese Technik die

Bewegung des Kopfes zu. Der wichtigste Vorteil ist jedoch, dass dem Benutzer alle

Möglichkeiten der Interaktion mit der dreidimensionalen Darstellung offen stehen. Seit

einiger Zeit stehen auch low-budget Systeme zur Verfügung, die mit herkömmlichen PC-

Graphikkarten zusammen arbeiten.

Alternative Systeme wie die sogenannten head-mounted Displays (HMD) sind in der

chemischen Visualisierung nicht so weit verbreitet. Die helmartigen HMDs basieren nicht

mehr auf einem einzelnen Display sondern bestehen aus zwei unabhängigen Displays (eins

für jedes Auge). Die Blickrichtung des Benutzers wird dabei durch entsprechende Sensoren

im Helm ermittelt und führt bei einer Bewegung zur Aktualisierung der dargestellten Szene.

Zu den aufwendigsten Virtual-Reality-Systemen zählen wohl die teuren und

ressourcenintensiven Projektionssysteme CAVE (Cave Automatic Virtual Environment) [28]

und CUBE [29]. Diesen Techniken erfordern für die Darstellung begehbare, geschlossene

Räume. Mit Hilfe von Projektionskanonen werden dabei auf die vier Wände, die Decke und

den Boden des Raumes Bilder einer dreidimensionalen Szene projiziert. Der Benutzer kann

alleine oder in der Gruppe diese virtuelle Welt betreten und betrachten. Im Allgemeinen wird

der virtuelle Effekt dabei noch durch Shutter-Brillen verstärkt. Durch weitere Peripherie wie

beispielsweise Cyber-Handschuhen ist der Benutzer auch in der Lage Manipulationen an der

dargestellten Szene vorzunehmen. Den Vorteilen, die ein solches System bietet, stehen sehr

hohe Kosten und Rechenanforderungen gegenüber, die den Einsatz solcher Technologien nur

auf sehr spezielle Problemfälle einschränkt. Diese Situation hat sich in den letzten Jahren

durch die Verfügbarkeit preisgünstiger und leistungsfähiger Spielegraphikkarten noch

verschärft.

Als letzte Technologie sei noch auf direkte Volumenvisualisierungssysteme hingewiesen.

Die modernste Lösung auf diesem Sektor stellt zur Zeit die prototypische Perspecta Spatial

3D Plattform dar [30]. Das System besteht aus einer Glaskugel, dessen Durchmesser ca.

50 cm beträgt. Im Inneren dieser Kugel zirkuliert ein Hochgeschwindigkeitsprojektor, der

die dreidimensionale Szene auf die Kugel projiziert. Dem Benutzer wird dabei ohne Einsatz

weiterer Hilfsmittel wie Brillen oder HMDs der Eindruck vermittelt, dass er tatsächlich ein

räumliches Objekt betrachtet und mit ihm interagieren kann.

16

Page 29: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.2 Internet-Techniken

2.2 Internet-Techniken

Bei der Entwicklung der in dieser Arbeit vorgestellten Methoden und Applikationen wurde

besonderer Wert auf die Plattformunabhängigkeit gelegt. Die Einbettung der Visualisierungs-

applikationen in digitale Dokumente wurde dabei durch den Einsatz von Technologien und

Programmiersprachen, die sich an aktuellen Internetstandards orientieren, sichergestellt.

Diese Technologien werden im Folgenden beschrieben.

2.2.1 Multipurpose Internet Mail Extension (MIME)

Die Entwicklung dieses Standards geht auf das Jahr 1992 zurück, als das Internet noch am

Anfang seiner Entwicklung stand und vor allem zum Verschicken von elektronischen Mails

diente [31]. Heute ist diese Erweiterung nicht nur auf elektronische Post beschränkt, sondern

wird allgemein im Internet zur Identifizierung der Form und Struktur übertragener Daten ver-

wendet. Der entsprechende Datentyp wird dabei durch einen allgemeinen Teil (z.B. video,

audio, application) und einen spezifischen Teil identifiziert. Je nach Einstellung des Web-

browsers wird dann ein Plugin (vgl. Abschnitt 2.2.2) oder eine entsprechende Standardappli-

kation gestartet, welche die übertragenen Daten interpretieren kann.

Erste MIME-Typen zur Kennzeichnung von chemischen Austauschformaten wurden 1994

eingeführt [3, 6]. Da in dieser Arbeit vor allem die Vermittlung von graphischen Daten im

Vordergrund stand, kamen chemische MIME-Typen nur selten zum Einsatz. Häufiger wurden

die entsprechenden MIME-Typen zur Interpretation von VRML-Szenen (vgl. Abschnitt

2.2.5) oder zum Start des Java2-Plugins (vgl. Abschnitt 2.2.4) eingesetzt.

2.2.2 Plugins

Als Plugins bezeichnet man kleine, plattformabhängige Applikationen, die die Darstel-

lungsfähigkeiten von konventionellen Webbrowsern in Abhängigkeit von bestimmten Daten-

typen erweitern. Empfängt der Client einen bestimmten Datentyp, der vom Browser

standardmäßig nicht interpretiert aber von dem vorher installierten Plugin gehandhabt werden

kann, so wird das Plugin innerhalb des Browser-Fensters gestartet und für die eingebettete

Repräsentation der Daten in der Webseite verwendet. Bis vor kurzem unterstützten die wich-

tigsten Browser diese von Netscape entwickelte Plugin API. Microsofts Bemühungen diese

Technologie durch die eigene ActiveX-Technologie zu ersetzen, haben dazu geführt, dass

neuere Versionen des Internet Explorers die Plugin-Technik nicht mehr unterstützen.

Der bekannteste chemische Vertreter dieser Klasse von Anwendungen ist zweifellos das

von MDL vertriebene Chime-Plugin [32].

17

Page 30: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

2.2.3 JavaScript

JavaScript ist eine von Webbrowsern interpretierbare Skriptsprache, die aber keinen, wie

der Name eventuell vermuten lässt, Bezug zu der objektorientierten Programmiersprache

Java hat. Durch Einbettung von JavaScript-Tags in HTML-Seiten können beispielsweise

Benutzereingaben in Webformularen interpretiert und weiterverarbeitet werden.

2.2.4 Java

Die objektorientierte Programmiersprache Java [33] wurde 1995 von der Firma Sun

Microsystems entwickelt und seitdem ständig erweitert. Java ist in starkem Maße an die Pro-

grammiersprache C++ angelehnt, aber im Gegensatz dazu sowohl betriebssystem- als auch

plattformunabhängig. Die Erfüllung der Systemunabhängigkeit ermöglicht den Einsatz von

Java-Programmen im Internet. Java-Programme können in Form von Java-Applets auf belie-

bige Rechner transferiert und anschließend ausgeführt werden, wenn ein entsprechender,

Java-fähiger Webbrowser zur Verfügung stehen. Darüber hinaus können Java-Programme

auch als Standalone-Applikationen ausgeführt werden, wenn eine entsprechende Java-Lauf-

zeitumgebung (virtuelle Maschine) auf dem System installiert ist.

Heute hat sich Java als de-facto Standard für die Programmierung von Internet-Applikatio-

nen durchgesetzt und ist für fast alle wichtigen Betriebssysteme und Plattformen erhältlich.

Viele der in dieser Arbeit vorgestellten Applikationen und Methoden nutzen Java in Form

von Applets aber auch als eigenständige Java-Programme.

2.2.5 VRML und X3D

Die Virtual Reality Modeling Language (VRML) [34] ist ein plattformunabhängiges, fle-

xibles Dateiformat zum Austausch und zur Beschreibung von dreidimensionalen Szenen.

VRML existiert in zwei Varianten - als VRML 1.0 und als VRML 2.0. Die letztere Version

wurde 1997 von der International Organization for Standardization und von der International

Electrotechnical Commission unter den Namen VRML97 als Standard verabschiedet und hat

mittlerweile die ältere Version weitgehend ersetzt.

Die dreidimensionale Szene wird dabei in Form eines Szenengraphen beschrieben, der aus

speziellen sogenannten Knoten besteht. Ähnlich wie HTML-Dateien ist auch das VRML-For-

mat in einer ASCII-Syntax implementiert. Die übertragenen VRML-Daten können entweder

durch Standalone-Programme oder durch spezielle Plugins (vgl. Abschnitt 2.2.2) visualisiert

werden.

18

Page 31: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.2 Internet-Techniken

Neben der Möglichkeit zur Beschreibung von statischen Objekten, die auch schon in

VRML 1.0 möglich war, erlaubt VRML97 auch ereignisbasierte Dynamik. Durch Annähe-

rungssensoren, Berührungssensoren und zyklischen Zeitsensoren sowie deren Verknüpfung

mit anderen Szenenknoten mittels sogenannte Router können einfache Benutzerinteraktionen

und Animationen realisiert werden. Darüber hinaus können VRML-Skripte in Form von spe-

ziellen Skript-Knoten in die Szene integriert werden. Diese an JavaScript angelehnte Skript-

sprache kann ebenfalls mit den VRML-Knoten verknüpft werden und gestattet somit

beispielsweise die Weiterverarbeitung und Berechnungen von Benutzereingaben.

Im Gegensatz zu anderen Szenengraphenschnittstellen wie zum Beispiel Java3D (vgl.

Abschnitt 2.2.6) ist VRML primär zur reinen Vermittlung von 3D-Information und weniger

zur Programmierbarkeit ausgelegt. Dieses Defizit kann mit Hilfe des External Authoring

Interface (EAI) [35] behoben werden. Mit Hilfe des EAI kann beispielsweise ein Java-

Applet, das mit einem VRML-Plugin in eine HTML-Seite eingebettet ist, direkt den Szenen-

graphen beobachten und manipulieren. Der Einsatz dieser Technik wird in Kapitel 3 beschrie-

ben.

Der Nachfolger von VRML97 wird zur Zeit von einem internationalem Industrieverband,

dem Web3D-Konsortium entwickelt. Diese als X3D (Extensible 3D) bezeichnete Szenenbe-

schreibungssprache basiert dabei auf der Extensible Markup Language (XML). Diese Tech-

nik kam im Rahmen der Arbeit nicht zum Einsatz, da bis dato kein verabschiedeter Standard

dieser Technik verfügbar ist.

2.2.6 Java3D

Die von Sun Microsystems entwickelte high-level Programmierschnittstelle Java3D [36]

ist eine Erweiterung von Java und ermöglicht die Entwicklung von 3D-fähigen Applikationen

und Java-Applets. Die von Java3D dargestellten Szenengraphen basieren dabei direkt auf den

bereits in Abschnitt 2.1.3.2 vorgestellten low-level Graphikschnittstellen OpenGL bzw.

Direct3D/DirectX. Im Gegensatz zu VRML dient Java3D nicht zum Austausch von dreidi-

mensionalen Szenen. Vielmehr erlaubt Java3D die Programmierung von Applikationen zur

dreidimensionalen Darstellung von Information. Der entwickelte Szenengraph kann dabei

über die Java3D API komfortabel und im wesentlich größeren Umfang als bei VRML pro-

grammiert werden.

Das in Kapitel 6 beschriebene InfVis-Programm zum graphischen Datamining basiert auf

der Java3D-Technologie.

19

Page 32: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

2.3 Verwendete Programme

Die im Folgenden beschriebenen Programme wurden zur Generierung, Speicherung und

zum Management von chemischen Daten benötigt. Dem offenen chemischen Managementsy-

stem CACTVS kam dabei insbesondere bei der Entwicklung der Internet-Anwendungen eine

zentrale Bedeutung zu.

2.3.1 Das chemische Managementsystem CACTVS

Das Chemical Algorithms Construction, Threading and Verification System, kurz

CACTVS [37, 38] wurde als Server-seitiges Programmsystem bei der Entwicklung der in

Kapitel 3 beschriebenen, Web-Applikationen eingesetzt. Dabei wurde es durch eine Reihe

von Dateileseroutinen und Modulen erweitert, auf deren Implementation ebenfalls in Kapitel

3 genauer eingegangen wird. Dieser Abschnitt soll einen allgemeinen Eindruck von der

Zielsetzung und Architektur dieses offenen Managementsystems vermitteln.

2.3.1.1 Zielsetzung

Chemische Industriefirmen insbesondere im Bereich der Pharmaforschung verwalten

heutzutage Unmengen an experimentellen und berechneten Daten. Die in den Daten

enthaltene Information ist im Gegensatz zu anderen Wissenschaften für die Entwicklung

zukünftiger Produkte von großer Bedeutung. Deshalb muss ein rascher, unkomplizierter und

vollständiger Zugriff auf die Daten sowie eine nachfolgende effiziente Verarbeitung

sichergestellt werden. Im Zeitalter des Intra- und Internets sollte dieser Zugriff darüber hinaus

mit maximaler Flexibilität und minimalen Hemmschwellen bezüglich Formaten, Plattformen

und Betriebssystemen stattfinden können.

Die Realisierung eines solchen Informationssystems stellt sich jedoch als schwierig dar.

Wie bereits erwähnt existiert in der Chemie eine Reihe von typischen Datenobjekten, wie

Spektren, Strukturen, Reaktionen usw. Durch die Entwicklung von computergestützten

Methoden zur Analyse, Berechnung und Weiterverarbeitung dieser Daten, steht dem

Chemiker heute eine fast unüberschaubare Anzahl von Datenbankanwendungen und

Programmen zur Lösung einzelner Problemstellungen zur Auswahl. Aufgrund fehlender

Kompatibilität zwischen den einzelnen Softwarelösungen ist der Datenaustausch und die

Weiterverarbeitung von Information stark eingeschränkt oder überhaupt nicht möglich.

Das CACTVS-Toolkit ist das erste, offene, netzwerkorientierte System, dass die ganze

Bandbreite der chemischen Information mit ihren spezifischen Charakteristika ausdrücken,

verwalten und vermitteln kann. Dabei wurde es vor allem zur Realisierung von drei wichtigen

Einsatzgebieten ausgelegt: zum Rapid Application Development von Chemie-Anwendungen

20

Page 33: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.3 Verwendete Programme

mit graphischen Nutzerinterface, zur allgemeinen Integration und Management von

chemieorientierten Daten und Rechenverfahren und letztendlich zum sogenannten

chemischen Scripting. Die beiden letzten Einsatzbereiche sind dabei vor allem im Rahmen

dieser Arbeit zum Einsatz gekommen. Dank dieser spezifischen Ausrichtung eignet sich das

CACTVS-System als Bindeglied und zur Kommunikation zwischen einzelnen chemischen

Programmen und Anwendungen. Darüber hinaus erlaubt die flexible, netzwerkorientierte

Architektur von CACTVS auch den Einsatz als Middleware und damit einen einfachen,

browservermittelten Zugriff auf alle erforderlichen Datenobjekte in einem firmeninternen,

standortübergreifenden Intranetsystem.

2.3.1.2 Die Architektur

Um die Funktionsweise des Systems zu verstehen, ist die Vermittlung eines kurzen

Überblicks der CACTVS-Architektur notwendig. Abbildung 2-4 zeigt den schematischen

Aufbau des CACTVS-Programmsystems.

Abb. 2-4: Schematische Darstellung des CACTVS-Programmsystems.

Tool-Definitionen

Eigenschafts-Definitionen

Berechnungs-Skripte

Berechnungs-Module

Quellen vonModulen, Servern,

Erweiterungen

I/O Format-Erweiterungen

Moleküle undberechneteErgebnisse

Darstellungs-Definitionen

Rechner- undDarstellungs-

Server

Dynamische ge-ladene Operatoren

& I/O Module

Kommando-Sprachen-

Erweiterung

Datenformat-Erweiterung

Kern-Bibliothek

Kommandosprachen - Interface

Graphical User Interface

21

Page 34: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

Herzstück des Systems ist die CACTVS-Kernbibliothek, welche als flexibler,

objektorientierter Datenmanager fungiert. Der Datenmanager verwaltet dabei einen offenen,

beliebig erweiterbaren Satz von Beschreibungen der Eigenschaften von chemischen Objekten

wie Molekülen, Atomen und Bindungen sowie Methoden, um die zu den Eigenschaften

gehörigen Daten voneinander abzuleiten und zu verknüpfen. Alle Aspekte der Daten-

beschaffung, -management, -analyse, -manipulation und -ausgabe werden durch das

Kernsystem gehandhabt. Die wichtigsten Eigenschaften der Kernbibliothek sowie das

Kommandosprachen-Interface werden im Folgenden näher betrachtet.

Unbegrenzte Datentyp-Erweiterung. Eine generelle Forderung bei der Entwicklung von

CACTVS war die nahezu unbegrenzte Erweiterbarkeit des Systems. Diese Zielsetzung wird

dadurch erreicht, dass jede Form von chemischer Information vollkommen unabhängig von

der Kernbibliothek in externen Eigenschaftsdeskriptoren beschrieben wird. Dabei enthalten

die Eigenschaftsbeschreibungen Daten wie beispielsweise eine ausführliche Beschreibung

des Datentyps, Information über Abhängigkeiten von anderen Eigenschaften, Methoden zur

Informationsgenerierung und Metainformation. Das System verfügt bereits über eine große

Anzahl an implementierten Deskriptoren. Diese Bibliothek lässt sich aber ohne Probleme für

einen bestimmten Datentypen erweitern. Die Implementation (Programmiersprache) und die

Lokalisation (Systempfad) der Deskriptoren ist dabei auch vollkommen offen gestaltet. So

muss beispielsweise ein Deskriptor nicht auf dem gleichen System vorliegen, sondern kann

aus Dateien, aus Datenbanken, aus einem lokalen Netzwerk oder von einem entfernten Server

mittels Internet-Protokolle während der Laufzeit des Programms angefordert werden. Das

System unterstützt darüber hinaus die Speicherung identischer Informationsbeschreibungen,

beispielsweise bei unterschiedlicher Herkunft der Daten, durch Anlegen multipler Instanzen

der Eigenschaftsbeschreibung. Mittels sogenannter "synthetischer" Deskriptoren kann

CACTVS sogar Daten speichern und verwalten, für die zur Laufzeit keine geeigneten

Informationsbeschreibungen vorliegen.

Automatische Lookup- und Generierungs-Mechanismen. Der notwendige Zugriff

seitens der Kernbibliothek auf die externen Eigenschaftsbeschreibungen erfolgt mittels

automatischer Lookup-Mechanismen. Dabei ermittelt das System nicht nur die benötigten

Eigenschaftsdeskriptoren anhand von frei definierbaren Systemvariablen sondern überprüft

darüber hinaus auch die Abhängigkeit zu anderen Eigenschaftsbeschreibungen und veranlasst

die definierte Generierung von chemischen Daten, falls diese nicht vorhanden sind. Dieser

Vorgang läuft für den Benutzer vollkommen transparent ab. Eine detaillierte Beschreibung

dieses Vorgangs wird anhand von einigen Applikationen in Kapitel 3 erläutert.

22

Page 35: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.3 Verwendete Programme

Automatische Aktualisierung von Eigenschaftswertigkeiten. Durch das Vorliegen von

definierten Abhängigkeiten zwischen verschiedenen Eigenschaftdeskriptoren gewährleistet

das System die Korrektheit der in einer Beschreibung abgelegten Daten. Ändert sich der

Inhalt einer Eigenschaftsbeschreibung zum Beispiel durch Neuberechnung der chemischen

Information, so werden auch alle von diesem Deskriptor abhängigen Eigenschaften neu

berechnet oder gelöscht.

Flexibles I/O-Modell. Neben der Erweiterbarkeit von Modulen zur Datenbeschreibung

kann das System zur Laufzeit auch mit dynamisch ladbaren Modulen zur Behandlung des I/O

von Dateien in verschiedenen Formaten, zur Anbindung an diverse Datenbanken, zur

Implementation von Rechenverfahren (zur automatischen Generierung chemischer

Information), zur Objektdarstellung und Repräsentation oder zur Verwaltung von Datentypen

ergänzt werden.

Very high-level Scripting Language. In den meisten Fällen erfolgt der Zugriff auf die

Kernbibliothek mittels mächtiger Skriptsprachen. Obwohl verschiedene Skriptsprachen zum

Einsatz kommen können, wird in der Praxis derzeit der Industriestandard TCL (Tool

Command Language) [39], das graphische Toolkit Tk sowie einige Erweiterungen

verwendet. Diese Skriptsprache wurde um einen umfangreichen Satz an chemischen Daten-

und Strukturmanipulations-Kommandos ergänzt. Durch das Kommandosprachen-Interface

können alle Objekte innerhalb der Kernbibliothek angesprochen und manipuliert werden.

Das Skriptspracheninterface von CACTVS kann darüber hinaus in Common Gateway

Interface (CGI)-Skripten eingesetzt werden und dient dabei nicht nur zur Kommunikation

zwischen Client und Server, sondern erlaubt gleichzeitig den Zugriff auf die Kernbibliothek.

Somit lassen sich sehr kurze und einfach aufgebaute CGI-Skripte erstellen (vgl. Kapitel 3).

Da die GUI-Applikationen wie beispielsweise der CACTVS-Browser oder der CACTVS-

Editor im Rahmen dieser Arbeit nicht zum Einsatz kamen, soll auf diese Applikationen des

CACTVS-Programmpakets nicht näher eingegangen werden.

2.3.2 Der 3D-Strukturgenerator CORINA

Die Visualisierung dreidimensionaler Datenobjekte der Chemie, erfordert im Regelfall das

Vorliegen von dreidimensionalen Strukturdaten. Die notwendige dreidimensionale

Molekülkonformation wird dabei mit dem im Arbeitskreis Gasteiger entwickelten

Strukturgenerator CORINA [40, 41] berechnet. Aus geschwindigkeitstechnischen Gründen

und zur vereinfachten Generierung der Daten wurde in dieser Arbeit nicht die Standalone-

Version des Strukturgenerators sondern das korrespondierende und im Funktionsumfang

23

Page 36: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

identische CACTVS-Modul von CORINA verwendet. Durch diese Architektur konnte der

umständliche Datenaustausch mittels Dateien vermieden werden.

Ein Satz von Regeln, welche aus Erfahrungswerten mit Kraftfeldrechnungen, kristallogra-

phischen Daten und geometrischen Überlegungen erstellt wurden, sowie einige standardi-

sierte Daten wie Bindungslängen, Bindungswinkel und Ringgeometrien dienen als Grundlage

bei der Generierung der dreidimensionalen Struktur. Durch eine möglichst allgemein gehal-

tene Definition dieser Regeln kann das Programm prinzipiell die gesamte strukturelle Vielfalt

der organischen Chemie, sowie große Teile der metallorganischen Komplexe handhaben.

Zur Berechnung der dreidimensionalen Struktur benötigt der Generator eine Konnektivi-

tätstabelle der entsprechenden Verbindung. Während in der Standalone-Version die Eingabe

der Bindungsverhältnisse über chemische Austauschformate wie Sybyl Molfile, MOL oder

SDF erfolgt, kann in der CACTVS-Version die Konnektivitätsinformation direkt an das Modul

übergeben werden. Die Rückgabe der 3D-Daten erfolgt anschließend über die gleichen

Schnittstellen.

Die Generierung erfolgt durch eine Reihe von Einzelschritten. Nachdem in einem ersten

Schritt alle Bindungslängen und Bindungswinkel mit standardisierten Werten belegt wurden,

erfolgt zur weiteren Berechnung die Aufspaltung des Moleküls in cyclische und acyclische

Systeme. Die cyclischen Systeme werden je nach Größe und Eigenschaften unterschiedlich

behandelt. Während kleinere Ringsysteme (bis acht Atome) durch vordefinierte Ring-

schablonen beschrieben werden, wird zur Ermittlung der Superstrukturen von großen Ringsy-

stemen auf regelbasierte Methoden zurückgegriffen. Acyclische Molekülteile werden mit der

Methode des längsten Pfades analysiert. Dabei werden die offenkettigen Fragmente entlang

der längsten Kette durch anti-Stellung aller frei drehbaren Torsionen gestreckt. In einem

abschließenden Schritt werden die cyclischen und acyclischen Fragmente kombiniert, wobei

das System hinsichtlich möglicher Atomüberlagerungen oder zu kurzer Atomabstände über-

prüft wird. Mögliche Konflikte werden dabei durch eine eingeschränkte Konformationsana-

lyse gelöst.

2.3.3 Das semiempirische MO-Programm VAMP

Neben der dreidimensionalen Struktur setzen einige der in dieser Arbeit beschriebenen

Applikationen auch quantenchemisch berechnete Daten wie Orbitalkoeffizienten oder Spek-

trendaten voraus. Zur Generierung dieser Daten wurde das semiempirische Molecular Orbital

Package VAMP [42] eingesetzt. Um den Datenaustausch mit diesem Programmpaket zu

erleichtern, wurden im Rahmen dieser Arbeit einige CACTVS-basierte Leseroutinen und

Eigenschaftsdeskriptoren für VAMP entwickelt.

24

Page 37: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2.3 Verwendete Programme

VAMP wurde 1983 zunächst als vektorisierte Version von AMPAC im Arbeitskreis Clark

entwickelt. Mittlerweile hat sich VAMP zu einem vollkommen eigenständigen, zu AMPAC

und MOPAC Input-kompatiblen, semiempirischen Molecular Orbital Package entwickelt.

Das Natural Atomic Orbital / Point Charge (NAO-PC) Modell zur Berechnung von mole-

kularen, elektrostatischen Eigenschaften ist in VAMP implementiert und steht für die Stan-

dard-Hamiltonian-Methoden MNDO, AM1 und PM3 zur Verfügung. Diese Funktionalität

wurde unter anderen von der MolSurf-Applikation (vgl. Abschnitt 4.1.5) in Anspruch genom-

men.

Darüber hinaus wurden zum Teil auch die in VAMP implementierten Methoden zur Geo-

metrie-Optimierung genutzt, wobei in der Regel mit CORINA generierte 3D-Koordinaten als

Eingabe dienten.

VAMP verfügt darüber hinaus über eine ganze Reihe von weiteren Funktionalitäten, die im

Rahmen dieser Arbeit nicht zum Einsatz kamen und daher an dieser Stelle unerwähnt bleiben.

25

Page 38: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

2 Grundlagen

26

Page 39: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 3

Visualisierung chemischer Datenobjekte

Im vorausgehenden Kapitel wurden die allgemeinen Grundlagen der dreidimensionalen

Visualisierung vermittelt. Dieses Kapitel widmet sich speziell der Darstellung chemischer

Datenobjekte, wobei vor allem die portablen Ansätze zur Visualisierung chemischer Informa-

tion im Vordergrund stehen. Nach einem kurzen Rückblick auf die historische Entwicklung

molekularer 3D-Modelle werden die wichtigsten chemischen Darstellungsformen wie bei-

spielsweise Strukturmodelle oder Modelle zur Visualisierung molekularer Oberflächen und

Eigenschaften beschrieben.

Der zweite Teil beschreibt die Bedeutung des Internets innerhalb der Chemie sowie die

rasante Entwicklung chemischer, Internet-Applikationen. Dabei stehen auch hier vor allem

die portablen Visualisierungsanwendungen im Vordergrund.

Schließlich werden die drei grundsätzlichen, Client-Server-basierten Ansätze zur Vermitt-

lung und Visualisierung chemischer Daten erläutert. Dabei wird vor allem der im Rahmen

dieser Arbeit zum Einsatz gekommene Graphiktransferansatz näher beschrieben.

3.1 Molekulare Modelle und ihre Repräsentation

3.1.1 Ein historischer Rückblick

Das menschliche Gehirn kann räumliche Beziehungen wie Abstände und Winkel wesent-

lich besser erfassen, wenn diese Information nicht als tabellarische Listen numerischer Daten

vorliegt, sondern in Form von graphischen Modellen dargestellt wird. Seit fast einem halben

Jahrhundert repräsentieren Chemiker deshalb molekulare Information in Form von Molekül-

modellen. Vor der Einführung des Computers wurden molekulare Modelle in mühevoller und

zeitaufwendiger Handarbeit aus Holz, Papier, Draht, Gummi, Plastik und auch anderen Mate-

rialien gefertigt. So modellierten beispielsweise Kendrew et al. 1958 das erste Messingmo-

dell einer durch Röntgenkristallographie ermittelten Myoglobinstruktur [43]. In den darauf

folgenden Jahren wurde eine Reihe weiterer Modelle entwickelt, von denen die von Byron

27

Page 40: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

Rubin entwickelten Byrons’s Bender am häufigsten verbreitet waren [44]. Diese Drahtmo-

delle repräsentierten das Backbone von Proteinstrukturen. Der wissenschaftliche Nutzen die-

ser Modelle zeigte sich nicht zuletzt bei einem wissenschaftlichen Treffen in den Siebziger-

Jahren als der Vergleich zweier mit Byron’s Bender-Modellen dargestellter Proteine das erste

Indiz für die Existenz von Superfamilienstukturen lieferte [45].

Trotz der vielen Vorteile zeigten die physischen Modelle auch gravierende Mängel und

Schwächen. Mit zunehmender Größe der dargestellten Strukturen erwiesen sich die Modelle

als zunehmend unhandlicher und komplizierter im Aufbau. Darüber hinaus war die Ermitt-

lung von Messgrößen wie Atomabstände und Atomwinkel sehr schwierig bis unmöglich.

Durch die Entwicklung erster Computersysteme standen auch auf dem Gebiet des Molecu-

lar Modellings neue Wege zur Repräsentation struktureller Daten zur Verfügung. Dies war der

Beginn der interaktiven molekularen Graphik. Die ersten dynamischen Molekülbilder wurden

dabei 1964 von Levinthal im Projekt MAC am Electronic Systems Laboratory des Massachu-

setts Institute of Technology generiert [46, 47]. Die Moleküle wurden dabei auf einem selbst-

gebauten Display in Form von Linienzeichnungen dargestellt. Darüber hinaus besaß das

System diverse Peripheriegeräte, die eine Modifikation der dargestellten Szene erlaubten. Das

Kernstück war jedoch der sogenannte Crystal Ball, mit dem das Molekül um alle drei ortho-

gonalen Achsen gedreht werden konnte. Die Kosten für dieses prototypische System waren

mit 2.000.000 US Dollar entsprechend hoch.

Während das MAC-System nicht nur zur Visualisierung von Molekülen entwickelt wurde,

folgten in den darauf folgenden Jahren die ersten reinen Molecular Graphics-Systeme. Eines

der ersten Systeme wurde 1970 von Langridge an der Princeton University

aufgebaut [48, 49]. Das System basierte auf dem Picture System 2 von Evans & Sutherland

und konnte neben den Bindungen auch farbige Atome anzeigen.

Ein weiterer Meilenstein gelang Richardson et al. im Jahre 1977. Sie waren erstmals in der

Lage eine komplette durch Röntgenkristallographie ermittelte Proteinstruktur zu

visualisieren [50]. Eine Vielzahl von weiteren Strukturen folgte in den kommenden Jahren.

Neben der ansteigenden Zahl an visualisierten Strukturen, nahmen auch die graphischen

Fähigkeiten der Computersysteme zu. Durch Einführung der Rastergraphik (1974) und kurz

darauf der farbfähigen Rastergraphik (1979) waren jetzt auch andere molekulare Repräsenta-

tionen möglich [51-53]. Neben der Darstellung von CPK-Modellen (vgl. Abschnitt 3.1.2.3)

konnten man nun auch farbcodierte Bindungen und molekulare Oberflächen visualisieren.

28

Page 41: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.1 Molekulare Modelle und ihre Repräsentation

Die Ära der Evans & Southerland Computersysteme endete in der ersten Hälfte der Acht-

ziger Jahre mit der Einführung der leistungsstärkeren und kostengünstigeren Workstations.

Trotz fortlaufender Fortschritte in der Computergraphik und bei den Rechenleistungen

bestimmen sie noch heute den Alltag im Molecular Modelling.

Durch die rasante Entwicklung der 3D-Fähigkeiten von low-budget Graphikkarten inner-

halb der letzten Jahre ist eine Hochleistungsvisualisierung von Molekülmodellen jetzt auch

auf PC-Systemen möglich geworden. Einige der bis dato nur für Workstation-Plattformen

erhältlichen Molecular Modelling-Programme werden mittlerweile auch als PC-basierte Ver-

sionen angeboten [54]. Die in dieser Arbeit vorgestellten Entwicklungen basieren ebenfalls

auf dieser neuen Technologieform.

3.1.2 Struktur-Modelle

3.1.2.1 Wireframe-Modell

Das bekannteste und zugleich älteste, computergestützte Modell zur Repräsentation mole-

kularer Strukturen ist das Wireframe-Modell (Abbildung 3-1b). Dieses Modell ist auch unter

anderen Namen wie beispielsweise Linienmodell oder Dreiding-Modell bekannt [55]. Dabei

werden die Bindungen eines Moleküls durch farbcodierte Vektorlinien repräsentiert. Die

Atome können mit dieser Methode nicht direkt angezeigt werden, sondern müssen aus den

End- und Verzweigungspunkten des Linienmodells abgeleitet werden. Die Farbcodierung der

Bindungen beruht im Allgemeinen auf der Art der Atomtypen oder des Bindungstyps. Dar-

über hinaus kann die Bindungsordnung durch die Anzahl der Linien zwischen zwei Atomen

ausgedrückt werden.

3.1.2.2 Ball & Stick-Modell

Eine für das menschliche Auge angenehmere Repräsentation stellt das Ball & Stick-Modell

dar (Abbildung 3-1a). Im Gegensatz zum Wireframe-Modell werden hier Atome in Form von

Kugeln und Bindungen in Form von Zylindern dargestellt. Die Größe und Farbe der Kugeln

wird im Allgemeinen dazu benutzt um atomare Eigenschaften wir Atomradien, -typen und

-ladungen darzustellen. Wie im Wireframe-Modell können die Bindungszylinder in Farbge-

bung und/oder Anzahl variieren, um Bindungstypen oder atomare Eigenschaften auszudrük-

ken. Der entscheidende Vorteil dieser Repräsentation basiert jedoch auf einer wesentlich

besseren räumlichen Darstellung. Vom Benutzer weiter entfernte Teile des Moleküls können

besser identifiziert werden, da sie durch Atome und Bindungen, die näher zum Betrachter

ausgerichtet sind, verdeckt werden. Dieser Eindruck wird durch den Einsatz von Techniken

wie dem Gouraud-Shading [56] noch verstärkt.

29

Page 42: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

Abb. 3-1: Strukturdarstellungen von 3,5-Diaminophenol (generiert mit VRML File Creator (vgl. Abschnitt 4.1.2)): a) Ball & Stick-Repräsentation, b) Wireframe-Repräsentation, c) CPK-Modell, d) Capped-Darstellung (Farbabbildung: Anhang A, Abbildung A-1).

3.1.2.3 Space filling-Modell

Das von Corey, Pauling und Koltun entwickelte Space-filling-Modell ist besser unter dem

Namen CPK-Modell bekannt [53] (Abbildung 3-1c). Wie in der Ball & Stick-Repräsenta-

tion werden die Atome in Form von Kugeln ausgedrückt. Da die Kugelradien den korrespon-

dierenden van der Waals-Radien entsprechen und sich im Allgemeinen überschneiden kann

auf die Repräsentation der Bindungen verzichtet werden. Das CPK-Modell ist im Gegensatz

zu den anderen Modellen in der Lage, einen ersten Eindruck von den räumlichen Ausmaßen

einer Struktur zu vermitteln.

3.1.2.4 Capped Sticks-Modell

Das Capped Sticks-Modell kann als gegensätzliches Modell zum Space filling-Modell

angesehen werden, da die molekulare Struktur nur durch die Bindungszylinder repräsentiert

wird (Abbildung 3-1d). Die Kugeln sind auf die Größe der Zylinderdurchmesser zusammen-

geschrumpft und dienen lediglich zum Glätten der Zylinderenden. Analog zum Ball & Stick-

Modell vermittelt auch das Capped Sticks-Modell einen verbesserten räumlichen Eindruck

im Vergleich zum Wireframe-Modell.

30

Page 43: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.1 Molekulare Modelle und ihre Repräsentation

3.1.2.5 Modelle für biologische Makromoleküle

Die Visualisierung biologischer Makromoleküle, die aus Hunderten oder Tausenden von

Atomen bestehen, ist mit Hilfe der bereits beschriebenen Molekülmodelle nur bedingt mög-

lich. Zum einen werden diese Modelle ab einigen Hundert Atomen sehr schnell unübersicht-

lich und zum anderen sind die erforderlichen Rechenleistungen zur interaktiven

Visualisierung solcher Modelle zu hoch. Zur Lösung dieser Problematik wurden einige ver-

einfachte Molekülmodelle entwickelt, die in erster Linie zur Darstellung der Sekundärstruk-

tur von Proteinen dienen [57].

Cylinder-Modell. Das Cylinder-Modell wird zur Kennzeichnung von Helices in Protein-

strukturen verwendet.

Ribbon-Modell. Während helikale Sekundärstrukturen mit der Cylinder-Darstellung

repräsentiert werden, hat sich zur Visualisierung von Faltblattstrukturen das Ribbon-Modell

etabliert. Ribbon-Modelle ähneln in ihrem Aussehen flachen Bändern. Die Oberseite dieser

Bänder ist dabei parallel zur Peptidbindung ausgerichtet. In weiterentwickelten Repräsenta-

tionen werden die flachen Bänder durch flache Pfeilstukturen ersetzt.

Tube-Modell. Die Tube-Struktur besteht aus kleinen röhrenförmigen Gebilden, die zur

Darstellung von sogenannten coils und turns verwendet wird.

3.1.2.6 Kristallographische Modelle

Anorganische Verbindungen können häufig ebenfalls nicht mit den allgemeinen Struktur-

modellen dargestellt werden, da sie auf komplexen Kristallstrukturen (Raumgruppen), Aggre-

gaten oder Metallgittern basieren. Diese Verbindungen werden daher durch individuelle

Polyeder wie beispielsweise Oktaeder und Tetraeder dargestellt.

3.1.3 Molekulare Oberflächen

Zum Verständnis der diversen molekularen Wechselwirkungen reicht eine Betrachtung der

Strukturdaten alleine nicht aus. Vielmehr muss dazu die räumliche Gestalt bzw. Hülle des

Moleküls betrachtet werden. Die erste Definition einer solchen molekularen Hülle geht dabei

auf Richards [58] zurück, der die molekulare Oberfläche als eine wasserzugängliche Hülle

beschrieb. Darüber hinaus kann die molekulare Oberfläche aber auch in Abhängigkeit von

der elektronischen Dichte betrachtet werden. Die Repräsentation der molekularen Oberflä-

chen erfolgt dabei in der Regel in Form von Punktwolken, Gitternetzen (Meshes oder Chik-

ken-Wire) oder soliden Hüllen, deren Transparenz beliebig variiert werden kann

(Abbildung 3-2).

31

Page 44: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

Abb. 3-2: SES-Oberflächendarstellungen von Trinitrotoluol (generiert mit MolSurf (vgl. Abschnitt 4.1.5)): a) Semitransparente Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation (Farbabbildung: Anhang A, Abbildung A-6a-c).

Die folgenden Modelle beschreiben im Detail die verschiedenen Definitionen von moleku-

laren Oberflächen.

3.1.3.1 Van der Waals-Oberfläche

Die van der Waals-Oberfläche, die Solvent Accessible Surface (vgl. Abschnitt 3.1.3.3)

und die Connolly-Oberfläche (vgl. Abschnitt 3.1.3.2) basieren auf der Definition von

Richards. Die van der Waals-Oberfläche stellt dabei den einfachsten Vertreter dieser Ober-

flächen dar. Im Prinzip wird dabei die Oberfläche des CPK-Modells (vgl. Abschnitt 3.1.2.3)

betrachtet, die sich durch Aufaddieren der einzelnen Atomsphären ergibt. Die

van der Waals-Oberfläche stellt auch aus der Sicht der computergestützten Methoden die

einfachste Oberflächenform dar, da sie sehr einfach zu generieren ist.

3.1.3.2 Connolly-Surface

Die Connolly-Oberfläche [59, 60] zeichnet sich im Gegensatz zur van der Waals-Ober-

fläche durch eine ebenmäßigere Oberflächenstruktur aus. Die spitzen Übergänge zwischen

den einzelnen Atomradien werden vermieden, indem man eine Kugel mit definiertem Radius

(schematisch Darstellung des Lösungsmittels) über die CPK-Oberfläche rollt. Der Radius

dieser Sphäre entspricht dabei im Allgemeinem dem effektiven Kugelradius des Wassermole-

küls (1,4 Å). Die resultierende Oberfläche setzt sich dabei aus zwei Oberflächenarten zusam-

men: a) dem Teil der van der Waals-Oberfläche, der im direkten Kontakt zum Lösungsmittel

(Kugel) steht und b) dem Teil der Lösungsmittel-Sphäre, der beim Kontakt mit zwei oder drei

Atomen der Struktur vorliegt. Connolly-Oberflächen werden heute standardmäßig im

Molecular Modelling eingesetzt, da sie den quantitativen und qualitativen Vergleich von ver-

schiedenen Molekülen zulassen.

32

Page 45: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.1 Molekulare Modelle und ihre Repräsentation

3.1.3.3 Solvent Accessible Surface (SAS)

Unter den Solvent Accessible Surfaces versteht man im Allgemeinen eine bestimmte

Klasse von Oberflächen, zu denen auch die Connolly-Oberfläche zählt. Darüber hinaus steht

die Bezeichnung Solvent Accessible Surface auch für ein ganz bestimmtes, eigenständiges

Modell einer Oberfläche. Dieses Oberflächenmodell geht dabei auf die Arbeiten von Lee und

Richards zurück [61]. Während im Connolly-Verfahren die Kontaktflächen als Grundlage für

die molekulare Oberfläche dienen, bestimmt im SAS-Verfahren das Zentrum der Lösungsmit-

telkugel die Gestalt der molekularen Oberfläche. Zum einen ist die Ausdehnung der resultie-

renden Oberfläche größer, zum anderen treten die Übergänge zwischen den einzelnen

Atomen deutlicher hervor.

3.1.3.4 Solvent Excluded Surface (SES)

Oberflächen großer Moleküle wie beispielsweise Proteinen können mittels der beschriebe-

nen Methoden nicht mehr effektiv berechnet und dargestellt werden. Zur Darstellung der

Oberfläche greift man daher auf weniger rechenintensive, harmonische Näherungsmethoden

wie dem Solvent Excluded Surface-Ansatz zurück [62].

3.1.3.5 Bindungstaschen-Oberflächen

Diese molekulare Oberfläche leitet sich nicht wie in den anderen Fällen von der strukturel-

len Information eines Moleküls ab, sondern repräsentiert die Form der Active Site eines Prote-

ins, die einen Liganden umgibt. Diese Repräsentionsform wird daher vor allem im

Wirkstoffdesign eingesetzt, um die Volumen von Bindungstaschen oder molekulare Wechsel-

wirkungsschichten darzustellen [63].

3.1.3.6 Isowert-basierte Elektronendichte-Oberflächen

Neben den vom CPK-Modell abgeleiteten Oberflächenbeschreibungen hat sich ein weite-

res Modell zur Generierung molekularer Oberflächen etabliert. Grundlage dieses Modells ist

die molekulare Elektronendichteverteilung. Durch Definition eines Grenzwertes für die Elek-

tronendichte, dem sogenannten Isowert, ergibt sich eine Grenzschicht (Isofläche) [64]. Jeder

Punkt auf dieser Oberfläche hat daher den gleichen Elektronendichtewert. Ein typischer Stan-

dardwert für die Elektronendichte zur Repräsentation solcher Oberflächen liegt bei

0.002 Atomeinheiten.

Isowert-basierte Oberflächen kommen aber auch zur Repräsentation von Molekülorbitalen

zum Einsatz (vgl. Abschnitt 3.1.4.1).

33

Page 46: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

3.1.3.7 Experimentell ermittelte Oberflächen

Eine vollkommen neue Möglichkeit zur Gewinnung von Oberflächen hat sich in den letz-

ten Jahren durch enorme Fortschritte in der Elektronenmikroskopie ergeben. Im Gegensatz zu

den oben beschriebenen Modellen, die durch Berechnungen ermittelt wurden, können mit

Hilfe von neuen Technologien wie der Cryo-Elektronenmikroskopie molekulare Oberflächen

auch experimentell ermittelt werden [65]. Die Moleküloberfläche ist dabei durch die Auflö-

sung des experimentellen Ansatzes limitiert. Aktuelle Verfahren liefern mittlerweile Auflö-

sungen von ca. 10 Å was somit die Visualisierung von Proteinstrukturen und Sekundär-

strukturelementen ermöglicht [66]. Der Vorteil dieser Methodik beruht auf der Möglichkeit,

molekulare Strukturen von nativen Makromolekülen zu beobachten.

3.1.4 Molekulare Eigenschaften

Die Kenntnis der räumlichen Gestalt eines Moleküls reicht im Allgemeinen nicht aus, um

komplexe, molekulare Wechselwirkungen zu verstehen. Vielmehr müssen molekulare Eigen-

schaften wie beispielsweise das elektrostatische Potential, hydrophile Eigenschaften oder

auch Fähigkeiten zur Ausbildung von Wasserstoffbrücken mit in die Betrachtung einbezogen

werden. Dabei kann zwischen drei Eigenschaftskategorien unterschieden werden.

3.1.4.1 Molekülorbitale (Isowert-basierte Eigenschaften)

Ob Molekülorbitale zu der Klasse der molekularen Oberflächen oder doch eher zu den

molekularen Eigenschaften zu zählen sind, ist in der Wissenschaft nicht unumstritten. Unbe-

stritten ist jedoch, dass die Kenntnis von Molekülorbitalen insbesondere des HOMO (highest

occupied molecular orbital) und LUMO (lowest unoccupied molecular orbital) wichtige

Hinweise für ein besseres Verständnis von Reaktionen vermitteln kann.

Darüber hinaus waren Molekülorbitale auch die ersten elektronischen Eigenschaften, die

mit Hilfe einfacher Graphikhardware visualisiert wurden. Der Grund für diese frühe, graphi-

sche Repräsentation beruht auf der theoretischen Natur der Quantenchemie. Die schwer

zugänglichen Grundlagen können mit Hilfe der graphischen Darstellung wesentlich schneller

erfasst und verstanden werden als durch eine Sammlung numerischer Orbitalkoeffizienten.

Die durch semi-empirische oder ab initio Verfahren generierten Molekülorbitale werden ana-

log zu den bereits in Abschnitt 3.1.3.6 beschriebenen Elektronendichte-Oberflächen durch

Isoflächen dargestellt. Orbitalanteile, die auf unterschiedlichen Vorzeichen der Wellenfunk-

tion basieren, werden dabei häufig durch unterschiedliche Farben (beispielsweise rot und

blau) repräsentiert.

34

Page 47: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.1 Molekulare Modelle und ihre Repräsentation

Neben den Molekülorbitalen können auch andere molekulare Eigenschaften wie das elek-

trostatische Potential oder die Spindichte mit Hilfe von Isowert-Oberflächen dargestellt wer-

den. Im Regelfall werden diese skalaren Eigenschaften aber auf die in Abschnitt 3.1.3

beschriebenen Oberflächen abgebildet.

3.1.4.2 Skalare Eigenschaften

Skalare Eigenschaften wie das elektrostatische Potential werden in der Regel durch Abbil-

dung auf molekulare Oberflächen dargestellt. Diese Form einer höherdimensionalen Reprä-

sentation erlaubt eine schnelle und einfache Identifikation relevanter Molekülregionen, die

durch die Betrachtung reiner Strukturdaten nicht problemlos möglich wäre.

Aus Sicht der Computergraphik sind dabei zwei grundsätzliche Ansätze zum Abbilden von

Eigenschaften auf molekulare Oberflächen denkbar. Im ersten Fall wird den einzelnen Gitter-

netzpunkten der Oberfläche ein entsprechender Farbwert zugewiesen. Durch eine nachfol-

gende Interpolation der Farbwerte beim Verbinden der Gitterpunkte zu Linien (Chicken Wire)

oder Flächen (Solid Sphere) ergibt sich eine Oberfläche mit einem kontinuierlichen

Farbverlauf [56]. Alternativ zu diesem Ansatz können auch farbige Texturen auf der Oberflä-

che abgebildet werden [67, 68].

Im Folgenden werden die wichtigsten Vertreter diese Eigenschaftsklasse kurz vorgestellt.

Elektrostatisches Potential. Das molekulare elektrostatische Potential (MEP) wurde als

erstes von Bonaccorsi et al. [69] definiert und ist unbestritten die wichtigste und meistge-

nutzte Eigenschaft. Mit Hilfe des elektrostatischen Potentials lassen sich leicht molekulare

Regionen ermitteln, die für die Reaktivität einer Verbindung eine große Bedeutung haben.

Darüber hinaus spielt das MEP auch bei der Bildung von Protein-Ligand-Komplexen eine

entscheidende Rolle. Für weitergehende Information zum elektrostatischen Potential wird der

Übersichtsartikel von Murray und Politzer in der Encyclopedia of Computational Chemistry

empfohlen [70].

Polarisierbarkeit und Hydrophobizität. Diese Eigenschaften spielen ebenfalls eine rele-

vante Rolle bei der Betrachtung molekularer Wechselwirkungen. Im Gegensatz zum elektro-

statischen Potential kommen diese Eigenschaften jedoch erst bei kleinen Abständen zwischen

interagierenden Molekülregionen zum Tragen.

Spindichte. Die Spindichte ist vor allem für die Betrachtung von Radikalen von Bedeu-

tung, da durch die Visualisierung dieser Eigenschaft ungepaarte Elektronen schnell lokalisiert

werden können.

35

Page 48: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

3.1.4.3 Vektorielle Eigenschaften

Das Abbilden molekularer Eigenschaften auf Moleküloberflächen ist nur im Fall von ska-

larfeldbasierten Werten möglich. Für die Visualisierung vektorieller Eigenschaften wie bei-

spielsweise dem elektrischen Feld eines Moleküls oder der potentiellen Ausrichtung einer

Wasserstoffbrücken-Bindung müssen alternative Darstellungsverfahren angewendet werden.

Gerichtete Eigenschaften werden dabei in der Regel durch räumliche ausgerichtete Kegel

oder durch Feldlinien repräsentiert.

3.1.4.4 Volumetrische Eigenschaften

Die Visualisierung volumetrischer Eigenschaften spielt vor allem in anderen wissenschaft-

lichen Disziplinen wie der Medizin (z.B. Computertomographie) oder der Geologie (z.B.

Konvektionsströme) eine bedeutende Rolle. Allerdings finden sich auch in der Chemie einige

Anwendungsgebiete für diese Eigenschaften. Stellvertretend für diese Klasse von Eigenschaf-

ten sei hier nur die Wasserdichteverteilung bei Moleküldynamiksimulationen erwähnt. Die

computergestützte Visualisierung dieser Eigenschaften wird im Allgemeinen durch zwei-

oder dreidimensionale Texturen realisiert [68].

3.1.5 Animationen

Obwohl Animationen keine eigenständige Molekülmodellklasse darstellen, kommt dieser

Repräsentationsform eine hohe Bedeutung bei der Interpretation dynamischer Prozesse zu.

Animationen werden dabei nicht nur in forschungsorientierten Bereichen standardmäßig ein-

gesetzt, sondern haben sich darüber hinaus auch als exzellente Werkzeuge in der chemischen

Ausbildung erwiesen. Insbesondere Schwingungsmoden, Molecular Docking-Experimente,

Molekulardynamik-Simulationen, Reaktionsvorgänge und Energieminimierungspfade kön-

nen mit Hilfe von Animation anschaulich dargestellt werden.

3.2 Internetbasierte Applikationen in der Chemie

Neben der bereits beschriebenen Tragweite der graphischen Datenverarbeitung hat noch

eine andere computergestützte Technologie den chemischen Alltag in Forschung und Lehre

nachhaltig beeinflusst – das Internet.

3.2.1 Die frühen Jahre: 1970 - 1993

Das Internet hat vor allem in den letzten Jahren einen enormen Zuwachs in seiner Größe

und Bedeutung erfahren. Dabei ist es auch für Chemiker zu einem wichtigen Medium zur

36

Page 49: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.2 Internetbasierte Applikationen in der Chemie

Kommunikation und zum Austausch chemischer Information jeglicher Art geworden. Dies

war jedoch nicht immer der Fall. Obwohl das Internet bereits 1969 als militärisches Netzwerk

(ARPANET) gegründet und kurze Zeit später für die akademische und kommerzielle Nutzung

zugänglich wurde, war es bis 1993/94 nur einem kleinen Kreis von Chemikern bekannt. Dar-

über hinaus wurde der Nutzen dieses neuen Mediums von vielen Naturwissenschaftlern nicht

erkannt.

Trotz des geringen Bekanntheitsgrades wurde das Internet in den ersten Jahren insbeson-

dere von theoretischen Chemikern und sogenannten Computational Chemists in Anspruch

genommen. Zu dieser Zeit beschränkte sich die Nutzung noch auf den durch FTP-Server ver-

mittelten Austausch von Programmen, Daten und Dokumenten. Des Weiteren wurde 1984

vom STN-Konsortium der erste Online-Zugang zu einem der bedeutesten Chemieinformati-

onsreservoire – den Chemical Abstract Service – angeboten. Neben diesen Angeboten wurde

aber vor allem die eMail-Technologie zur weltweiten, wissenschaftlichen Kommunikation

genutzt.

Eine teilweise breitere Beachtung in der chemischen Gemeinschaft fand das Internet mit

der Einführung des MIME-Standards (vgl. Abschnitt 2.2.1) im Jahre 1993 [31] und der Spe-

zifikation chemischer MIME-Typen im darauf folgenden Jahr [6]. Diese Erweiterung

erlaubte erstmals eine inhaltsbezogene Übermittlung und automatisierte Client-seitige Verar-

beitung chemischer Daten.

Die Kombination dieser zunächst für die eMail-Technologie entwickelten Erweiterung mit

dem neuen Kommunikationsmedium World Wide Web (WWW) bildete schließlich die tech-

nische Basis für die nachfolgende, explosionsartige Nutzung des Internets. Das

World Wide Web wurde dabei zunächst im CERN in Genf als in-house System zur effekti-

ven und kostengünstigen Kommunikation zwischen Physikern auf der ganzen Welt entwik-

kelt und trat seinen Siegeszug mit der Verfügbarkeit von WWW-Clients, den sogenannten

Browsern, an.

3.2.2 Vom Durchbruch bis zum Stand der Technik

Die Gründe für den enormen Erfolg des Internets in der Chemie sind vielfältig, können

aber vor allem auf die für chemische Daten ungünstigen Limitierungen des papierbasierten

Druckmediums zurückgeführt werden. Mit Hilfe des WWW war es nun erstmals möglich

auch andere, nicht-textuelle aber dennoch für die Chemie relevante Datentypen einer breiten

Nutzerschaft zur Verfügung zu stellen. Darüber hinaus spielten hierbei auch andere Faktoren

wie Zeit, Qualität und Weiterverarbeitungsmöglichkeit eine entscheidende Rolle. So waren

zum Beispiel auf dem herkömmlichen Wege publizierte Daten an ihrem Erscheinungstag

37

Page 50: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

bereits veraltet und überholt. Durch den langen Publikationsweg gingen im Regelfall auch

immer wieder Originaldaten verloren. Zum einen konnten Originaldaten aus Platzgründen

nicht mit in einer Publikation mit aufgenommen werden. Somit war eine vorherige Reduktion

der Daten nötig, was durch Analyse- und Interpretationsschritte erreicht wurde. Die Konse-

quenz dieses Vorgangs war eine erschwerte Weiterverarbeitung der publizierten Daten. Ein

weiteres Problem, das zum Verlust von Originaldaten führte, war der Umstand, dass es wäh-

rend des Publikationsprozesses immer wieder zu Transkriptionsfehlern kam, die in letzter

Konsequenz die veröffentlichten Daten unbrauchbar machten. Das World Wide Web war

und ist ein Medium, das diese Probleme löste.

Während sich die ersten chemisch orientierten HTML (Hyper Text Markup Language)-

Seiten noch auf textuelle und bildliche Darstellungen beschränkten, folgten bald auch Weban-

gebote, die den Austausch und die Weiterverarbeitung von chemischen Daten wie dem Pro-

teindatenbankformat (PDB) [71] oder dem MDL Molfile Format [72] erlaubten. Dabei

wurde mit Hilfe von Hyperlinks eine Verknüpfung zu einem chemischen Austauschformat in

einer HTML-Seite eingebettet. Beim Anklicken dieses Links wurde dann die MIME-codierte

Datei an den Client gesendet. Bei entsprechender Konfiguration des Clients wurde anschlie-

ßend ein Hilfsprogramm gestartet, das die Bearbeitung oder die Visualisierung der Daten

gestattete. Erste, auf diesem Prinzip beruhende Arbeiten wurden 1994 von Henry Rzepa und

Mitarbeitern präsentiert [3, 6]. Die Visualisierung der Moleküldaten wurde dabei durch platt-

formabhängige Programme wie beispielsweise XMol [73], EyeChem [74] oder RasMol [19]

bewerkstelligt, wobei RasMol zwischen 1994 und 1995 den Stellenwert eines de-facto Stan-

dards einnahm.

Eine weiterentwickelte Form dieses Datenaustausches war durch die Entwicklung der

Chemical Structure Markup Language (CSML) möglich [3]. Dabei wurden zunächst eine

PDB-Datei wie beschrieben an den Client übermittelt und mit RasMol visualisiert. Die Web-

seite enthielt darüber hinaus jedoch auch eine GIF-Datei, in der verschiedene Bereiche mit

Hyperlinks verknüpft waren (image map). Durch Auswahl eines bestimmten Bereiches wurde

eine sogenannte CSML-Datei an den Client übermittelt. Bei den gesendeten Daten handelte

es sich um RasMol-Skriptanweisungen, die mit Hilfe eines Skriptprogramms an RasMol wei-

tergeleitet wurden und somit zusätzliche Darstellungsmöglichkeiten erlaubten. Diese Technik

wurde unter anderem dazu genutzt, um NMR-Daten und metabolische Pfade zu visualisieren.

Ein Nachteil dieser Technik war jedoch die Limitierung auf UNIX-basierte Systeme.

Ein weiteres UNIX-abhängiges System basierte auf der EyeChem-Umgebung. EyeChem

war eine modulare Erweiterung des IRIS Explorers und erlaubte die Betrachtung und Manipu-

lation einer chemischen Szene von mehreren Workstations aus. Durch Entwicklung spezieller

Module und Nutzung des Web-Browser Mosaic sowie dem integriertem Common Client

38

Page 51: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.2 Internetbasierte Applikationen in der Chemie

Interface (CCI) war eine WWW-basierte Kommunikation zwischen entfernten EyeChem-

Applikationen möglich [75]. Dieser Ansatz realisierte somit die erste Form eines webfähi-

gen, chemischen Expertensystems.

Während die oben genannten Ansätze das Vorhandensein und Starten von Browser-

externen Applikationen erforderten, wurde mit Einführung der Netscape-Plugin-Technologie

im Jahre 1995 nun auch die Einbettung von Hilfsprogrammen in das Browserfenster möglich.

Das erste chemische Plugin namens Chime wurde dabei von der Firma MDL im Rahmen ihres

Softwarepakets Chemscape entwickelt [32]. Das auf RasMol aufbauende Plugin beherrscht

die wichtigsten Strukturdarstellungsformen und ist auch in der Lage Oberflächen sowie

einfache Animationen zu repräsentieren. Darüber hinaus wurde das Plugin in den letzten

Jahren mit einer Reihe an zusätzlichen Funktionalitäten wie beispielsweise einer

weiterentwickelten Skriptfunktion ausgerüstet. Chime hat sich bis heute als wichtigstes

Visualisierungsplugin behauptet und bot auch die Grundlage für fortgeschrittene

Applikationen wie dem Protein-Explorer [76]. Neben Chime wurden bis heute eine ganze

Reihe weiterer Plugins entwickelt. Stellvertretend sollen hier nur das JCAMP-DX-

Plugin [77] zur Darstellung von Spektren, das ChemDraw/Chem3D Net-Plugin von

CambridgeSoft [78] und das WebLab-Plugin [79] zur Darstellung von Eigenschaften und

Polymeren genannt werden. Die Kombination von Plugins wie beispielsweise von Chime und

JCAMP-DX-Plugin zur Darstellung von Spektren wurde ebenfalls beschrieben [80].

Mittlerweile wurde JCAMP-DX von der Firma MDL in Chime integriert.

Ein vollkommen anderer Weg zur Datenübertragung wurde mit dem Internet-Standard

VRML (vgl. Abschnitt 2.2.5) möglich. Während in den oben beschriebenen Ansätzen

chemische Austauschformate zum Client übertragen werden, wird mit VRML eine

dreidimensionale, graphische Szene an den Client gesendet. Im Gegensatz zum Austausch

von chemischen Strukturdateien entfällt dabei die Installation diverser Applikationen mit

unterschiedlichen Benutzerschnittstellen und somit auch die Limitierung dieser

Anwendungen. Da mit einem VRML-Viewer beliebige dreidimensionale Szenen betrachtet

werden können, ist auch die Repräsentation exotischer Daten wie beispielsweise ionischen

Gitterstrukturen, Flüssigkristallen oder auch Molekülorbitalen und molekulare Oberflächen

mit assoziierten Eigenschafen möglich. Die ersten chemischen VRML-Anwendungen wurden

von Casher et al. im Dezember 1994 generiert [74, 75] und ermöglichten die Visualisierung

von Wireframe-, Ball & Stick-, CPK- und Ribbon-Modellen. Diese Ansätze erlaubten zudem

die Visualisierung von Molekülorbitalen und elektrostatischen Potentialen [81] als auch die

Darstellung von intermolekularen Wechselwirkungen [82]. Vollhardt und Brickmann nutzten

die neue Technologie, um Proteinstrukturen und komplexe Proteinoberflächen sowie

Moleküleigenschaften zu visualisieren [83, 84]. Darüber hinaus entwickelten sie interaktive

39

Page 52: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

Online-Dienste zur Generierung von VRML-Szenen aus PDB-Dateien und zur Darstellung

von Atomorbitalen [9].

Die beschriebenen VRML-Applikationen basieren auf VRML1.0 und erlauben lediglich

die Visualisierung von statischen 3D-Szenen. Durch die Einbettung von Hyperlinks konnten

zwar andere VRML-Szenen oder externe HTML-Seiten interaktiv aufgerufen werden, jedoch

waren fortgeschrittene Benutzerinteraktionen und Animationen erst durch Einführung des

VRML97-Standards möglich. Die erste chemische VRML-Applikation, die auf diesem

Standard basierte, ermöglichte die animierte Darstellung von Schwingungsmoden [85]. Die

Auswahl von Spektrenpeaks in einer Bilddatei führte zur Darstellung der korrespondierenden

Schwingung in einem VRML-Plugin. Weitere auf dem VRML97 Standard basierende

Beispiele folgten in den darauf folgenden Jahren [86, 87].

Zur Realisierung der oben beschriebenen Ansätze müssen zuvor externe Applikationen

oder plattformabhängige Plugins installiert werden. Diese Voraussetzung wurde durch die

plattformunabhängige Programmiersprache Java (vgl. Abschnitt 2.2.4) hinfällig. Mit Hilfe

von Java können Standalone-Applikationen programmiert werden. Interessanter ist jedoch die

Möglichkeit, sogenannte Applets zu entwickeln. Applets werden wie normale Daten an den

Client übermittelt und dort mit Hilfe einer Java Virtual Machine im Browser oder direkt auf

dem Client ausgeführt. Da Java eine plattform- und betriebssystemunabhängige Sprache ist

können die Programme im Gegensatz zu Plugins oder externen Programmen auf jedem

beliebigen Client ausgeführt werden. Eines der ersten chemischen Applets war der

Strukturviewer von ChemSymphony [11]. Mittlerweile sind eine Reihe von Applets für fast

jede chemische Problemstellung entwickelt worden. Einige dieser Applikationen erlauben

dabei auch den Zugriff auf externe Datenbanken oder ermöglichen die Kommunikation

zwischen Client und Server [88]. Zertifizierte Applets können auch auf lokale Ressourcen

zugreifen und sind somit in der Lage, chemische Austauschformate direkt einzulesen und zu

bearbeiten. Neben zahlreichen kommerziellen Applets sind mittlerweile auch eine Reihe von

OpenSource-Entwicklungen erschienen. Diese Programme werden dabei von einer offenen

Gemeinschaft von Programmierern entwickelt. Einige bekannte Vertreter sind das

JChemPaint-Applet [89] und das JMol-Applet[90], welche im Rahmen des OpenScience-

Projekts [91] entstanden sind.

Eine relativ neue Erweiterung des Java-Standards ist Java3D. Java3D erlaubt die

Hardware-unterstützte Darstellung von dreidimensionalen Szenen. Mittlerweile sind auch die

ersten chemischen Anwendungen erschienen, die von der Java3D Application Programing

Interface (API) Gebrauch machen [88, 92].

Neben den beschriebenen internetbasierten Applikationen zur Visualisierung von

Molekülmodellen wurden auch zahlreiche andere Anwendungen und Methoden entwickelt

40

Page 53: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.3 Client-Server-Ansätze zur chemischen Visual-

wie beispielsweise Datenbanken [93, 94], die Chemical Markup Language (CML) [95],

Dienste zur interaktiven Berechnung von Daten [96, 97] und elektronische Journale [7].

Diese Entwicklungen spielten für diese Arbeit keine relevante Rolle und werden anderer

Stelle beschrieben [98].

3.3 Client-Server-Ansätze zur chemischen Visualisierung

Im vorausgegangenen Abschnitt wurde bereits deutlich, dass verschiedene Ansätze für die

Client-Server-basierte Vermittlung und Visualisierung chemischer Daten realisiert werden

können. Die grundsätzlichen Transferstrategien werden im Folgenden zusammengefasst und

diskutiert.

3.3.1 Datentransfer

Beim Datentransfer wird chemische Information in MIME-codierter Form von einem Ser-

ver an einen Client übermittelt. Das Internet bzw. Intranet dient bei diesem Ansatz als reines

Kommunikationsmedium. Die übermittelten Daten werden anschließend auf der Clientseite

mit Hilfe von externen Programmen oder Plugins bearbeitet und/oder visualisiert.

Der entscheidende Vorteil dieses Ansatz ist, dass die chemischen Originaldaten an den Cli-

ent gesendet werden und dort für beliebige Weiterverarbeitungsschritte zur Verfügung stehen.

Die zur Visualisierung eingesetzten Standalone-Programme und Plugins werden zudem für

die zugrundeliegende Clientplattform kompiliert und optimiert, was sich unter anderem mit

deutlichen Geschwindigkeitsvorteilen bei der Visualisierung äußert. Plattformabhängige

Standalone-Applikationen sind darüber hinaus häufig mächtige Programmpakete, die über

fortgeschrittene Werkzeuge und Optionen zur Bearbeitung und Visualisierung der Daten ver-

fügen. Somit steht dem Benutzer in diesem Ansatz ein größtmögliches Maß an Freiheitsgra-

den bei der Generierung der Visualisierungen als auch bei der Interaktion und Manipulation

der Daten zur Verfügung.

Der Datentransfer-Ansatz birgt jedoch nicht nur Vorteile. Die Visualisierung und Bearbei-

tung der chemischen Daten setzt zunächst die Installation entsprechender Standalone-Pro-

gramme oder Plugins voraus. Da diese Programme in der Regel für die Handhabung eines

bestimmten Problems wie beispielsweise der Visualisierung einer dreidimensionalen Struktur

konzipiert sind, muss häufig eine ganze Reihe an diversen Applikationen mit unterschiedli-

chen Benutzerschnittstellen auf dem Client installiert werden. Dieser Umstand ist vor allem

für firmeninterne Intranet-Systeme mit einigen hundert oder Tausend Einzelplatzrechnern

unbrauchbar, da die Installation und Wartung der vielen Einzelprogramme aus Zeit- und

Kosten-Gründen nicht zu realisieren ist.

41

Page 54: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

3.3.2 Softwaretransfer

Eine mögliche Lösung der oben beschriebenen, Datentransfer-basierten Probleme bietet

der Softwaretransfer-Ansatz. Bei diesem Ansatz werden neben der chemischen Information

auch plattformunabhängige Applikationen zur Bearbeitung der Daten an den Client übermit-

telt. Die Programme basieren in der Regel auf der Programmiersprache Java und können des-

halb auf beliebigen Plattformen und Betriebssystemen ausgeführt werden. Die

Plattformunabhängigkeit hat jedoch auch ihren Preis. Java-Programme können nicht direkt

von dem Betriebssystem des Clients ausgeführt werden, sondern benötigen eine Virtual

Machine. Dadurch sind Java-Applikationen in der Regel etwas langsamer als Plugins oder

plattformabhängige Standalone-Programme. Auf der anderen Seite können Java-Applikatio-

nen aber auch so entwickelt werden, dass sie Client-seitig vorhandene Rechen- und Gra-

phikressourcen nutzen können [99, 100]. Java-Applets können für beliebig komplexe

Problemstellungen entworfen werden und erlauben darüber hinaus die Kommunikation unter-

einander oder mit Plugins, wodurch auch kombinierte Anwendungen zur Darstellung von

zwei oder mehreren Datenobjekten möglich sind (z.B. Strukturen und Spektren).

Java-Applikationen kamen im Rahmen dieser Arbeit vor allem zur Unterstützung der ver-

schiedenen Graphiktransfer-Ansätze zum Einsatz.

3.3.3 Graphiktransfer

Beim Graphiktransfer werden in der Regel weder chemische Daten noch Programme über

das Netzwerk versendet. Vielmehr wird nur eine graphische Szene an den Client übermittelt

und dort dargestellt. Ein in der Chemie häufig eingesetzter Vertreter dieses Ansatzes ist die

Virtual Reality Modelling Language (VRML). Dabei werden in fertiger Form vorliegende

oder interaktiv erzeugte VRML-Dateien an den Client übersandt. Auf der Clientseite ist zur

Darstellung der Szene nur ein einziger Viewer mit einer einheitlichen Benutzerschnittstelle

erforderlich. Als rein graphisches Austauschformat gibt es in VRML keine Limitierung bei

der Darstellung chemischer Information. Somit können auch exotische Sachverhalte darge-

stellt und die Szenen mit zusätzlicher Information wie Texten oder Hyperlinks ausgestattet

werden. Aus diesem Grunde war und ist VRML das einzige Medium, welches den Austausch

komplexer, molekularer Oberflächen erlaubt.

Aktuelle VRML-Anwendungen in der Chemie [86, 101] dienen vor allem zur plattform-

unabhängigen Repräsentation chemischer Datenobjekte, die nicht mit aktuellen Standards-

applikationen dargestellt werden können, und werden daher auch von vielen kommerziellen

Programmpaketen als alternatives Ausgabeformat angeboten. Auf diesem Wege kann zwar

chemische Information einfach und plattformungebunden dargestellt werden, aber die Mög-

42

Page 55: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3.3 Client-Server-Ansätze zur chemischen Visual-

lichkeit zur Interaktion mit den chemischen Daten wird durch diesen Prozess stark einge-

schränkt. Zudem ist eine Weiterverarbeitung der Daten nicht mehr möglich.

Bei Betrachtung der Visualisierungspipeline in Abschnitt 2.1.2 wurde deutlich, dass der

große Vorteil der dreidimensionalen Visualisierung vor allem in den zahlreichen Möglichkei-

ten zur Benutzerinteraktion begründet liegt. Dabei wurde angenommen, dass die komplette

Visualisierungspipeline auf nur einem System ausgeführt wird. Beim Graphiktransfer in

einem Client-Server-System können die diversen Module der Visualisierungspipeline belie-

big zwischen Client und Server aufgeteilt werden (siehe Abbildung 3-3).

Abb. 3-3: Aufteilung der Stufen der Visualisierungspipeline in einem Client-Server-System.

Die Visualisierungspipeline und die sich durch die Aufteilung der Module ergebenden Cli-

ent-Server-Strategien [102] standen bei der Entwicklung der in diesem Kapitel beschriebe-

nen Anwendungen im Vordergrund. Die Wahl einer geeigneten Strategie hängt dabei von

einer Reihe von Faktoren ab: Art und Größe der Daten, Bandbreite und Latenz des Netz-

werks, graphische und numerische Fähigkeiten der vorhandenen Client- und Server-Rechner.

Grundsätzlich können drei verschiedene Strategien unterschieden werden: hybride Strategien,

Client-seitige Strategien und Server-seitige Strategien.

Die einzelnen Strategien sowie ihre Vor- und Nachteile werden im folgenden Kapitel

anhand von im Rahmen dieser Arbeit entwickelten Visualisierungsapplikationen beschrieben.

Filter Mapper Renderer

Darstellung

Simulation

Datenbank

Sensoren

Rohdaten BilderVideo

Interaktion

NetzwerkServer ClientClient-Server Visualisierungspipeline

43

Page 56: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

3 Visualisierung chemischer Datenobjekte

44

Page 57: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 4

Client-Server-basierte Visualisierung

Bei dem in Kapitel 2 vorgestellten Begriff der Visualisierungspipeline wurde zunächst

angenommen, dass die einzelnen Verarbeitungsstufen von den Rohdaten bis hin zur Reprä-

sentation auf einem einzigen System ausgeführt werden. Eine Erweiterung dieses lokalen

Ansatzes wurde in Kapitel 3 vorgestellt (vgl. Abschnitt 3.3.3). Dabei wurden die diversen

Visualisierungsstufen flexibel zwischen Client und Server verteilt, wodurch die Nutzung von

sowohl Client- als auch Server-seitig vorhandenen Rechen- und Graphikkapazitäten gewähr-

leistet wird. Dieses Kapitel beschreibt die im Rahmen dieser Arbeit entwickelten Applikatio-

nen, die eine verteilte Verarbeitung und Visualisierung chemischer Daten auf Client- und

Server-Systeme erlauben. Dabei werden neben den Aspekten der Implementierung auch die

Vor- und Nachteile der vorgestellten Anwendungen gegenüber Internet-Standardapplikatio-

nen diskutiert.

Der erste Teil des Kapitels widmet sich zunächst den sogenannten hybriden Ansätzen.

Nach einer kurzen Erläuterung der Prinzipien der hybriden Strategie werden vier entspre-

chende, Internet-fähige Anwendungen vorgestellt: Der VRML File Creator for Chemical

Structures dient zur plattformunabhängigen Berechnung und Darstellung chemischer 3D-

Strukturen. Der VRML-Animationsgenerator ermöglicht eine portable Visualisierung moleku-

larer Animationen. ComSpec3D erlaubt die Berechnung und Visualisierung von Raman- und

IR-Spektren und gestattet die animierte Darstellung der korrespondierenden Normalschwin-

gungen. MolSurf dient zur Berechnung und Visualisierung molekularer Oberflächen.

Im zweiten Teil werden Applikationen beschrieben, die auf sogenannten Client-seitigen

Strategien basieren. Dabei wird die OrbVis-Applikation vorgestellt, die zur Berechnung und

Visualisierung von Molekülorbitalen dient.

Der letzte Teil des Kapitels erläutert schließlich die Prinzipien der Server-seitigen Visuali-

sierungsstrategien. Abschließend werden die Vor- und Nachteile der einzelnen Visualisie-

rungsstrategien diskutiert.

45

Page 58: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

4.1 Hybride Strategien

4.1.1 Definition

Eine möglichst günstige Verteilung der Visualisierungsaufgaben zwischen Client und Ser-

ver ist das Ziel hybrider Ansätze (Abbildung 4-1). Durch die Aufteilung der Aufgaben sollen

sowohl Client- als auch Server-seitige Speicher- und Rechenkapazitäten optimal genutzt wer-

den. Dabei wird gleichzeitig die Minimierung der Netzwerklast angestrebt.

Abb. 4-1: Hybride Strategien.

Die Aufteilung der Visualisierungspipeline kann dabei auf vielfältige Weise geschehen.

Einige Beispiele sowie ihre Vor- und Nachteile werden auf den folgenden Seiten erläutert.

Dabei werden vor allem VRML-Ansätze besprochen, die ebenfalls zu den hybriden Ansätzen

zu zählen sind. Die VRML-Szene wird dabei in der Regel auf dem Server generiert und

anschließend auf dem Client gerendert.

4.1.2 VRML-Generator für chemische Austauschdateien

4.1.2.1 Zielsetzung

Neben den Arbeitsgruppen von Brickmann und Rzepa beschäftigte sich auch die

Arbeitsgruppe von Gasteiger früh mit dem Medium VRML. Das Resultat war ein generischer

VRML-Szenengenerator für Moleküldaten [103]. Der Online-Dienst akzeptierte die

wichtigsten chemischen Austauschformate als Eingabeformat sowie zahlreiche

Visualisierungsoptionen und produzierte eine statische VRML1.0-Szene.

Im Rahmen dieser Arbeit wurde dieser Service vollkommen überarbeitet. Die generierten

3D-Szenen basieren auf den weiterentwickelten VRML97-Standard und zeigen, welche

Filter Mapper Renderer

Darstellung

Simulation

Datenbank

Sensoren

Rohdaten BilderVideo

Interaktion

Visualisierungspipeline

Server Client

46

Page 59: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Optionen in Hinsicht auf Benutzerinteraktion und Dynamik mit Hilfe des neuen Formats

möglich sind. Der Service soll zudem als Basis für weitere Entwicklungen dienen.

4.1.2.2 Funktionsbeschreibung

Abb. 4-2: VRML-Dateigenerator: Eingabeformular.

Abbildung 4-2 zeigt das Eingabeformular des Online-Dienstes. Im oberen Teil des Formu-

lars (Structure Source) kann der Benutzer die chemischen Strukturdaten eingeben. Dabei

kann grundsätzlich zwischen zwei Alternativen gewählt werden. Das obere Eingabefeld

akzeptiert die sehr kompakte und lineare Notation SMILES der Firma Daylight [104]. Benut-

zer mit entsprechender Erfahrung im Umgang mit der Syntax von SMILES können auf diese

Weise einfache Strukturbeschreibungen eingeben. Im Regelfall benutzen Chemiker jedoch

Struktureditoren wie ChemWindow [105] oder ChemDraw [106]. Da diese Applikationen

47

Page 60: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

das SMILES-Format als Ausgabe unterstützen, kann durch Copy & Paste der SMILES-

String in das Eingabefeld kopiert werden. Der Online-Dienst wurde zudem mit einem Java-

basierten Struktureditor [12] ausgestattet, der eine schnelle und unkomplizierte 2D-Struktur-

eingabe sowie eine nachfolgende 3D-Strukturgenerierung auf dem Server ermöglicht.

Die zweite Möglichkeit zur Struktureingabe bietet eine Upload-Funktion zur Übermittlung

eigener chemischer Dateien. Der Service unterstützt zur Zeit über vierzig gängige Austausch-

formate, die sowohl zweidimensionale als auch dreidimensionale Koordinaten enthalten kön-

nen. Liegen in einer Datei dreidimensionale Koordinaten vor, so werden diese für die

Generierung der VRML-Szene herangezogen. Im Fall der SMILES-basierten Eingabe oder

bei der Vorlage zweidimensionaler Austauschformate werden die dreidimensionalen Struktu-

ren automatisch mit CORINA generiert.

Viele der bekannten chemischen Austauschformate wie beispielsweise das PDB-Format

enthalten keine Information über die in der Verbindung enthaltenen Wasserstoffatome. Bei

der Betrachtung der Struktur wird daher oft nicht deutlich, ob ein bestimmtes Atom als Radi-

kal, Carben oder gesättigtes Atom vorliegt. Aus diesem Grunde vervollständigt die Applika-

tion die Wasserstoffpositionen automatisch. Diese Funktion kann bei Bedarf auch deaktiviert

werden.

Neben der Struktureingabe verfügt die Anwendung über zahlreiche Visualisierungspara-

meter. Die wichtigste Option stellt dabei die Wahl des Molekülmodells dar. Neben der Aus-

wahl einzelner in der Chemie üblicher Standard-Visualisierungen (Ball & Stick, Capped,

Wireframe und CPK) kann auch eine Repräsentation gewählt werden, die einen interaktiven

Wechsel zwischen den vier Modellen erlaubt. Dieser Wechsel wird mit Hilfe eines dreidimen-

sionalen Knopfes in der VRML-Szene realisiert (siehe Abbildung 4-3a).

Neben der Wahl der Moleküldarstellung können zudem weitere Visualisierungsparameter

definiert werden. Der Benutzer hat die Möglichkeit Bindungsfarbe und Bindungsradien zu

definieren und kann entscheiden, ob die Bindungsordnung ebenfalls dargestellt werden soll.

Beim Vorliegen von Mehrfachbindungen wird dabei ein spezieller Algorithmus zur Anord-

nung der Bindungen eingesetzt. Die Bindungen werden unterhalb und oberhalb der Fläche

positioniert, die sich aus der Anordnung der Bindungsatome und der Atome in α-Stellung

ergibt. Diese Ausrichtung entspricht in erster Näherung der Anordnung der π-Orbitale.

Der Online-Dienst ist nicht nur in der Lage, dreidimensionale Strukturen zu repräsentieren.

Die dargestellten Moleküle können nach Belieben mit einfachen atomaren Eigenschaften wie

Atomsymbolen, Ordnungszahlen, Polarisierbarkeit oder σ-Ladung versehen werden. Diese

Eigenschaften werden automatisch berechnet, soweit sie noch nicht bekannt sind

(Abbildung 4-3b).

48

Page 61: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Abb. 4-3: VRML-Szene mit Strukturdarstellungen von 3,5-Diaminophenol: a) Ball & Stick-Repräsentation, interaktiver Schalter zum Umschalten der Strukturdarstellung; b) Wireframe-Repräsentation mit σ-Ladungen; c) CPK-Modell; d) Capped-Darstellung (Farbabbildung: Anhang A, Abb. A-1).

VRML wurde für den Transport von dreidimensionalen Szenen im Internet entworfen.

Daher enthalten VRML-Szenen keine Angaben über Atome und Bindungen sondern lediglich

graphische Objekte. Um dennoch eine chemische Weiterverarbeitung der VRML-Szenen zu

gewährleisten, wurde der Online-Dienst mit einer speziellen Funktion ausgestattet. Mit Hilfe

dieser Funktion wird die chemische Information über das dargestellte Molekül direkt in der

VRML-Szene abgelegt. Die Daten werden dazu mit Hilfe der xdr-Bibliothek von CACTVS

(vgl. Abschnitt 2.3.1) plattformunabhängig kodiert und anschließend im Base64-Format in

einem spezifischen, selbstdefinierten VRML-Knoten gespeichert.

VRML-Viewer bieten im Gegensatz zu traditionellen Molekülgraphikprogrammen keine

Standardoptionen wie das Vermessen von Bindungsabständen und -winkeln sowie Torsions-

winkeln. Der VRML-Strukturgenerator stellt diese Funktionalität bereit. Mit Hilfe in die

VRML-Szene integrierter Skripte können die notwendigen Berechnungen direkt in der Szene

auf der Clientseite vorgenommen werden (Abbildung 4-4). Durch Anklicken der entsprechen-

den Atome erhält der Benutzer Auskunft über die Koordinaten des selektierten Atoms, den

Bindungsabstand der beiden zuletzt selektierten Atome, den Bindungswinkel der letzten drei

Atome und dem Torsionswinkel zwischen den vier zuletzt gewählten Atomen.

49

Page 62: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Abb. 4-4: VRML-Szene: Ball & Stick-Modell mit Berechnungsfunktion (Farbabbildung: Anhang A, Abbildung A-2).

Der Online-Dienst verfügt über weitere Optionen, die jedoch lediglich der graphischen

Manipulation der Szene dienen und daher an dieser Stelle nicht näher erläutert werden.

4.1.2.3 Implementierung

Der VRML-Strukturgenerator wurde wie viele der in dieser Arbeit vorgestellten Anwen-

dungen nicht als Standalone-Applikation entwickelt, sondern als Visualisierungsmodul des

chemischen Managementsystems CACTVS. Dieser Ansatz birgt eine Reihe von Vorteilen, die

im Folgenden näher beschrieben werden.

Herzstück der Anwendung ist das im Rahmen dieser Arbeit weiterentwickelte CACTVS-

Modul E_VRML. Das Modul setzt sich dabei aus drei wichtigen Teilen zusammen: dem

Beschreibungsabschnitt, dem Methodenabschnitt und den Parameterabschnitt. Der Beschrei-

bungsteil dient dabei zur Kommunikation mit der CACTVS-Kernbibliothek und liefert Infor-

mationen über die verwendete Methodensprache, den Datentyp, die Funktion des Moduls und

vor allem über die Abhängigkeiten von anderen CACTVS-Modulen. Die definierten Abhän-

gigkeiten des VRML-Moduls besagen, dass eine VRML-Szene nur dann generiert werden

kann, wenn die Kernbibliothek Kenntnis von den dreidimensionalen Koordinaten, den Atom-

typen und den Bindungsordnungen des vorliegenden Moleküls hat. Die Methoden des

Moduls dienen dabei lediglich der Generierung des VRML-Szenengraphen, da das Modul

nicht für das Einlesen und das Management der chemischen Daten zuständig ist.

Alle dafür notwendigen Daten wie 3D-Koordinaten, Atomtypen etc. als auch Information,

die sich aus den bereits bekannten Daten ableiten lassen wie beispielsweise die Farbcodie-

50

Page 63: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

rung eines Atoms oder die σ-Ladung, werden direkt von der Kernbibliothek abgefragt. Der

dritte Teil des Moduls enthält alle Parameter zur Steuerung der Szenengraphen-Generierung.

Diese Parameter entsprechen dabei den Parametern im HTML-Formular.

Abb. 4-5: Schematische Darstellung einer VRML-Strukturgeneratorsitzung.

Das VRML-Modul ist wie alle anderen Module des CACTVS-Systems über die Tcl-Kom-

mandosprache des CACTVS-Systems zugänglich (vgl. Abschnitt 2.3.1.2). Diese Architektur

erlaubt die Entwicklung von sehr kleinen, auf der CACTVS-Kommandosprache basierenden

CGI (Common Gateway Interface)-Skripten, welche die HTML-basierten Benutzereingaben

direkt an die Kernbibliothek weiterleiten können (Abbildung 4-5).

Der Vorteil dieser Architektur wird bei der Betrachtung einer typischen Visualisierungssit-

zung des Online-Dienstes deutlich. Nachdem das CGI-Skript die Strukturdaten als auch die

Visualisierungsparameter aus dem HTML-Formular entgegengenommen hat, werden in

einem initialen Schritt die Strukturinformation an die Kernbibliothek weitergeleitet. Sowohl

im Fall von SMILES-Strings als auch beim Vorliegen von chemischen Austauschformaten

erfolgt dies durch einen einzigen Befehl. Während der SMILES-String direkt in die interne

Repräsentation der Kernbibliothek umgewandelt werden kann, muss die chemische Format-

datei noch erst gelesen und analysiert werden. Das Kernsystem ermittelt dabei vollkommen

automatisch, um welches Austauschformat es sich handelt, sucht nach einer entsprechenden

Leseroutine und lädt schließlich sämtliche dort enthaltenen Daten in das System.

In einem zweiten Schritt modifiziert das CGI-Skript die Parametereinstellungen des

VRML-Moduls. Diese Einstellungen wie beispielsweise die Wahl der Darstellungsform

TCL

CGI-

Skript

HTML-

Formular

Eingabe

VRML-

Szene

Ausgabe

Strukturdaten

VRML-Szene

Parameter

CACTVS-System

Einlesen & Analyseder

chem. Information

VRML-Modul(E_VRML)

3D

3D

2D

3D-Koord.Modul

CORINA-Modul(3D-Struktur-

generator)

Client Server

51

Page 64: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

entsprechen dabei wie bereits erwähnt den Benutzereinstellungen im HTML-Formular und

lassen sich ebenfalls durch ein paar Zeilen CGI-Code realisieren. Damit wurden alle

wichtigen Daten an das System übergeben. Das CGI-Skript fordert nun nur noch die

entsprechende VRML-Szene von der Kernbibliothek an. Alle dafür notwendigen Schritte

laufen dabei vollkommen automatisch und im Hintergrund ab. Das System prüft in einem

ersten Schritt, ob es ein Modul findet, welches VRML-Szenen generieren kann. Nachdem es

das Modul lokalisiert hat, überprüft es die im Modul definierten Abhängigkeiten und stellt

fest, dass zur Generierung von VRML-Szenen unter anderem dreidimensionale Koordinaten

notwendig sind. Falls dem System von CGI-Skript eine Austauschdatei mit

dreidimensionalen Daten übergeben wurde, hat das Kernsystem bereits Kenntnis über die 3D-

Information und das VRML-Modul wird entsprechend seiner Parametereinstellungen

ausgeführt. Falls dem System jedoch nur SMILES-Strings oder zweidimensionale

Austauschformate übergeben wurden, sucht das System durch automatische Lookup-

Mechanismen nach einem Modul, das für die Generierung dreidimensionaler Daten geeignet

ist. Dieses Modul startet nach seiner Identifizierung den 3D-Strukturgenerator CORINA (vgl.

Abschnitt 2.3.2) und liefert die geforderten 3D-Koordinaten an das System. Im Anschluss

erfolgt auch hier die Generierung der VRML-Szene. Nochmal zur Verdeutlichung: Alle

zuletzt beschriebenen Schritte innerhalb der Kernbibliothek erfolgen vollkommen

automatisch nach Aufruf eines einzigen Kommandos im CGI-Skript, dessen Rückgabewert

die temporäre VRML-Szene ist. Die generierte VRML-Szene wird letztendlich an den

Browser übermittelt.

4.1.2.4 Diskussion

Seit Einführung der Virtual Reality Modelling Language nutzt die Chemie diesen Internet-

Standard als alternatives Medium zur plattformunabhängigen Darstellung chemischer

Information. Bei näherer Betrachtung der aktuellen VRML-basierten Standardlösungen in der

Chemie fällt jedoch auf, dass der Großteil der im Internet befindlichen VRML-Dateien

statische Szenen mit geringen oder keinen Möglichkeiten an Interaktivität repräsentieren. Die

Generierung dieser Szenen wird dabei in der Regel durch moderne, plattformabhängige

Modelling-Programme bewerkstelligt, die über eine entsprechende VRML-Exportfunktion

verfügen. Diese Darstellung ermöglicht dem Betrachter zwar Einblick in die Problematik des

Autors, erlaubt jedoch weder weitergehende interaktive Modifizierungen der repräsentierten

chemischen Daten noch die Lösung eigener Problemstellungen.

Die Generierung von VRML-Szenen zur Darstellung eigener chemischer

Problemstellungen kann insbesondere innerhalb der wissenschaftlichen Ausbildung häufig

nicht durch den Einsatz kostspieliger, kommerzieller Programme realisiert werden. Darüber

hinaus stellt der Einsatz solcher Programmpakete zur Generierung von VRML-Szenen auch

52

Page 65: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

im Bereich der Forschung einen unerwünschten Umweg dar. Vorhandene firmeninterne,

Intranet-fähige Informationssysteme sollten vielmehr in der Lage sein, die chemischen Daten

direkt und interaktiv in einer VRML-Szene zu repräsentieren.

Der vorliegende VRML-Strukturgenerator stellt nach unserer Erkenntnis die modernste

und umfangreichste Lösung zur interaktiven Generierung von VRML-Szenen dar. Ein Vorteil

des Online-Dienstes gegenüber anderen VRML-Strukturgeneratoren liegt dabei vor allem in

der Vielzahl der möglichen chemischen Eingabeformate begründet. Diese Fähigkeit erlaubt

die direkte Eingabe fast aller gängigen und auch exotischeren Dateiformate und macht somit

eine umständliche und zeitaufwendige Umformung der chemischen Daten überflüssig. Der

pdb2vrml-Dienst [9] der Arbeitsgruppe Brickmann unterstützt lediglich das PDB-

Dateiformat, während das CyberMol-System [107] auf ein eigenes Datenformat und das

XYZ-Format limitiert ist. Die Eingabe der Daten wird in beiden Online-Diensten darüber

hinaus durch die Form der Eingabe kompliziert. Die Daten können im Gegensatz zum

VRML-Strukturgenerator nicht mittels einer Upload-Funktion direkt an den Service

übergeben werden, sondern müssen durch umständliche Copy & Paste-Aktionen in die

Webseite integriert werden. Eine Dateneingabe mittels eines Struktureditors ist ebenfalls

ausgeschlossen.

Beide alternativen Ansätze sind nur in der Lage statische VRML-Szenen zu generieren.

Der pdb2vrml-Dienst ist zudem nur auf die Generierung von VRML1.0-Szenen ausgelegt und

schließt somit die Darstellung dynamischer Prozesse aus. Eine Betrachtung der aktuellen

VRML-Viewer zeigt darüber hinaus, dass das veraltete VRML1.0-Format in der Regel nicht

mehr unterstützt wird und eine Betrachtung der Szenen somit ausgeschlossen ist. Das auf

MOLDA2.0-basierende [108] CyberMol-System ist zwar in der Lage VRML2.0-Szenen zu

generieren, es hat sich allerdings bei einer aktuellen Überprüfung des Online-Dienstes

gezeigt, dass die Server-seitigen Berechnungsskripte nicht mehr zugänglich sind und der

Benutzer daher nur Fehlermeldungen erhält.

Im Gegensatz zu chemischen Austauschformaten enthält eine VRML-Datei keinerlei

chemische Information, sondern nur ein dreidimensionales Abbild dieser Information. Eine

Rückgewinnung der chemischen Information ist daher in der Regel nicht oder nur sehr

schwer möglich. Bei der Entwicklung des VRML-Strukturgenerators wurde dieser

Problematik Rechnung getragen. Neben der zusätzlichen Darstellung chemischer Information

wie atomaren Eigenschaften ermöglicht die eingebettete Berechnungsfunktion auch

weitergehende Untersuchung durch den Benutzer wie beispielsweise die Berechnung von

Atomabständen und -winkeln.

Trotz den erweiterten Möglichkeiten zur Untersuchung der Szene, ist eine vollständige

Extraktion der chemischen Originaldaten aus einer VRML-Szene im Allgemeinen nicht

53

Page 66: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

möglich. Diese Problematik wurde im Arbeitskreis Gasteiger intensiv im Rahmen einer

Diplomarbeit untersucht [109]. Um dennoch einen ununterbrochenen Datentransfer zu

gewährleisten, bettet der Online-Dienst alle wichtigen chemischen Daten in Form einer

kodierten String-Repräsentation in der VRML-Szene ein ("Serialized Objects"). Diese nicht

sichtbare Information kann anschließend wieder durch das CACTVS-System aus einer

VRML-Szene extrahiert und in chemische Daten rückkonvertiert werden.

Die Verwendbarkeit des Online-Dienstes wird am ehesten bei der Betrachtung der

statistischen Zahlen deutlich. Der Online-Dienst steht sowohl auf dem Server der

Arbeitsgruppe Gasteiger als auch auf einem Server des US Krebsforschungsinstituts zur

Verfügung und wurde seit seiner Einführung im Oktober 1998 bereits über 49.400 mal

genutzt. Weltweit verweisen über 260 Online-Verweise auf den Service. Der Online-Dienst

wird als Standardwerkzeug im Projekt Molecule of the Month der Universität Bristol [110]

eingesetzt. Die allgemeine und offene Verwendbarkeit des Service wird vor allem bei der

Betrachtung des Datenbankinterfacees des amerikanischen Krebsforschungsinstituts

deutlich [93]. Suchresultate können direkt an den VRML-Strukturgenerator weitergereicht

werden ohne dass eine Zwischenspeicherung und Konvertierung der chemischen Daten nötig

ist.

4.1.3 VRML-Animationsgenerator

4.1.3.1 Zielsetzung

Während die Zielsetzung des VRML-Strukturgenerators in der Realisierung eines

Höchstmaßes an Benutzerinteraktion lag, wurden mit Hilfe des VRML-Animationsgenerators

die neuen Funkionen des VRML97-Standards zur Darstellung dynamischer Prozesse in der

Chemie untersucht. Das Ziel war die Entwicklung eines Online-Dienstes, der übliche

Austauschformate zur Speicherung von Trajektorieninformation einlesen und in Form von

animierten VRML-Szenen darstellen konnte.

4.1.3.2 Funktionsbeschreibung

Mit Hilfe einer Upload-Funktion kann der Benutzer ein multiples XYZ-Austauschformat

an den Service übergeben. Dieses Dateiformat wird von zahlreichen Molecular Modelling

und Moleküldynamik-Programmen als Ausgabeformat angeboten. Zu

Demonstrationszwecken kann der Benutzer anstelle eigener Austauschformate eine

vordefinierte Beispieldatei als Struktureingabe wählen (Abbildung 4-6).

54

Page 67: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Abb. 4-6: VRML-Animationsdienst: Eingabeformular.

Neben der bereits aus dem VRML-Strukturgeneratordienst bekannten Wahl der

Molekülrepräsentation (Ball & Stick, Capped, Spacefill), der Bindungsparameter und

einiger graphischer Parameter erlaubt der VRML-Animationsservice auch einige

animationsspezifische Einstellungen. Zum einen kann der Benutzer die Dauer des

Animationszyklus festlegen. Zum anderen hat der Benutzer die Möglichkeit eine

Stop & Play-Funktion in die VRML-Szene zu integrieren (Abbildung 4-7, letztes Bild). Mit

Hilfe dieses Werkzeugs kann der Benutzer jederzeit die Animation stoppen und fortsetzen.

Zudem kann mit Hilfe einer Step-Funktion die Animation schrittweise betrachtet werden.

Abb. 4-7: VRML-Animationssequenz: Initialisierung einer kationischen Polymerisation von 2-Methyl-buten-1 mit Ethanol und Bortrifluorid; unten rechts: Eingebettete Stop/Play/Step-Option.(Farbabbildung: Anhang A, Abbildung A-3).

55

Page 68: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Abbildung 4-7 zeigt Screenshots der Beispielanimation. Die Animation zeigt die

Initiierung einer kationischen Polymerisationsreaktion. Neben der Darstellung der in der

Austauschdatei vorhandenen Atomkoordinaten und Bindungen ergänzt und repräsentiert der

Online-Dienst automatisch Atomabstände, die einen bindungsähnlichen Charakter aufweisen

(gelbe Linien in Abbildung 4-7). Mit Hilfe dieser Darstellungsform können beispielsweise

stabilisierende bzw. aktivierende Wechselwirkungen zwischen funktionellen Gruppen

repräsentiert werden.

Wie auch im VRML-Strukturgeneratordienst hat der Benutzer zum einen die Möglichkeit

sich die Animation direkt im Browserfenster zu betrachten. Darüber hinaus kann die Ausgabe

auch so definiert werden, dass die generierte VRML-Szene lokal auf dem Client gespeichert

werden kann. Dem Benutzer bietet sich somit die Gelegenheit eigene Moleküldynamik-

Ergebnisse in Form von VRML-Szenen auf einer Internetseite anzubieten.

4.1.3.3 Implementierung

Der VRML-Animationsdienst basiert wie alle in diesem Kapitel vorgestellte Online-

Dienste im Grundsatz auf dem gleichen in Abbildung 4-5 beschriebenen Prinzip (HTML-

Formular/CGI-Skript/CACTVS-Kernsystem). Je nach Datentyp und Aufgabenstellung variiert

dabei die Anzahl und die Art der verwendeten CACTVS-Module in der Kernbibliothek. Im

Fall des VRML-Animationsdienstes wird jedoch das gleiche VRML-Modul wie im VRML-

Strukturgeneratordienst verwendet. Aus diesem Grund werden im Folgenden nur die

wichtigsten Unterschiede zwischen den Implementierungen der beiden Anwendungen

skizziert.

Ein entscheidender Unterschied kann bereits beim Einlesen der Strukturdaten beobachtet

werden. Das CACTVS-System bzw. die Leseroutine für das XYZ-Dateiformat erkennt beim

Lesen der Daten das Vorliegen multipler, dreidimensionaler Koordinatensätze. Daher wird

neben der Speicherung der 3D-Koordinaten auch für jedes Atom der molekularen Szene eine

Eigenschaftsbeschreibung namens A_TRAJECTORY definiert. Dieser Datencontainer enthält

nach dem Lesevorgang alle in der Austauschdatei definierten 3D-Koordinaten des

entsprechenden Atoms. Diese Information wird vom VRML-Modul genutzt, um die

Koordinaten in einen speziellen VRML-Knoten den sogenannten PositionInterpolator

einzusetzen. Die VRML-Szene wird schließlich noch mit einem Zeitgeberknoten versehen.

Bei der Client-seitigen Animation wird die Szene durch den zentralen Zeitgeberknoten und

durch Transformation der Objektkoordinaten entlang der Interpolationspunkte gesteuert. Die

optionale Stop & Play-Funktion kann dabei direkt auf den Zeitgeberknoten Einfluss nehmen

und erlaubt somit eine Steuerung der Animation druch den Benutzer.

56

Page 69: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

4.1.3.4 Diskussion

Animationen stellen für das Verständnis komplexer Vorgänge insbesondere in der

wissenschaftlichen Ausbildung ein wichtiges Werkzeug dar. So kann beispielsweise die

zeitliche, geometrische und stereochemische Komplexität einer chemischen Reaktion durch

Einsatz animierter Darstellungen besser verstanden werden.

Bei der Betrachtung aktueller, Internet-fähiger Visualisierungsapplikationen fällt auf, dass

bis auf wenige Ausnahmen wie das Chime-Plugin keine Anwendung in der Lage ist,

dreidimensionale Animationen zu visualisieren. MPEG-basierte Videofilme oder animierte

GIF-Sequenzen werden bei dieser Betrachtung nicht berücksichtigt, da sie keine

Benutzerinteraktion zulassen und es sich bei diesen Medien nicht um dreidimensionale

Darstellungsformen handelt.

Bei einer näheren Betrachtung des Chime-Plugins wird schnell der rudimentäre Charakter

der Animationsfähigkeit sowie die vergleichbar schlechte Qualität der Animation deutlich.

Die Ursache für die eingeschränkte Animationsfähigkeit liegt dabei in der

Visualisierungstechnik von Chime begründet. Chime wurde in erster Linie zur Visualisierung

von Strukturen entwickelt. Um Animationen zu realisieren, schaltet die Applikation zwischen

den einzelnen molekularen Szenen, die sich aus dem multiplen Koordinatensätzen ergeben,

hin und her. Je nach Anzahl der Koordinatensätze ergibt sich damit eine mehr oder weniger

unruhige Bildfolge. Beim Vorliegen von nur zwei oder drei Koordinatensätzen ist eine

brauchbare Animation nicht möglich. Darüber hinaus stehen dem Benutzer nur sehr limitierte

Optionen zur Beeinflussung der Animation zur Verfügung.

Als graphisches Datenformat bietet VRML97 sehr komfortable Optionen zur Realisierung

hochaufgelöster Animationen. Die Qualität der vom Online-Dienst generierten Szenen hängt

dabei nicht von der ursprünglichen Anzahl der Koordinatensätze ab. Die Koordinaten dienen

lediglich als Eckpunkte für die eingebetteten Interpolatoren. Während der Animation werden

alle Objekte (Atome, Bindungen) dynamisch zwischen diesen Eckdaten verschoben, rotiert,

skaliert und umgeformt. Durch den Interpolationsmechanismus lassen sich somit sehr

hochaufgelöste Animationen erstellen, selbst wenn die Originaldaten nur über zwei

Koordinatensätze verfügen. Ein weiterer Vorteil dieser Technik ist, dass nur ein konstanter

Satz an Objekten anstelle von zahlreichen einzelschrittbasierten Objekten verwaltet werden

muss.

Der VRML-Animationsgenerator ist nach unserer Erkenntnis der einzige interaktive

Online-Dienst seiner Art. Er wurde in den letzten zwei Jahren über 5.000 mal verwendet und

ist wie der VRML-Strukturgenerator in vielen chemischen Hyperlinksammlungen vertreten.

57

Page 70: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

4.1.4 ComSpec3D

4.1.4.1 Zielsetzung

Die Quantenchemie ist eines der Felder in der Chemie, welches aufgrund des theoretischen

und mathematischen Charakters sowohl von vielen Studenten als auch von Chemikern, die

auf diesem Gebiet nicht spezialisiert sind, als schwer zugänglich angesehen wird. Zu den

Eigenschaften, die über quantenchemische Rechnungen vorhersagbar sind, gehören die

Infrarot- und Raman-Spektren. Zu jedem Absorptionspeak gehört dabei eine

Molekülschwingung, die sogenannte Normalschwingung, die sich aus der Kräftematrix der

Auslenkung der Atome aus der Ruheposition ableiten lässt. Im Widerspruch zu den einfachen

Modellen, die vielfach zur Spektreninterpretation herangezogen werden (im Sinne von

CO Schwingung bei x cm-1) handelt es sich dabei um Schwingungen des gesamten

Gerüstes, die nicht immer vorwiegend einer einzelnen Bindung oder funktionellen Gruppe

zugeordnet werden können. Die praktische Vorstellungskraft versagt rasch, wenn es um das

Verständnis dieser Schwingungen aus Zahlentabellen geht. Werden diese Schwingungen

jedoch in Form animierter 3D-Szenen angezeigt, wird die Logik hinter ihnen schnell

verständlich.

Das Ziel war daher die Entwicklung einer Internet-Anwendung, die für beliebige Moleküle

Infrarot- und Ramanspektren vorhersagen kann und eine animierte Darstellung der zu den

Intensitätspeaks korrespondierenden Normalschwingungen erlaubt.

4.1.4.2 Funktionsbeschreibung

Das Eingabeformular des Online-Dienstes setzt sich zum einen aus einem

Struktureingabeteil und zum anderen aus einem Teil zur Eingabe von

Visualisierungsparametern zusammen (Abbildung 4-8). Mit Hilfe eines Java-basierten

Struktureditors bietet sich dem Benutzer die Möglichkeit, beliebige Strukturen zu zeichnen

und zur Berechnung von Spektren und Normalschwingungen an den Service zu übergeben.

Alternativ dazu kann der Benutzer SMILES-Strings als Struktureingabeform benutzen. Da

die quantenchemische Berechnung der Spektren (VAMP) trotz Verwendung von durch

CORINA generierter, voroptimierter 3D-Koordinaten sowie Einsatz der einfachen AM1-

Methode sehr rechenintensiv sein kann, wird die Anzahl der Atome bei der Struktureingabe

auf dreißig begrenzt. Darüber hinaus darf sich die Verbindung nur aus

Hauptgruppenelementen zusammensetzen. Diese Limitierung stellt sicher, dass die

notwendigen Berechnungen in der vom Benutzer erwarteten und für das Internet typischen

Antwortzeiten realisiert werden können.

58

Page 71: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Abb. 4-8: ComSpec3D: Eingabeformular.

Die neben der Struktureingabe implementierten Optionen ermöglichen dem Benutzer eine

komfortable Beeinflussung der animierten Normalschwingungen nach chemischen als auch

graphischen Gesichtspunkten.

Da Spektrenpeaks mit sehr kleinen Intensitäten für das Verständnis von

quantenchemischen Vorgängen eine geringe Bedeutung haben, kann die Anzahl der

dargestellten Normalschwingungen mit Hilfe eines Intensitätsgrenzwertes eingeschränkt

werden. Dieser Grenzwert kann vom Benutzer frei gewählt oder auch deaktiviert werden. Des

Weiteren kann der Benutzer die Darstellung der graphischen Szene beeinflussen, in dem er

die Zeitdauer eines Animationszyklus, die Anzahl der zugrunde liegenden Einzelschritte als

auch das relative Maß der Schwingungsauslenkung (Skalierung der berechneten Werte)

innerhalb eines sinnvollen Wertebereichs bestimmen kann.

Die Schwingungsfrequenz einer Normalschwingung hängt unmittelbar von der

Kraftkonstante ab. Hohe Kraftkonstanten führen zu hohen Wellenzahlen bzw. zu niedrigen

Schwingungsfrequenzen, kleine Kraftkonstanten zu hohen Schwingungsfrequenzen. Dieser

Umstand wird im Spektrum durch die verschiedenen Wellenzahlen ausgedrückt. ComSpec3D

bietet die Möglichkeit diese Abhängigkeit auch in der Animation widerzuspiegeln. Die

Animationsgeschwindigkeit der Normalschwingung wird dabei in Abhängigkeit von der

Kraftkonstante dargestellt. Die Repräsentation von Normalschwingungen bei großen

Wellenzahlen kann dabei zu sehr schnellen, nur noch schlecht zu verfolgenden

Animationssequenzen führen. Aus diesem Grund kann als Alternative auch eine

Standardgeschwindigkeit für alle Animationen gewählt werden.

59

Page 72: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Abb. 4-9: ComSpec3D: HTML-Seite mit quantenchemisch berechneten Spektren und selektierbaren Wellenzahlen (Link zu den korrespondierenden Normalschwingungsanimationen).(Farbabbildung: Anhang A, Abbildung A-4).

60

Page 73: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Nachdem der Benutzer alle erforderlichen Eingaben vorgenommen hat, werden die 3D-

Koordinaten mit CORINA berechnet und anschließend zur quantenchemischen Berechnung

(AM1) an VAMP übergeben Die resultierenden Spektren sowie die Wellenzahlen der

Normalschwingungen werden schließlich in einer HTML-Seite dargestellt (Abbildung 4-9).

Die dynamisch generierte HTML-Seite besteht dabei aus drei Abschnitten. Im obersten

Abschnitt werden zunächst die für die eingesetzte Struktur berechneten Raman- und

Infrarotspektren dargestellt. Alle wichtigen Daten bezüglich der eingesetzten

Strukturinformation als auch der quantenchemischen Berechnung können der nachfolgenden

Tabelle entnommen werden. Die Tabelle enthält unter anderem die Summen- und

Strukturformel der berechneten Verbindung, Angaben über das eingesetzte quantenchemische

Programm als auch die verwendete Methode.

Im letzten Abschnitt befindet sich schließlich die Tabelle mit der Information über die

Normalschwingungen. Der Benutzer kann dabei der Tabelle Daten wie Namen, Wellenzahl

und Intensitäten der einzelnen Normalschwingungen entnehmen. Durch Anklicken einer

Wellenzahl kann der Benutzer ein zweites Browserfenster öffnen, in dem die entsprechende

Normalschwingung als animierte 3D-Szene dargestellt wird (Abbildung 4-10).

Abb. 4-10: ComSpec3D: VRML-Animationssequenz: -OH Deformationsschwingung von Phenol bei 1383 cm-1 (Farbabbildung: Anhang A, Abbildung A-5).

4.1.4.3 Implementierung

Aufgrund der zusätzlich benötigten quantenchemischen Information ist die Realisierung

des ComSpec3D-Dienstes im Gegensatz zum VRML-Animationsgenerator wesentlich

aufwendiger. Während der Implementierung des Online-Services wurden über fünfzehn

zusätzliche CACTVS-Module entwickelt. Da eine detaillierte Beschreibung der einzelnen

Vorgänge den Rahmen dieser Arbeit sprengen würde, wird im Folgenden nur auf die vier

wesentlichen Module (E_RAMANSPECTRUM, E_IRSPECTRUM, E_VIBRATION_VRML,

E_RAMANIRGIF und A_NORMAL_VIBRATIONS) und ihr Zusammenwirken eingegangen.

Ein wesentlicher Unterschied zu den beiden bereits erwähnten Anwendungen wird bei der

Betrachtung der schematischen Darstellung einer ComSpec3D-Sitzung deutlich

61

Page 74: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

(Abbildung 4-11). Die Berechnung der Raman- und Infrarotspektren und die Darstellung der

animierten Normalschwingungen findet dabei in einem zweistufigen Prozess statt. Im ersten

Schritt werden alle notwendigen quantenchemischen Daten berechnet und in einer

aufbereiteten Form an den Benutzer zurückgeliefert. Mit Hilfe dieser Information kann der

Benutzer in einem zweiten Schritt die zu visualisierenden Normalschwingungen auswählen.

Abb. 4-11: Schematische Darstellung einer ComSpec3D-Sitzung.

Wie bei allen in diesem Kapitel vorgestellten Anwendungen werden auch in der

ComSpec3D-Applikation zunächst vom Benutzer definierte Strukturinformation an das

System übergeben. Nach der Übergabe der Strukturdaten fordert das CGI-Skript die

Spektreninformation, genauer gesagt die graphische Spektrenrepräsentation

(E_RAMANIRGIF), von der Kernbibliothek an. Alle dazu notwendigen Prozeduren laufen

dabei wiederum vollkommen automatisch und für den Benutzer unsichtbar im Hintergrund

ab. Die wichtigsten Mechanismen dieser Prozedur werden im Folgenden erläutert.

HTML-

Formular

Eingabe

VRML-

Szene

Ausgabe

Strukturdaten

Spektren-Information

CACTVS-System

Einlesen & Analysechem. Information

CORINA-Modul(3D-Struktur-

generator)

Client Server

3D Koordinaten

HTML-

Formular

Auswahl

VRML-Modul(E_VIBRATION_VRML)

Spektren-Module(E_RAMANSPECTRUM

E_IRSPECTRUMA_NORMAL_VIBRATIONS)

VAMP(quantenchem.Berechnungen)

CGI-Skript

temporäreSpeicherung

der Daten

VRML-Szene

Auswahl

62

Page 75: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Bei der Abfrage des Spektrenbildes sucht das Kernsystem zunächst nach der dafür

notwendigen Eigenschaftsbeschreibung E_RAMANIRGIF. Da die entsprechenden Bilddaten

zu diesem Zeitpunkt noch nicht vorliegen, muss das Spektrum durch die im Modul

implementierten Funktionen zuerst gezeichnet werden. Dies ist aber nicht ohne das

Vorhandensein der eigentlichen Spektreninformation möglich. Das Modul verweist das

Kernsystem deshalb auf die Spektrendatenmodule E_RAMANSPECTRUM und

E_IRSPECTRUM. Auch diese Module enthalten zu diesem Zeitpunkt noch keine Information,

sind jedoch in der Lage diese Daten zu generieren bzw. generieren zu lassen. Um die

benötigten Spektrendaten zu berechnen, müssen vorher 3D-Koordinaten vorliegen. Die

Generierung der dreidimensionalen Struktur erfolgt dabei analog zu den bereits beim VRML-

Generator beschriebenen Mechanismen mit dem Strukturgenerator CORINA (vgl.

Abschnitt 4.1.2.3).

Nachdem die 3D-Information an das Spektrenmodul weitergeleitet wurde, generiert das

Modul eine Eingabedatei für das externe, semi-empirische MO-Programm VAMP (vgl.

Abschnitt 2.3.3) und startet das Programm zur Berechnung der notwendigen Daten

(VAMP-Befehlszeile: AM1 FORCE SPECTRUM XYZ GNORM=0.04). Nach Beendigung

der VAMP-Berechnung werden die Daten automatisch aus der Ausgabedatei und der

Spektrendatei extrahiert und in die entsprechenden Datencontainer eingefügt. Bei diesem

Vorgang werden sowohl die Module E_IRSPECTRUM als auch die Datencontainer

E_RAMANSPECTRUM, A_NORMAL_VIBRATIONS und eine ganze Reihe weiterer Module

mit den berechneten Daten beladen. Nach dieser automatischen Prozedur ist schließlich auch

das vom CGI-Skript aufgerufene Modul E_RAMANIRGIF in der Lage, die Spektren zu

zeichnen.

Neben der Anforderung der Spektreninformation veranlasst das CGI-Skript darüber hinaus

die temporäre Speicherung aller berechneten und eingelesenen Daten. Diese

Zwischenspeicherung verhindert, dass für die nachfolgende Generierung der animierten

Normalschwingungen eine erneute Berechnung der quantenchemischen Information

notwendig wird.

Mit der Repräsentation der wichtigsten Daten in Form einer dynamischen HTML-Seite

endet schließlich die erste Stufe der ComSpec3D-Sitzung.

Durch Wahl einer beliebigen, in der HTML-Seite dargestellten Wellenzahl kann der

Benutzer in der zweiten Stufe die Generierung und Visualisierung der korrespondierenden

Normalschwingungsanimation starten. Zu diesem Zweck wurden die einzelnen Wellenzahlen

mit Hyperlinks versehen, die das zweite CGI-Skript aktivieren. Dabei wird dem CGI-Skript

jede notwendige Information wie der Pfad zu den temporären Daten, der Index der

gewünschten Normalschwingung als auch die vom Benutzer definierten

63

Page 76: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Visualisierungsparameter übermittelt. Das CGI-Skript leitet diese Information an das

Kernsystem weiter und ruft anschließend das VRML-Modul E_VIBRATION_VRML zur

Generierung der entsprechenden Normalschwingungsanimationen auf. Die generierte

VRML-Szene wird abschließend vom CGI-Skript an den Client übermittelt und dort in einem

zweiten Browserfenster visualisiert.

4.1.4.4 Diskussion

Die Spektroskopie spielt in der chemischen Ausbildung eine wichtige und grundlegende

Rolle. In den vergangenen Jahren wurden daher eine Vielzahl an Plugins und Applets

entwickelt, die alle möglichen Spektrenformen plattformunabhängig darstellen können.

Neben dem eigentlichen Spektrum bekommen aber vor allem die zu den Intensitätspeaks

korrespondierenden Normalschwingungen eine bedeutende Rolle beim Verständnis der

theoretischen Grundlagen. Eine ansprechende Repräsentation der Normalschwingungen stellt

jedoch hohe Ansprüche hinsichtlich der Generierung und Visualisierung der hierfür

notwendigen Daten. Die Zahl der Web-Anwendungen ist aus diesem Grund sehr limitiert und

die Qualität der einzelnen Applikationen variiert dabei stark.

In einigen Online-basierten Spektroskopiekursen werden die Normalschwingungen in

Form animierter GIF-Sequenzen [111] oder als MPEG-kodierte Filme [112] dargestellt.

Diese statischen Lösungen stellen durchaus einen Vorteil gegenüber üblichen papierbasierten

Darstellungsformen dar, erlauben jedoch keine Interaktion durch den Betrachter. Eine

dreidimensionale, animierte Darstellung von Normalschwingungen in Abhängigkeit von

Intensitätspeaks in Infrarotspektren konnte jedoch mit Hilfe des Chime-Plugins [8] als auch

durch Verwendung von VRML [85, 86] demonstriert werden. Diese Ansätze dienen jedoch

lediglich zu Demonstrationszwecken und sind daher auf einen speziellen Einzelfall limitiert.

Durch Auswahl von Intensitätspeaks in einem als GIF dargestellten Spektrum können dabei

die korrespondierenden Normalschwingungen angezeigt werden. Die für die Animation

notwendigen quantenchemischen und strukturellen Daten werden zu diesem Zweck

vorberechnet und als statische Information auf dem Server abgelegt.

Eine Weiterentwicklung der Chime-basierten Darstellung animierter Normalschwingungen

wurde von Lancashire et al. vorgestellt [113]. In diesem Ansatz wird das Chime-Plugin

sowohl zur Visualisierung der Spektren als auch zur Animation der Normalschwingungen

eingesetzt. Beide Repräsentationen können dabei auch miteinander verknüpft werden.

Darüber hinaus wurden Programme zur Extraktion der notwendigen Daten aus GAUSSIAN-

berechneten Ausgabedateien entwickelt und zur Verfügung gestellt. Trotz dieser

Weiterentwicklung ist die Methode nicht universell einsetzbar. Der Anwender muss zur

Realisierung des Ansatzes sowohl über Strukturdaten, quantenchemische Programme zur

64

Page 77: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Berechnung der entsprechenden Normalschwingungen als auch Dateiformate mit den

entsprechenden Spektren verfügen. Die Methode ist daher auf eine sehr begrenzte

Benutzergruppe, welche die oben genannten Programme und Dateien besitzt, limitiert und

darüber hinaus mit einem erheblichen Zeitaufwand verbunden.

Eine interaktive, Web-fähige Lösung stellt die WebMO-Anwendung dar [114]. WebMO ist

eine Internetanwendung zur Bedienung gängiger quantenchemischer Programme sowie zur

Analyse und Visualisierung der berechneten Ergebnisse.

WebMO erlaubt unter anderem die Bedienung einer komfortablen Benutzeroberfläche und

damit der darunter liegenden Programme zur Berechnung der Normalschwingungen und

Spektren. Die berechneten Spektren und Normalschwingungen können anschließend mit

Hilfe von Java-basierten Applikationen betrachtet werden. Die Normalschwingungen werden

dabei jedoch nicht in animierter Form sondern lediglich durch ausgerichtete Pfeile an den

entsprechenden Atomen repräsentiert. Da WebMO nicht als eigenständiger Online-Dienst

entwickelt wurde, existiert nur eine stark eingeschränkte Demoversion, welche die

Fähigkeiten der Benutzeroberfläche beschreibt.

Ein für die interaktive Darstellung von Normalschwingungen entwickelter Online-Dienst

ist CyberMol [107]. Die qunatenchemische Berechnung beliebiger Moleküle ist mit

CyberMol ebenfalls nicht möglich. Vielmehr muss der Benutzer eigene GAUSSIAN-

Ausgaben in ein entsprechendes Textfeld im Online-Dienst kopieren. Die resultierende

VRML-basierte Darstellung der Normalschwingungen erfolgt wie bei WebMO durch

Pfeilbeschreibungen und nicht durch Animation der Szene. Darüber hinaus scheint der

Service wie bereits beschrieben nicht mehr aktiv zu sein.

Die in dieser Arbeit entwickelte ComSpec3D-Anwendung stellt zur Zeit das

komfortabelste und am weitesten entwickelte, interaktive Werkzeug zur Berechnung und

Darstellung von Infrarot- und Raman-Spektren sowie den korrespondierenden

Normalschwingungen dar. Der Online-Dienst setzt weder zusätzliche lokale Programmpakete

noch das Vorliegen chemischer Daten voraus. Die Anwendung kann daher von jedermann

benutzt werden und eignet sich somit für den unkomplizierten Einsatz in der chemischen

Ausbildung an Schulen und Universitäten.

Neben der bereits erwähnten besseren Qualität von VRML-Animationen im Vergleich zu

Chime-Darstellungen sind die Möglichkeiten zur Beeinflussung der Animation ebenfalls

wesentlich größer. Dieser Vorteil äußert sich bei ComSpec3D unter anderem in der Fähigkeit

Animationsgeschwindigkeiten in Abhängigkeit von der jeweiligen Frequenz darzustellen.

65

Page 78: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

ComSpec3D wird von diversen Schulen und Universitäten im In- und Ausland benutzt.

Der Online-Dienst wurde dabei seit April 1999 über 22.100 mal benutzt. Der Web-Service

wurde darüber hinaus von der Multimedia Educational Resource for Learning and Online

Teaching (MERLOT) begutachtet und hinsichtlich seines Potentials zum verbesserten Lernen

mit Höchstnoten ausgezeichnet.

4.1.5 MolSurf

4.1.5.1 Zielsetzung

Die Repräsentation molekularer Oberflächen hat in der Chemie und hier besonders in der

Pharmaforschung große Bedeutung erreicht. Viele aktuelle Fragestellungen lassen sich heute

ohne die Kenntnis der molekularen "Gestalt" sowie den auf ihr abgebildeten molekularen

Eigenschaften nicht mehr lösen. Dieser Umstand hat in den letzten Jahren zu einer rasanten

Entwicklung von leistungsfähigen Programmen zur Generierung und Visualisierung von

Moleküloberflächen geführt. Der Nutzen der Oberflächenvisualisierung ist aber längst nicht

mehr nur auf die chemische Forschung limitiert. Auch in der chemischen Ausbildung wurde

das Potential dieser Darstellungsform erkannt [115].

Ein großes Problem bei der Nutzung von Oberflächenrepräsentationen in der Ausbildung

liegt jedoch in dem Umstand, dass aktuelle Standardprogramme zur Berechnung von

Oberflächen nicht für den Einsatz im Unterricht konzipiert sind. Zum einen sind Schüler als

auch Lehrer oft nicht in der Lage, die mächtigen Molecular Modelling-Programme zu

bedienen. Zum anderen stellt aber auch der im Allgemeinen hohe Preis dieser Softwarepakete

ein nicht zu unterschätzendes Problem dar. Darüber hinaus wurden die kommerziellen

Applikationen für wesentlich komplexere Strukturen und Problemstellungen entworfen und

bieten aus diesem Grund keine vereinfachten Funktionen zum qualitativen Vergleich von

einfachen Molekülen.

Die MolSurf-Anwendung wurde speziell für die Bedürfnisse von Schulen und

Universitäten in enger Absprache mit Dozenten und Lehrern entwickelt. Das Ziel war dabei

die Realisierung eines einfach zu bedienenden Programms zur Darstellung molekularer

Oberflächen, welches die speziellen, oben beschriebenen Forderungen erfüllt.

4.1.5.2 Funktionsbeschreibung

Für die chemische Ausbildung werden vor allem kleine und einfache Verbindungen

benötigt. Die dafür notwendigen Strukturdaten stehen jedoch im Allgemeinen den Lehrern

und Dozenten nicht zur Verfügung und können in der Regel auch nicht aus Online-

66

Page 79: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Datenbanken bezogen werden. Aus diesem Grund wurde die MolSurf-Anwendung mit einem

Struktureditor ausgestattet (Abbildung 4-12). Die benötigten Verbindungen können auf diese

Weise leicht erstellt und zur weiteren Berechnung an den Service übergeben werden.

Alternativ dazu kann die Strukturinformation auch als SMILES-String eingegeben werden.

Die Struktureingabe ist dabei in beiden Fällen aus den bereits in Abschnitt 4.1.4.2

beschriebenen Gründen auf Verbindungen mit maximal dreißig Atome (inkl.

Wasserstoffatome) begrenzt. Für den alltäglichen Einsatz im Chemieunterricht ist diese

Limitierung jedoch vollkommen ausreichend. Eine dritte Option erlaubt die Eingabe von

Datenformaten, die bereits berechnete Oberflächeninformation enthalten. Zur Zeit wird dabei

lsowohl das VAMP- als auch das COSMO-Format unterstützt (42, 249).

Abb. 4-12: MolSurf: Eingabeformular.

Nach Eingabe der Strukturdaten kann der Dozent bzw. der Schüler die Darstellungsform

der Moleküloberfläche wählen. Der Service unterstützt dabei die wichtigsten

Repräsentationsarten wie Solid, Chicken Wire bzw. Mesh und Dot Cloud (Abbildung 4-13 a-

c). Darüber hinaus können auch alle Darstellungsformen in der VRML-Szene integriert und

dort interaktiv geändert werden. Bei der Repräsentation der Strukturdaten stehen dem

67

Page 80: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Benutzer die gleichen Darstellungsformen wie beim VRML-Generator zur Verfügung (vgl.

Abschnitt 4.1.2.2). Auch diese Darstellungen können vom Benutzer interaktiv in der VRML-

Szene ausgetauscht werden (Abbildung 4-13 d-f).

Abb. 4-13: MolSurf: VRML-Szene mit Strukturen und SES-Oberflächen (semitransparent) von TNT: a) - c): Rainbow-Farbskalierung einer a) Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation; d)-f): Blau-Weiß-Rot-Farbskalierung einer Solid-Oberflächen-Repräsentation mit unterschiedlichen Strukturmodellen: d) Capped, Ball & Stick und f) Wireframe (Farbabbildung: Anhang A, Abbildung A-6).

Der Online-Dienst unterstützt zur Zeit nur die Abbildung des molekularen

elektrostatischen Potentials auf der Moleküloberfläche. Dies reicht jedoch für die Lösung

didaktischer Problemstellungen meist aus.

Es stehen dem Benutzer drei gebräuchliche Farbpaletten zum Einfärben der molekularen

Oberfläche zur Verfügung. Neben der Regenbogen-Farbpalette (21 Farben) und der gröberen

ASA-Farbpalette (9 Farben) steht auch noch eine Rot-Weiß-Blau-Farbskala zur Verfügung.

Für den Fall, dass keine molekulare Eigenschaft auf der Oberfläche abgebildet werden soll,

kann die Farbcodierung auch deaktiviert werden.

Eine wichtige Funktion für den Einsatz im Chemieunterricht stellt die Skalierbarkeit des

Farbwertebereichs dar. Bei dieser durch den Benutzer definierten Skalierung können für das

elektrostatische Potential frei definierbare Maxima und Minima angegeben werden, die als

Grenzwerte für den Farbverlauf dienen. Den berechneten, molekularen Eigenschaftswerten

wird anschließend ein durch diese Farbskala definierter Farbwert zugeordnet. Die vom

Benutzer definierte Farbskala kann anschließend für eine Reihe von Molekülen eingesetzt

68

Page 81: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

werden, womit ein Vergleich der unterschiedlichen, molekularen Eigenschaften ermöglicht

wird. So können mit Hilfe dieser Skalierung molekulare Effekte wie beispielsweise der

Einfluss einer Säuregruppe in unterschiedlichen Carbonsäuren vermittelt werden. Darüber

hinaus ermöglicht die Skalierung auch die Angabe von Grenzwerten. Dabei werden

Eigenschaftswerte mit größeren bzw. kleineren Werten als der definierte Maximal- bzw.

Minimalwert in der gleichen Farbe wie der Maximal- bzw. Minimalwert dargestellt. Neben

der Skalierung kann auch die Originalskalierung (berechnete Maxima und Minima definieren

die Grenzen der Farbskala) oder eine relative Skalierung (größter, absoluter Wert der

berechneten Maxima/Minima definiert die Grenzen der Farbskala) gewählt werden.

Nach Eingabe der Strukturinformation werden zunächst die 3D-Koordinaten der

Verbindung mit Hilfe von CORINA berechnet. Die dreidimensionale Struktur wird

anschließend zur quantenchemischen Berechnung an VAMP übergeben (AM1, SCF), wobei

die Gitterpunkte der Solvent-Excluded-Surface-Oberfläche sowie die Oberflächenwerte des

elektrostatischen Potentials berechnet werden. Aus den berechneten Daten wird schließlich

eine VRML-basierte, dreidimensionale Szene erstellt und diese an den Benutzer

zurückgeliefert (Abbildung 4-13, 4-14).

Abb. 4-14: MolSurf: VRML-Oberfläche (Solid-Repräsentation) von Trinitrotoluol mit integriertem HUD-Menü (Farbabbildung: Anhang A, Abbildung A-7).

Mit Hilfe eines semitransparenten Head-Up-Display-Menüs (HUD-Menü), das in der

VRML-Szene integriert ist, kann der Benutzer die Szene interaktiv manipulieren

(Abbildung 4-14). So kann mit Hilfe des Menüs die dargestellte Oberflächenrepräsentation

verändert oder die Strukturdarstellung ein- oder ausgeblendet werden. Darüber hinaus kann

69

Page 82: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

mit Hilfe einer Slider-Funktion die Transparenz der Oberfläche beliebig variiert werden. Die

Legende für die Farbgebung ist ebenfalls im HUD-Menü integriert.

Die generierten SES-Oberflächen können über eine zusätzliche Speicheroption auch lokal

auf dem Client abgespeichert werden.

4.1.5.3 Implementierung

Für die Generierung und Speicherung der molekularen Oberflächendaten und

Eigenschaften wurden sechs neue Eigenschaftsbeschreibungen bzw. Module sowie eine

Leseroutine für das quantenchemische Programm VAMP entwickelt.

Die Generierung der 3D-Koordinaten und der VRML-Repräsentation für die molekulare

Struktur erfolgt dabei nach den bereits vorgestellten Mechanismen (vgl. Abschnitt 4.1.2.3)

und wird daher an dieser Stelle nicht mehr näher erläutert. Das zentrale Modul bei der

Generierung der Oberflächendaten ist die Eigenschaftsbeschreibung O_POINT. Dieses Modul

enthält, wie der Name schon sagt, die 3D-Koordinaten der Raumpunkte, welche die

molekulare Oberfläche beschreiben. Nachdem die 3D-Koordinaten in gewohnter Weise

(CORINA) generiert wurden, erstellt das Oberflächenmodul zunächst eine VAMP-

Eingabedatei. Durch die in der Eingabedatei enthaltenen Befehle MAP und SES wird VAMP

veranlasst, eine Solvent Excluded Surface (vgl. Abschnitt 3.1.3.4) für das vorliegende

Molekül zu erstellen (VAMP-Befehlszeile: AM1 1SCF NOZ XYZ MAP). Die triangulierten

Oberflächendaten als auch die Werte des darauf abgebildeten molekularen elektrostatischen

Potentials werden von VAMP in eine Ausgabedatei geschrieben und mit Hilfe der VAMP-

Leseroutine in das CACTVS-System eingelesen. Nach dem Einlesevorgang steht die

Oberflächeninformation in den CACTVS-internen Oberflächenmodulen zur Verfügung.

Im Gegensatz zu den bereits beschriebenen Anwendungen wird die übergeordnete VRML-

Szene nicht durch ein spezielles CACTVS-Modul generiert. Lediglich die dreidimensionale

Molekülstruktur wird mit Hilfe des bereits bekannten E_VRML-Moduls erstellt. Die

Generierung der VRML-basierten Oberfläche wird in der MolSurf-Anwendung direkt vom

CGI-Skript unter Verwendung der in den Oberflächen-Modulen enthaltenen Daten realisiert.

Die bereits zuvor generierte VRML-Datei der Molekülstruktur wird anschließend in die vom

CGI-Skript generierte VRML-Szene integriert.

4.1.5.4 Diskussion

Zur Generierung und Visualisierung molekularer Oberflächen und Eigenschaften steht

dem Chemiker heute eine große Anzahl an kommerziellen und kostenfreien,

plattformabhängigen Programmen zur Verfügung. Während vor einigen Jahren die

70

Page 83: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Darstellung molekularer Oberflächen nur auf diese Standalone-Applikationen begrenzt war,

existieren heute auch einige Web-Anwendungen zur Repräsentation entsprechender

Datenobjekte. Einige dieser Programme sind Plugins wie beispielsweise WebLab Viewer [79]

und Chime [32]. Diese Plugins sind in der Lage, Solvent Accessible Surfaces als auch das

molekulare elektrostatische Potential zu generieren und zu visualisieren. Die Qualität der

Darstellung variiert zwischen den Plugins sehr stark. Aufgrund seiner eingeschränkten

Farbdarstellungsfähigkeiten weist das Chime-Plugin die schlechteste Repräsentation auf.

Darüber hinaus unterstützt diese Anwendungen nur sehr rudimentäre Optionen zur

Beeinflussung der Oberflächendarstellung. Ein weiterer Nachteil dieser Plugins begründet

sich durch ihren plattformabhängigen Charakter. In der Regel können die Applikationen nur

auf Windows- und eingeschränkt auf Mac-Plattformen zum Einsatz kommen. Der Einsatz des

Chime-Plugins in Verbindung mit der neuen Generation an Webbrowsern wird darüber hinaus

zur Zeit nicht unterstützt, was dessen Einsatz stark einschränkt. Obwohl durch diese Systeme

in der Regel keine zusätzlichen Kosten entstehen ist deren Einsatz im Chemieunterricht daher

nur bedingt möglich. Das liegt unter anderem auch an dem Umstand, dass die Plugins nicht

auf die Lösung spezieller didaktischer Problemstellungen wie die Skalierbarkeit der

Farbwerte ausgerichtet sind. Zum anderen fordern diese Programme das Vorliegen

entsprechender 3D-Austauschformate, die in der Regel den Lehrern bzw. Schülern nicht zur

Verfügung stehen.

Die in den Plugins implementierten Funktionen zur Generierung der Oberflächen und der

Moleküleigenschaften erlauben in der Regel nur vereinfachte bzw. genäherte Ausgaben.

Qualitativ höherwertige Ergebnisse erfordern den Einsatz spezieller Programme. Die

Ausgaben dieser Programme können sehr leicht mit dem plattformunabhängigen VRML-

Standard visualisiert werden. Der Einsatz von VRML erlaubt dabei eine im Gegensatz zu den

Plugins höherwertige Darstellungsqualität. Darüber hinaus bietet sich mit Hilfe dieses

Austauschsformat auch die Möglichkeit einer verbesserten Interaktion.

Eine sehr einfache VRML-basierte Darstellung molekularer Elektronendichten erlaubt die

Waltz-Applikation des National Center for Supercomputing Applications [116]. Das

Programm ermöglicht die Eingabe von Elementen über ein HTML-basiertes Periodensystem

und visualisiert die resultierenden Elektronendichten mit Hilfe statischer oder animierter

Bilder. Alternativ zu dieser 2D-Repräsentation kann der Benutzer auch eine einfarbige

VRML-Oberfläche zur Darstellung der Elektronendichte betrachten. Die stark

eingeschränkten und limitierten Eingabemöglichkeiten sowie die sehr einfachen

Darstellungsformen (keine Strukturdaten, keine molekularen Eigenschaften) sind für die

Nutzung dieser Anwendung in der chemischen Ausbildung unzureichend.

71

Page 84: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Einen weiterentwickelten Ansatz stellt das Web-Interface des Programms MSMS

dar [117]. MSMS wurde speziell für die schnelle Berechnung von molekularen Oberflächen

entwickelt. Der Service bietet einige Optionen mit denen die Oberflächendarstellung

beeinflusst werden kann. Unter anderem kann der Benutzer dabei den Repräsentationsstil der

Oberfläche wählen (Solid, Chicken Wire, Points). Leider unterstützt MSMS nur den veralteten

VRML1.0-Standard, der von vielen aktuellen VRML-Viewern nicht mehr dargestellt werden

kann. Darüber hinaus ist auch bei MSMS die Eingabe bereits vorliegender 3D-

Strukturinformation notwendig.

Das zur Zeit am weitesten entwickelte Online-Werkzeug zur Analyse und Visualisierung

molekularer Strukturen und Oberflächen ist GRASS [118]. GRASS ist ein Web-fähiges

Frontend des Programms GRASP und vor allem für den Einsatz mit Proteinen konzipiert.

GRASS unterstützt den VRML97-Standard und ist in der Lage, beliebig definierte

Oberflächen sowie eine Vielzahl molekularer Eigenschaften wie beispielsweise das

elektrostatische Potential, die Hydrophobizität oder Atomladungen zu visualisieren. Das

Benutzerinterface ist aus diesem Grunde auch entsprechend komplex und teilweise sehr

kompliziert. Der Online-Dienst setzt als Eingabe Strukturdaten im PDB-Format voraus.

Obwohl diese Dateien aus Online-Datenbanken bezogen werden können, sind einfache für

den Unterricht relevante Moleküle in der Regel nicht in diesen Datenbanken enthalten.

Darüber hinaus bietet auch GRASS keine Möglichkeit zur Skalierung der Werte. Aufgrund

seiner Ausrichtung auf große Molekülsysteme und dem damit verbundenen hohen Maß an

Komplexität ist GRASS für den Einsatz an Schulen oder Universitäten nicht geeignet.

MolSurf wurde speziell für den Einsatz im Chemieunterricht entwickelt und bietet daher

nur die für den didaktischen Einsatz notwendigen Funktionalitäten. Eine Fehlbedienung

durch einen Schüler oder Lehrer kann aufgrund des einfachen und intuitiven Aufbaus

ausgeschlossen werden. Der Benutzer kann ohne spezielle Vorkenntnisse einfache Moleküle

zeichnen und per Mausklick visualisieren. MolSurf berücksichtigt dabei nach unserer

Erkenntnis als einzige Applikation eine Benutzer-definierte Skalierung des Wertebereichs, so

dass der für den Unterricht wichtige qualitative Vergleich verschiedener Verbindungen

(„Welches Molekül ist welchem Molekül am ähnlichsten?“) einfach zu realisieren ist. Durch

den Einsatz des Struktureditors können alle Moleküle selbst erstellt werden, wodurch das

Vorliegen von Strukturaustauschformaten entfällt. Die interaktiven Werkzeuge innerhalb der

Szene (HUD-Display) ermöglichen dem Schüler darüber hinaus zusätzliche Freiheitsgrade

bei der Analyse der Szene. Aus diesen Gründen stellt MolSurf nach unserer Auffassung das

für die chemische Ausbildung geeignetste Werkzeug zur Visualisierung molekularer

Oberflächen dar. Obwohl MolSurf von allen in diesem Kapitel vorgestellten Applikationen

die jüngste Entwicklung darstellt (Februar 2001), wurde der Online-Dienst bereits ca. 4.100

mal genutzt. Die Anwendung hat zudem in der internationalen Fachpresse [119]

72

Page 85: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.1 Hybride Strategien

Anerkennung gefunden und wurde darüber hinaus auch für die Gestaltung des neuen Römpp-

Online [120] sowie von Abbildungen in einem anorganischen Lehrbuch [124] benutzt.

4.1.6 Weitere hybride Ansätze

Im Rahmen des ChemVis-Projekts wurden von unseren Projektpartnern (Dr. Klaus Engel,

Prof. Thomas Ertl, Abteilung Visualisierung und interaktive Systeme, Institut für Informatik,

Universität Stuttgart) einige weiterentwickelte, hybride Applikationen vorgestellt. Die

Ansätze befassen sich vor allem mit der Visualisierung sehr großer Volumendatensätze wie

beispielsweise elektronenmikroskopischen Volumendaten. Aufgrund der enormen Größe der

Datensätze müssen diese Techniken sicherstellen, dass einerseits eine hohe Netzlast

verhindert und andererseits die Graphikhardware des Clients nicht überlastet wird. Dies kann

durch die Begrenzung der Anzahl der geometrischen Primitive (Punkte, Linien, Kugeln,

Zylinder, etc.) sichergestellt werden. Im Rahmen unseres Projektes wurden dabei zwei

Verfahren verfolgt [102].

Die sogenannte progressive Übertragungstechnik basiert auf unterschiedlichen

Auflösungsstufen (Multi-Resolution-Repräsentationen) einer Oberfläche, die durch

hierarchische Zerlegungsalgorithmen erhalten werden. Die resultierenden Auflösungsstufen

können komprimiert und progressiv an einen Client übermittelt werden. Auf diese Weise läßt

sich sowohl die Visualisierung beschleunigen als auch die Netzlast verringern. Ein

entsprechender, Online-Dienst wurde von unseren Projektpartner vorgestellt [125]. Die

Anwendung basiert zum einen auf einem Visualisierungsserver, der bereits über diverse,

vorverarbeitete Multi-Resolution-Repräsentationen ausgesuchter Datensätze verfügt. Zum

anderen besteht die Anwendung aus einem Client-seitigen Java-Applet, das dem Benutzer die

Auswahl und Darstellung der Server-seitigen Datensätze ermöglicht. Nach Selektion eines

Datensatzes extrahiert der Server eine Isofläche in der gewünschten Auflösung aus dem

Datensatz und transferiert die entsprechenden Polygone an den Client. Die Polygone werden

auf der Client-Seite mittels Java3D oder VRML dargestellt. Der Benutzer kann die nun in

grober Auflösung vorliegende Szene weiter verfeinern, in dem er zusätzliche

Isoflächendetails vom Server abruft. Dieser Vorgang läßt sich so lange wiederholen, bis der

Datensatz in der höchsten Auflösung dargestellt wird (Abbildung 4-15). Im Gegensatz zu den

in dieser Arbeit entwickelten Applikationen muss die graphische Szene nicht vollständig an

den Client übermittelt werden, um eine Darstellung der Szene und Interaktion mit den Daten

zu gewährleisten. Vielmehr kann der Benutzer bereits mit einer grobaufgelösten

Darstellungsform interagieren, während die fehlende Isoflächeninformation automatisch über

das Internet nachgeladen und in die graphische Szene integriert wird. Der Ansatz birgt jedoch

auch Nachteile. Wenn der Benutzer an Detailinformationen wie beispielsweise der ActiveSite

73

Page 86: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

auf einer Proteinoberfläche interessiert ist, muss er warten bis alle Isoflächendaten an den

Client übermittelt worden sind und die komplette Szene in hochaufgelöster Form vorliegt.

Darüber hinaus können bei der hochaufgelösten Darstellung zu viele Polygone auf dem Client

vorliegen, was schließlich wieder zu einer drastischen Verminderung der Interaktions- und

Renderingrate führt.

Abb. 4-15: Progressiver Visualisierungsansatz [125].

Sucht der Benutzer hingegen bereits zu Anfang der Visualisierungssitzung nach Details

oder soll ein besonders großer Datensatz trotz zu vieler Polygone detailliert dargestellt

werden, so muss ein sogennanter Octree-basierter Isoflächenansatz eingesetzt werden. Im

Gegensatz zum progressiven Ansatz erlaubt der Octreeansatz die Selektion belieber Bereiche

des Datensatzes. Der Benutzer kann daher einen interessanten Bereich in der grobaufgelösten

Szene selektieren, welcher anschließend durch Übertragung der fehlenden

Isoflächeninformation mit hoher Auflösung rekosntruiert wird. Außerhalb dieser Region und

mit steigendem Abstand wird die Fläche mit zunehmend gröberen Auflösungsstufen

rekonstruiert. Auf diese Weise lassen sich ausreichend hohe Bildwiederholraten als auch

interaktive Navigation erreichen. Ein entsprechender Webservice wurde von unseren

Projektpartner entwickelt [102]. Mit Hilfe eines Java-Applets kann der Benutzer zunächst

einen Fokuspunkt innerhalb der grobaufgelösten Szene plazieren. In einem bestimmten

Abstand um diesen Fokuspunkt wird die Szene dann mit einem hohen Detailierungsgrad

dargestellt, wobei die fehlende Isoflächeninformation über das Internet vom Server abgerufen

wird. Während der Darstellung kann der Benutzer den Fokuspunkt beliebig in der Szene

manövrieren. Diese Benutzerinteraktion wird automatisch vom Applet an den Server

übermittelt und führt zur erneuten Übertragung der fehlenden Daten. Auf diese Weise kann

der Benutzer wie mit einer Lupe über das zu untersuchende Objekt fahren. Das Applet

ermöglicht somit hohe Interaktionsraten bei gleichzeitig hoher Auflösung der graphischen

Szene.

74

Page 87: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.2 Client-seitige Strategien

4.2 Client-seitige Strategien

4.2.1 Definition

Durch die enorm gestiegenen Rechen-, Speicher- und Graphikkapazitäten heutiger

Arbeitsplatzrechner sind in den letzten Jahren Client-seitige Ansätze (Abbildung 4-16) stark

in den Vordergrund getreten. Dabei werden die zu visualisierenden Daten vollständig auf den

Client übertragen, wo dann alle weiteren Berechnungen durch die Module der

Visualisierungspipeline durchgeführt werden. Da während der Interaktion keine weitere

Datenübertragung notwendig ist, können bei entsprechender Leistungsfähigkeit des Clients

hohe Interaktionsraten erzielt werden. Im Prinzip basiert diese Strategie somit im eigentlichen

Sinn nicht auf einen Graphiktransfer sondern auf einen Datentransfer.

Abb. 4-16: Client-seitige Strategien.

Für den im Folgenden beschriebenen Webservice OrbVis wurde ein solcher Ansatz

gewählt, da die Anzahl der Dreiecke während der Orbitalvisualisierung in der Regel in einer

Größenordnung bleibt, bei der jeder Standard-PC die volle Szene in ihrer maximalen

Auflösung bewältigen kann. Außerdem ist ein Volumendatentransfer zur Erzeugung der

Molekülorbitale nicht nötig, da die Oberflächen mit Hilfe eines übertragenen Applets

(Software-Transfer) lokal berechnet werden können. Obwohl VRML-basierte Systeme

generell zu den hybriden Strategien zählen, gilt dies nicht für die VRML-basierte OrbVis-

Applikation. Die VRML-Szene wird mittels des Applets vollständig auf dem Client generiert.

Filter Mapper Renderer

Darstellung

Simulation

Datenbank

Sensoren

Rohdaten BilderVideo

Interaktion

Visualisierungspipeline

Server Client

75

Page 88: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

4.2.2 OrbVis

4.2.2.1 Zielsetzung

Wie auch ComSpec3D (vgl. Abschnitt 4.1.4) wurde OrbVis vor allem zum vereinfachten,

didaktischen Zugang zur Quantenchemie entwickelt. Im Gegensatz zu ComSpec3D dient

OrbVis dabei zur Berechnung und Visualisierung von Molekülorbitalen (MO).

Molekülorbitale beschreiben die Aufenthaltswahrscheinlichkeit von Elektronen in Molekülen

und sind unter anderem wichtig zum Verständnis von Reaktionen.

Während molekulare Oberflächen und Eigenschaften auf Oberflächen mittlerweile durch

einige Web-Anwendungen dargestellt werden können, ist die interaktive Visualisierung von

Molekülorbitalen durch digitale Dokumente bzw. Medien im Internet generell noch nicht

möglich. OrbVis sollte diese Lücke schließen. Ein Hauptziel des Online-Dienstes war dabei

ein größtmögliches Maß an Interaktivität zu realisieren. Der Benutzer sollte in der Lage sein,

die Grenzwerte der Elektronendichte und somit die Ausdehnung der Molekülorbitale

interaktiv in der Szene zu verändern.

4.2.2.2 Funktionsbeschreibung

OrbVis wurde in enger Zusammenarbeit mit Dr. Klaus Engel von der Abteilung

"Visualisierung und Interaktive Systeme" des Instituts für Informatik der Universität Stuttgart

entwickelt. Wie alle in diesem Kapitel vorgestellten Applikationen bietet auch OrbVis einen

Java-basierten Struktureditor zur Eingabe von Verbindungen. Dies ist, wie bereits erwähnt,

vor allem für Schulen von Vorteil, da somit keine zusätzlichen chemischen Austauschformate

notwendig sind. Die Strukturdaten können auch in dieser Applikation alternativ durch die

SMILES-Notation an das System übergeben werden. Da zur Generierung der Molekülorbitale

quantenchemische Berechnungen notwendig sind, wurde auch in OrbVis die maximale Größe

der Verbindungen auf dreißig Hauptgruppenelemente limitiert. Das Eingabeformular

(Abbildung 4-17) des Online-Dienstes beinhaltet neben den Feldern zur Struktureingabe

keine weiteren Funktionen zur Beeinflussung von Visualisierungsparametern, da die

dreidimensionale Szene vollständig auf dem Client erzeugt und dort bearbeitet werden kann.

Nachdem die Struktureingabe erfolgt ist, startet die Applikation die Berechnung der

dreidimensionalen Koordinaten (CORINA). Die dreidimensionale Strukturinformation wird

anschließend an VAMP übergeben, wo unter Verwendung der AM1-Methode die

Molekülorbitalinformation berechnet wird (Befehl: ALLVECTORS). Das Ergebnis dieser

Berechnungen wird in Form einer dynamisch generierten HTML-Seite angezeigt (Abbildung

4-18).

76

Page 89: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.2 Client-seitige Strategien

Abb. 4-17: OrbVis: Eingabeformular.

Abb. 4-18: OrbVis: Auswahlfenster (Farbabbildung: Anhang A, Abbildung A-8).

Die Seite enthält dabei die wichtigsten Daten der semi-empirischen Berechnung. Zum

einen gibt die Seite Auskunft über die Gesamtzahl der berechneten Molekülorbitale sowie

über die Zahl der besetzten und unbesetzten Vertreter. Des Weiteren enthält die Seite eine

77

Page 90: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

graphische Repräsentation der drei höchsten besetzten Energieniveaus (inkl. Highest

Occupied Molecular Orbital (HOMO)) und der drei niedrigsten unbesetzten Energieniveaus

(inkl. Lowest Unoccupied Molecular Orbital (LUMO)). Bei der graphischen Darstellung der

Energieniveaus wird auch der Entartungszustand der Energieniveaus berücksichtigt.

Die zu visualisierenden Molekülorbitale können auf unterschiedliche Weise ausgewählt

werden (Abbildung 4-19). Zum einen kann der Benutzer die Nummer eines Molekülorbitals

in das dafür vorgesehene Feld im HTML-Formular eintragen. Zum anderen kann aber auch

die HOMO/LUMO-Option im HTML-Formular aktiviert werden, wodurch eine parallele

Betrachtung des HOMOs und des LUMOs im VRML-Plugin möglich ist. Als dritte

Möglichkeit kann der Benutzer auch direkt eines der Molekülorbitale in der

Energieniveauübersicht mit Hilfe des Mauszeigers selektieren.

Abb. 4-19: OrbVis: Java-Applet und VRML-Plugin, HOMO von Anilin (Farbabbildung: Anhang A, Abbildung A-9).

78

Page 91: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.2 Client-seitige Strategien

Die Visualisierung der Molekülorbitale erfolgt auf einer weiteren HTML-Seite, in der

sowohl ein VRML-Plugin als auch ein Java-Applet eingebettet sind (Abbildung 4-19). Das

Applet berechnet anhand der übertragenen Orbitalkoeffizienten und der im Applet

implementierten Wellenfunktion die Elektronendichte für einen gegebenen Isowert und stellt

das resultierende Molekülorbital im VRML-Plugin dar.

Das Applet stellt dem Benutzer einige zusätzliche Werkzeuge zur Verfügung, mit denen

die Szene in vielfältiger Weise manipuliert werden kann. So kann mit Hilfe eines

Schiebereglers (Slider) die Transparenz der Molekülorbitale stufenlos verändert werden.

Darüber hinaus kann mittels eines zweiten Sliders der Isowert bzw. Grenzwert der

Elektronendichte verändert werden. Unmittelbar nach Änderung der Einstellung oder per

Knopfdruck berechnet das Applet die neuen Oberflächen für den entsprechenden Isowert. Mit

Hilfe dieser Option wird auf einfache Weise der Zusammenhang zwischen Elektronendichte

und Ausdehnung der Molekülorbitale vermittelt. Liegen dem Applet sowohl die

Orbitalkoeffizienten des HOMOs als auch die des LUMOs vor, so können beide

Molekülorbitale im VRML-Plugin visualisiert werden. Um eine komfortable Visualisierung

der Applets zu erlauben, können beide Darstellungen auch jeweils einzeln ein- oder

ausgeblendet werden. Eine weitere Option des Applets erlaubt das Exportieren der

berechneten VRML-basierten Molekülorbitale.

4.2.2.3 Implementierung

Wie auch ComSpec3D läuft der OrbVis-Dienst in einem zweistufigen Prozess ab

(Abbildung 4-20). Nach der Übergabe der strukturellen Konnektivitätsinformation an die

CACTVS-Kernbibliothek fordert das erste CGI-Skript die dreidimensionalen Koordinaten

vom Kernsystem an. Die Generierung der 3D-Information wird dabei durch die bereits

beschriebenen Mechanismen realisiert. Das CGI-Skript generiert unter Verwendung der 3D-

Information eine VAMP-Eingabedatei (Schlüsselwort ALLVECTORS) und startet danach das

semi-empirische MO-Programm. Die von VAMP produzierte SD-Datei wird anschließend mit

Hilfe einer entsprechenden CACTVS-Leseroutine eingelesen und analysiert. Im Gegensatz zu

den anderen in diesem Kapitel beschriebenen Applikationen wurden bei der Implementierung

der OrbVis-Anwendung keine spezifischen CACTVS-Module zur Aufnahme der

Orbitalvektorinformation entwickelt. Trotz dieses Sachverhalts erkennt das System

automatisch diese spezifische Information innerhalb der von VAMP generierten SD-Datei

und speichert sie on-the-fly in einem temporären, sogenannten synthetischen Datencontainer

namens E_ORBITALVECTORS (vgl. „synthetische Deskriptoren“, Abschnit 2.3.1.2). Der

Name des Moduls leitet sich dabei automatisch von der Datenfeldbezeichnung innerhalb der

SD-Datei ab. Diese Fähigkeit von CACTVS unbekannte, chemische Datenobjekte

automatisch in nicht-spezifisch definierten Standardmodulen zu erfassen, ermöglicht einen

79

Page 92: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

verlustfreien und unkomplizierten Zugriff auf jede Information innerhalb der SD-Datei. Die

Information in E_ORBITALVECTORS wird anschließend vom CGI-Skript zur Generierung

der dynamischen HTML-Seite benutzt.

Abb. 4-20: Schematische Darstellung einer OrbVis-Sitzung.

Im zweiten Prozessschritt ruft der Benutzer durch Wahl eines Molekülorbitals das zweite

CGI-Skript auf. Dabei wird dem CGI-Skript neben dem Index des Orbitals auch der Pfad zu

der temporären SD-Datei übergeben. Beim Einlesen der temporären Daten durch das

Kernsystem stehen anschließend wieder jede notwendige Information (3D-Koordinaten,

Orbitalvektoren) zur Generierung der Molekülorbitale zur Verfügung, ohne dass eine

wiederholte Neuberechnung nötig ist. In einem nächsten Schritt fordert das CGI-Skript eine

VRML-Repräsentation der Strukturdaten vom CACTVS-Kernsystem an. Die Generierung

dieser Daten erfolgt dabei nach den bereits beim VRML-Generator vorgestellten

Mechanismen. Des Weiteren fordert das CGI-Skript die Orbitalkoeffizienten für das

entsprechende Molekülorbital an. Die berechneten Daten werden in stark komprimierter

Form als Applet-Funktionsparameter an den Client übermittelt. Das mit der VRML-Szene in

HTML-

Formular

Eingabe

Strukturdaten

Orbital-Information

CACTVS-System

Einlesen & Analysechem. Information

CORINA-Modul(3D-Struktur-

generator)

Client Server

3D Koordinaten

VAMP(quantenchem.Berechnungen)

CGI-Skript

VRML-Szene

Auswahl

SDF-Leseroutine

Orbitaldaten-Modul(E_ORBITALVECTORS)

Orbitaldaten-Modul(E_ORBITALVECTORS)

SDF-Leseroutine

VRML-Modul(E_VRML)

temporäresSD File

Ausgabe

Orbital-Information

HTML-

Formular

Auswahl

80

Page 93: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.2 Client-seitige Strategien

der HTML-Seite integrierte Java-Applet nimmt auf diesem Wege die VRML-Szene mit der

Strukturdarstellung als auch die molekularen Orbitalkoeffizienten entgegen. Dem Applet

liegen damit alle chemischen Daten zur Darstellung der Molekülorbitale vor.

Der Vorteil dieser Methode ist, dass nur eine HTML-Seite mit wenigen Zeilen HTML-

Code (1 Zeile pro Atom) anstatt großer Volumendatensätze, die im Fall von Gaussian-Cube-

Dateien in der Regel über ein Megabyte groß sind, oder VRML-Dateien an den Client

übertragen werden müssen. Diese Vorgehensweise ermöglicht eine komplett lokale

Interaktion auf der Clientseite. Die Berechnung der Volumendaten, die Generierung der

Isoflächen (Oberflächen) als auch die Kombination aller Daten in der Basisszene werden

vollständig vom Applet übernommen.

Zur Generierung der Elektronendichte verfügt das Applet über zwei

Minimalbasisfunktionen zur Berechnung von Slater Type Orbitals (STO). Die eine

Wellenfunktion berücksichtigt dabei nur s-Orbitalanteile und kommt daher bei Helium und

Wasserstoff zum Einsatz. Die andere Wellenfunktion wird für alle anderen Atomtypen

verwendet, da sie zusätzlich auch p-Orbitalanteile berechnet. In beiden Funktionen fließen

zum einen die atomspezifischen Normierungsfaktoren der Austin Method 1 (AM1) [121] als

auch die AM1-berechneten Orbitalkoeffizienten ein. Durch Anwendung der quadrierten

Wellenfunktionen auf einem kartesischen Raumgitter ergibt sich letztendlich die

Elektronendichte für das entsprechende Molekül. Aus den Volumendaten werden

anschließend mit dem Marching-Cubes-Algorithmus [25] Isoflächen extrahiert und diese

nach Triangulation mit Hilfe des External Authoring Interface (siehe Abschnitt 2.2.5) in die

Basis-VRML-Szene des Plugins eingebaut. Eine detaillierte Beschreibung der Applet-

Implementierung wird an anderer Stelle vorgenommen [26].

4.2.2.4 Diskussion

Die Visualisierung von Molekülorbitalen ist für das Verständnis chemischer Prozesse wie

beispielsweise Reaktionen von hoher Bedeutung. Im Gegensatz zu molekularen Oberflächen

können diese Daten jedoch nicht durch einfache Algorithmen direkt aus der

dreidimensionalen Struktur abgeleitet werden. Vielmehr ist dafür der Einsatz spezieller,

quantenchemischer MO-Programme notwendig. Dies ist auch der Grund, warum die

Berechnung und Visualisierung von Molekülorbitalen bis heute generell nicht durch Web-

Applikationen möglich ist. Dennoch existieren einige Plugins, die eine Visualisierung

spezieller Volumendaten realisieren können. Der bekannteste Vertreter ist das bereits

mehrfach erwähnte Chime-Plugin. In der aktuellen Version 2 kann Chime auch GAUSSIAN-

Cube-Dateien [24] einlesen und die darin enthaltenen Isoflächen visualisieren. Dieser Ansatz

eignet sich jedoch nur für sehr kleine Volumendatensätze, da Cube-Dateien in der Regel sehr

81

Page 94: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

groß sind (einige zehn Kilobytes bis einige Megabytes) und somit ein Transport über das

Internet sehr zeitaufwendig ist. Einen anderen Ansatz verfolgt das Chem3D-Plugin der Firma

CambridgeSoft [122]. Das Plugin kann das kleine, firmenspezifische C3D-Format lesen. Ein

großer Nachteil dieser Methode besteht jedoch darin, dass dieses Format von einer

entsprechenden kommerziellen Applikation (Chem3D Ultra) aus quantenchemischen

Austauschformaten generiert werden muss.

Alternativ zu den Plugin-basierten Methoden kann auch VRML zur Visualisierung der

Molekülorbitale zum Einsatz kommen. Erste VRML-basierte Beispiele zur Visualisierung

von Atomorbitalen wurden von Brickmann vorgestellt [9]. Dieser auf VRML1.0 basierende

Ansatz ermöglicht dem Benutzer die Berechnung und Visualisierung von Atomorbitalen des

Wasserstoffsatoms. Nach Selektion eines Atomorbitals in einem HTML-Formular berechnet

eine Server-seitige Wellenfunktion die korrespondierende Elektronendichte. Für einen vom

Benutzer definierten Isowert wird im Anschluss die Oberfläche des Atomorbitals berechnet

und schließlich in einer VRML-basierten Solid-, Linien- oder Point-Darstellung

repräsentiert. Leider können mit Hilfe des Service nur die Atomorbitale (s, p, d) des

Wasserstoffatoms berechnet und dargestellt werden. Des Weiteren wird das veraltete

VRML1.0-Format von vielen VRML-Leseapplikationen nicht mehr unterstützt.

Das Potential von VRML-basierten MO-Darstellungen zum leichteren Verständnis von

theoretischen Grundlagen wurde auch in dem Buch „The Chemist’s Electronic Book of

Orbitals“ genutzt [123]. Im Gegensatz zu dem auf Wasserstoff limitierten zuvor

beschriebenen Ansatz, bietet die dem Lehrbuch beiliegende CD VRML-basierte

Molekülorbitaldarstellungen von über 160 Molekülen. Dabei kann nicht nur ein einzelnes

Molekülorbital sondern alle berechneten MOs für die jeweilige Verbindung dargestellt

werden. Leider basieren auch diese VRML-Szenen auf dem veralteten VRML1.0-Format.

Darüber hinaus ist die Darstellung Molekülorbitale nur auf die vorhandenen Moleküle

begrenzt.

Während die beschriebenen Methoden das Vorliegen vorberechneter Originaldaten

erfordern oder in ihrer Anwendung stark limitiert sind, werden im Folgenden Ansätze

vorgestellt, die eine interaktive Berechnung und Visualisierung beliebiger Molekülorbitale

erlauben. Eine entsprechende Applikation ist der bereits beschriebene Waltz-Dienst [116].

Nachdem sich ein Benutzer für den Online-Service registrieren lassen hat, kann er mittels

eines HTML-basierten Periodensystem die gewünschten Atomtypen und deren Anzahl

festlegen. Auf der nächsten Seite müssen anschließend die 3D-Koordinaten der Atome

angegeben werden. Nach der im Anschluss folgenden quantenchemischen Berechnung

werden die Orbitale in Form von Bildern dargestellt. Der Benutzer kann aber auch eine

alternative VRML-Darstellung wählen. Diese VRML-basierte Repräsentation enthält

82

Page 95: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.2 Client-seitige Strategien

allerdings keinerlei strukturelle Information. Obwohl die dreidimensionalen Koordinaten

aufgrund der Möglichkeit zur Geometrieoptimierung nicht exakt angegeben werden müssen,

ist das Eingabeverfahren sehr unkomfortable und kompliziert. Für den Einsatz im chemischen

Unterricht ist diese Methode der Dateneingabe darüber hinaus vollkommen ungeeignet.

Die OrbVis-Applikation stellt nach unserer Erkenntnis das einzige System dar, das sowohl

die Berechnung als auch die Visualisierung der Molekülorbitale vollständig auf der

Clientseite realisiert. Diese Architektur beinhaltet mehrere Vorteile. Zum einen ist die Menge

der über das Internet transportierten Daten sehr klein, da die Berechnung der verhältnismäßig

großen Volumendaten vollständig auf dem Client durchgeführt werden kann. Durch diesen

Ansatz werden des Weiteren auch die guten 3D- und Rechen-Leistungen heutiger Standard-

PCs unterstützt.

Der wichtigste Vorteil der Applikation liegt jedoch in der Gewährleistung einer schnellen

Reaktion auf Benutzereingaben und dem damit verbundenen Höchstmaß an Interaktion. Der

Benutzer kann beispielsweise den Detailierungsgrad und die Transparenz der Molekülorbitale

einstellen, einzelne Orbitale voneinander unabhängig ein- oder ausblenden oder die

Grenzwerte für die Orbital-Isoflächen dynamisch verändern, so dass die

Elektronendichteverteilung interaktiv verfolgt werden kann. Der Einsatz des Struktureditors

zur Eingabe von Molekülen erlaubt auch in diesen Fall den unkomplizierten Einsatz der

Anwendung an Schulen und Universitäten.

Die Akzeptanz des Webdienstes zeigt sich vor allem in den hohen Nutzungszahlen.

Innerhalb der letzten zwei bis drei Jahre wurde die Anwendung bereits über 13.000 mal

aufgerufen. Darüber hinaus wurde die Applikation auch in wissenschaftlichen Publikationen

anderer Autoren beschrieben [126].

OrbVis wurde im Rahmen eines Software-Praktikums [127] auch als reine Java-basierte

Applikation weiterentwickelt. Durch diese Architektur kann somit auf den Einsatz und die

Installation eines zusätzlichen VRML-Viewers verzichtet werden. Die dreidimensionale

Visualisierung der Molekülorbitale wird stattdessen mit der Java3D-Erweiterung (vgl.

Abschnitt 2.2.6) realisiert. Des Weiteren wurde im Rahmen des ChemVis-Projekts eine

Prototyp-Applikation zur Animation von Molekülorbitalen während einer chemischen

Reaktion entwickelt [128].

4.2.3 Weitere Client-seitige Ansätze

Der Großteil der aktuellen Web-Applikationen wie die chemischen Plugins werden

vollständig auf der Clientseite ausgeführt. Generell basieren diese Ansätze aber nicht auf

dreidimensionalen Visualisierungsmethoden, sondern nutzen vielmehr Techniken wie die

83

Page 96: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Pseudo-3D-Darstellung zur Vermittlung eines räumlichen Eindrucks. Aus diesem Grund

können diese Applikationen daher nicht zu den hier besprochenen Ansätzen gezählt werden.

Es gibt jedoch auch Ausnahmen. Durch den Einsatz der Java3D-Erweiterung können heute

Web-Applikationen entwickelt werden, die das 3D-Graphik- und Rechen-Potential heutiger

Client-Systeme nutzen können. Ein erster Vertreter dieser neuen Klasse von Applikationen

stellt das SRS 3D Modul der Firma Lion Bioscience dar [92].

Während die bis dato beschriebenen Applikationen alle auf der Isoflächen-basierten

Volumenvisualisierung aufbauen, wurden im Rahmen des ChemVis-Projekts auch Ansätze

zur Client-seitigen, Textur-basierten Visualisierung verfolgt. Diese Art der Visualisierung war

bis vor wenigen Jahren nur auf mit entsprechender 3D-Texturhardware ausgestatteten

Hochleistungsrechner möglich.

Die modernen low-cost Graphikkarten, die vor allem für Spiele- und

Multimedianwendungen konzipiert wurden, verfügen jedoch zunehmend über leistungsfähige

Multitextureinheiten. Speziell für diese Client-seitigen Hardware-Architekturen wurde von

unseren Projektpartnern im ChemVis-Projekt ein sogenannter Pre-Integrated Volume

Rendering-Ansatz entwickelt, der eine hochaufgelöste, direkte Volumenvisualisierung

wissenschaftlicher Daten zulässt [20]. Die Bildwiederholungsraten liegen dabei teilweise

deutlich über den von Hochleistungsworkstations erzielten Raten. Eine detaillierte Übersicht

dieser Ansätze wurde von Engel beschrieben [26].

4.3 Server-seitige Strategien

4.3.1 Definition

Abb. 4-21: Server-seitige Strategien.

Filter Mapper Renderer

Darstellung

Simulation

Datenbank

Sensoren

Rohdaten BilderVideo

Interaktion

Visualisierungspipeline

Server Client

84

Page 97: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.3 Server-seitige Strategien

Server-seitige Ansätze (Abbildung 4-21) verlagern die Module der Visualisierungspipeline

auf einen oder mehrere leistungsstarke Hochleistungsrechner, welche die zur Visualisierung

notwendigen Berechnungen unter Ausnutzung leistungsfähiger Spezialhardware durchführen.

Die von den Servern berechneten Bilder werden zu Arbeitsplatzrechnern übertragen, die als

einfache Anzeigegeräte fungieren. Durch Rückübertragung der Client-seitigen

Benutzereingaben an den Server kann die Visualisierung beeinflusst werden.

Diese Strategie wird vor allem bei sehr großen Datensätzen eingesetzt. In der Regel liegen

chemische Datensätze in einer Größenordnung, die eine Visualisierung durch die bereits

beschriebenen Ansätze erlaubt. Darüber hinaus setzt die Server-seitige Strategie

entsprechende Hochleistungsrechner und spezielle Graphikhardware voraus. Aus diesen

Gründen spielen Server-seitige Visualisierungsstrategien zur Zeit innerhalb der Chemie keine

bedeutende Rolle. Diese Situation wird sich in den kommenden Jahren jedoch drastisch

verändern. Neue Analysetechniken wie die Cryo-Elektronenmikroskopie generieren bereits

jetzt Volumendatensätze von mehreren Megabytes. Die aus den Volumendaten abgeleiteten

Isoflächen bestehen dabei aus einigen hunderttausend Primitiven und können somit auch

nicht mit moderner 3D-Graphikhardware interaktiv dargestellt werden. Ein Server-seitiger

Lösungsansatz zur Darstellung großer Volumendaten wird im Folgenden Abschnitt

beschrieben.

4.3.2 Server-seitige Anwendungen

Die Größe durch Cryo-Elektronenmikroskopie generierter Volumendatensätze hängt

proportional von der Auflösungsgrenze dieser neuen Analysetechnik ab. Während bei einer

Auflösung von 18 Å noch ein Volumendatensatz von 723 Voxeln (~1,5 GB, ~40.000

Dreiecke) resultiert, steigt die Größe des Datensatz bei einer Auflösung von 13 Å bereits auf

1603 Voxel (~16,4 GB, ~300.000 Dreiecke) an. Die momentane Auflösungsgrenze liegt

unterhalb von 10 Å und produziert entsprechend große Datensätze. Der Transport dieser

Datensätze über das Internet verbietet sich aufgrund ihrer Größe. Darüber hinaus sind die

resultierenden Szenen auch nicht mehr mit Standardgraphikhardware darstellbar.

Im Rahmen des ChemVis-Projektes wurde deshalb von unseren Projektpartnern eine

Server-seitige Anwendung zur interaktiven Visualisierung großer Volumendatensätze

entwickelt. Die Architektur setzt dabei auf bereits bestehende, Server-seitige OpenInventor

bzw. Cosmo3D-Visualisierungsapplikationen auf. Durch Modifikation der Szenengraphen

können die auf dem Server generierten Darstellungen komprimiert und an die Clients

übermittelt werden. Bei diesem Vorgang wird lediglich eine Folge dynamisch generierter 2D-

Bilder (image stream) an die Java-basierten Client-Applikationen übermittelt.

Benutzerinteraktionen auf der Clientseite werden mittels CORBA-Aufrufe zurück an den

85

Page 98: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

Visualisierungsserver geleitet und dort wie lokale Ereignisse behandelt. Mit Hilfe dieser

Architektur können somit auch aufwendige und große Volumendaten auf Personalcomputern

dargestellt werden, die nur über einfache 2D-Graphikhardware verfügen. Da diese Ansätze

im Rahmen der vorliegenden Arbeit keine zentrale Rolle gespielt haben, wird für eine

detaillierte Beschreibung auf andere Quellen verwiesen [26].

4.4 Diskussion der Strategien

Komplexe chemische Zusammenhänge können durch die Einbettung dreidimensionaler

Darstellungen in digitale Dokumente besser verstanden werden. Eine interaktive Darstellung

ist aber durch die teilweise enorme Menge an Daten, die hierzu übertragen und dargestellt

werden muss, nicht ohne intelligente Strategien zur Verteilung der Lasten auf Client- und

Server-Systeme möglich. Die Wahl der geeigneten Strategie hängt dabei von einer Vielzahl

von Parametern ab.

Durch die anfangs erwähnten hybriden Strategien können sowohl Server-seitig als auch

Client-seitig vorhandene Graphik-, Speicher- und Rechen-Kapazitäten zur Optimierung der

Interaktivität bei gleichzeitiger Minimierung der Netzlast optimal genutzt werden. Der Vorteil

dieser Strategien ist, dass die meist sehr großen Rohdaten auf dem Server verbleiben können

und nicht über das Internet transportiert werden müssen. Diese Architektur ist auch dann

interessant, wenn die Rohdaten aus Datenschutzgründen nicht an den Client übertragen

werden sollen.

Die enorm gestiegenen Rechen- und Graphik-Fähigkeiten heutiger Standard-PCs werden

vor allem in den Client-seitigen Ansätzen genutzt. Da die Darstellungsfähigkeiten der Client-

Systeme in den nächsten Jahren noch weiter ansteigen werden, wird die Client-Strategie in

Zukunft immer mehr an Bedeutung gewinnen. Der Hauptvorteil dieser Strategie ist, dass nach

dem Transfer der Daten keine weitere Datenübertragung notwendig ist, wodurch

Verzögerungen durch Netzwerklast oder Netzwerklatenz wegfallen. Diese Vorgehensweise

erlaubt eine rein lokale Interaktion mit den Daten bei gleichzeitiger Balancierung von

Rendering-Qualität und Echtzeit-Performance.

Die zuletzt vorgestellten Server-seitigen Strategien kommen vor allem zum Einsatz, wenn

auf der Clientseite nicht die für interaktive Visualisierung notwendige Hardware zur

Verfügung steht, die vorhandene Spezialhardware eines Hochleistungsrechners genutzt

werden soll oder ein Transfer der Originaldaten aus Bandbreiten- oder Sicherheitsgründen

nicht möglich ist.

Der Zugriff auf digitale Dokumente der Chemie ist heute über eine Vielzahl

unterschiedlicher Rechnerplattformen und Netzwerkinfrastrukturen möglich. Um jeder dieser

86

Page 99: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4.4 Diskussion der Strategien

möglichen Zugriffskonfigurationen eine optimale Interaktion mit der eingebetteten

Information zu ermöglichen, ist eine adaptive Anpassung der Client-Server-Strategie an die

jeweils vorliegenden Verhältnisse nötig. So können zu Beginn oder während einer

Visualisierungssitzung die Kapazitäten auf der Client- und Server-Seite sowie die Bandbreite

und Latenz des verbindenden Netzwerks überprüft werden, um daraus die jeweilige optimale

Client-Server-Strategie zu ermitteln.

Beispielsweise können zu Beginn einer Sitzung die graphischen Kapazitäten des Client-

PCs ermittelt werden und bei Vorliegen entsprechender Hardware rein Client-seitige

Strategien zum Einsatz kommen. Andernfalls wird je nach Auslastung des Servers eine

Server-Strategie oder ein hybrider Ansatz gewählt. Die Wahl der jeweiligen Strategie kann

natürlich auch während einer Sitzung ständig neu angepasst werden. So kann beispielsweise

zu Beginn ein Server-seitiger Ansatz verfolgt werden. Steigt dann während der Sitzung die

Serverlast und damit auch die Antwortzeiten so ist ein Umstieg auf andere Strategien

denkbar.

87

Page 100: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

4 Client-Server-basierte Visualisierung

88

Page 101: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 5

Data Mining und Datenvisualisierung

Dieses sowie die zwei folgenden Kapitel beschäftigen sich mit dem zweiten thematischen

Schwerpunkt dieser Arbeit – der Visualisierung und dem Data Mining von großen, multidi-

mensionalen und multivariaten Datensätzen. Der erste Teil des Kapitels beschreibt zunächst

die diversen Begriffsdefinitionen und Eigenschaften des Data Mining (DM) und betrachtet

dabei die Aufgabe des Data Minings im chemischen Alltag. Darüber hinaus werden die wich-

tigsten, in der chemischen und pharmazeutischen Forschung eingesetzten Data Mining-

Methoden erläutert.

Die im Rahmen dieser Arbeit entwickelten Methoden und Applikationen basieren auf

einer besonderen und neuartigen Form des Data Mining – dem Visuellen Data Mining. Der

zweite Teil des Kapitels 5 widmet sich deshalb diesem speziellen Forschungsfeld und

beschreibt die grundsätzlichen Merkmale und Ansätze von visuellen Data Mining-Techniken.

Dabei werden ebenfalls die Vorteile des visuellen Data Minings gegenüber den klassischen

Data Mining-Ansätzen erläutert.

Visuelles Data Mining basiert auf Techniken der Informationsvisualisierung. Der letzte

Teil dieses Kapitels widmet sich deshalb den unterschiedlichen Ansätzen der Informationsvi-

sualisierung.

5.1 Data Mining und Knowledge Discovery in der Chemie

Mehr als in anderen wissenschaftlichen Disziplinen beruht der Alltag in der Chemie und

hier insbesondere in der Wirkstoffentwicklung zu großen Teilen auf der Abfrage und Analyse

von bereits bestehendem Wissen. So nutzen Chemiker während des langjährigen Entwick-

lungsprozess eines Medikaments unter anderem Erfahrungen und vorhandenes Wissen über

Struktur-Aktivitäts-Beziehungen, Syntheseregeln, Löslichkeiten und toxikologische Verhal-

tensweisen. Bis zur Marktreife eines neuen Medikaments werden dabei nicht nur große Men-

gen an bestehendem Wissen genutzt, sondern auch Unmengen an neuen Daten generiert

sowie größenordnungsmäßig 15 Jahre Forschungszeit und zwischen 500 - 800 Millionen US

89

Page 102: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

Dollar investiert. Um den Zeitbedarf und die Entwicklungskosten zu verringern, wurde eine

Reihe von neuen, automatisierten Labortechniken wie beispielsweise die kombinatorische

Chemie, das High-Throughput-Screening (HTS) als auch Syntheserobotikanlagen entwickelt,

die die Zahl der synthetisierten und getesten, potentiellen Wirkstoffverbindungen erhöhen

sollten. Durch den mittlerweile routinemäßigen Einsatz dieser Techniken werden heute

Datenvolumina generiert, die um mehrere Größenordnungen höher sind als die Zahl der

durch herkömmliche Ansätze erhaltenen Versuchsergebnisse. Diese Daten werden dabei in

Datenbanken gespeichert und können bei Bedarf wieder abgefragt werden. Das weitaus grö-

ßere Potential der generierten Daten liegt jedoch in den in ihnen verborgenen Information, die

sich aus den Relationen zwischen den gesammelten Daten ergibt. Diese implizit in den Daten

enthaltene Information wie beispielsweise die Ähnlichkeit zwischen verschiedenen Struktur-

daten ist der zentrale Schlüssel für die Generierung von chemischen Modellen sowie zur Vor-

hersage von allgemeinen, chemischen Sachverhalten.

Das Ziel der Wirkstoffforschung ist daher in erster Linie nicht die Generierung von

Unmengen an Daten, sondern die Extraktion des in den Daten verborgenen, chemischen Wis-

sens. Der dabei durchlaufende Prozess wird als Data Mining, Knowledge Discovery in Data-

bases (KDD, Wissensextraktion aus Datenbanken) oder auch als Information Retrieval (IR)

bezeichnet. Dabei werden in zahlreichen auf diesem Gebiet erschienenen Veröffentlichungen

diese drei Begriffe teilweise sehr unterschiedlich definiert. Dies äußert sich unter anderem

dadurch, dass in der Informatik deutlich zwischen Data Mining, KDD und Information

Retrieval unterschieden wird während in anderen Gebieten wie beispielsweise der Chemoin-

formatik diese drei Begriffe häufig Synonyme für den gleichen Vorgang sind. Es soll daher an

dieser Stelle nicht der Versuch einer korrekten Begriffsdefinition unternommen sondern viel-

mehr die wesentlichen Eigenschaften und Eigenheiten des Data Mining sowie dessen Rolle in

der chemischen Forschung erläutert werden.

Die grundsätzlichen Stufen des KDD-Prozess sind in Abbildung 5-1 schematisch darge-

stellt.

Abb. 5-1: Schematische Darstellung des KDD-Prozessablaufs.

SelektionVorverar-beitung

Transfor-mation

InterpretationEvaluation

DataMining

Rohdaten Wissen

Integration vonApriori-Wissen

RauschunterdrückungBehandlung fehlender

Daten

DatenreduktionDatenprojektion

MustersucheKlassifikation

Clusteranalyse

Muster-VisualisierungEntfernen redundanter

Muster

90

Page 103: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.1 Data Mining und Knowledge Discovery in der Chemie

Das Schema basiert dabei auf der allgemein anerkannten Definition des KDD-Begriffs von

Fayyad [129]:

"Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der

Identifizierung gültiger, neuartiger, potentiell nützlicher und verständlicher

Muster in (großen) Datenbeständen.“

Die einzelnen Prozessstufen wie Datenpräparierung, -auswahl, -säuberung, die Integration

geeigneten apriori-Wissens sowie eine entsprechende Interpretation und Analyse der Ergeb-

nisse sorgen schließlich dafür, dass wirklich nützliches und neues Wissen aus den Daten

abgeleitet werden kann.

In der Vorverarbeitung der Daten wird dabei vor allem das Hintergrundrauschen minimiert

und/oder fehlende Daten zur selektierten Datenmenge hinzugefügt. Durch anschließende

Datenreduktions- und Projektionstechniken werden die in der Regel hochdimensionalen

Datensätze in leichter handhabbare, niederdimensionale Daten transformiert. Der nachfol-

gende Analyseschritt ist die zentrale und wichtigste Stufe im gesamten Prozessablauf und

beinhaltet diverse Analyseverfahren zur Mustererkennung, Klassifizierung und Clusterung

der reduzierten Daten. Während innerhalb der KDD-Forschung dieser Schritt als Data Mining

definiert wird, steht außerhalb dieses speziellen Forschungsgebietes der Begriff "Data

Mining" als Synonym für den gesamten KDD-Prozess. Diese weiter verbreitete Begriffsdefi-

nition hat sich auch im Umfeld der Chemie durchgesetzt und soll daher auch im Rahmen die-

ser Arbeit als Oberbegriff für den gesamten KDD-Prozess dienen. Eine für die chemische

Forschung typische Data Mining-Sitzung ist in Abbildung 5-2 dargestellt.

Ausgangspunkt für die Extraktion verborgenen Wissens sind in diesem Beispielfall biolo-

gische Aktivitätsdaten, die mittels Hight-Throughput-Screening generiert wurden. Diese

Daten sind an sich zunächst nur bedingt nützlich. Um zu wertvollen Informationen zu gelan-

gen, müssen die Daten in einem bestimmten Kontext betrachtet werden. Im Fall der biologi-

schen Aktivitätsdaten bedeutet dies, dass die gemessenen Daten nur dann sinnvoll

weiterverarbeitet werden können, wenn die dazugehörigen Verbindungen bzw. Strukturdaten

ebenfalls bekannt sind. Erst durch diese Zuordnung werden aus experimentellen Rohdaten

verwertbare Informationen.

In erster Linie dienen die generierten Daten dem Chemiker nach wie vor zur Abfrage und

Analyse der experimentellen Werte. Dabei stehen einfache Fragestellungen wie beispiels-

weise die Suche nach der biologisch aktivsten Verbindung im Vordergrund. Während diese

Aufgabenstellung aufgrund der limitierten Größe herkömmlicher, durch klassische Synthese-

methoden generierter Datensätze problemlos zu lösen war, gleicht die Suche nach der richti-

gen Antwort in den heutigen, umfangreichen und durch automatisierte Techniken erhaltenen

91

Page 104: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

Datensätzen der sprichwörtlichen Suche nach der Nadel im Heuhaufen. Eine Anforderung an

moderne, computergestützte Data Mining-Ansätze sind daher effektive Information Retrie-

val-Mechanismen, welche eine schnelle unf unkomplizierte Abfrage von Datenbankinforma-

tionen ermöglichen.

Abb. 5-2: Von chemischen Daten zu chemischen Modellen und Vorhersagen.

Die Hauptaufgabe des Data Mining ist jedoch die weitergehende Analyse der generierten

Datensätze, um in den Daten verborgene Gesetzmäßigkeiten zu extrahieren und diese in Form

von Vorhersagen zu nutzen. Im vorliegenden chemischen Beispielfall bedeutet dies, dass mit

Hilfe von statistischen Methoden oder Neuronalen Netzen neues Wissen über die Zusammen-

hänge zwischen Struktur und Aktivität ermittelt werden können. Die resultierenden Struktur-

Aktivitätsmodelle erlauben letztendlich die Vorhersage von biologischen Aktivitäten für

andere chemische Verbindungen. Eine kurze Beschreibung der für die Chemie wichtigsten

Data Mining-Verfahren wird im folgenden Abschnitt dargestellt.

5.2 Data Mining-Methoden in der Chemie

Der Prozess des Data Mining ist in der Chemie nicht neu. Chemiker nutzen seit den frühen

Anfängen der chemischen Forschung sowohl eigene Daten als auch Literaturangaben für die

Entwicklung von Modellen und zur Vorhersage von Sachverhalten. Die dramatische

Zunahme der Größe von Datensätzen fordertete jedoch den Einsatz von effektiven, computer-

gestützten Data Mining-Methoden. Dabei kamen zunächst nur klassische Statistikmethoden

Allgemein

Kontext Chemische Struktur

Neuronale Netze

Aktivitätsmodell

Vorhersage

Daten

Information

Wissen

Datenpaare

Wissen

Biol. Aktivität

Aktivitätsvor-hersage

Wirkstoffentwicklung

92

Page 105: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.2 Data Mining-Methoden in der Chemie

zum Einsatz. Speziell ausgebildete Statistiker arbeiteten sich mit Hilfe besonderer Software-

pakete durch Unmengen an Daten und versuchten die darin verborgene Information zu extra-

hieren. Der dafür notwendige Arbeits- und Zeitaufwand war enorm und führte häufig nicht

zum gewünschten Erfolg. Erst durch die Entwicklung schneller Rechnersysteme konnten

neue, auf künstliche Intelligenz basierende Analyseverfahren, sogenannte Machine Learning-

Methoden entwickelt werden. Die darauf basierenden Techniken erlaubten erstmals die

Lösung komplexerer Data Mining-Probleme.

Aufgrund der teilweise sehr diversen Definitionen des Data Mining-Begriffs gestaltet sich

auch eine detaillierte und allgemein gültige Aufteilung und Klassifizierung der verschiedenen

Data Mining-Methoden als schwierig. So werden je nach Standpunkt des Betrachters statisti-

sche Methoden und Projektions- bzw. Transformationsverfahren entweder zu den Data

Mining-Methoden gezählt oder auch nicht. Darüber hinaus können die einzelnen Methoden

sehr unterschiedlich zusammengefasst bzw. klassifiziert werden. Eine mögliche Gruppierung

geht dabei von den Machine Learning-Ansätzen aus und unterscheidet beispielsweise zwi-

schen sogenannten supervised und unsupervised learning-Mechanismen. Andere Ansätze

wiederum unterscheiden die verwendeten Methoden anhand der zu analysierenden Datenty-

pen (z. B. hierarchisch vs. nicht-hierarchisch, linear vs. nicht-linear, etc.) oder anhand von

typischen Analysemodellen der Informatik (Sequenzanalyse, Verbindungsanalyse, zusam-

menfassende Analyse, Cluster-Analyse, etc.). Aus diesem Grund und der unüberschaubaren

Anzahl an verschiedenen Methoden soll im Folgenden auf eine detaillierte und genau diffe-

renzierte Beschreibung der einzelnen Data Mining-Techniken verzichtet werden und viel-

mehr nur eine grobe Übersicht der wichtigsten, für die chemische Forschung relevanten Data

Mining-Methoden vermittelt werden. Da nicht jede Data Mining-Methode für ein gegebenes

Analyse-Problem geeignet ist, muss in der Regel vorher eine Analyse der Stärken und Schwä-

chen der jeweiligen Technik vorgenommen werden. Darüber hinaus können durch Kombina-

tion diverser Data Mining-Methoden häufig bessere Ergebnisse erzielt werden.

Die chemische Information wird bei der computergestützten Analyse in der Regel

zunächst in eine sogenannte deskriptive Datenstruktur überführt. Diese Datenstrukturen wer-

den auch als molekulare Deskriptoren bezeichnet und sind das Ergebnis mathematischer Ver-

fahren, welche die chemische Information in sinnvolle, numerische Werte überführen. Es

existiert eine Vielzahl an molekularen Deskriptoren unter anderen für topologische, elektroni-

sche und strukturelle Eigenschaften. Chemische Datensätze enthalten in der Regel eine ganze

Reihe solcher Deskriptoren, da komplexe Sachverhalte und Relationen zwischen Datenobjek-

ten nicht ausreichend durch eine oder wenige molekulare Datendimensionen beschrieben

werden können. Der sich daraus ergebende, hochdimensionale Charakter der Datensätze setzt

jedoch besondere Analysemethoden voraus.

93

Page 106: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

5.2.1 Mulivariate Statistikmethoden

Eine Möglichkeit zur Analyse multivariater bzw. multidimensionaler Daten stellen soge-

nannte multivariate Statistikmethoden dar, die auf Regressions- und Patter Recognition- bzw.

Projektionsverfahren basieren. Es kann dabei grundsätzlich zwischen linearen und nichtlinea-

ren Methoden unterschieden werden. Bei den linearen Ansätzen haben vor allem die Princi-

pal Component Analysis (PCA), die Linear Discriminant Analysis (LDA), die Principal

Component Regression (PCR), die Multiple Linear Regression (MLR) sowie die Partial

Least Squares(PLS)-Methode weite Verbreitung bei der Analyse chemischer Daten gefunden

[130-137]. Während die PCA lediglich eine klassische Projektionsmethode darstellt, die

hochdimensionale Datensätze in niederdimensionale Datensätze überführt, erlauben PCR,

MLR oder PLS darüber hinaus die Bildung von Vorhersagemodellen. Bei den nichtlinearen

Verfahren kommt vor allem das Multidimensional Scaling (MDS) zum Einsatz [139-141].

Stellvertretend für die beiden Ansätze sollen im Folgenden kurz auf die Vor- und Nachteile

sowie auf die Methodik der PCA und des MDS eingegangen werden.

5.2.1.1 Principal Component Analysis (PCA)

Die Principal Component Analysis [131] ist eine mathematische Methode, die einen hoch-

dimensionalen Datensatz mit korrelierenden Eigenschaftsvektoren in einen niederdimensio-

nalen Datensatz mit nicht-korrelierenden, orthogonalen Eigenschaftsvektoren, den

sogenannten Principal Components, transformiert.

Der Mechanismus der PCA lässt sich an folgendem Beispiel einfach verdeutlichen. Gege-

ben sind hundert chemischen Verbindungen, zu denen jeweils drei Eigenschaften bzw.

Deskriptoren ermittelt wurden. Die resultierenden 100 Datenpunkte können in einem Koordi-

natensystem eingetragen werden, dessen Koordinatenachsen durch die drei Eigenschaftsde-

skriptoren ausgedrückt werden. Die erste Principal Component (PC) wird nun so in das

Koordinationssystem integriert, dass die größtmögliche Varianz über alle Datenpunkte erfasst

wird. Bildlich gesprochen bedeutet dies, dass ein Vektor entlang des längsten Durchmessers

der Datenpunktwolke angeordnet werden muss. Die zweite PC wird nun so in die Datenwolke

eingebettet, dass sie zum einen orthogonal zur ersten PC ist und zum anderen die verbliebene

Datenvarianz bestmöglichst beschreibt. Für alle weitere PCs wird nach dem gleichen Schema

vorgegangen. Durch die orthogonale Anordnung der Principal Components spannen jeweils

zwei PCs eine rechtwinklige Fläche auf, auf die nun alle Datenpunkte linear projiziert wer-

den. Diese niederdimensionale Auftragung dient letztendlich zur Visualisierung und Analyse

der Daten.

In dem beschriebenen Beispiel wurde nur von drei Eigenschaftdeskriptoren ausgegangen.

Chemische Datensätze enthalten jedoch oft mehr als drei Dimensionen, so dass anstatt eines

94

Page 107: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.2 Data Mining-Methoden in der Chemie

dreidimensionalen Koordinatensystem ein k-dimensionales System eingesetzt werden muss.

Obwohl solche höherdimensionalen Systeme in der Regel die menschliche Vorstellungskraft

übersteigen, sind sie aus der Sicht der Mathematik genauso leicht zu lösen wie das beschrie-

bene, dreidimensionale Beispielsystem.

Seit dem erstmaligen Einsatz der PCA in der Chemie in den Sechziger-Jahren hat sich

diese Methode zu einer der meistgenutzten Analysemethode für multivariate Daten entwik-

kelt [132]. Die PCA dient dabei nicht nur zur Reduktion der Dimensionalität bzw. Komplexi-

tät der Datensätze, sondern erlaubt zudem die Identifikation von Ausreissern, die Selektion

von Variablen und kann zur Vorhersage von Eigenschaften eingesetzt werden.

5.2.1.2 Multi-Dimensional Scaling (MDS)

Beziehungen zwischen chemischen Daten können nicht immer erfolgreich durch lineare

Ansätze beschrieben bzw. analysiert werden. In diesen Fällen kommen deshalb nicht-lineare

Analysetechniken wie nicht-lineare Projektionsmethoden zum Einsatz. Ein Vertreter dieser

Klasse von Analysemethoden ist das Multi-Dimensional Scaling(MDS)-Verfahren, das auch

unter den treffenden Namen Nonlinear Mapping (NLM) bekannt ist. Hierbei werden paar-

weise Ähnlichkeiten bzw. Distanzen zwischen Datenobjekten analysiert, um die Dimensiona-

lität des Datensatzes zu reduzieren. Häufig wird der Datensatz dabei in einen zwei- oder

dreidimensionalen, euklidischen Raum projiziert, der eine bessere Analyse und Visualisie-

rung der Relationen zwischen den Datenpunkten erlaubt [138].

In der Chemie werden MDS-Verfahren häufig zur Analyse von chemischen Ähnlichkeiten

eingesetzt. Die molekularen Ähnlichkeiten werden dabei zunächst in eine symmetrische

Matrix überführt, die alle paarweisen Beziehungen zwischen den Molekülen enthält. Da diese

Matrix nur schwer zu analysieren ist, werden die Datenobjekte in einem nächsten Schritt in

ein euklidisches System transformiert, wobei die paarweisen Beziehungen so gut wie möglich

erhalten bleiben. Ende der Siebziger-Jahren wurde dieses Verfahren erstmals in der Chemie

eingesetzt [139]. Jedoch hat das MDS vor allem in den letzten Jahren durch die kombinatori-

sche Chemie und der damit verbundenen Datenflut an Bedeutung gewonnen [140, 141].

5.2.2 Neuronale Netze

Künstliche neuronale Netze (KNN, engl. artificial neural network ANN) basieren auf

neurobiologischen Modellen. Dabei bestehen die Netze aus einer Vielzahl unabhängiger, ein-

facher Einheiten den sogenannten Neuronen, die in definierter Weise miteinander verbunden

[142]. Die einfachste Darstellung dieser Methode beschreibt ein neuronales Netz dabei als

"Black Box", welche eine m-dimensionale Eingabe in eine n-dimensionale Ausgabe transfor-

95

Page 108: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

miert. In der Regel handelt es sich bei der "Black Box" um ein starres, geschichtetes Netzwerk

von verknüpften Neuronen, welches sich in verschiedene Ebenen aufteilt. Eine Eingabe-

schicht (engl. input layer) nimmt zunächst die Eingabedaten entgegen. Diese werden

anschließend in einer oder mehreren verborgenen Schichten (engl. hidden layer) prozessiert

und schließlich in der Ausgabeschicht (engl. output layer) wieder ausgegeben. Je nach Ver-

knüpfungsart der Schichten unterscheidet man zwischen vorwärts gerichteten, lateralen und

rückgekoppelten Netzen. Eine detailliertere Beschreibung neuronaler Netze findet sich an

anderer Stelle [143]. Der Einsatz von neuronalen Netzen bietet wahrscheinlich die umfang-

reichsten Analysemöglichkeiten. So können mit Hilfe dieser Analysetechnik diverse Pro-

blemstellungen wie Mustererkennung, Vorhersagen, Bestimmungen von Ähnlichkeiten,

Klassifizierungen und Transformationen bearbeitet werden. Aus diesem Grund gehören neu-

ronale Netze heute zu den am meistgenutzten Data Mining-Methoden.

Neuronale Netze werden seit 1988 im Bereich der Chemie eingesetzt [143] und haben seit-

dem eine große Verbreitung in diversen Einsatzgebieten erfahren. Eine entsprechende Über-

sicht findet man in dem Übersichtsartikel von Zupan und Gasteiger [144].

Neuronale Netze basieren auf sogenannten Lernregeln. Dabei kann grundsätzlich zwischen

überwachten und nicht-überwachten Strategien unterschieden werden. Stellvertretend für die

diversen Verfahren sollen im Folgenden das Counterpropagation- und das Kohonen-Netz-

werk vorgestellt werden.

5.2.2.1 Kohonen-Netzwerke

Zu den bekanntesten Vertretern der nicht-überwachten Lernmethoden (engl. unsupervised

learning) gehören die selbstorganisierenden Karten (engl. self-organizing feature map SOM).

Das Konzept dieses Verfahrens wurde von Teuvo Kohonen entwickelt, weshalb diese

Methode auch unter der Bezeichnung Kohonen-Karten bzw. Kohonen-Netzwerke bekannt ist

[145, 146, 147]. Im Fall der Kohonen-Netzwerke werden dem selbstorganisierendem, neuro-

nalem Netzwerk lediglich die Eingabemuster präsentiert. Während der anschließenden

Berechnung werden automatisch Ähnlichkeitsbeziehungen zwischen Datenobjekten ermittelt.

Dabei werden die Gewichtungsfaktoren des Netzes so verändert, dass ähnliche Eingabemu-

ster entweder in gleichen Neuronen oder nah benachbarten Neuronen projiziert werden.

Unähnliche Datenobjekte werden hingegen in weit voneinander entfernten Neuronen abge-

legt. Die Ausgabe von Kohonen-Netzwerken wird in der Regel in Form von zweidimensiona-

len Karten dargestellt. Diese niederdimensionale Auftragung erlaubt somit auch die

unkomplizierte Analyse und Visualisierung von hochdimensionalen Datensätzen.

96

Page 109: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.2 Data Mining-Methoden in der Chemie

5.2.2.2 Counterpropagation-Netzwerk

Das Counterpropagation-Netzwerk gehört zu der Klasse der überwachten Lernverfahren

[143]. Beim überwachten Lernen (engl. supervised learning) werden dem neuronalen Netz

während des Trainingsprozesses im Gegensatz zu den Kohonen-Netzwerken sowohl die Ein-

gabemuster als auch die gewünschten Ausgabemuster übergeben. Während der Berechnung

wird das neuronale Netzwerk in der Weise modifiziert, dass ein Fehlersignal minimiert wird.

Das Fehlersignal ergibt sich dabei aus der Berechnung der Differenz zwischen erzeugter und

vorgegebener Ausgabe. Die Ausgabe des Counterpropagation-Netzwerkes basiert im Gegen-

satz zum Kohonen-Netzwerk nicht nur auf den Gewichtungen eines einzelnen Neurons und

ist ebenso nicht das Resultat eines Ausgabevektors aller Neuronen, wie beispielsweise im

Back-Propagation-Ansatz. Vielmehr basiert die Ausgabe aus den Gewichtungen des Gewin-

nerneurons mit allen Ausgabeneuronen. Counterpropagation-Netzwerke eignen sich insbe-

sondere für die Vorhersage von molekularen Eigenschaften. So können beispielsweise neue

chemische Strukturen hinsichtlich ihrer strukturellen Ähnlichkeit klassifiziert werden.

5.2.3 Genetische Algorithmen

Genetische Algorithmen basieren auf der Grundlage der biologischen Evolution (Muta-

tion, natürliche Auslese) und dienen der Suche nach einer optimalen Lösung innerhalb eines

Lösungsraums [148, 149]. Ein bestimmtes Problem wird dabei in Form einer Population von

Individuen beschrieben. Die Mitglieder dieser Generation geben in den folgenden Schritten

ihre Charakteristika in Form von sogenannten "Chromosomen" an die nächste Generation

weiter, wobei dieser Vorgang wie in der Natur durch Faktoren wie beispielsweise Mutation

und Crossover beeinflusst wird. Diese Faktoren werden daher auch als genetischen Operato-

ren bezeichnet. Anschließend werden die einzelnen Individuen der neuen Population hin-

sichtlich ihrer Eignung zur Lösung des zugrundeliegenden Problems beurteilt. Individuen mit

einer höheren Tauglichkeit werden mit hoher Wahrscheinlichkeit beibehalten während Indivi-

duen mit einer weniger guten Eignung im Vergleich zur Elterngenerartion mit hoher Wahr-

scheinlichkeit "aussterben". Dieser Vorgang wiederholt sich so lange bis eine maximale

Tauglichkeit erreicht ist.

Genetische Algorithmen sind in der chemischen Forschung weit verbreitet und kommen

häufig dann zum Einsatz, wenn mehr Regeln als Daten vorliegen. Darüber hinaus lassen sich

die Ergebnisse genetischer Algorithmen häufig gut erklären.

97

Page 110: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

5.2.4 Weitere Data Mining-Methoden

Neben den bereits erwähnten Data Mining-Methoden haben auch andere Techniken wie

Klassifikations- und Clustering-Verfahren als auch regelbasierte Systeme eine breite Anwen-

dung in der Chemie gefunden [137, 150-152].

Regelbasierte Systeme versuchen, wie der Name schon sagt, in Daten verborgene Informa-

tionen durch allgemeine Regeln zu beschreiben. Einen Spezialfall stellen dabei die sogenann-

ten Entscheidungsbäume (engl. decision trees) dar. Im Gegensatz zu allgemeinen,

regelbasierten Systemen erlauben Entscheidungsbäume eine Rangfolge bzw. Gewichtung der

abgeleiteten Regeln und ermöglichen somit eine gröbere bzw. feinere Unterteilung des Daten-

satz. Mit zunehmender Anzahl an Verzweigungsknoten neigen Entscheidungsbäume jedoch

zu einer höheren Fehleranfälligkeit. Außerdem eignet sich diese Technik nicht zur Abschät-

zung bzw. Vorhersage von Variablen und kann zudem nur bei kategorischen bzw. diskreten

Datentypen angewendet werden.

Der bekannteste Vertreter von Klassifizierungsverfahren ist die Nächster-Nachbar-Klassi-

fizierung (engl. k-nearest neighbor KNN). Die Datenbasis dieser Analysemethode besteht

aus des Ergebnissen bereits bearbeiteter, ähnlicher Fragestellungen. Dabei wird für einen

gegebenen Einzelpunkt der Datenwert gesucht, der die größte Ähnlichkeit zu einem bereits

klassifizierten Datenpunkt aufweist. Dieser sogenannte nächste Nachbar wird dabei mit Hilfe

von Distanz- und Kombinationsfunkionen (in der Regel euklidische Distanzen) ermittelt. Das

unbekannte Datenobjekt wird letztendlich derjenigen Klasse zugeordnet, die die höchste

Anzahl an ähnlichen bzw. nächsten Nachbarn enthält.

Insbesondere in der Wirkstoffforschung wird zudem eine Reihe wichtiger Clustering-Ver-

fahren wie beispielsweise Multi-Domain clustering, Nearest-Neighbor clustering, Fuzzy clu-

stering oder Ward clustering eingesetzt [151, 152]. Das Ziel von Clustering besteht darin,

ähnliche Objekte zu Clustern zusammenzufassen, wobei die Gewichtung der verschiedenen

Variablen eine bedeutende Rolle spielt. Im Gegensatz zu Klassifizierungsverfahren ist zu

Beginn der Analyse allerdings nicht klar, welche Cluster durch das Clustering entstehen. Die

Interpretation der Cluster ist daher nicht ganz einfach und setzt ein gewisses Maß an Exper-

tenwissen voraus. Darüber hinaus ist in einigen Fällen die Wahl der richtigen Distanzwerte

nicht ganz einfach. Außerdem müssen die Initialparameter der Methode sehr vorsichtig

gesetzt werden. Aufgrund des hohen Maßes an Unsicherheitsfaktoren dürfen Ergebnisse aus

Clusteringanalysen nicht überinterpretiert werden, sondern sollten lediglich als näher zu

untersuchende Hinweise betrachtet werden. Auf die verschiedenen hierarchischen und nicht-

hierarchischen Methoden soll an dieser Stelle nicht näher eingegangen werden.

98

Page 111: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.3 Visuelles Data Mining - Eine Einführung

5.2.5 Datenvisualisierung

Die Ergebnisse der oben beschriebenen Analysemethoden werden in der Regel nicht in

textueller oder numerischer Form betrachtet, sondern mit Hilfe von Datenvisualisierungs-

applikationen dargestellt und interpretiert. Dies ist sinnvoll, da eine visuelle Darstellung auf-

grund der bereits erwähnten überdurchschnittlichen Aufnahmefähigkeit des visuellen Cortex

(vgl. Abschnitt 2.1.1) eine weitaus effektivere Analyse komplexer Sachverhalte zulässt. Der

Einsatz von Visualisierungstechnologien führt in der Regel erst zu einem "Aha"-Erlebnis und

ermöglicht eine effektive und leichte Erkennung von Mustern, Beziehungen, Ausreisserdaten

und/oder fehlenden Werten.

Die Entwicklung entsprechender Methoden, Strategien und Applikationen zur Visualisie-

rung von Daten ist Aufgabe eines besonderen Gebiets der Computergraphik, der sogenannten

Informationsvisualisierung [153-155]. Die Informationsvisualisierung ist dabei nicht nur auf

das Gebiet des KDD- bzw. Data Mining-Prozess begrenzt, sondern wird heute standardmäßig

in fast allen Bereichen des Mensch-Computer-Bereichs eingesetzt. Darüber hinaus hat sich in

den letzten Jahren ein speziell auf die Bedürfnisse des Data Mining ausgerichtetes For-

schungsfeld innerhalb der Informationsvisualisierung etabliert – das visuelle Data Mining

(engl. Visual Data Mining) [156, 157]. Die Aufgaben des visuellen Data Minings reichen

dabei von der komfortablen Visualisierung und Analyse von Ergebnissen aus klassischen

Data Mining-Ansätzen bis hin zu Methoden, die eine vollständig visuelle Exploration von

Rohdaten erlauben und somit eine Alternative zu klassischen Data Mining-Ansätzen darstel-

len.

Die Entwicklung und Anwendung von Methoden des visuellen Data Mining stand im Vor-

dergrund des zweiten Themenschwerpunktes der vorliegenden Arbeit. In den folgenden

Abschnitten wird daher näher auf das Gebiet des visuellen Data Mining sowie den dort einge-

setzten Techniken und Methoden eingegangen.

5.3 Visuelles Data Mining - Eine Einführung

Obwohl der KDD-Prozess in den letzten Jahren durch die Entwicklung und den Einsatz

von computergestützten Data Mining-Methoden eine zunehmende Automatisierung erfahren

hat, ist eine effektive Extraktion von neuem Wissen und Information nicht ohne das Eingrei-

fen und die Interaktion des Menschen möglich. Insbesondere bei Vorlage von komplexen Pro-

blemstellungen kann eine erfolgreiche Lösung nur dann gewährleistet werden, wenn mensch-

liche Intuition, Flexibilität, Kreativität und Fachwissen mit in den Entscheidungprozess

einfliessen. Klassische, computergestützte Data Mining-Methoden stellen jedoch häufig

sogenannte "Black Box"-Systeme dar, die nur eine begrenzte oder keine Einflussnahme durch

99

Page 112: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

den Benutzer zulassen. Darüber hinaus ist die Bedienung bzw. Anwendung der Data Mining-

Methoden oft auf das Spezialwissen von Experten wie beispielsweise Chemoinformatikern

angewiesen. Dieser Umstand macht die Anwendung sowohl zeit- als auch arbeitsaufwendig,

da eine schnelle Interpretation der Analyseergebnisse in der Regel nicht durch den Chemoin-

formatiker sondern durch den Wissenschaftler erfolgt, der die zugrundeliegende Problemstel-

lung ausgearbeitet und die entsprechenden Datensätze generiert hat.

Eine Lösung für dieses Problem stellen Verfahren zur visuellen Datenanalyse dar. Das Ziel

dieses Ansatzes ist, dass der Mensch sowie dessen visuelle Wahrnehmungsfähigkeiten mit

Hilfe von Informationsvisualisierungstechnologien in den Analyse- bzw. KDD-Prozess inte-

griert wird. Diese Form der Datenanalyse wird daher auch als visuelles Data Mining bezeich-

net. Die visuelle Repräsentation der Daten bietet dabei dem Analytiker eine größere und

einfachere Einsicht in die Daten, was zu schnelleren Schlussfolgerungen führen kann. Dar-

über hinaus können die Daten in einem dynamischen Prozess direkt an Benutzereingaben

angepasst werden, was somit eine direkte Prozesssteuerung und -beeinflussung erlaubt. Letzt-

endlich können diese Möglichkeiten zu einer signifikanten Verbesserung des Explorations-

prozesses führen. Dabei können sich durch die direkte Einbeziehung des Benutzers einige

entscheidende Vorteile ergeben, die im Folgenden näher betrachtet werden:

Höhere Qualität der resultierenden Muster. Durch den Einsatz von adäquaten Techni-

ken zur Daten- und Informationsvisualisierung können die natürlichen Fähigkeiten des Men-

schen zur Erkennung von Mustern und Beziehungen genutzt werden. Dies kann zu einer

signifikanten Effektivitätssteigerung bei der Mustererkennung führen.

Nutzung existierenden Expertenwissens. Im visuellen Data Mining stellt die Visualisie-

rung ein interaktives Kommunikationsmittel zwischen den Daten und dem Benutzer dar. Der

Anwender kann dabei vorhandenes Expertenwissen während des Data Mining-Prozesses nut-

zen, um direkt die Analyse bzw. Mustersuche zu beeinflussen. Dieser Vorgang ist mit Hilfe

klassischer Data Mining-Methoden wesentlich schwerer zu realisieren, da die entsprechenden

Analyseparameter durch einen Experten definiert werden müssen und in der Regel nicht

interaktiv geändert werden können.

Gesteigertes Vertrauen in die Mustererkennung. Die aktive Einbeziehung des Benut-

zers in den Data Mining-Prozess kann zu einem tieferen Verständnis der resultierenden

Muster führen. Dies bewirkt letztendlich, dass sich das Vertrauen des Benutzers in die gefun-

denen Muster stark erhöht. Im Gegensatz dazu erlauben klassische "Black Box"-Systeme kei-

nen oder nur einen begrenzten Einblick in die Prozesse, die zur Mustererkennung führen. Die

daraus resultierende Unsicherheit kann in letzter Konsequenz die Interpretation der Daten und

die Vorhersage von Modellen stark erschweren.

100

Page 113: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.3 Visuelles Data Mining - Eine Einführung

Vereinfachte und intuitive Datenanalyse. Da die Mustererkennung bei der visuellen

Datenanalyse nur auf dem Fachwissen und der natürlichen Fähigkeit des Menschen, Zusam-

menhänge visuell schnell zu erfassen, basiert, gestaltet sich die Datenanalyse häufig einfach

und unkompliziert. Komplexe mathematische und/oder statistische Algorithmen und Metho-

den, wie sie für klassische Data Mining-Ansätze notwendig sind, entfallen.

Handhabung von problematischen Datensätzen. Der Vorteil von visuellen Data

Mining-Ansätzen gegenüber klassischen Data Mining-Techniken offenbart sich vor allem

dann, wenn wenig Information über die zu untersuchenden Daten bekannt ist und die erwarte-

ten Muster oder Relationen nicht klar definiert sind. Darüber hinaus können auch sehr inho-

mogene oder stark verrauschte Datensätze mit dieser Technik behandelt werden.

Zusammenfassend gilt, dass visuelles Data Mining im Allgemeinen eine schnellere und

unkompliziertere Datenanalyse erlaubt, häufig zu besseren Ergebnissen führt und insbeson-

dere oft auch in solchen Fällen zum Erfolg führt, die mit herkömmlichen Analysetechniken

nicht handhabbar sind. Darüber hinaus eignen sich die im visuellen Data Mining eingesetzten

Techniken hervorragend, um die erhaltenen Ergebnisse anderen Wissenschaftlern und vor

allem mit der Technik nicht vertrauten Entscheidungsträgern wie beispielsweise Managern zu

präsentieren. Nach der folgenden Definition werden durch visuelles Data Mining somit die

beiden letzten Schritte des KDD-Prozess realisiert (vgl. Abbildung 5-1) [157]:

„Visuelles Data Mining ist ein Teil des KDD-Prozesses, der Visualisierung

als Kommunikationsmittel zwischen Mensch und Computer nutzt, um neue

und interpretierbare Muster zu erkennen und Wissen zu generieren. „

Nach Shneiderman erfolgt die visuelle Datenerkundung im visuellen Data Mining in

einem dreistufigen Prozess [158]. Die drei Stufen sind: Übersicht, Zoom und Filterung sowie

Detaildarstellungen auf Abruf. Im Übersichtsschritt kann der Betrachter zunächst interessante

Muster identifizieren. Durch nachfolgende Zoom- und Filteroperationen können im zweiten

Schritt die identifizierten Muster näher betrachtet und in Form von Teildatensätzen selektiert

werden. Zur vollständigen Analyse der Muster können im letzten Schritt der Prozesskette

Detailinformationen zu den einzelnen Datenobjekten abgefragt werden.

Trotz der grundsätzlichen Übereinstimmung im Prozessablauf können drei unterschiedli-

che Formen des visuellen Data Mining unterschieden werden [156, 157]. Die Ansätze unter-

scheiden sich dabei vor allem durch ihre unterschiedlichen Einsatzgebiete im KDD- bzw.

Data Mining-Prozess (Abbildung 5-3). Im Folgenden werden die drei Ansätze näher

beschrieben.

101

Page 114: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

Abb. 5-3: Verschiedene Ansätze des visuellen Data Minings [157].

5.3.1 Visualisierung von Data Mining-Ergebnissen

Der gesamte Data Mining-Prozess wird in diesem Ansatz vollständig durch klassische

Data Mining-Algorithmen durchgeführt (Abbildung 5-3a) und die resultierenden Muster bzw.

Analyseergebnisse anschließend durch entsprechende Visualisierungswerkzeuge dargestellt.

In diesem Prozess kommt der Visualisierung eine entscheidende Rolle zu, da erst durch effek-

tive Visualisierungstechniken eine einfache und schnelle Interpretation der Daten ermöglicht

wird. Ausgehend von den Ergebnissen der Interpretation kann der Benutzer in einem letzten

Schritt entscheiden, ob der Data Mining-Prozess erfolgreich war oder ob die Analyse in

modifizierter Form wiederholt werden soll. Auf diesen Ansatz basierende Visualisierungsme-

thoden werden in der Literatur auch als "Visual Data Mining Tools" bezeichnet [156] und

werden heute standardmäßig zur Darstellung von Ergebnissen aus klassischen Data Mining-

Ansätzen eingesetzt.

Im Rahmen dieser Arbeit wurde ein auf diesem Ansatz basierender Visualisierungsproto-

typ für die Antitumor-Datenbank des amerikanischen Krebsforschungsinstituts entwickelt

(vgl. Abschnitt 6-1).

Daten

Wissen

Visualisierung

Ergebnisse

Benutzer-eingaben

Daten

Algorithmus

Visualisierung

Zwischen-ergebnisse

Ergebnisse

Wissen

Daten

Wissen

Algorithmus

Visualisierung

a) b) c)

102

Page 115: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.3 Visuelles Data Mining - Eine Einführung

5.3.2 Visualisierung von Zwischenergebnissen

Im Gegensatz zum vorherigen Ansatz kann durch die Visualisierung von intermediären

Ergebnissen der Benutzer stärker in den Data Mining-Prozess integriert werden (Abbildung

5-3b). Die Basis dieses Verfahren stellen Algorithmen dar, deren Ausgabe nicht die endgülti-

gen Muster bzw. Beziehungen sondern lediglich präprozessierte Zwischenergebnisse liefert.

Die relevanten Muster erhält der Benutzer erst durch die Anwendung von spezifischen Visua-

lisierungstechniken. Der Vorteil dieses Ansatzes ist, dass die Data Mining-Algorithmen unab-

hängig von der eigentlichen Problemstellung eingesetzt werden können. Wie bereits erwähnt

ist dies in klassischen Data Mining-Ansätzen nicht ohne weiteres möglich, da für ein spezifi-

sches Problem oder einen bestimmten Datensatz oft auch nur spezielle Data Mining-Techni-

ken zum Einsatz kommen können. Dabei muss sich der Benutzer bereits vor dem eigentlichen

Data Mining-Prozess intensiv mit den Vor- und Nachteilen der in Frage kommenden Metho-

den auseinandersetzen und eventuell systemspezifische Parameter festlegen. Dieses Proze-

dere entfällt durch diesen Ansatz. Der Benutzer entscheidet auf Basis der

Zwischenergebnisse, welche Algorithmen für eine weitere Analyse zum Einsatz kommen.

Dabei sind auch die im Data Mining übliche Kombinationen verschiedener Analysemethoden

einfach zu realisieren.

Diese spezielle Form des visuellen Data Minings kam im Rahmen dieser Arbeit nicht zum

Einsatz.

5.3.3 Visualisierung von (Roh-)Daten

In diesem Ansatz kommen im Gegensatz zu den beiden zuvor beschriebenen Verfahren

keine klassischen Data Mining-Methoden zum Einsatz (Abbildung 5-3c). Vielmehr werden

die Rohdaten direkt durch den Benutzer mit Hilfe von Visualisierungsverfahren dargestellt

und analysiert. Dabei wird der Benutzer sowie dessen Fachwissen vollständig in den Data

Mining-Prozess einbezogen und somit ein Höchstmaß an Benutzerinteraktion sichergestellt.

Durch den Einsatz von interaktiven Werkzeugen wie beispielsweise dynamischen Abfrage-

techniken kann der Benutzer mit den Datensätzen operieren, wobei jede Benutzerinteraktion

zu einer unmittelbaren Aktualisierung der Darstellung führt. Die verborgenen Muster und

Beziehungen werden somit letztendlich durch eine graphische Erkundung des Datensatzes

gewonnen. Nach Soukup und Davidson wird in diesem Zusammenhang auch von "Data

Visualization"-Techniken gesprochen [156].

Diese Form des visuellen Data Minings stand in dieser Arbeit im Vordergrund und war

Ausgangspunkt bei der Entwicklung des in Kapitel 6 vorgestellten InfVis-Programms (vgl.

Abschnitt 6-2).

103

Page 116: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

5.4 Methoden der Informationsvisualisierung

Visuelles Data Mining basiert auf den Techniken der Informationsvisualisierung, einem

Gebiet der Computergraphik, welches sich, wie der Name schon sagt, mit der Darstellung von

Information beschäftigt. Bevor im Folgenden die für das visuelle Data Mining in Frage kom-

menden Techniken näher erläutert werden, sollen durch einen Vergleich mit der im Abschnitt

2.1.1 beschriebenen wissenschaftlichen Visualisierung die wichtigsten Grundzüge der Infor-

mationsvisualisierung zusammengefasst werden. Im Gegensatz zur wissenschaftlichen Visua-

lisierung dient die Informationsvisualisierung nicht zur Darstellung von chemischen oder

physikalischen Daten, Messwerten oder Simulationen, sondern vielmehr zur Visualisierung

von Beziehungen, Mustern und vor allem Information. Obwohl letztere Aufgabenstellung

durch die drastische Zunahme an Daten in den wissenschaftlichen Disziplinen stark an

Bedeutung gewonnen hat, spielen Informationsvisualisierungstechniken nicht nur auf diesem

Gebiet, sondern in fast allen Bereichen, die über große Mengen an digitalen Daten verfügen,

eine bedeutende Rolle. Die Informationsvisualisierung zeichnet sich deshalb vor allem durch

allgemeine, nicht auf wissenschaftliche Fragestellungen begrenzte Methoden aus. Die ent-

sprechenden Visualisierungstechniken werden daher auch in der Regel von nicht-spezialisier-

ten und nicht-wissenschaftlich orientierten Benutzern angewendet. Dieser allgemeine

Charakter der Informationsvisualisierung wird auch bei der Betrachtung des in Kapitel 6 vor-

gestellten InfVis-Programms deutlich. Obwohl die Anwendung speziell für den Einsatz in der

chemischen Forschung konzipiert wurde, ist sie nicht nur auf chemische Datensätze limitiert.

Die Methoden der Informationsvisualisierung können in drei Kategorien unterteilt werden:

präsentative Techniken, Techniken zur sogenannten "bestätigenden" Analyse (engl. confir-

mative analysis) und Techniken zur erkundenden Analyse (engl. explorative analysis). Aus-

gangspunkt für die präsentativen Technik sind fest definierte Fakten, welche durch geeignete

Visualisierungstechniken dargestellt werden. Im Gegensatz dazu basieren die Ansätze zur

"bestätigenden" Analyse auf bereits durch den Benutzer definierte Hypothesen zu den jewei-

ligen Datensätzen. Aufgabe der Visualisierung ist es, die Daten in einer geeigneten Form dar-

zustellen, die eine Bestätigung oder Entkräftung der aufgestellten Hypothese erlaubt. Die

letzte Klasse von Informationsvisualisierungstechnologien, die explorative Analyse, geht von

Datensätzen aus, über die weder Fakten noch Hypothesen bekannt sind. Durch eine visuelle,

interaktive und im Allgemeinen ungerichtete Suche nach Trends, Strukturen und Mustern ist

der Benutzer in der Lage, neue Information aus den Daten zu gewinnen und letztendlich eine

Hypothese zu definieren. Obwohl alle drei Technologieklassen im visuellen Data Mining ein-

gesetzt werden können, sind es vor allem die Techniken der explorativen Analyse, die für ein

effektives visuelles Data Mining essentiell sind. Im Folgenden werden deshalb nur die wich-

tigsten explorativen Visualisierungstechniken detailliert beschrieben.

104

Page 117: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.4 Methoden der Informationsvisualisierung

Erste Ansätze zur explorativen Visualisierung wurden von den Arbeitsgruppen von Tufte

[159] und Bertin [160] entwickelt. Während dieser Pionierarbeiten wurden dabei die wichtig-

sten Grundregeln und Techniken wie zum Beispiel die Layoutgestaltung, der Einsatz von Far-

ben und Formen, Techniken der Attributabbildung usw. ausgearbeitet. Basierend auf diesen

Regeln und Grundsätzen entwickelten sie erste zwei- und dreidimensionale Informationsvi-

sualisierungstechniken. In den folgenden Jahren wurden von anderen Arbeitsgruppen weitere

Techniken zur Visualisierung von unterschiedlichen Datentypen entwickelt. Der Übersichts-

artikel von Wong und Bergeron [161] beschreibt dabei detailliert die einzelnen Fortschritte

dieser geschichtlichen Entwicklung. Heute steht dem Anwender eine fast unüberschaubare

Anzahl an verschiedenen Techniken und Anwendungen zur Verfügung [153, 154]. Dabei sind

vor allem solche Techniken in den Fokus des Interesses getreten, die sehr große und multiva-

riate Datensätze handhaben können. Diese Techniken können durch drei verschiedene Krite-

rien klassifiziert werden [162, 163]: die Art der zu visualisierenden Daten, die Art der

Technik an sich sowie durch Methoden zur Interaktion und visuellen Transformation. Diese

drei Klassen können beliebig miteinander kombiniert werden. Informationsvisualisierungs-

werkzeuge sind deshalb häufig in der Lage, verschiedene Datentypen zu visualisieren und

nutzen dazu kombinierte Ansätze von Visualisierungs- und Interaktionstechniken.

5.4.1 Datentypen und Dimensionalität

Große Datensätze wie beispielsweise Screeningdaten oder Resultate kombinatorischer

Experimente bestehen aus einer großen Anzahl an Einzeleinträgen den sogenannten

Datenrecords, die sich ihrerseits aus einer definierten Anzahl an Variablen, den Dimensionen,

zusammensetzen. Ein Dateneintrag kann dabei zum Beispiel einer chemischen Reaktion oder

einer chemischen Verbindung entsprechen, wobei die einzelnen Variablen den

korrespondierenden Werten der Reaktionsbedingungen oder biologischen Aktivitäten

entsprechen. In der Informationsvisualisierung wird die Zahl der Variablen auch als

Dimensionalität des Datensatzes bezeichnet. Nach Shneiderman [158] können Datensätze

ein- zwei- oder auch multi-dimensional sein oder auch aus komplexeren Datentypen wie

Texten, Hypertexten, Hierarchien, Graphen oder Algorithmen bestehen. Alternativ werden

diese Datesätze auch als uni-, bi- oder multivariaten Datensätze bezeichnet.

5.4.1.1 Eindimensionale Datensätze

Typische Vertreter von eindimensionalen Datensätzen sind zeitabhängige Daten. Dabei

können jedem Punkt auf der Zeitskala ein oder mehrere Messwerte zugeordnet werden. Ein

chemisches Beispiel stellen Langzeituntersuchungen von kontaminierten Böden dar, in denen

der zeitliche Verlauf von Schadstoffkonzentrationen ermittelt wird.

105

Page 118: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

5.4.1.2 Zwei- und dreidimensionale Datensätze

Zwei- und dreidimensionale Datensätze bestehen aus zwei bzw. drei definierten Variablen.

Ein typisches Beispiel für solche Datensätze stellen geographische Karten dar. Aber auch in

der Chemie sind entsprechende Datensätze nicht unüblich. Darüber hinaus werden häufig die

Ergebnisse von klassischen Data Mining-Experimenten in zwei- oder dreidimensionaler

Form dargestellt (Auftragung von Principal Components oder Kohonen-Karten). Zwei- und

dreidimensionale Datensätze werden in der Regel durch einfache x-y- bzw. x-y-z-Plots

visualisiert. Auch wenn diese Darstellungsform einfach erscheint, können mit zunehmender

Datengröße bzw. -dichte schnell unübersichtliche und teilweise unbrauchbare Auftragungen

resultieren.

5.4.1.3 Multidimensionale Datensätze

Häufig bestehen Datensätze aus mehr als drei Dimensionen und können daher nicht mit

Hilfe von zwei- oder dreidimensionalen Plots dargestellt werden. Multidimensionale Daten-

sätze können in der Regel mehrere Hundert bis Tausend Dateneinträge enthalten. Sie werden

unter anderen durch automatisierte Laborsysteme wie HTS- und Kombinatorikanlagen gene-

riert und in relationalen Datenbanken gespeichert. Diese Daten können nur mit Hilfe weiter-

entwickelter Visualisierungstechniken dargestellt werden, da das effektive Mapping der

zahlreichen Dimensionen auf einen zweidimensionalen Bildschirm ein schwieriger Vorgang

ist.

Die Visualisierung multidimensionaler, chemischer Datensätze war das Ziel dieser Arbeit.

Aus diesem Grund beschränkt sich die Beschreibung der diversen Visualisierungstechniken

in Abschnitt 5.4.2 auch nur auf multidimensionale bzw. multivariate Ansätze.

5.4.1.4 Spezielle Datentypen

Nicht alle Datentypen können durch Angabe der Dimensionalität beschrieben werden.

Dies trifft beispielsweise auf digitale Texte und Hypertexte zu, deren Analyse vor allem im

Bereich des World Wide Web hohe Bedeutung beizumessen ist. Diese Datentypen können

nicht sinnvoll in Form von Zahlen dargestellt werden, weshalb viele Visualisierungstechniken

zur Darstellung dieser Daten nicht eingesetzt werden können. Eine weitere Klasse von Daten-

sätzen stellen Hierarchien und Graphen dar, die auf Beziehungen zwischen einzelnen Daten-

punkten basieren. Diese Daten sind auch in der Chemie und Biochemie von großer

Bedeutung (zum Beispiel in Form metabolischer Pfade). Algorithmen zählen ebenfalls zu der

Klasse der speziellen Datenformen und erfordern besondere Visualisierungstechniken.

106

Page 119: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.4 Methoden der Informationsvisualisierung

5.4.2 Die Visualisierungstechniken

Im Laufe der letzten dreißig Jahre wurden, wie bereits erwähnt, zahlreiche Techniken zur

Visualisierung von Informationen und Daten entwickelt und die Zahl der Visualisierungstech-

niken wird auch in Zukunft weiter ansteigen. Da die Beschreibung aller Visualisierungstech-

niken den Rahmen dieser Arbeit sprengen würde, werden im Folgenden nur solche Ansätze

erwähnt, die der Darstellung von multivariaten und multidimensionalen Datensätzen dienen.

Multivariate Visualisierungstechniken können dabei in Abhängigkeit ihrer zugrundeliegen-

den Visualisierungsprinzipien in fünf Kategorien unterteilt werden – geometrische Techniken,

Icon- und Glyph-basierte Techniken, Pixel- und Voxel-orientierte Systeme, hierarchische

Techniken und Techniken, die auf sogenannten Graphen basieren. Darüber hinaus existieren

auch zahlreiche hybride Ansätze, die sich durch Kombination verschiedener Visualisierungs-

techniken aus den genannten Bereichen ergeben.

Die Visualisierung hierarchischer bzw. Graphen-basierter Datensätze war nicht Schwer-

punkt dieser Arbeit, weshalb im Folgenden die entsprechenden Ansätze nur grob skizziert

werden. Bei der Entwicklung der in Kapitel 6 beschriebenen Visualisierungsapplikationen

kamen unter anderem Geometrie- und Icon-basierte Techniken zum Einsatz. Von besonderer

Bedeutung waren dabei jedoch 3D-Glyph-basierte Visualisierungstechniken, die eine Kombi-

nation aus geometrischen und Icon-basierten Techniken darstellen. Aus diesem Grund werden

die wesentlichen Merkmale sowie die wichtigsten Vertreter dieser Techniken detaillierter

erläutert.

5.4.2.1 Geometrie-basierte Ansätze

Die Grundidee geometrischer Visualisierungstechniken basiert auf der Nutzung geometri-

scher Transformationen und Projektionen, um so eine bestmögliche Darstellung multidimen-

sionaler Daten zu realisieren. Dabei können sowohl zwei- als auch dreidimensionale

Darstellungstechniken zum Einsatz kommen.

Zur Klasse dieser Techniken zählen zum einen einfache Visualisierungsmethoden aus dem

Bereich der Statistik wie Liniengraphen (Abbildung 5-4a) [167], Scatterplots bzw. Scatter-

plot-Matrizen (Abbildung 5-4b) [167, 168] sowie sogenannte "Projection Pursuit"-Techniken

[169], wobei letztere auf multivariaten, statistischen Methoden wie der Principal Component

Analyse (vgl. Abschnitt 5.2.1.1) oder dem multidimensionalen Scaling (vgl. Abschnitt

5.2.1.2) basieren. Darüber hinaus zählen auch Techniken wie Barchart- und Histogramm-

Darstellungen (Abbildung 5-4c) [167], Landscapes [170], Prosection Views [171], Andrew’s

Curves [172] als auch HyperSlice [173] und Hyperbox [174] zu dieser Visualisierungsklasse.

Zu den komplexeren und fortgeschritteneren Techniken zählen dabei die Parallel Coordina-

tes (Abbildung 5-4d) [175] und die Methoden RadViz und GridViz [176].

107

Page 120: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

Abb. 5-4: Geometrische Visualisierungstechniken: a) Multiple Liniengraphen (Excel [177]), b) Scatterplot-Matrix (Statistika [178]), c) 3D-Balkendiagramm (InfVis, vgl. Kapitel 6), d) Parallel Coordinates (XmdvTool [179]).

Stellvertretend für die Vielzahl der Ansätze soll im Folgenden zum einen auf die Scatter-

plot- und Barchart-Methoden, welche innerhalb der in Kapitel 6 beschriebenen Visualisie-

rungsapplikationen eingesetzt wurden, als auch auf den bekanntesten Vertreter der

Geometrie-basierten Techniken, der Parallel Coordinates-Technik, eingegangen werden.

Scatterplots und Scatterplot-Matrizen. Scatterplots zählen wahrscheinlich zu den

bekanntesten Data Mining-Visualisierungstechniken und werden standardmäßig von vielen

Statistik- und Tabellenkalkulationsprogrammen unterstützt. Dabei kommen sowohl zwei- als

auch dreidimensionale Darstellungen zum Einsatz. Im Regelfall können mittels Scatterplots

zwei bzw. drei Datendimensionen dargestellt werden, wobei jede Datendimension auf eine

der zwei- bzw. drei orthogonalen Achsen abgebildet wird. Um Datensätze mit höherer

Dimensionalität zu visualisieren, werden unter anderen sogenannte Scatterplot-Matrizen ver-

wendet. Dabei kann beispielsweise ein vierdimensionaler Datensatz durch eine 4x4-Matrix

von Scatterplots dargestellt werden (Abbildung 5-4b). Häufig werden Scatterplot-Darstellun-

gen durch interaktive Techniken wie Zoom erweitert, um eine komfortablere Analyse des

Datensatzes zu gewährleisten. Weite Verbreitung haben auch Kombinationen von Scatterplot-

Darstellungen mit Icon- bzw. Glyph-basierten Techniken gefunden (vgl. Abschnitt 5-10).

108

Page 121: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.4 Methoden der Informationsvisualisierung

Scatterplots und Scatterplot-Matrizen können beispielsweise durch die Programme Stati-

stika [178] und XmdvTool [179] generiert werden. Darüber hinaus wurde die Scatterplot-

Technik auch in das in Abschnitt 6-2 beschriebene InfVis-Programm implementiert.

Barcharts und Histogramme. Balkendiagramme (engl. Barcharts) werden in erster Linie

zur Präsentation von Daten eingesetzt. Darüber hinaus existieren jedoch auch weiterentwik-

kelte Techniken, wie beispielsweise 3D-Barcharts mit variierenden Formen, Farben und Grö-

ßen (Abbildung 5-4c), Survey Plots [167] sowie Histogramm-Matrizen [167], die im Bereich

des Data Mining zum Einsatz kommen. Barchart-Techniken wurden im Rahmen dieser

Arbeit sowohl im prototypischen, VRML-basierten Datenbankinterface des amerikanischen

Krebsforschungsinstituts (vgl. Abschnitt 6-1) als auch im InfVis-Programm (vgl. Abschnitt

6-2) eingesetzt.

Parallel Coordinates. Der wohl prominenteste Vertreter geometrischer Visualisierungs-

techniken ist die Parallel Coordinates-Darstellung (Abbildung 5-4d). Bei dieser Technik wer-

den die einzelnen Dimensionen durch vertikale Achsen repräsentiert, wobei der

entsprechende Wertebereich der Variablen entlang der einzelnen Achsen aufgetragen ist.

Jeder Datenpunkt bzw. jedes Datenobjekt wird dabei durch eine polygonale Linie dargestellt,

welche die Achsen an den entsprechenden Stellen schneidet. Parallel Coordinates können

unter anderem vom XmdvTool [179] generiert werden.

5.4.2.2 Icon- und Glyph-basierten Techniken

Eine andere Klasse von explorativen Visualisierungstechniken stellen die sogenannten

Icon- bzw. Glyph-basierten Ansätze dar. Diese Techniken werden vor allem zur Darstellung

von diskreten, multivariaten Daten eingesetzt. Unter einem Glyphen versteht man dabei ein

graphisches Objekt, welches ein einzelnes multivariates Datenobjekt repräsentiert. Bei der

Generierung der Icons bzw. Glyphen werden die diversen Datendimensionen eines Datensat-

zes in systematischer Weise den verschiedenen graphischen Attributen wie Form, Farbe,

Größe, Orientierung, Textur, etc. des graphischen Objekts zugeordnet. Dieses Abbilden (engl.

Mapping) der Dimensionen auf die sogenannten retinalen Eigenschaften [180] wird auch als

visuelles Mapping bezeichnet. Abbildung 5-5 enthält eine Übersicht der wichtigsten retinalen

Eigenschaften. Neben der Anzahl der möglichen Dimensionen, die mit Hilfe der einzelnen

graphischen Eigenschaften beschrieben werden können, enthält die Abbildung auch Bei-

spiele, die den Gebrauch von Glyphen bei kontinuierlichen, numerischen sowie diskreten

bzw. kategorischen Daten zeigt. Viele der graphischen Attribute hängen dabei direkt vonein-

ander ab. So setzen beispielsweise Texturen mindestens eine Farbe zur Darstellung voraus

und Blinken kann mit der Darstellung von Bewegungen wechselwirken. Im Allgemeinen ist

daher eine sinnvolle Darstellung auf acht Dimensionen beschränkt.

109

Page 122: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

Abb. 5-5: Retinale Eigenschaften in der Glyph-basierten Visualisierung.

Insbesondere bei Vorlage diskreter Daten muss eine gute Unterscheidung der einzelnen

Glyphen gewährleistet sein, um eine sinnvolle Visualisierung zu gewährleisten. Dabei müs-

sen unter anderem verschiedene psychologische (z.B. unterschiedliche und geschlechtspezifi-

sche Wahrnehmung von Farben und Orientierungen) und physiologische Aspekte (z.B. Rot-

Grün-Blindheit) berücksichtigt werden, auf die an dieser Stelle nicht näher eingegangen wird.

Eine gute Einführung in diese Thematik liefert das Buch "Information Visualization - Percep-

tion for Design" von Colin Ware [153].

Eine klare Identifizierung und Unterscheidung verschiedener Glyphen erlauben auch

einige spezielle Visualisierungstechniken, die auf sogenannten Icons basieren. Hierzu zählen

beispielsweise Chernoff Faces (Abbildung 5-8b) [181], Stick Figures [183], Star Glyphs

(Abbildung 5-8a) [182], Pies (Abbildung 5-8c) sowie Shape-Coding [184] und Color-Icons

[185]. Aufgrund ihrer weiten Verbreitung in aktuellen Standard-Applikationen sollen hier

stellvertretend die Chernoff Faces, Pies und Star Glyphs genauer betrachtet werden.

Pies. In der Pies-Methode (Abbildung 5-8) werden die einzelnen Datenobjekte durch Pie

Charts repräsentiert. Die einzelnen Dimensionen werden dabei in Form von "Kuchenstücken"

dargestellt, wobei die Größe dieser Stücke vom jeweiligen Maximalwert der Dimension

abhängt. Pies können ebenfalls mit Statistika [178] dargestellt werden.

DimensionalitätKontinuierliche Daten

Quantitatives MappingDiskrete Daten

Nominales MappingGraphisches

Attribut

Farbe

Form

Orientierung

Textur

Bewegung

Blinken

3 Dimensionen(Kontrast, Größe,

Orientierung)

U

StufenloseBlinkgeschwindigkeit

Blinken, Nicht-Blinken,klar definierte Stufen

Textur-Morphing(ungünstig)

1 Dimension

mind. 2-3 Dimensionen

3 Dimensionen (x, y, z)

max. 3 Dimensionen(3 bei color opponent)

max. 3 Dimensionen(x, y, z)

110

Page 123: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.4 Methoden der Informationsvisualisierung

Abb. 5-6: Pies-Darstellung (Statistika [178]).

Star Glyphs. Star Glyphen (Abbildung 5-7) gehören wahrscheinlich zu den meist genutz-

ten, Icon-Visualisierungstechniken. Dabei werden die einzelnen Dimensionen durch gleich-

winklige, im Uhrzeigersinn angeordnete Speichen repräsentiert. Die äußeren Enden der

Speichen entsprechen dabei den maximalen Werten der Datendimensionen. Schließlich wer-

den die äußeren Enden noch durch eine polygonale Linie verbunden. Star Glyphen können

mit Programmen wie Statistika [178] oder XmdvTool [179] dargestellt werden.

Abb. 5-7: Star Glyphen (Statistika [178])

Chernoff Faces. Chernoff Faces (Abbildung 5-8) zählen zu den am kunstvoll ausgearbei-

testen Icon-Visualisierungsmethoden. Ein Datenobjekt wird dabei durch ein individuelles

Gesicht ausgedrückt, wobei die unterschiedlichen Datendimensionen auf markante Gesichts-

züge wie beispielsweise die Breite und Länge des Gesichts, die Größe und der Abstand der

Augen, die Höhe und Größe der Ohren, die Schwingung des Mundes oder die Höhe und Stel-

lung der Augenbrauen abgebildet werden. Durch die angeborene Fähigkeit des Menschen,

Gesichter und Stimmungen zu erkennen, wird jeder Datenpunkt zu einem leicht identifizier-

baren Individuum. Chernoff Faces werden unter anderem von Statistika [178] generiert.

111

Page 124: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

Abb. 5-8: Chernoff Faces (Statistika [178]).

Das im folgenden Kapitel beschriebene und im Rahmen dieser Arbeit entwickelte InfVis-

Programm basiert in erster Linie auf einen modifizierten Glyph-basierten Ansatz (vgl.

Abschnitt 5-10).

5.4.2.3 Pixel- und Voxel-orientierte Techniken

In Pixel-orientierten Ansätzen wird jeder einzelne Dimensionswert einem farbigen Pixel

zugeordnet. Die Pixel werden darüber hinaus in Abhängigkeit von den jeweiligen Dimensio-

nen gruppiert und in separaten Regionen dargestellt [186]. Die Werte der einzelnen Dimen-

sionen werden durch die Farbe des Pixels repräsentiert. Da lediglich ein Pixel pro

Datenobjekt benötigt wird, können mit Hilfe dieser Technik die derzeit höchste Anzahl an

Datenpunkten gleichzeitig dargestellt werden. Die bekanntesten Vertreter dieser Visualisie-

rungsform sind die sogenannte Recursive Pattern-Technik [187] und die Circle Segment-

Technik [188].

Abb. 5-9: Pixel- und Voxel-basierte Visualisierungstechniken: a) Circle Segment-Technik [157], b) Voxel-basierte Visualisierung [238].

Der zweidimensionale, Pixel-orientierte Ansatz kann darüber hinaus auch auf drei Raum-

dimensionen erweitert werden. Das dreidimensionale Analogon zum Pixel ist dabei das soge-

112

Page 125: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.4 Methoden der Informationsvisualisierung

nannte Voxel. Voxel- bzw. texturbasierte Ansätze erlauben aufgrund der zusätzlichen dritten

Dimension die Darstellung noch größerer Datensätze. Erste Arbeiten auf diesem Gebiet wur-

den von Becker [189] beschrieben. Zur Zeit werden im Rahmen des ChemVis-Projekts von

unseren Projektpartnern fortgeschrittenere, texturbasierte Techniken entwickelt.

5.4.2.4 Hierarchische und Graph-basierte Techniken

Hierarchische Techniken, auch Stacked Displays genannt, stellen Daten in Form von hier-

archisch aufgeteilten Untereinheiten dar. Im Fall von multidimensionalen Datensätzen dienen

dabei selektierte Dimensionen zur Aufteilung des Datensatzes und zum Aufbau der Hierar-

chie. Bekannte Vertreter sind das Dimensional Stacking [190] sowie die Cone Tree-Technik

[191].

Abb. 5-10: Hierarchische Visualisierungstechniken: a) Dimensional Stacking (XmdvTool [179]), b) Cone Tree [191].

5.4.2.5 Hybride Ansätze

Neben den erwähnten Visualisierungstechniken wurde auch eine Vielzahl hybrider

Ansätze entwickelt, die Kombinationen der oben beschriebenen Methoden darstellen. Im

Rahmen dieser Arbeit spielten dabei vor allem räumlich angeordnete 3D-Glyhpen eine zen-

trale Bedeutung (Abbildung 5-11).

Diese Visualisierungsform stellt dabei eine Kombination aus dreidimensionalen Scatter-

plots (vgl. Abschnitt 5.4.2.1) und Icon-Techniken (vgl. Abschnitt 5.4.2.2) dar. Im Gegensatz

zu klassischen, auf Glyphen basierenden Ansätzen können mit dieser Methode drei weitere

Datendimensionen durch Nutzung der drei orthogonalen Achsen dargestellt werden. Darüber

hinaus kann bei der 3D-Hardware-unterstützten Darstellung solcher Systeme auch eine wei-

tere retinale Eigenschaft, die Transparenz bzw. Opazität, der graphischen Objekte für das

visuelle Mapping genutzt werden. Wie bereits erwähnt, können mit Hilfe der Glyphgestalt

nicht nur die Werte einer einzelnen Dimension, zum Beispiel durch definierte, diskrete Gra-

113

Page 126: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

phikprimitive wie Kugeln, Kegel oder Würfel dargestellt werden. Vielmehr besteht die Mög-

lichkeit die drei räumlichen Ausdehungsrichtungen (x, y, z) eines graphischen Objekts zu

verwenden, um bis zu drei Dimensionen durch die Form zu repräsentieren. Während die Dar-

stellung von zwei Dimensionen dabei auch mit klassischen, Icon-basierten Techniken leicht

zu realisieren ist, kann die Formveränderung in x-, y- und z-Richtung ebenfalls erst mit Hilfe

des hybriden, dreidimensionalen Ansatzes bewerkstelligt werden.

Abb. 5-11: Visualisierungsansatz mit dreidimensionalen Glyphen [192] (Farbabbildung: Anhang A, Abbildung A-10).

Der große Vorteil von auf 3D-Glyphen basierenden Visualisierungsansätze ist die einfache

und intuitive Handhabung und Interpretation dieser Darstellungsmethode. Da der Mensch

selbst in einer dreidimensionalen Welt existiert, setzen dreidimensionale Darstellungen keine

abstrakten und komplexen Denkweisen voraus. Aus diesem Grund können 3D-Glyphen im

Gegensatz zu anderen, abstrakteren Visualisierungstechniken wie beispielsweise der Parallel

Coordinates-Technik (vgl. Abschnitt 5.4.2.1) auch von ungeübten Benutzern angewendet

werden.

Ein 3D-Glyph-basiertes Visualisierungssystem zur explorativen Analyse und Darstellung

von multivariaten Datensätzen wurde von unseren Projektpartnern an der Universität Stutt-

gart entwickelt [192]. Darüber hinaus diente diese Visualisierungstechnik auch als zentrale

Darstellungsform bei der Realisierung des im nächsten Kapitel beschriebenen InfVis-Pro-

gramms.

114

Page 127: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5.4 Methoden der Informationsvisualisierung

5.4.3 Techniken zur Interaktion und Verzerrung

Applikationen zur explorativen Informationsvisualisierung können nicht nur in Hinblick

auf unterschiedliche Datentypen und Visualisierungstechniken differenziert sondern auch in

Abhängigkeit von diversen interaktiven und verzerrenden Techniken klassifiziert werden. Es

sind vor allem diese Techniken, die eine Visualisierungsapplikation erst zu einem effektiven

Datenanalysewerkzeug machen. Grundsätzlich können diese Techniken in interaktive bzw.

dynamische Techniken und sogenannte Distortion-Techniken (graphische Verzerrungstechni-

ken) unterteilt werden.

Interaktive Techniken wie beispielsweise Filter, Zoom und Linking erlauben dem Benutzer

eine direkte Interaktion mit Daten sowie eine dynamische Anpassung der graphischen

Darstellung an aktuelle analytische Fragestellungen. Im Gegensatz dazu dienen Distortion-

Techniken zur Fokussierung bzw. Darstellung von Detailinformationen bei gleichzeitiger

Visualisierung einer grob aufgelösten Übersicht. Dabei kann der Benutzer Daten, welche im

Fokus des Interesses liegen, in hochaufgelöster Form studieren während der Rest der

Datenlandschaft in einer niedrigen Auflösung ständig einsehbar und zugreifbar bleibt. Die

wichtigsten dynamischen und verzerrenden Techniken werden im Folgenden erläutert.

5.4.3.1 Dynamische Projektionstechniken

Mit Hilfe dieser Technik kann der Benutzer Datenprojektionen wie beispielsweise die

abgebildeten retinalen Eigenschaften dynamisch verändern, um eine bessere bzw. sinnvollere

Darstellung der multivariaten Daten zu erreichen. Entsprechende Techniken werden zum

Beispiel vom Programm XGobi [193] unterstützt und wurden auch in das im Rahmen dieser

Arbeit entwickelten InfVis-Programms implementiert.

5.4.3.2 Interaktive Filter-Techniken

Zu den wichtigsten Methoden im visuellen Data Mining zählen Techniken, die eine

interaktive Partitionierung von Datensätzen in Teildatensätze oder ausgewählte Teilmengen

erlauben. Dabei kann grundsätzlich zwischen Selektions- und sogenannten Querying-

Verfahren unterschieden werden. Selektionstechniken ermöglichen eine direkte Auswahl von

bestimmten Datenpunkten durch den Benutzer, während in Querying-Verfahren der

Teildatensatz aus durch den Benutzer definierten Spezifikationen von bestimmten

Eigenschaften zum Beispiel Angeben von Grenzwerten resultiert. Häufig werden dabei die

besten Resultate durch Kombination der beiden Ansätze erzielt. Bekannte Vertreter dieser

Technologieform sind das Magic Lenses- [194] und das InfoCrystal-Verfahren [195] sowie

die Dynamic Queries [196-198]. Letztere spielten auch in dieser Arbeit eine entscheidende

Rolle.

115

Page 128: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

5 Data Mining und Datenvisualisierung

5.4.3.3 Interaktives Zooming

Zoom-Techniken spielen vor allem bei großen Datensätze eine wichtige Rolle. In der

Regel stellen Visualisierungsanwendungen große Datensätze zunächst in einer reduzierten

Form dar, um einen umfassenden Überblick zu gewährleisten. Mit Hilfe von Zooming-

Techniken hat der Benutzer anschließend die Möglichkeit in ausgewählte Bereiche

vorzudringen, um eine detailliierte Repräsentation der Daten zu erzielen. Dieser Vorgang geht

dabei häufig mit einer Änderung der Visualisierungsform einher. Fortschrittlichere Techniken

wie die Fisheye View-Projektionen [199] erlauben dabei die Darstellung von

Detailinformationen bei gleichzeitiger wenn auch grobaufgelöster Visualisierung der

restlichen Daten. Ein detailliierter Vergleich der diversen Techniken wurde von Schaffer et al.

beschrieben [200]. In der InfVis-Anwendung kamen einfache 3D-Zoomfunktionen zum

Einsatz.

5.4.3.4 Interaktive Distortion-Techniken

Die im vorangegangenen Abschnitt beschriebene Fisheye View-Technik kann nicht nur als

Zooming-Technik sondern auch als Distortion-Technik betrachtet werden. Distortion-Techni-

ken erlauben die Darstellung von Detailinformationen bei gleichzeitiger Erhaltung der Über-

sichtsrepräsentation. Distortion-Techniken kamen im Rahmen dieser Arbeit nicht zum

Einsatz, weshalb an dieser Stelle auf einen weiterführenden Übersichtsartikel verwiesen wird

[201].

5.4.3.5 Interaktive Linking- und Brushing-Techniken

Wie bereits beschrieben wurde, ist die Wahl einer Visualisierungstechnik von vielen Fak-

toren wie beispielsweise dem Datentyp abhängig. Darüber hinaus hängt die Wahl der richti-

gen Visualisierungstechnolgie auch häufig von der jeweiligen Fragestellung ab. Da häufig

verschiedene Fragestellungen an den gleichen Datensatz gestellt werden müssen, ist ein

Wechsel der Visualisierungstechnologie unvermeidlich. Aus diesem Grund kommen häufig

hybride Ansätze aber auch Visualisierungsapplikationen, die eine parallele Darstellung durch

verschiedene Techniken erlauben, zum Einsatz. Letztere Ansätze können mit Hilfe von Link-

ing- und Brushing-Verfahren dynamisch miteinander verknüpft werden. So kann der Anwen-

der beispielsweise in einer Scatterplot-Ansicht Daten selektieren, was zu einer automatischen

Aktualisierung der Datendarstellung in einer Parallel Coordinates-Darstellung führt. Ent-

sprechende Verfahren kamen in dieser Arbeit ebenfalls nicht zum Einsatz.

116

Page 129: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 6

Visuelle Data Mining-Applikationen

Im vorausgehenden Kapitel wurden die Aufgaben und die Bedeutung des Data Mining im

Bereich der chemischen Forschung erläutert. Dabei wurden insbesondere die Methoden und

Eigenschaften des visuellen Data Minings sowie die hierfür notwendigen Techniken der

Informationsvisualisierung beschrieben. Die Methoden und Applikationen dieses speziellen

Data Mining-Feldes haben in jüngster Zeit insbesondere im Wirkstoffdesign aufgrund der

drastischen Zunahme an generierten Daten stark an Bedeutung gewonnen. Der entscheidende

Vorteil dieser Systeme gegenüber klassischen, "Black Box"-ähnlichen Data Mining-Ansätzen

ist die einfache und von speziellen Data Mining-Kenntnissen unabhängige Architektur. Visu-

elle Data Mining-Anwendungen können daher direkt von den Chemikern eingesetzt werden,

die auch für die Generierung der Datensätze verantwortlich sind und ermöglichen somit eine

best- und schnellstmögliche Analyse und Interpretation der Daten.

Screeningdatensätze und kombinatorische Daten liegen in der Regel in Form firmeninter-

ner oder öffentlich zugänglicher Datenbanken vor und sollten daher auch durch firmeninterne

Informationssysteme oder über das Internet zugreifbar und analysierbar sein. Zu Beginn der

dieser Dissertation zugrundeliegenden Entwicklungsarbeiten gab es jedoch keine portablen

Möglichkeiten, um hochdimensionale Datensätze im Internet zu visualisieren und zu analy-

sieren. Dieses Kapitel beschreibt verschiedene, im Rahmen dieser Arbeit entwickelte Ansätze

und Applikationen, die ein portables, WWW-fähiges visuelles Data Mining multivariater,

chemischer Datensätze ermöglichen.

Der erste Teil des Kapitels beschreibt ein auf VRML basierendes 3D-Interface für die

weltweit größte frei zugängliche chemische Strukturdatenbank, die Antitumor-Screening-

Datenbank des amerikanischen Krebsforschungsinstituts (National Cancer Institute, NCI).

Das Interface dient dabei der Visualisierung und Analyse der in der Datenbank enthaltenen

cancerotoxischen und cancerostatischen Messwerte.

Der zweite Teil des Kapitels widmet sich dem Aufbau und der Funktionsweise des in Java

implementierten InfVis-Programms. Das sowohl als Standalone-Anwendung als auch als

117

Page 130: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Applet ausführbare Programm wurde nicht wie das zuvor erwähnte Interface zur Analyse

eines spezifischen Datensatzes sondern für den allgemeinen Umgang mit beliebigen, multiva-

riaten bzw. multidimensionalen Datensätzen konzipiert.

Abschließend wird im letzten Teil des Kapitels der Online-Dienst ’NCI Screening Data 3D

Miner’ vorgestellt. Der Online-Dienst stellt dabei eine auf InfVis basierende Weiterentwick-

lung des bereits erwähnten NCI Datenbank-Interfaces dar.

In vielen chemischen und mathematischen Modellen wird das dreidimensionale Koordina-

tensystem so dargestellt, dass die z-Achse nach oben weist. Im Gegensatz dazu ist in der 3D-

Visualisierung das kartesische Koordinatensystem in der rechtshändigen Form (Rechte-Hand-

Regel) weit verbreitet (Abbildung 6-1). Bei gespreizten Fingern der rechten Hand zeigt der

Zeigefinger in x-Richtung, der Mittelfinger in y-Richtung und der Daumen in z-Richtung.

Diese Form des Koordinatensystems liegt gewöhnlich allen 3D-Visualisierungsapplikationen

(darunter auch chemischen Anwendungen wie Molcad [250]) sowie den etablierten 3D-Gra-

phikschnittstellen wie beispielsweise OpenGL (vgl. Abschnitt 2.1.3.2) zugrunde und ist auch

Basis der in diesen Kapitel vorgestellten Applikationen.

Abb. 6-1: Dreidimensionales Koordinatensystem (Rechte-Hand-Form).

6.1 NCI Antitumor-Datenbank-Interface

6.1.1 Motivation und Zielsetzung

Die Antitumor- antivirale Screening-Datenbank des US Krebsforschungszentrums stellt

mit über 250.000 Verbindungen die derzeit größte, frei zugängliche chemische Strukturdaten-

bank dar. Seit Beginn des in-vitro Screeningtest im Jahre 1990 wurden dabei bereits über

70.000 (davon 40.000 frei zugängliche) dieser Verbindungen durch das NCI Developmental

Therapeutics Program (DTP) [202] gegen einen standardisierten Satz von sechzig Krebszell-

linien getestet (vgl. Anhang C) [203, 204]. Die resultierenden Screeningdatensätze wurden

y

z

x

vorne

hinten

118

Page 131: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.1 NCI Antitumor-Datenbank-Interface

mit Hilfe verschiedener Data Mining-Experimente analysiert und waren Gegenstand zahlrei-

chen Publikationen [205]. Darüber hinaus wurden einige Online-Schnittstellen für die Suche

und Analyse der Datenbank entwickelt, wobei der Enhanced CACTVS NCI Database

Browser den umfangreichsten und am weitesten entwickelten Vertreter darstellt [93]. Dieser

in einer Kooperationsarbeit zwischen dem Computer-Chemie-Centrum und dem Laboratory

of Medicinal Chemistry des NCI (LMC, Center for Cancer Research, NCI, NIH) entwickelte

Online-Dienst vereint alle öffentlich zugänglichen Daten der NCI Datenbank und wurde dar-

über hinaus um dreidimensionale Strukturinformationen und berechnete und experimentelle

molekulare Eigenschaften erweitert. Trotz der Vielzahl der implementierten komplexen Such-

und Analysemöglichkeiten können in der gegenwärtigen Version keine Suchverfahren auf

den Antitumor-Screeningdaten durchgeführt werden. Darüber hinaus werden die Screening-

daten der einzelnen Verbindungen auch nur in einer tabellarischen Liste ausgegeben, was die

Identifikation potentieller Wirkstoffkandidaten erschwert. Im Gegensatz dazu ist eine durch

den Benutzer definierte Suche innerhalb der Screeningdaten mit Hilfe der vom DTP entwik-

kelten Online-Werkzeuge möglich. Leider beschränkt sich die Visualisierung der Screening-

daten jedoch nur auf ein zweidimensionales Balkendiagramm, das den Vergleich von

maximal zwei verschiedenen Verbindungen zulässt. Diese stark limitierte Darstellungsform

ist für die Erkennung allgemeiner Struktur-Aktivitätsprinzipien ungeeignet, da hierfür die

Screeningdaten einer Vielzahl strukturell ähnlicher Verbindungen betrachtet und verglichen

werden müssen.

Das Ziel war daher die Entwicklung einer Online-Anwendung, die eine effektive Darstel-

lung und Analyse der NCI Screeningdaten ermöglichte. Um eine visuelle Erkennung von

Struktur-Aktivitäts-Prinzipien zu gewährleisten, musste der Online-Dienst in der Lage sein,

die biologischen Aktivitäten einer Vielzahl von Verbindungen darzustellen. Da bei der Reali-

sierung der Anwendung der Internetstandard VRML eingesetzte wurde, sollte in einer weite-

ren Fragestellung die Verwendbarkeit dieses Graphikformats für den Einsatz im visuellen

Data Mining überprüft werden.

6.1.2 Funktionsbeschreibung

Das Eingabeformular (Abbildung 6-2) des Online-Dienstes besteht aus drei Bereichen.

Der obere Teil des HTML-Fomulars dient dabei zur Festlegung der Kriterien für die Struktur-

suche. Der Benutzer kann zum einen mit Hilfe von CAS-Nummern oder internen Kennzeich-

nungen des amerikanische Krebsforschungsinstituts, den sogenannten NSC-Nummern, nach

bestimmten Verbindungen suchen. Im Allgemeinen sind diese speziellen Identifier dem

Benutzer jedoch nicht bekannt und kommen daher nur in seltenen Fällen zum Einsatz. In der

Regel erfolgt die Suche nach Verbindungen über die chemische Struktur bzw. Konnektivität.

119

Page 132: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Abb. 6-2: Eingabeformular des NCI Antitumor-Datenbank-Interface.

Der Benutzer hat deshalb die Möglichkeit Konnektivitätsdaten in Form der SMILES-Nota-

tion [104] an den Service zu übergeben. Dieses Austauschformat kann entweder von mit der

SMILES-Syntax vertrauten Benutzern direkt eingegeben oder mit Hilfe der Copy & Paste-

Funktion aus aktuellen, chemischen Struktureditoren übernommen werden. Darüber hinaus

bietet die Anwendung wie auch die im ersten Teil dieser Arbeit beschriebenen Online-Appli-

kationen die Nutzung eines Java-basierten Struktureditors [12] zur Generierung von

SMILES-Strings an. Der Anwender kann die eingegebene Konnektivitätsinformation zum

einen für die Suche nach exakten Strukturen einsetzen. Wesentlich interessanter ist jedoch die

Möglichkeit die strukturelle Information zur Substruktursuche zu verwenden. Neben der Sub-

struktursuche können auch noch diverse Ähnlichkeitssuchen (98%, 95%, 90% und 75%

strukturelle Ähnlichkeit) durchgeführt werden.

Der NCI in-vitro Screeningtest wurde so definiert, dass die sechzig Standard-Krebszellli-

nien sowohl die wichtigsten organbezogenen Krebsarten als auch die wichtigsten biochemi-

schen Mechanismen umfasst. Im mittleren Teil des Eingabeformulars kann der Benutzer

daher die für die Fragestellung interessanten Krebsfamilien wie Brust-, Lungen-, Eierstock-,

Prostata-, Augen- und Darmkrebs sowie Leukämie, Melanome und Krebsarten des Zentralen

Nervensystems selektieren.

Der untere Teil des Online-Dienstes dient letztendlich zur Selektion der biologischen Akti-

vitäten. Dabei kann der Benutzer zwischen drei unterschiedlichen Messwerten wählen –

120

Page 133: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.1 NCI Antitumor-Datenbank-Interface

GI50, TGI und LC50. Der GI50-Wert beschreibt die Konzentration einer chemischen Verbin-

dung, bei der eine 50%-ige Wachstumsinhibition festgestellt wurde. Der TGI-Wert ist die

Konzentration bei der kein Wachstum der Zellen mehr beobachtet werden konnte und

beschreibt daher den cancerostatischen Effekt einer Verbindung. Der letzte zur Wahl stehende

Wert ist der LC50. Dieser Wert steht für die Konzentration bei der die Zellpopulation um

50 Prozent minimiert wurde und ist damit ein Indiz für den cytotoxischen Effekt einer Ver-

bindung. Darüber hinaus kann der Benutzer entscheiden, ob die biologische Aktivität in einer

absoluten oder relativen Form dargestellt werden sollen. Bei der absoluten Aktivität werden

die gemessenen logarithmischen Werte direkt eingesetzt. Die relative Aktivität wird hingegen

nach dem ’Mean Graph’-Prinzip von Paull definiert [204, 206]. Dabei wird für eine gegebene

Verbindung die gemittelte biologische Aktivität über alle Krebszelllinien bestimmt. Der

gemittelte Wert wird anschließend von den einzelnen, zellspezifischen Aktivitäten subtra-

hiert, wodurch sich eine relative Darstellung ergibt. Diese Auftragung hat sich als besonders

nützlich zur Identifikation spezifischer Wirkungsweisen herausgestellt.

Schließlich kann der Benutzer die Datenbanksuche starten. Um eine Überfrachtung der

graphischen Szene zu vermeiden, wird dabei die Trefferliste auf einhundert Verbindungen

begrenzt.

Abb. 6-3: VRML-Szene mit biologischen Aktivitäten (relative Auftragung) in einer Balkendiagramm-Darstellung (Farbabbildung: Anhang A, Abbildung A-11).

121

Page 134: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Nachdem die Datenbankrecherche beendet ist, werden die biologischen Aktivitäten in

Form einer VRML-Szene in einem zweiten Browserfenster dargestellt (Abbildung 6-3).

Dabei werden die Krebszelllinien auf der x-Achse und die chemischen Verbindungen auf der

z-Achse aufgetragen. Die biologischen Aktivitäten werden zum einen durch die Größe (Aus-

lenkung entlang der y-Achse) als auch durch die Farbe der 3D-Balken dargestellt. Die Farb-

werte entsprechen dabei dem Spektrum des sichtbaren Lichtes und verlaufen von violett für

niedrige biologische Aktivitäten nach rot für große Aktivitätswerte. In der ’Mean Graph’-

Darstellung (relative Auftragung der Werte) wird der biologische Aktivitätswert zudem durch

die Ausrichtung der Balken repräsentiert. Verbindungen mit einer unterdurchschnittlichen

Aktivität zeigen dabei nach unten aus der xz-Ebene heraus, während überdurchschnittliche

Aktivitäten durch nach oben ausgerichtete Balken dargestellt sind. Fehlende Messwerte wer-

den in der graphischen Szene durch Löcher symbolisiert.

Neben den Namen der einzelnen Krebszelllinien sind auf der x-Achse auch zusätzliche

numerische Identifikatoren (ID) aufgetragen. Diese IDs wurden zur einfachen, weiter unten

beschriebene Selektion der Krebszellen eingefügt. Darüber hinaus enthält auch die z-Achse

neben den Identifikationsnummern für die chemischen Verbindungen zusätzliche Objekte in

Form von roten Kugeln. Diese graphischen Objekte sind sogenannte Ankerknoten, die den

Hyperlinks in HTML-Seiten entsprechen und dienen in diesem Fall zur Abfrage chemischer

Detailinformation. Jeder Ankerknoten enthält dabei eine HTTP-kodierte Datenbankabfrage

für den bereits erwähnten Enhanced CACTVS NCI Database Browser [93]. Durch Anklicken

der Kugeln kann der Benutzer diesen Online-Dienst in einem weiteren Browserfenster öffnen

und somit auf sämtliche in der Datenbank gespeicherten Daten der korrespondierenden Ver-

bindung zugreifen. Darüber hinaus kann der Benutzer den Service auch für weitergehende

Arbeitsschritte verwenden. Der Anwender kann sich innerhalb der Szene frei bewegen und

die dargestellte Datenlandschaft mit Standard-Navigationswerkzeugen wie Translation, Rota-

tion und Zoom erforschen.

Neben der Darstellung der VRML-Szene wird auch das ursprüngliche Dateneingabefor-

mular im ersten Browserfenster durch ein neues HTML-Formular ersetzt (Abbildung 6-4).

Dieses Formular besteht dabei ebenfalls wie das erste Formular aus drei Bereichen – der

obere Teil zur Selektion der chemischen Verbindungen, der mittlere Teil zur Wahl der Krebs-

zelllinien und der untere Teil zur Auswahl der Aktivitätsdaten. Im Gegensatz zum ursprüngli-

chen Formular dient das neue, dynamisch generierte HTML-Formular jedoch nicht zur

Formulierung einer neuen Datenbankanfrage sondern vielmehr zur Selektion interessanter

Aktivitätsdaten. Aus diesem Grund enthält das Formular zwei Textfelder, in denen die Identi-

fikationsnummern der in der VRML-Szene dargestellten chemischen Verbindungen und

Krebszelllinien enthalten sind. Nachdem der Benutzer interessante Struktur-Aktivitäts-

Muster innerhalb der graphischen Übersicht ausgemacht hat, kann er die Identifikationsnum-

122

Page 135: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.1 NCI Antitumor-Datenbank-Interface

mern uninteressanter Verbindungs-Krebszelllinien-Kombinationen aus den Textfeldern ent-

fernen. Nach Betätigung des ’Refine Results’-Knopfes werden sowohl die in der VRML-

Szene dargestellten Aktivitäten als auch die im Selektionsformular enthaltenen Daten der

durch den Benutzer definierten Auswahl entsprechend angepasst. Dieser Vorgang kann dabei

so oft wiederholt werden, bis die gewünschten Struktur-Aktivitäts-Daten isoliert wurden.

Abb. 6-4: NCI Antitumor-Datenbankinterface: Selektionsformular.

Neben diesen grundsätzlichen Funktionen bietet der untere Formularteil einige zusätzliche

Selektionsoptionen. Zum einen kann zu jedem Zeitpunkt die graphische Darstellung der bio-

logischen Aktivitätsdaten von einer relativen in eine absolute Darstellung bzw. umgekehrt

geändert werden. Darüber hinaus kann der Benutzer für die selektierten Verbindungen und

Krebszelllinien die zugrundeliegenden biologischen Aktivitätsdaten (GI50, LC50, TGI) aus-

tauschen, um so beispielsweise Unterschiede im cytotoxischen und cytostatischen Verhalten

einer Verbindung zu identifizieren. In einigen Fällen ermöglicht das Formular auch den

Wechsel der Substanzkonzentration. Dies ist dann der Fall, wenn eine als hoch aktive Sub-

stanz identifizierte Verbindung in verschiedenen Verdünnungsgraden im in-vitro Screening-

test eingesetzt wurde. Liegt die entsprechende Information für den selektierten Datensatz in

der Datenbank vor, so werden alle entsprechenden Konzentrationen automatisch zur Auswahl

123

Page 136: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

gestellt. Der Online-Dienst informiert den Benutzer darüber hinaus, für wieviele der darge-

stellten Verbindungen die gewählte Konzentration relevant ist.

6.1.3 Implementierung

Wie auch die im ersten Teil der Arbeit beschriebenen Online-Dienste basiert das NCI

Datenbank-Interface auf dem chemischen Datenmanagementsystem CACTVS (vgl. Abschnitt

2.3.1). Darüber hinaus kamen zum einen die Datenbank (spezifisches CACTVS-Format) des

Enhanced CACTVS NCI Database Browser mit molekularen Eigenschaften und Strukturin-

formationen der über 250.000 Verbindungen der NCI Datenbank als auch eine MySQL-Daten-

bank [207] mit den NCI in-vitro Screeningdaten von 41.000 (Stand: April 2002) chemischen

Verbindungen zum Einsatz.

Im Gegensatz zu den im ersten Teil der Arbeit beschriebenen Visualisierungsansätzen wur-

den bei der Implementierung des Web-fähigen Datenbank-Interfaces keine zusätzlichen

CACTVS-Module entwickelt. Vielmehr diente das CACTVS-System zur Ausführung der auf-

wendigen Substruktur- und Ähnlichkeitssuchen sowie für den Zugriff auf die CACTVS-

Datenbank des Enhanced CACTVS NCI Database Browser. Die einzelnen Prozessabläufe der

in Abbildung 6-5 schematisch dargestellten Datenvisualisierungssitzung werden im Folgen-

den näher beschrieben.

Nachdem der Benutzer die gewünschten Suchparameter zur Auswahl der chemischen Ver-

bindungen und Krebszelllinien angegeben und die Datenbankrecherche gestartet hat, über-

prüft das CGI-Skript in einem ersten Schritt die Syntax der übermittelten Parameter.

Anschließend wird je nach Benutzereinstellung (CAS, NSC, Substruktur- oder Ähnlichkeits-

suche) die Datenbank des Enhanced CACTVS NCI Database Browser durchsucht und die

relevanten Treffer in Form von NSC-Nummern an das CGI-Skript zurückgeliefert. Die Suche

ist dabei durch Angabe zusätzlicher Suchparameter nur auf solche Verbindungen limitiert, für

die auch Antitumor-Screeningdaten vorliegen (41.000 von 250.000 Verbindungen). Die vom

CACTVS-System gefundenen NSC-Nummern werden anschließend mit den vom Benutzer

selektierten Krebszelllinien in Form einer SQL-Datenbankanfrage kombiniert und diese zur

Abfrage der biologischen Aktivitätsdaten an die MySQL-Datenbank übergeben. Darüber hin-

aus entnimmt das CGI-Skript der Datenbank die verschiedenen Konzentrationsangaben, die

für die entsprechende Kombination zur Verfügung stehen. Mit Hilfe der zurückgelieferten

Daten generiert das CGI-Skript schließlich zum einen die VRML-Szene zur graphischen Dar-

stellung der biologischen Aktivitäten und zum anderen das temporäre HTML-Formular zur

Selektion von Teildatensätzen.

124

Page 137: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.1 NCI Antitumor-Datenbank-Interface

Abb. 6-5: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI-Datenbank-Interface. Der rautierte Bereich kennzeichnet Elemente des Enhanced CACTVS NCI Database Browser [93], welcher nicht Teil dieser Arbeit war.

Der Benutzer kann im Folgenden Verbindungen und Krebszelllinien, welche er vorher

anhand auffälliger Aktivitätsmuster in der graphischen VRML-Darstellung ausgemacht hat,

im dynamisch generierten HTML-Formular selektieren bzw. die uninteressanten Einträge

löschen und die Daten zur Aktualisierung an den Server übermitteln. Im Gegensatz zur ersten

Datenbanksuche muss dabei kein erneuter Zugriff auf die Datenbank des Enhanced CACTVS

NCI Database Browser erfolgen, da zu diesem Zeitpunkt bereits alle relevanten NSC-Daten

dem CGI-Skript bekannt sind. Die neuselektierten Daten werden wieder zur Generierung

einer MySQL-Datenbankanfrage verwendet und die resultierende, neue VRML-Szene sowie

das aktualisierte HTML-Formular an den Benutzer übertragen. Dieser Vorgang kann beliebig

oft wiederholt werden.

HTML-

Formular

Eingabe

Strukturen

Hitlist

CACTVS-System

Einlesen, AnalyseDatenbanksuche(Substruktursuche,

Ähnlichkeitssuche, etc.)

Client ServerCGI-Skript

VRML-Szene

Auswahl

Detail-Information

HTML-

Formular

Auswahl

Ausgabe

Einlesen, AnalyseDatenbanksuche(Substruktursuche,

Ähnlichkeitssuche, etc.)

MySQL-NCI-Datenbank

41.000Screening-

daten

CACTVS-System

Selektion

Kreb szellen

Strukturen

2346, 2569, 2890, 102020,

102200, 105000, 190230,

654666, 656743,...

1, 2, 3, 4, 5, 6, 7, 8, 9, 10,

11, 12, 13, 14, 15, 16, 17,

18, 19, 20 - 28, 60,...

Detail

HTML-

Formular

N

NR2

VRML

CACTVS-NCI-Datenbank

>250.000Strukturdaten,

MolekulareEigenschaften

125

Page 138: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Wie bereits erwähnt, ist die VRML-Szene mit sogenannten VRML-Ankerknoten ausge-

stattet, um dem Benutzer die Abfrage von Detailinformation zu erlauben. Diese Ankerknoten

enthalten dabei einen Hyperlink zum Enhanced CACTVS NCI Database Browser mit einer

kodierten NSC-Nummer der entsprechenden Verbindung. Durch Anklicken der entsprechen-

den, roten Kugeln wird dann eine reguläre Online-Sitzung des Database Browsers gestartet

und die korrespondierende Detailinformation in einem dritten Browserfenster dargestellt. Da

letztere Funktionalität nicht durch das NCI Datenbank-Interface realisiert wird, wurden die

entsprechenden Teile in Abbildung 6-5 besonders hervorgehoben (rautiert).

6.1.4 Diskussion

Während zum Implementierungszeitpunkt des graphischen Datenbank-Interfaces bereits

zahlreiche Web-Applikationen zur Visualisierung verschiedener Datentypen wie beispiels-

weise Volumen vorlagen, gab es kaum portable Informationsvisualisierungs-Anwendungen,

die zur Darstellung großer Datensätze und somit zur Analyse und Suche nach Mustern und

Beziehungen geeignet waren. Darüber hinaus erlaubte der Großteil der wenigen, verfügbaren

Applikationen lediglich die Präsentation aber nicht die für visuelles Data Mining essentielle

Exploration von Datensätzen.

Erste Arbeiten auf dem Gebiet der portablen, explorativen Informationsvisualisierung

wurden in der National Security Agency (NSA, USA) entwickelt und basierten auf der Virtual

Reality Modeling Language [208]. Der Visualisierungsansatz diente zur Darstellung hierar-

chischer Daten und Graphen wie beispielsweise der Organisationsstruktur der NSA und

nutzte deshalb spezielle Visualisierungstechniken wie die Cone Tree-Technik (vgl. Abschnitt

5.4.2.4). Wie auch im vorliegenden Datenbank-Interface wurde in diesem frühen Ansatz die

VRML-eigene Ankerknotentechnik eingesetzte, um Hyperlinks in die VRML-Szene zu inte-

grieren und somit zusätzliche Zugriffsmöglichkeiten in Form von statischen HTML-Seiten

oder CGI-vermittelten Datenbanksuchen zu erlauben. Obwohl mit Hilfe dieses Ansatzes eine

Visualisierung, Analyse und Navigation innerhalb großer Datensätze möglich war, fehlten

essentielle Funktionen wie beispielsweise Filter- und Selektionswerkzeuge, die für ein effek-

tives visuelles Data Mining nötig sind.

Ein anderer mehr zur Präsentation als zur explorativen Analyse geeigneter Ansatz wurde

von der Firma StockSmart, einem Provider von Online-Analysewerkzeugen für Finanz- und

Investmentdaten, entwickelt [209]. Durch einen auf VRML basierenden, dreidimensionalen

Liniengraphen (vgl. Abschnitt 5.4.2.1) wird der zeitliche Verlauf von Firmenbilanzen darge-

stellt. Die VRML-Szene wurde mit Berührungs-Sensoren sowie Skriptknoten ausgestattet,

die zur Darstellung von Detailinformationen innerhalb der VRML-Szene dienen. Der Benut-

zer kann dabei mit dem Mauszeiger über bestimmte Regionen des Liniengraphen fahren, was

126

Page 139: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.1 NCI Antitumor-Datenbank-Interface

zu einer farblichen Hervorhebung der einzelnen Bereiche und zur textuellen Darstellung der

korrespondierenden Detailinformation führt. Weitere Funktionalitäten sind nicht vorhanden.

Da die im VRML-Standard vorhandenen Interaktionstechniken für ein effektives visuelles

Data Mining im Allgemeinen nicht ausreichen, wurden verschiedene Ansätze zur Erweite-

rung der Benutzerinteraktionsfähigkeiten entwickelt. Eine Möglichkeit bietet dabei die

bereits im ersten Teil dieser Arbeit vorgestellte Kombination von VRML und Java über das

External Authoring Interface. Eine auf dieser Technik basierende Demonstrationsapplikation

wurde von Roskothen vorgestellt [210]. Die Online-Demo besteht dabei aus einer VRML-

Szene mit einer Balkendiagramm-Darstellung sowie einem Java-Applet, an das ein Datenar-

ray übergeben wird. Durch Betätigung eines Schiebereglers kann der Benutzer nun direkt die

Histogramm-Darstellung beeinflussen. Eine konkrete Nutzung dieser Technik innerhalb einer

visuellen Data Mining-Anwendung ist uns nicht bekannt.

Ein anderer Weg zur Verbesserung der Interaktionsfähigkeiten wurde von der Firma EM7

beschrieben und stellt darüber hinaus die wahrscheinlich erste kommerzielle, VRML-basierte

Softwarelösung im Bereich der Informationsvisualisierung dar [211]. Zum einen beinhaltet

die auf einer Client-Server-Architektur aufbauende Anwendung ein ActiveX-basiertes Appli-

cation Programmable Interface (API), mit dessen Hilfe die Server-seitige Anbindung an

externe Programmpakete als auch an verschiedene Datenbankformate möglich ist. Darüber

hinaus entwickelte EM7 eine umfassende Sammlung an VRML-Erweiterungen, das soge-

nannte ProtoPac, das die limitierten Funktionen des VRML-Standards durch diverse, speziell

für die Bedürfnisse der Informationsvisualisierung angepasste Funktionen ergänzte. Diese

Sammlung enthält dabei Werkzeuge zur Navigation, Interaktion und Datenbankkommunika-

tion. Leider schliesst die Nutzung des Microsoft-Standards ActiveX den Einsatz dieser Tech-

nik auf nicht-Windows-basierten Systemen aus. Darüber hinaus zeigte ein kürzlicher Besuch

auf der Homepage von EM7, dass es innerhalb der letzten ein bis zwei Jahre keine Aktualisie-

rungen der Technik gegeben hat und daher offensichtlich auch keine neuen Webbrowser- und

VRML-Plugin-Generationen unterstützt werden. Dieser Verdacht bestätigte sich bei der Aus-

führung der EM7-Demonstrationsanwendungen, die unter Verwendung des CORTONA-

VRML-Plugins [212] und Netscape 6.2 keine sinnvollen Darstellungen ergab.

Schließlich sollen an dieser Stelle noch zwei besondere VRML-basierte Programme zur

Exploration und Analyse von Datensätzen erwähnt werden – RInvoice und 3D Active Chart

[213]. Die beiden von der Firma First Information Systems entwickelten Programme stellen

jedoch im Gegensatz zu den anderen hier beschriebenen Ansätzen keine portablen WWW-

Applikationen dar. Dennoch nutzen sie den VRML-Standard zur Visualisierung der Daten-

sätze. Im Gegensatz zu den Web-fähigen Ansätzen werden in diesem Fall die VRML-Szenen

durch die ActiveX-Schnittstelle des VRML-Players CORTONA [212] in Standalone-Win-

127

Page 140: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

dows-Applikationen eingebunden. Dies ermöglicht auf der einen Seite ein Maximum an

Datenzugiffsmöglichkeiten und interaktiver Datenmanipulation, aber beschränkt auf der

anderen Seite die Nutzung dieser Programme auf Einzelplatzrechner mit Windows-Betriebs-

systemen.

Das NCI Datenbank-Interface stellt nach unserem Wissen die erste VRML-basierte

Anwendung dar, die speziell zur Visualisierung und Analyse chemischer, multidimensionaler

Datensätze im Internet entwickelt wurde. Darüber hinaus ist uns bis dato kein anderer Online-

Dienst bekannt, der den VRML-Standard zur Darstellung und Exploration von Datensätzen

der Chemie (ausgenommen molekulare Modelle wie Strukturen und Oberflächen) verwendet.

Der Einsatz der Virtual Reality Modeling Language birgt dabei sowohl Vor- als auch Nach-

teile. Zum Zeitpunkt der Implementierung stellte der VRML-Standard die einzige standardi-

sierte Technologie zur Vermittlung dreidimensionaler Szenen über das Internet dar. Ein

wesentlicher Vorteil dieses Standards basiert auf der leichten Verfügbarkeit. VRML-Szenen

können durch diverse, frei verfügbare VRML-Plugins in fast allen wichtigen Webbrowsern

sowie nahezu auf allen Plattformen und Betriebssystemen dargestellt werden. Darüber hinaus

baut VRML auf low-level Graphikschnittstellen wie OpenGL oder Direct3D auf und nutzt

daher die Fähigkeiten moderner 3D-Graphikhardware.

Ein wesentlicher Nachteil des VRML-Standards stellen die begrenzten Interaktions- und

Dynamik-Fähigkeiten des VRML-Formates dar. Obwohl mit Hilfe der implementierten Funk-

tionen einige grundsätzliche, explorative Werkzeuge wie beispielweise weiterführende, auf

Hyperlink-Technik basierende Detail- und Datenbankabfragen realisiert werden können, sind

zur Realisierung effektiver, visueller Data Mining-Applikationen zusätzliche Interaktions-

werkzeuge nötig. Im vorliegenden Fall wird dieses Defizit durch die Kombination der

VRML-Darstellung mit dynamisch generierten HTML-Formularen gelöst, wodurch dem

Benutzer die Selektion von Datenpunkten bzw. interessanter Muster ermöglicht wird.

Die typische Client-Server-Architektur von VRML-basierten Online-Diensten kann eben-

falls zu Nachteilen bei der Visualisierung großer Datensätze führen. Dabei wird im Allgemei-

nen die VRML-Szene auf der Serverseite durch entsprechende Data Mining-Applikationen

aus den Originaldaten generiert und an den Client übermittelt. Während dieser Graphiktrans-

fer von Daten (vgl. Abschnitt 3.3.3) bei kleinen Datensätzen problemlos zu realisieren ist,

werden mit zunehmender Datensatzgröße die Übertragungszeiten zwischen Server und Client

immer größer was letztendlich eine effektive Arbeit unmöglich macht. Die Ursache für dieses

Problem liegt dabei nicht unmittelbar in der Größe der relativ kompakten, tabellarischen Ori-

ginaldaten begründet, sondern basiert auf der Größe der VRML-Dateien, die in der Regel um

ein Vielfaches größer sind als die korrespondierenden Rohdaten. Im Fall des NCI Datenbank-

Interfaces fällt dieser Sachverhalt weniger ins Gewicht, da zum einen die Datenbankrecher-

128

Page 141: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

che auf maximal einhundert Verbindungen limitiert ist und zum anderen der Benutzer nach

spezifischen Struktur- und Krebszellen-Kombinationen sucht, die in der Regel zu kleineren

Datensätzen führen.

Der generelle Einsatz von VRML zur Realisierung Web-fähiger Applikationen des visuel-

len Data Minings ist nach unserer Auffassung nur bei Vorlage relativ kleiner Datensätze und

innerhalb spezifischer, auf bestimmte Problemstellungen ausgerichteter Applikationen zu

empfehlen. Mit zunehmender Datensatzgröße und vor allem steigendem Unbekanntheitsgrad

der zugrundeliegenden Daten wird der Einsatz von VRML in der explorativen Visualisierung

zunehmend ungünstig und letztendlich sinnlos. Schlussfolgernd eignet sich VRML daher vor

allem zur Datenpräsentation und zur konfirmativen Datenanalyse aber nur im begrenzten

Umfang und unter Berücksichtigung spezieller Rahmenbedingungen für explorative Analyse-

ansätze.

Im Gegensatz zu den in Kapitel 4 beschriebenen Applikationen wurde das NCI Daten-

bank-Interface nicht als offizieller Online-Dienst betrieben. Vielmehr diente der Service zum

internen Gebrauch am Computer-Chemie-Centrum sowie am Laboratory of Medicinal Che-

mistry des NCI. Das VRML-Interface soll in die nächste Version des Enhanced CACTVS NCI

Database Browser integriert werden. Darüber hinaus wurde im Rahmen dieser Arbeit ein

weiterentwickeltes, auf der Programmiersprache Java basierendes Interface entwickelt, das

als Online-Dienst zur Verfügung steht (vgl. Abschnitt 6.3).

Neben VRML-Ansätzen wurden in den letzten Jahren auch Java-Applikationen sowie spe-

zielle auf Microsoft-Technologien aufbauende Applikationen zur explorativen Informations-

visualisierung entwickelt. Diese Ansätze werden in den Abschnitten 6.2 und 6.3 vorgestellt.

6.2 Das InfVis-Programm

6.2.1 Zielsetzung

Da die für visuelle Data Mining-Ansätze essentiellen, interaktiven Werkzeuge mit Hilfe

von VRML-Applikationen nur sehr begrenzt oder garnicht zu realisieren sind, war ein primä-

res Ziel des InfVis-Programms die Entwicklung und Einbettung interaktiver und dynamischer

Funktionen, die dem Benutzer unter anderem die Identifikation und Extraktion von Mustern

ermöglichen. Die Benutzung dieser Funktionen sollte darüber hinaus zu einer unmittelbaren

Aktualisierung der Datendarstellung führen, da nur so eine effektive, visuelle Exploration

sichergestellt werden kann. Eine Aufteilung der Data Mining-Mechanismen auf Client und

Server wie im Fall des NCI Datenbank-Interfaces kam aus diesem Grund nicht in Frage. Viel-

mehr musste die Client-seitige Applikation in der Lage sein, Rohdaten direkt zu importieren

129

Page 142: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

und zu speichern sowie die entsprechende graphische Darstellung zu generieren und zu mani-

pulieren. Das Programm sollte darüber hinaus nicht nur auf einen Datensatz wie beispiels-

weise die NCI Antitumor-Datenbank festgelegt sein, sondern die Darstellung und

Visualisierung beliebiger, chemischer Datensätze ermöglichen.

Zu Beginn der zugrundeliegenden Entwicklungsarbeiten hatte sich bereits eine visuelle

Data Mining-Applikation besonders in der LifeScience-Forschung etabliert – Spotfire [214,

215]. Obwohl das auf dem Microsoft-Betriebssystem basierende Programm in großen Stück-

zahlen in vielen großen Pharmaunternehmen wie Pfizer oder Bayer speziell für den Gebrauch

durch Laborchemiker angeschafft wurde, blieb der erhoffte Erfolg, nämlich die Integration

der Synthesechemiker sowie ihres Fachwissens in den Data Mining-Prozess, zunächst aus

[216]. Die Ursache hierfür lag vor allem in der großen und auf den ersten Blick unüberschau-

baren Anzahl an Funktionen der Applikation sowie dem für die Industrie typischen, enormen

Zeitdruck der Mitarbeiter begründet, der eine langwierige Einarbeitung in das Programm nur

bedingt oder garnicht zulässt. Viele vor allem mit Computern weniger vertraute Chemiker

lehnten aus diesen Gründen die Arbeit mit Spotfire ab [216].

Darüber hinaus ergaben interne Umfragen innerhalb der Bayer AG, dass sich die betroffe-

nen Chemiker eine simple Visualisierungsapplikation mit ein bis zwei interaktiven Funktio-

nen wie beispielsweise Zoom wünschten [217]. Diese Erfahrungswerte sollten bei der

Implementierung des InfVis-Programms berücksichtigt werden. Die Applikation sollte daher

neben den bereits erwähnten Zielen einfach und intuitiv und vor allem ohne die Notwendig-

keit einer langwierigen Einarbeitungszeit zu bedienen sein. Außerdem sollte die Interpreta-

tion bzw. die visuelle Mustererkennung ebenfalls möglichst intuitiv erfolgen.

Schließlich sollte das Programm wie alle anderen in dieser Arbeit vorgestellten Entwick-

lungen unabhängig von spezifischen Plattformen und Betriebssystemen sein und auch den

Einsatz im Internet bzw. Intranet ermöglichen.

6.2.2 Übersicht

Um alle im vorhergehenden Abschnitt aufgelisteten Zielsetzungen zu erfüllen, wurde zur

Implementierung der InfVis-Applikation die plattformunabhängige Programmiersprache Java

(vgl. Abschnitt 2.2.4) eingesetzt. Darüber hinaus wurde zur Realisierung einer möglichst ein-

fachen visuellen Datenexploration wie auch bereits im NCI Datenbank-Interface (vgl.

Abschnitt 6.1) eine dreidimensionale Datenrepräsentationstechnik verwendet. Nach unserer

Meinung erlauben insbesondere dreidimensionale Visualisierungsansätze wie Balkendia-

gramme oder Scatterplots eine einfache Interpretation der dargestellten Datensätze, während

komplexere Verfahren wie die Parallel Coordinates-Technik eine ablehnende Haltung bei

130

Page 143: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

ungeübten bzw. im Umgang mit Computern weniger erfahrenen Benutzer hervorrufen kön-

nen. Um insbesondere die Darstellung multidimensionaler Datensätze zu ermöglichen, basiert

das InfVis-Programm auf der 3D-Glyph-Technik, welche bereits in Abschnitt 5-10 vorgestellt

wurde. Dieser Ansatz nutzt zum einen die weite Verbreitung und hohe Akzeptanz der Scatter-

plot-Technik und erlaubt zum anderen das Abbilden einer Vielzahl von Datendimensionen

durch retinale Eigenschaften.

Zur Darstellung der dreidimensionalen Szenen wurde die verhältnismäßig junge Java-

Erweiterung Java3D (vgl. Abschnitt 2.2.6) eingesetzt, die zum einen Client-seitig vorhandene

3D-Kapazitäten nutzt und zum anderen im Gegensatz zu VRML frei programmierbar ist, so

dass ein Maximum an Interaktion innerhalb der Szene realisiert werden kann. Darüber hinaus

kann die Erweiterung problemlos mit vorhandenen Java Virtual Machines und Java-Plugins

eingesetzt werden.

Abb. 6-6: Das InfVis-Programm (Farbabbildung: Anhang A, Abbildung A-12).

131

Page 144: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Abbildung 6-6 zeigt einen Screenshot des InfVis-Programms. Das graphische User-Inter-

face des Programms besteht aus vier Bereichen – dem Menü (Abbildung 6-6, oben), dem

Visualisierungsfenster (Abbildung 6-6, oben rechts), dem Werkzeugfenster (Abbildung 6-6,

oben links) und dem ’Mapping’-Fenster (Abbildung 6-6, unten). Die einzelnen Fenster sind

dabei durch sogenannte SplitPanes miteinander verbunden, die sowohl eine Größenverände-

rung als auch das Ein- und Ausblenden der einzelnen Fenster erlauben. Auf die verschiedenen

Funktionen der einzelnen graphischen Elemente soll im Folgenden nicht näher eingegangen

werden. Vielmehr werden die grundsätzlichen Konzepte und Eigenschaften des Programms

erläutert. Eine detaillierte Funktionsbeschreibung der Applikation kann über das Internet her-

untergeladen werden (URL in Anhang B).

6.2.3 Daten-Integration und -Management

Eine der wichtigsten Aufgaben bei der Planung und Entwicklung einer visuellen Data

Mining-Applikation besteht in der Implementierung von Schnittstellen, die eine einfache

Integration von Daten aus verschiedenen Datenquellen ermöglichen. Die umständliche und

vor allem zeitaufwendige Konvertierung von Daten führt ansonsten beim Benutzer zu einer

deutlichen Abnahme der Akzeptanz. Die InfVis-Applikation ist deshalb mit zwei verschiede-

nen Datenschnittstellen ausgestattet. Zum einen kann das Programm mit Hilfe der Java Data-

base Connectivity-Erweiterung (JDBC) [218] auf diverse frei verfügbare und kommerzielle

Datenbanken zugreifen. In der derzeitigen Version unterstützt die Anwendung dabei lediglich

den JDBC-vermittelten Zugriff auf MySQL-Datenbanken [219]. Jedoch kann diese Funktio-

nalität zu jeder Zeit ohne großen Aufwand auf andere Datenbanksysteme erweitert werden.

Die zweite Schnittstelle erlaubt die Dateneingabe durch Dateien, in denen die diversen Daten-

werte durch Kommas getrennt sind (CSV-Dateien, Comma Separated Value Format). Dieses

Datenformat wird vor allem von Tabellenkalkulationsprogrammen wie beispielsweise Excel

aber auch von anderen Softwareanwendungen als Standardausgabeformat unterstützt. In bei-

den Fällen analysiert das InfVis-Programm die eingelesenen Daten und extrahiert neben den

eigentlichen Rohdaten auch zusätzliche Information wie beispielsweise Spaltenüberschriften.

Darüber hinaus wird während des Lesevorgangs der Datentyp der einzelnen Dimensionen

ermittelt. Dabei unterscheidet die Anwendung zwischen kontinuierlichen und diskreten

Datentypen sowie Metadaten wie beispielsweise Hyperlinks oder Base64-kodierten Bildda-

teien.

Neben der Datenintegration ist im visuellen Data Mining auch das Datenmanagement von

großer Bedeutung. Unter Datenmanagement ist dabei in erster Linie die parallele Verwaltung

verschiedener Datensätze zu verstehen. Erst durch die Verfügbarkeit diverser Datensätze wie

beispielsweise unter bestimmten Bedingungen selektierten oder in verschiedenen Darstellun-

132

Page 145: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

gen vorliegenden Teildatensätzen ist ein Vergleich zwischen den einzelnen Daten möglich

und der Benutzter letztendlich in der Lage, relevante Informationen oder Beziehungen zu

erkennen. Im InfVis-Programm kann der Benutzer selektierte oder gefilterte Teildatensätze in

separaten Datenspeichern ablegen. Dabei werden nicht nur die entsprechenden Rohdaten son-

dern auch alle für die Darstellung relevanten und vom Benutzer definierten graphischen Ein-

stellungen gespeichert. Der Benutzer kann zwischen den verschiedenen Datenslots hin- und

herschalten, was zu einer unmittelbaren Aktualisierung der graphischen Szene führt. Darüber

hinaus besitzt das Programm ein Datenmanagementfenster, in dem zum einen die wichtigsten

Informationen zu dem entsprechenden Datensatz dargestellt werden. Zum anderen enthält das

Fenster auch Funktionen, die dem Benutzer die Umbenennung und das Löschen von Daten-

sätzen ermöglichen.

6.2.4 Datenvisualisierung

Wie bereits erwähnt, erlaubt die Verwendung dreidimensionaler Visualisierungstechniken

wie 3D-Balkendiagrammen, Scatterplots und 3D-Glyphen eine einfache visuelle Exploration

von multidimensionalen Datensätzen. Da auch im Umgang mit Visualisierungstechniken

weniger erfahrene Chemiker im Allgemeinen bereits mit diesen Darstellungsformen gearbei-

tet haben, ist die Akzeptanz bei der Verwendung dieser Techniken entsprechend hoch. In der

InfVis-Applikation wurde zur Realisierung der dreidimensionalen Szenen die Java3D API

verwendet. Im Gegensatz zu alternativen Ansätzen wie der Pseudo-3D-Visualisierung (vgl.

Abschnitt 2.1.3.1) erlaubt Java3D die Nutzung aktueller, fortgeschrittener 3D-Hardwarefä-

higkeiten. Darüber hinaus wird in der Regel eine bessere Darstellungsqualität erzielt und der

Einsatz von Virtual Reality-Peripherie (vgl. Abschnitt 2.1.3.3) wie beispielsweise Stereobril-

len ermöglicht.

Abb. 6-7: InfVis: a) Balkendiagramm, b) Scatterplotdiagramm, c) 3D-Glyph-Technik (Farbabbildung: Anhang A, Abbildung A-13).

133

Page 146: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Die Applikation nutzt in erster Linie die 3D-Glyph-Technik (Abbildung 6-7c), um multidi-

mensionale Datensätze darzustellen. Darüber hinaus werden aber auch andere, weitverbrei-

tete Darstellungsformen wie die Balkendiagramm- (Abbildung 6-7a) oder die Scatterplot-

Technik unterstützt (Abbildung 6-7b).

6.2.5 Visuelles Mapping

Beim visuellen Mapping werden die einzelnen Datendimensionen bzw. Tabellenspalten

auf diverse visuelle Attribute graphischer Objekte sowie auf die drei orthogonalen Koordina-

tenachsen abgebildet. Die visuellen Eigenschaften der InfVis-Applikation basieren dabei vor

allem auf den von Bertin definierten retinalen Eigenschaften Form, Farbe und Größe [180].

Das Abbilden der Datendimensionen auf visuelle Dimensionen ermöglicht dabei die Generie-

rung einer Vielzahl verschiedener Datenrepräsentationen, was letztendlich höhere Interpreta-

tions- und Analysemöglichkeiten zulässt.

Beim Einlesen der Datensätze generiert InfVis automatisch eine vordefinierte Darstel-

lungsform, wobei der Abbildungsvorgang der Reihenfolge der Datendimensionen im Daten-

satz sowie der InfVis-internen Reihenfolge der graphischen Attribute (X > Y > Z > Größe >

Farbe > Form) folgt. Diese Darstellung kann zu jedem Zeitpunkt vom Benutzer interaktiv

verändert werden, wodurch eine wichtige Anforderung an visuelle Data Mining-Applikatio-

nen erfüllt wird. Die Wahl der besten Datenpräsentation bzw. Abbildungsreihenfolge hängt

dabei stark von den Daten selbst, von der Fragestellung des Analysten aber auch von den Vor-

lieben und den Wahrnehmungsfähigkeiten des Benutzers ab.

Neben den Datendimensionen müssen auch die entsprechenden Datenwerte bzw. der

Datentyp der einzelnen Dimensionen während des Abbildungs-Prozesses (Mapping) berück-

sichtigt werden. Ob und wie eine Datenvariable repräsentiert wird, hängt dabei von der Cha-

rakteristik der Daten ab. Grundsätzlich kann hierbei zwischen diskreten und kontinuierlichen

Datenwerten unterschieden werden. Ein diskreter Datentyp, auch kategorische Variable

genannt, liegt dann vor, wenn alle in einer Datenspalte enthaltenen Werte durch eine limitierte

Anzahl einzigartiger Werte beschrieben werden können. Zu diesem Datentyp zählen unter

anderen textuelle Enumerationen aber unter Umständen auch eine begrenzte Abfolge von

Integerwerten. In der Regel bewegt sich der Datenwertbereich diskreter Datenvariablen zwi-

schen einem bis wenigen Hundert Einzelwerten. Im Gegensatz zu den diskreten Datentypen

basieren kontinuierliche bzw. numerische Datentypen auf Datendimensionen deren Variablen

in einem weitgesteckten numerischen Wertebereich liegen. Typische Vertreter dieses Daten-

typs sind daher vor allem Dezimalwerte oder auch Datumsangaben, deren Wertebereich dabei

zwischen einigen zehn bis theoretisch unendlich vielen Dateneinheiten variieren kann. Bevor

im Folgenden der Mappingprozess der kontinuierlichen und diskreten Datentypen auf die gra-

134

Page 147: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

phischen Dimensionen näher beschrieben wird, soll noch eine dritte Klasse von Datentypen

erwähnt werden – die Metadaten. Metadaten werden im Gegensatz zu den zuvor genannten

Datentypen nicht auf visuelle Attribute abgebildet, da die darin enthaltene Information nur

beschreibenden Charakter hat. Dabei kann es sich beispielsweise um Hyperlinks oder

Base64-kodierte Bilder handeln. Datendimensionen mit Metainformation werden daher von

InfVis gesondert behandelt und interpretiert und in der Detailansicht dargestellt (vgl.

Abschnitt 6.2.6.4).

6.2.5.1 Orthogonale Raumachsen

Stellvertretend für die drei Raumachsen wird an dieser Stelle das Einstellungsfenster für

die x-Achse beschrieben. Wie alle Mapping-Fenster enthält auch das x-Optionsfenster einen

Bereich (Abbildung 6-8, oben rechts), welcher Informationen über den Datentyp (kontinuier-

lich, numerisch), die Anzahl der einzelnen Datenwerte und den Namen der entsprechenden,

abgebildeten Datendimension enthält. Dieser Bereich dient darüber hinaus auch zur Ände-

rung der abgebildeten Datendimension. Auf die drei Raumachsen können sowohl kontinuier-

liche als auch kategorische Datenvariablen abgebildet werden. Während bei Vorlage

kategorischer Variablen die diskreten Datenwerte in einem standardisierten Abstand auf den

Achsen abgebildet werden, können numerische Daten direkt und entsprechend ihres Wertes

aufgetragen werden. Darüber hinaus kann bei Vorlage numerischer Werte zwischen einer

sogenannten ’nice numbers’ und einer Grenzwert-Skalierung gewählt werden. Bei Bedarf

können numerische Werte auch in kategorischer Form aufgetragen werden, während der

umgekehrte Fall natürlich ausgeschlossen ist. Das Optionsfenster enthält weitere Funktionen,

mit denen die graphische Eigenschaften beeinflusst werden können. Nähere Informationen

hierzu können dem InfVis-Handbuch entnommen werden.

Abb. 6-8: InfVis: Einstellungsfenster für die x-Achse.

135

Page 148: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

6.2.5.2 Größe

Die Größe der graphischen Objekte kann ebenfalls verwendet werden, um sowohl kontinu-

ierliche als auch diskrete Datentypen darzustellen (Abbildung 6-9). Dabei gelten die gleichen

Voraussetzungen wie beim Mapping der Datendimensionen auf die Raumachsen. Der Benut-

zer kann zudem die absolute Größendarstellung (maximale und minimale Ausdehnung der

Szenenobjekte) mit Hilfe von Schiebereglern beeinflussen. Die Größe der graphischen

Objekte sollte vor allem zur Repräsentation numerischer Daten verwendet werden, die der

Wissenschaftler ohnehin als Größenangaben versteht. Eine entsprechende Datendimension

wäre beispielweise die Reaktionsausbeute. Datendimensionen mit kategorischen Variablen

sollten nur dann zum Einsatz kommen, wenn die Anzahl der diskreten Datenwerte klein ist

und somit eine Unterscheidung der einzelnen Datenwerte durch den Benutzer noch gewähr-

leistet ist.

Abb. 6-9: InfVis: Einstellungsfenster für die Objektgröße.

6.2.5.3 Farbe

Die Farbgebung der Datenobjekte spielt eine wichtige Rolle bei der Analyse und Identifi-

kation von Mustern und Relationen, da sie die retinale Eigenschaft darstellt, die am leichte-

sten und besten zur Darstellung von Information genutzt werden kann. Dennoch müssen

diverse physiologische und psychologische Aspekte beim Einsatz von Farben berücksichtigt

werden. So existieren bei einigen Menschen physiologische Einschränkungen wie die Rot-

Grün-Sehschwäche, was beim Einsatz bestimmter Farbkombinationen zu einer Fehlinterpre-

tation der Datensätze führen kann. Darüber hinaus ist auch die visuelle Wahrnehmungsfähig-

keit der Menschen sehr unterschiedlich ausgeprägt. So können Männer im Allgemeinen

zwischen einer wesentlich geringeren Zahl von Farbwerten als Frauen unterscheiden, was

insbesondere beim Abbilden kategorischer bzw. diskreter Datendimensionen berücksichtigt

werden muss. Für eine detaillierte Betrachtung dieser Thematik sei an dieser Stelle das Buch

von Colin Ware empfohlen [153].

136

Page 149: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

Abb. 6-10: InfVis: Einstellungsfenster für die Objektfarbe: a) Mapping kategorischer Daten, b) Mapping numerischer bzw. kontinuierlicher Datentypen.

Farben können sowohl zum Abbilden diskreter als auch numerischer Daten verwendet

werden. Um eine gute Unterscheidung diskreter bzw. kategorischer Variablen zu ermögli-

chen, sollten die eingesetzten Farben

− sich stark voneinander unterscheiden

− nur bei Vorhandensein weniger Datenwerten zum Einsatz kommen

− einen genügend großen Kontrast zum Hintergrund bieten

− Sehschwächen berücksichtigen

− nur in Verbindung mit ausreichende großen graphischen Objekten eingesetzt werden

− allgemein gebräuchliche Assoziationen berücksichtigen(z. B. rot = heiß, negativ, blau = kalt, positiv)

In der InfVis-Applikation kommen daher beim kategorischen Mapping (Abbildung 6-10a)

Farben zum Einsatz, die sich aufgrund langjähriger Untersuchungen als Standardfarben für

kategorischen Daten etabliert haben: rot, grün, gelb, blau, schwarz, weiß, pink, cyan, grau,

orange, braun und lila. Die ersten vier Farben sowie schwarz und weiß stellen dabei soge-

137

Page 150: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

nannte Grundfarben dar und erlauben die beste Unterscheidung von Variablen. Sie sollten

daher auch vor den nachfolgenden sechs Farben zum Einsatz kommen. Obwohl das InfVis-

Programm dieser Farbsequenz folgt, ist diese nur als Vorschlag zu verstehen. Der Benutzer

hat zu jedem Zeitpunkt die Möglichkeit, die Farben für die einzelnen Variablen nach seinem

eigenen Ermessen anzupassen.

Im Fall kontinuierlicher Datenwerte sollte auch der Farbverlauf möglichst kontinuierlich

erfolgen. InfVis unterstützt daher sowohl weitverbreitete Farbpaletten wie das HUE-Modell,

das kontinuierliche Spektrum-Modell und das Primary Color-Modell, als auch Farbesequen-

zen mit zwei oder drei Grenzwertfarben, die durch den Benutzer frei definiert werden können

(Abbildung 6-10b) [220]. Darüber hinaus kann der Benutzer bei Vorlage numerischer Daten-

werte auch Grenzwerte definieren, um die Farbskala zu beeinflussen.

6.2.5.4 Form

In der derzeitigen Version kann der Benutzer keine Einstellungen zur Beeinflussung der

Objektform vornehmen. Das Programm unterstützt darüber hinaus auch nur das Abbilden dis-

kreter Datendimensionen, wobei maximal vier einzelne Datenwerte innerhalb der Dimension

vorliegen dürfen. Diese werden entsprechend ihrer Reihenfolge im Datensatz auf die graphi-

schen Objekte Kugel, Würfel, Kegel und Zylinder abgebildet. Der Einsatz der Objektform zur

Darstellung kontinuierlicher Daten ist nach unserer Ansicht nicht sinnvoll, da dies vor allem

den ungeübten Benutzer überfordert und den Mustererkennungsprozess deutlich erschwert.

6.2.6 Interaktive und dynamische Techniken

Im Gegensatz zu klassischen Data Mining-Ansätzen kann visuelles Data Mining das Ver-

trauen und Verständnis des Benutzers in identifizierte Muster und Modelle maßgeblich erhö-

hen. Zur Realisierung dieses Vorteils müssen visuelle Data Mining-Applikationen jedoch

über geeignete, intuitive Interaktionswerkzeuge verfügen. Im Gegensatz zu dem zuvor

beschriebenen, VRML-basierten Datenbank-Interface (vgl. Abschnitt 6.1) konnte durch die

Verwendung von Java und Java3D eine Vielzahl interaktiver und dynamischer Techniken in

das InfVis-Programm integriert werden. Bei der Entwicklung dieser Werkzeuge wurden dabei

folgende Richtlinien berücksichtigt [27]:

− Realisierung einfacher und logischer Interaktionssequenzen

− Vermeidung von unübersichtlichen und zu vieler verschiedener Funktionen

− Permanenter Zugriff auf alle wichtigen Funktionen zu jedem Zeitpunkt der Interaktion

− Verfügbarkeit geeigneter Feedback-Mechanismen

− Undo-Funktionalität bei irrtümlichen Benutzereingaben

138

Page 151: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

Das InfVis-Programm verfügt sowohl über interaktive Funktionen, die direkt innerhalb der

dreidimensionalen Szene ausgeführt werden können, als auch über Interaktionswerkzeuge,

die in einem separaten Werkzeugfenster zur Verfügung stehen. Dabei kann grundsätzlich zwi-

schen interaktiven und dynamischen Funktionen unterschieden werden. Unter interaktiven

Techniken versteht man dabei Benutzereingaben, die direkt und unmittelbar zu einer Verän-

derung beispielsweise einer Aktualisierung der graphischen Datendarstellung führen. Dyna-

mische Techniken erlauben im Gegensatz dazu die Änderung diverser Parameter ohne einen

unmittelbaren Effekt. Die neudefinierten Einstellungen werden erst dann wirksam, wenn der

Benutzer dies durch eine bestimmte Funktion, zum Beispiel in Form eines Aktualisierungs-

knopfes veranlasst. Die verschiedenen in der InfVis-Applikation zum Einsatz kommenden

Interaktionswerkzeuge werden im Folgenden näher beschrieben.

6.2.6.1 Navigationswerkzeuge

Neben den Java3D-basierten und durch Zeigergeräte (z.B. Maus) vermittelten Navigati-

onsmöglichkeiten wie Zoom, Rotation und Translation wurde das InfVis-Programm mit

zusätzlichen Navigationshilfen ausgestattet. Diese ermöglichen dem Benutzer die Ausrich-

tung der Szene auf definierte Standardaufsichten und erweisen sich vor allem dann als nütz-

lich, wenn der Benutzer die Orientierung innerhalb der dreidimensionalen Szenenlandschaft

verloren hat. Darüber hinaus erlauben diese Funktionen ein schnelles und unkompliziertes

Umschalten zwischen den verschiedenen Ansichten.

6.2.6.2 Filterwerkzeuge (Dynamic Queries)

Die wichtigste Interaktionstechnik des InfVis-Programms stellen die sogenannten Dynamic

Queries (DQ) dar [196 - 198, 221, 222]. Die Dynamische Query-Technik kann dabei als eine

visuelle Alternative zur SQL-vermittelten Datenbankabfrage verstanden werden. Im Gegen-

satz zu SQL-basierten Datenbanksuchen erfordern dynamische Queries allerdings kein Spezi-

alwissen. Darüber hinaus erlaubt diese Technik eine schnellere und unkompliziertere Abfrage

und ist das Mittel der Wahl, wenn die resultierenden Daten in graphischer Form dargestellt

werden sollen. Dynamic Queries führen zu einer unmittelbaren Aktualisierung der dargestell-

ten Datenlandschaft und stellen daher eine der wichtigsten Techniken des visuellen Data

Mining dar. Im Prinzip können alle graphischen Standardeingabeelemente wie Slider (Schie-

beregler), Checkboxes und Radiobuttons als graphische Benutzerschnittstellen für

Dynamic Query-Werkzeuge verwendet werden. Diese Frontends werden im Anschluss vom

Benutzer mit Datendimensionen verknüpft und die einzelnen Variablenwerte auf den Aus-

wahlelementen beispielsweise in Form von Einheiten auf dem Schieberegler oder einer Liste

von Checkboxes abgebildet. Diese Form der Selektion von Werten durch die DQ-Werkzeuge

führt schließlich zur Aktualisierung der graphischen Darstellung. Dem Anfänger ermöglichen

139

Page 152: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

sich somit Wege, um auch komplexe Datenbankrecherchen auf Basis visueller Suchstrategien

durchzuführen. Der Anwender kann schnell Informationsmuster in Daten erkennen und

erlernt in kürzester Zeit fast spielerisch die Definition effektiver Dynamic Queries. Darüber

hinaus können Benutzer, die bereits über SQL- bzw. Datenbankerfahrung verfügen, mit Hilfe

von diversen Kombinationen der dynamischen Filter schnell und einfach komplizierte

Suchenanfragen realisieren und die resultierenden Datenpunkte betrachten.

Abb. 6-11: Diverse Dynamic Query-Filterfunktionen des InfVis-Programms.

Die Dynamic Query-Technik erfüllt somit eine Reihe der oben geforderten Vorgaben für

die Realisierung von Interaktionswerkzeugen, wie beispielsweise die schnelle und reversible

Kontrolle oder das unmittelbare Benutzer-Feedback.

Das InfVis-Programm unterstützt Dynamic Query-Techniken in Form von Checkboxes,

Radiobuttons, Slidern und Range Slidern, wobei die beiden letzten Werkzeuge zu den effek-

tivsten Varianten zählen (Abbildung 6-11). So kann beispielsweise mit Hilfe von Range

Slidern und bei Vorlage entsprechender Daten die Lipinsky’s Rule of 5 [223] einfach auf einen

Datensatz angewendet werden. Der Benutzer kann für jede beliebige Dimension des Daten-

satzes (außer Metainformation) einen DQ-Filter definieren und auch zu jedem Zeitpunkt der

Analyse wieder entfernen.

6.2.6.3 Selektionswerkzeuge

Neben der Filterung von Datensätzen durch Dynamic Querys verfügt das InfVis-Programm

auch über Werkzeuge, die eine direkte Selektion von Datenpunkten durch den Benutzer erlau-

140

Page 153: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

ben (Abbildung 6-12). Diese Funktionalität ist insbesondere zur Extraktion identifizierter

Muster bzw. Informationen hilfreich. Die Selektion kann dabei auf zwei verschiedenen

Wegen erfolgen. Zum einen kann der Benutzer sogenannte Selektionsboxen in die Szene inte-

grieren. Diese dreidimensionalen Auswahlrahmen können mit Hilfe achsenabhängiger

Range Slider zum einen in x-, y- und z-Richtung vergrößert oder verkleinert und zum anderen

innerhalb des Datensatzes verschoben werden (Abbildung 6-12a).

Abb. 6-12: Selektionswerkzeuge der InfVis-Applikation: a) Selektion mittels Selektionsboxen, b) Maus-vermittelte Selektion einzelner Datenpunkte (Farbabbildung: Anhang A, Abb. A-14 a, b).

Nachdem der Benutzer mit Hilfe eines oder mehrerer Auswahlrahmen die gewünschten

Datenpunkte erfasst hat, kann er die selektierten Werte in einen neuen Datensatz überführen.

Alternativ dazu kann der Benutzer mit dem Mauszeiger direkt einzelne Datenpunkte selektie-

141

Page 154: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

ren (Abbildung 6-12b). Da in der Glyph-Repräsentation diverse Datenpunkte überlagert oder

zum Teil verdeckt sind, wurde das Selektionstool mit einer Auswahlliste erweitert, welche

alle unter dem Mauszeiger befindlichen Datenpunkte enthält und die Selektion der gewünsch-

ten Datenpunkte ermöglicht. Alle selektierten Datenpunkte werden in einer Selektionsliste

verwaltet (Abbildung 6-12b, rechts) und können bei Bedarf beispielsweise bei einer irrtümli-

chen Selektion wieder von der Selektion ausgeschlossen werden. Darüber hinaus ist eine

Kombination der beiden Selektionswerkzeuge möglich.

6.2.6.4 Detailwerkzeuge

Im Gegensatz zum NCI Datenbank-Interface (vgl. Abschnitt 6.1) kann die InfVis-Applika-

tion Detailinformationen zu den einzelnen Datenwerten direkt darstellen. Der Benutzer kann

dazu mit Hilfe des Mauszeigers einen Datenpunkt innerhalb der 3D-Szene selektieren. Das

entsprechende Datenobjekt wird daraufhin in der Szene graphisch hervorgehoben und die

korrespondierende Detailinformation im Detailfenster angezeigt (Abbildung 6-13). Wie auch

bei den Selektionswerkzeugen kann beim Vorliegen überlagerter oder verdeckter Daten-

punkte eine Auswahlliste aufgerufen werden.

Abb. 6-13: Detailwerkzeug des InfVis-Programms (Farbabbildung: Anhang A, Abbildung A-14 c).

142

Page 155: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

Das Detailfenster enthält alle Variablenwerte des entsprechenden Datenpunktes, wobei die

Reihenfolge der Dimensionsabfolge im Datensatz entspricht. Darüber hinaus können auch

Metainformationen wie Hyperlinks oder Bilder dargestellt werden. So werden im Stringfor-

mat kodierte Bilder automatisch erkannt, dekodiert und im Detailfenster eingebettet. Hyper-

links werden in Form von Knöpfen zur Verfügung gestellt, die beim Anklicken einen

Webbrowser mit der entsprechenden URL starten.

6.2.7 Implementierung

Wie bereits erwähnt, wurde das InfVis-Programm mit der Programmiersprache Java ent-

wickelt. Um eine möglichst komfortable und ansprechende Bedienungsoberfläche zu gewähr-

leisten kam dabei die in Java2 (Version 1.2 oder höher) enthaltene SWING-Bibliothek zum

Einsatz. Die dreidimensionale Darstellung der Datenpunkte wurde mit der Java3D-Erweite-

rung realisiert, wodurch auch die potentiellen 3D-Graphikfähigkeiten moderner Personal-

computer genutzt werden können. Da die Programmiersprache Java vom Betriebssystem und

den zahlreichen Computerplattformen unabhängig ist, kann die Applikation auf nahezu allen

Computern eingesetzt werden.

Während der Entwicklung von InfVis wurde darauf geachtet, dass das Programm nicht nur

als Standalone-Variante sondern auch als Applet in Web-Anwendungen zum Einsatz kommen

kann. Die Applet- und Standalone-Version unterscheiden sich daher auch nur minimal durch

ihre Frontends und hinsichtlich der Unterstützung des lokalen Dateizugriffs (Standalone-Ver-

sion) bzw. von Applet-Parametern (Applet-Version). Obwohl die Applikation 106 Klassen

und über 39.000 Zeilen Quellcode umfasst, ist das Programm in komprimierter Form nur ca.

160 KB groß und ein Softwaretransfer über das Internet somit problemlos möglich.

Zur Ausführung der Standalone-Applikation muss eine Java2-unterstützende Java Virtual

Machine sowie die Java3D-Erweiterung auf dem Client installiert sein. Analog dazu benötigt

die Applet-Version das Java-Plugin, welches von aktuellen Browserversionen standardmässig

unterstützt wird und in einigen Versionen wie Netscape 6 oder Mozilla bereits integriert ist,

sowie die Java3D-Bibliothek.

6.2.8 Diskussion

Visuelles Data Mining ist in den letzten zwei bis drei Jahren zu einer bedeutenden Technik

im Bereich der LifeScience- und Wirkstoffforschung geworden. Dies ist vor allem auf die ste-

tig wachsende Zahl an generierten Daten und der daraus resultierenden Problematik der

Datenanalyse zurückzuführen. Während in der chemischen und pharmazeutischen Chemie

anfänglich nur das Programm Spotfire [214, 215] zum Einsatz kam, haben in jüngster Zeit

143

Page 156: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

auch andere Firmen das enorme Marktpotential des LifeScience-Sektors erkannt und zahlrei-

che, alternative Applikationen zum visuellen Data Mining entwickelt. Im Folgenden sollen

die wichtigsten, für die chemische Forschung relevanten Programme vorgestellt und im Ver-

gleich zur InfVis-Applikation diskutiert werden.

Das bereits erwähnte Programm Spotfire zählt nicht nur zu den ersten kommerziellen,

visuellen Data Mining-Applikationen, sondern wurde auch zum erfolgreichsten und weitver-

breitesten Vertreter innerhalb der Wirkstoffforschung und im HTS-Bereich. Obwohl Spotfire

generell zur Analyse großer Datensätze und nicht speziell zur Verwendung in der Chemie ent-

wickelt wurde, führte der enorme Zuspruch von Seiten der chemischen Industrie in den nach-

folgenden Jahren zur Einbettung zusätzlicher chemischer Module wie beispielsweise

Strukturbetrachtern. Aktuelle Produkte der gleichnamigen Firma sind heute speziell auf die

Bedürfnisse des High Throughput Screening und der Wirkstoffforschung ausgerichtet. Ein

Grund für den unerwarteten Erfolg der Anwendung war und ist die intuitive Dynamic Query-

Technik, die durch Spotfire erstmals in kommerzieller Form zum Einsatz kam.

Trotz der starken Verbreitung der Anwendung in der chemischen Industrie war die Akzep-

tanz insbesondere der Laborchemiker zum Teil sehr verhalten. Viele Chemiker fühlten sich

durch die vielfältigen Funktionen des Programms überfordert und lehnten eine langwierige

Einarbeitungszeit aufgrund des in der chemischen Forschung vorherrschenden Zeitdrucks ab

[216]. In anderen vergleichenden Studien zeigten sich darüber hinaus weitere Schwächen

[224]. Die in Spotfire übliche Verfügbarkeit und parallele Darstellung verschiedener Visuali-

sierungstechniken erwies sich in zahlreichen Fällen nicht wie geplant als Stärke des Pro-

gramms, sondern stellte insbesondere für unerfahrene Benutzer ein ernstes

Orientierungsproblem dar. Um eine gegebene Problemstellung zu lösen, war in der Regel nur

eine der zur Verfügung stehenden Darstellungsformen sinnvoll. Die Benutzer benötigten

daher sehr viel Zeit, um diese optimale Darstellung zu finden und eine vernünftige Zuord-

nung der Datendimensionen für die entsprechende Darstellungsform zu gewährleisten. Des

Weiteren wurde beobachtet, dass Benutzer, die sich anfänglich für eine weniger geeignete

Visualisierungstechnik entschieden, diese trotz enormer Schwierigkeiten nur widerwillig oder

auch garnicht verwarfen, um sie gegen eine geeignetere Technik zu ersetzen. Diese Verhal-

tensweise verstärkte sich insbesondere bei Problemstellungen, deren Lösungsweg mehrere

Einzelschritte umfasste [224]. Weitere Probleme ergaben sich durch die unzureichende

Datenintegration sowie die Limitation auf zweidimensionale Scatterplots, was insbesondere

bei hochdimensionalen Datensätzen eine schnelle und unkomplizierte Datenanalyse aus-

schloss. Diese letztgenannten Einschränkungen wurden jedoch in aktuellen Spotfire-Versio-

nen durch Implementierung geeigneter Datenschnittstellen und Verwendung der 3D-Glyph-

Technik weitgehend beseitigt. Spotfire kann sowohl als Standalone-Version als auch als Cli-

ent-Server-Applikation in Microsoft-Netzwerken betrieben werden. Aufgrund des plattform-

144

Page 157: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

abhängigen Charakters ist jedoch der Einsatz als Web-Applikation im Gegensatz zum InfVis-

Programm ausgeschlossen.

Einen ähnlichen Ansatz wie Spotfire verfolgt das relativ neue Programm Partek von der

gleichnamigen Firma [225]. Partek basiert auf einer interaktiven Spreadsheet-Darstellung

und erlaubt darüber hinaus eine dreidimensionale Scatterplot-Darstellung der Datenpunkte.

Als eines der ersten kommerziellen Programme erweiterte die Applikation den visuellen Data

Mining-Ansatz durch klassische Data Mining-Techniken. Dabei werden neben statistischen

Methoden wie der Principal Component Analysis (vgl. Abschnitt 5.2.1.1) oder dem Multidi-

mensional Scaling (vgl. Abschnitt 5.2.1.2) auch Techniken aus dem Bereich des Machine

Learnings wie beispielsweise Neuronale Netze (vgl. Abschnitt 5.2.2) oder genetische Algo-

rithmen (vgl. Abschnitt 5.2.3) unterstützt. Detailinformationen können mit Hilfe des Internet

Explorers dargestellt werden. Neben zahlreichen Schnittstellen zum Datenaustausch mit aktu-

ellen Datenbanken verfügt die Applikation auch über diverse chemische Module, die von der

Firma MDL im Rahmen eines Kooperationsvertrages zur Verfügung gestellt wurden. Wie

auch Spotfire basiert Partek auf Microsoft Windows-Betriebssystemen. Während Spotfire

jedoch in einem Microsoft-Netzwerk als Client-Server-Applikation betrieben werden kann,

existiert Partek lediglich als Standalone-Version. Bei der Evaluierung des Programms erwie-

sen sich vor allem die Navigationswerkzeuge als außerordentlich gewöhnungsbedürftig.

Miner3D [226] ist eine weitere Applikation die 3D-Glyphen und dynamische Filterfunk-

tionen zur Exploration von Datensätzen verwendet. Im Gegensatz zu den beiden zuvor

erwähnten Applikationen ist Miner3D jedoch speziell für den Einsatz mit dem Tabellenkalku-

lationsprogramm Excel der Firma Microsoft entwickelt worden. Dementsprechend einge-

schränkt stellen sich die vorhandenen Eingabemöglichkeiten dar. Neben einem eigenen

Datenformat erlaubt Miner3D nur den Import von Excel-Daten. Die Darstellung der Daten-

punkte erfolgt primär durch eine 3D-Glyph-Szene. Allerdings unterstützt Miner3D auch

andere Visualisierungstechniken wie Balkendiagramm-Ansichten. Im Gegensatz zu den

bereits erwähnten Programmen und der InfVis-Applikation gestattet Miner3D ein Abbilden

der Datendimensionen auf fast alle erdenklichen retinalen Eigenschaften wie Größe, Farbe,

Form (inkl. Dimensions-abhängige Änderung entlang der x- und y-Achsen), Orientierung,

Transparenz und Texturen. Darüber hinaus werden auch diverse akkustische Attribute wie

Ton- und Spracherkennung zur Kodierung von Datendimensionen eingesetzt. Wie auch das

InfVis-Programm kann Miner3D die 3D-Fähigkeiten moderner Personalcomputer nutzen, da

es auf den OpenGL-Standard aufsetzt. Neben den integrierten dynamischen Filterfunktionen

verfügt die Applikation über keine Werkzeuge, die eine direkte Selektion von Datenpunkten

durch den Benutzer zulassen, wodurch die Extraktion identifizierter Muster stark einge-

schränkt ist. Die Ergebnisse des Mining-Prozesses können in Form statischer HTML-Seiten

exportiert werden. Des Weiteren können mit dem Miner3DSite-Plugin auch interaktive Dar-

145

Page 158: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

stellungen im Internet Explorer realisiert werden. Letztere Möglichkeit dient jedoch lediglich

einer interaktiven Präsentation der Daten und weniger zum visuellen Data Mining. Aufgrund

seiner beschränkten Mining-Werkzeuge und vor allem dem stark an Excel angelehnten Ein-

satz ist Miner3D weniger gut als universell einsetzbare, visuelle Data Mining-Applikation

nutzbar.

Ein vollkommen anderes Prinzip zur Darstellung chemischer Datensätze kommt im Pro-

gramm LeadScope zum Einsatz [227]. LeadScope wurde im Gegensatz zu den bisher erwähn-

ten Applikationen speziell für die Bedürfnisse der medizinischen Chemie entwickelt und

basiert auf molekularen Spreadsheets sowie zweidimensionalen Balkendiagrammen. Die

Applikation hilft dem medizinischen Chemiker bei der Visualisierung und Interpretation che-

mischer und biologischer Screeningdaten. Die chemischen Daten werden dabei hinsichtlich

struktureller Gemeinsamkeiten hierarchisch geclustert und zur Auswertung in 2D-Balkendia-

grammen dargestellt. Durch spezifische, strukturorientierte Filter kann die Darstellung

anschließend interaktiv eingeschränkt werden. Dieser hochspezialisierte Ansatz birgt jedoch

nicht nur Vorteile. So kann die Applikation aufgrund ihrer Ausrichtung auf bestimmte chemi-

sche Teilgebiete und dem Charakter der implementierten Fragmentbibliothek nicht generell

für chemische Problemstellungen und Datensätze verwendet werden. Des Weiteren gestaltet

sich die Darstellung hochdimensionaler Datensätze aufgrund der begrenzten Darstellungsfä-

higkeiten der zweidimensionalen Spreadsheets und Balkendiagramme als problematisch.

Obwohl LeadScope vollständig mit der Programmiersprache Java entwickelt wurde, unter-

stützt das Programm nur den Standalone-Betrieb und kann daher nicht als Applet in Web-

Anwendungen zum Einsatz kommen.

Schließlich soll noch die High Throughput Experimentation Data Applikation (HTE) der

Firma Unilever erwähnt werden [228]. HTE wurde speziell für die Analyse von HTS-Daten-

sätzen entwickelt und basiert im Kern auf OpenVis [229], einer kommerziellen Graphikbiblio-

thek zum visuellen Data Mining der Firma Advanced Visual Systems, die alle grundsätzlichen

Funktionen zur Analyse, Visualisierung und Import der Daten bereitstellt. HTE kann sowohl

als Standalone- als auch als Netzwerk-Version auf Microsoft-Plattformen betrieben werden.

Um HTE ausführen zu können, müssen neben der Applikation selbst auch MS ActiveX8.0

sowie die OpenViz-Bibliothek auf dem Client installiert sein. HTE stellt die chemischen

Daten in Form von Parallel Coordinates (vgl. Abschnitt 5.4.2.1), 3D-Scatterplots und einer

speziellen Mikrotiterplattendarstellung dar. Obwohl HTE nur als Standalone- bzw. Netzwerk-

version zum Einsatz kommt, können mit OpenViz generell auch ActiveX- und Java-basierte

Web-Applikationen entwickelt werden. Diese sind jedoch aufgrund ihrer Architektur nur auf

Systemen mit Microsoft-Betriebssystemen realisierbar.

146

Page 159: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.2 Das InfVis-Programm

Der wichtigste Unterschied und Vorteil des InfVis-Programms im Gegensatz zu den

erwähnten kommerziellen Applikationen basiert auf der vollkommen plattformunabhängigen

Architektur der Anwendung. Das Programm kann sowohl als Standalone-Version auf diver-

sen Rechnersystemen als auch in Applet-Form in Web-Anwendungen zum Einsatz kommen.

Die Applet-Version kann dabei in aktuellen Browser-Versionen mit Hilfe des Java-Plugins

ausgeführt werden. Dieser portable Charakter der Applikation wurde dabei sowohl anhand

der Standalone- als auch der Applet-Version auf diversen Microsoft- und SGI/Irix-Plattfor-

men getestet. InfVis stellt daher nach unseren Kenntnisstand die erste 3D-Hardware-unterstüt-

zende Web-Applikation zum dreidimensionalen, visuellen Data Mining dar. Darüber hinaus

zählt InfVis neben dem SRS3D-Modul der Firma LionBioscience [92] zu den ersten Chemie-

applikationen, die den neuen Java3D-Standard nutzen.

Ein wichtiger Aspekt bei der Entwicklung von InfVis war die einfache und intuitive

Bedienbarkeit des Programms. Benutzerprobleme, wie sie beispielsweise beim Einsatz von

Spotfire berichtet wurden, sollten von vorneherein ausgeschlossen werden. Aus diesen Grund

wurde im InfVis-Programm bewusst auf zusätzliche Funktionalitäten wie beispielsweise stati-

stischen Methoden oder Clustering-Algorithmen verzichtet. Die Applikation wurde vielmehr

als alternatives visuelles Data Mining-Werkzeug für Laborchemiker entwickelt, die im Allge-

meinen nicht über das nötige Spezialwissen zum Betreiben klassischer Data Mining-Ansätze

verfügen. Das Abbilden der Datendimensionen sowie das Finden der optimalen Datenreprä-

sentation sollte daher ebenfalls leicht und ohne größere Einarbeitungszeiten möglich sein. Da

der Mensch von Natur aus mit dreidimensionalen Welten vertraut ist und viele Chemiker all-

gemeine Erfahrungen im Umgang mit Scatterplot-Darstellungen besitzen, kam deshalb in der

InfVis-Applikation die dreidimensionale Glyph-Technik zum Einsatz. Darüber hinaus stellt

diese Visualisierungstechnik nach unserer Auffassung insbesondere für unerfahrene und nicht

spezialisierte Benutzer ein geeignetes Instrument zur Darstellung multidimensionaler Daten-

sätze dar. Diese Idee wird unter anderem auch durch die Beobachtung bekräftigt, dass Scat-

terplot-Techniken (und somit auch die 3D-Glyph-Technik) vor allem für unerfahrene

Anwender das geeignete Werkzeug zur Identifikation von Mustern und Beziehungen darstel-

len [224]. Im Gegensatz zu Spotfire ist in InfVis die Datendarstellung auf Scatterplot- bzw.

Scatterplot-ähnliche Techniken begrenzt, so dass der Benutzer nicht erst in einem zeitaufwen-

digen Prozess die optimale Visualisierungstechnik finden muss. Darüber hinaus wurde die

Zahl der möglichen retinalen Eigenschaften im Gegensatz zu Miner3D streng limitiert, da

nach unserer Überzeugung zu viele graphische Attribute zu einer Überladung der Szene füh-

ren können. Dies kann insbesondere unerfahrene Anwendern verwirren und letztendlich zu

einer ablehnenden Haltung gegenüber dem Programm führen. Des Weiteren ist die Verwen-

dung der graphischen Attribute bzw. retinalen Eigenschaften auch stark von den jeweiligen

Datensätzen und der entsprechenden Fragestellung abhängig. So ist in vielen Fällen der Ein-

147

Page 160: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

satz aller zur Verfügung stehenden Attribute nicht sinnvoll, sondern führt vielmehr zu einem

erschwerten Explorationsprozess (vgl. Abschnitt 7.1.2).

Durch den offenen und vor allem nicht auf spezifische chemische Fragestellungen ausge-

richteten Charakter kann das InfVis-Programm für ein breites Spektrum tabellarischer Daten-

sätze verwendet werden. Dabei ist die Applikation nicht nur auf chemische Daten limitiert.

Vielmehr können alle Datensätze eingelesen und analysiert werden, die in einem tabellari-

schen Format wie beispielsweise Datenbankausgaben oder CSV-Dateien (vgl. Abschnitt

6.2.3) vorliegen. Die Anzahl der darstellbaren Datenpunkte hängt dabei zum einen von der

3D-Performance des Clients als auch von der Visualisierungstechnik ab. Bei Graphikkarten

ohne zusätzliche 3D-Funktionalitäten sollte der Datensatz nicht mehr als 500 Datenpunkte

umfassen, um eine interaktive Betrachtung der 3D-Szene zu gewährleisten. Bei Nutzung von

3D-Graphikkarten wie beispielsweise einer GeForce-Karte können ohne Probleme zwischen

zwei und drei Tausend Datenpunkte in der Glyph-Technik sowie mehrere Tausend Daten-

punkte in der Scatterplot-Darstellung repräsentiert werden.

Vor allem der plattformunabhängige und portable Charakter und die damit verbundenen

Einsatzmöglichkeiten in firmeninternen Informationssystemen machen InfVis für den Einsatz

in der chemischen Industrie interessant. Die Applikation erregte daher bereits in der fortge-

schrittenen Entwicklungsphase Interesse bei Industrievertretern und wurde unter anderen von

den Firmen Novartis und Avantium evaluiert.

Die Fähigkeiten des InfVis-Programms werden in Kapitel 7 anhand diverser Anwendungs-

beispiele genauer erläutert. Der Einsatz des Programms sowie die Entwicklung einer lei-

stungsfähigen, auf der Applet-Version basierenden Web-Applikation wird im folgenden

Abschnitt beschrieben.

6.3 NCI Screening Data 3D Miner

6.3.1 Zielsetzung

Die Zielsetzung des Online-Dienstes entsprach im Wesentlichen der des VRML-basierten

NCI Datenbank-Interfaces (vgl. Abschnitt 6.1). Allerdings sollte in diesem Fall die Applet-

Version des InfVis-Programms (vgl. Abschnitt 6.2) zum visuellen Data Mining der Antitu-

mor-Screeningdatensätze zum Einsatz kommen. Darüber hinaus sollten neben den eigentli-

chen Screeningdaten auch weitere molekulare Eigenschaften wie beispielsweise der logP-

Wert oder das Molgewicht mit in den analytischen Prozess integriert werden.

148

Page 161: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.3 NCI Screening Data 3D Miner

6.3.2 Funktionsbeschreibung

Im Gegensatz zum prototypischen Online-Dienst aus Abschnitt 6.1 wurde diese Web-

Anwendung als eigenständiger und öffentlich zugänglicher Service entwickelt. Der Service

verfügt daher über zahlreiche Suchfunktionen sowie Parameter zur Beeinflussung der Daten

und der graphischen Darstellung. Einige dieser Funktionalitäten wie beispielsweise die durch

einen Java-Editor vermittelte Struktur- und 3D-Pharmakophoreingabe wurden dabei aus dem

Enhanced CACTVS NCI Database Browser [93] übernommen und sollen daher an dieser

Stelle nicht näher erläutert werden. Vielmehr werden die spezifischen Neuerungen und Funk-

tionalitäten in Hinblick auf die Screeningdaten detaillierter beschrieben.

Abb. 6-14: Eingabeformular des NCI Screening Data 3D Miners.

Die Eingangsseite des Online-Dienstes ist in Abbildung 6-14 dargestellt. Die Abbildung

zeigt die Navigationsleiste sowie das eigentliche Eingabeformular (Query Form) zur Defini-

tion der diversen Suchkriterien. Die Navigationsleiste beinhaltet die Namen bzw. Verknüp-

fungen zu den vier wichtigsten Stufen bzw. HTML-Seiten, die der Benutzer während der

Online-Sitzung durchlaufen müssen (Structure Editor, Query Form, Data Display Settings,

3D Visualization/Mining). Darüber hinaus enthält die Navigationsleiste noch zusätzliche

149

Page 162: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Links zu statischen HTML-Seiten, die vor allem zusätzliche Information zur Bedienung und

Beschreibung des Online-Dienstes enthalten (Help, News, Credits).

Die ’Structure Editor’-Seite dient zur Eingabe von Strukturen und 3D-Pharmakophoren

und muss lediglich bei entsprechenden Suchanfragen wie beispielsweise Substruktur- oder

Ähnlichkeitssuchen bearbeitet werden. Da dieser Teil des Services vom Enhanced CACTVS

NCI Database Browser übernommen wurde, soll im Folgenden nicht näher darauf eingegan-

gen werden. Der Aufbau des Eingabeformulars (Query Form) basiert ebenfalls zum Teil auf

dem Eingabeformular des Enhanced Database Browsers. Allerdings wurde die Eingabeseite

um einige spezifische Suchfunktionen für die Screeningdaten erweitert und in vielen Berei-

chen überarbeitet. Das Formular besteht im oberen Teil aus drei identischen Query-Feldern

zur Definition struktureller bzw. molekularer Suchkriterien. Der Benutzer kann dabei unter

anderem nach Namen oder Namensfragmenten, CAS- und NSC-Nummern, Summenformeln,

Molgewicht und logP-Werten, Anzahl der H-Donoren und H-Akzeptoren, Zahl der frei rotier-

baren Bindungen, Druglikeness oder auch definierten Substrukturen oder strukturell ähnli-

chen Verbindungen suchen. Die Inhalte dieser drei Eingabefelder können auch mittels des

Negate-Knopfes als Ausschlusskriterien für die Datenbanksuche definiert werden. Das vierte

QueryFeld dient der Definition spezifischer Screeningdatenkriterien. So kann der Benutzer

Werte oder Wertebereiche für die Wachstumshemmung (GI50), den cytotoxischen (LC50)

oder auch den cytostatischen Effekt (TGI) definieren und entscheiden, ob das Kriterium nur

für eine beliebige Krebszelle oder für alle Krebszelllinien erfüllt sein muss. Alle Suchfelder

können durch logische AND, OR oder XOR-Bedingungen kombiniert werden. Im unteren

Teil des Formulars kann der Benutzer zudem Angaben über das Ausgabeformat (Tabelle,

Tabelle mit Strukturplots, Tabelle mit einigen Beispielstrukturplots) sowie die Reihenfolge

(auf- und absteigende Sortierung nach NSC- und CAS-Nummern, Anzahl der Atome, Molge-

wicht, Komplexität, GI50, LC50 und TGI-Werten) der Suchergebnisse vornehmen.

Nachdem die Datenbanksuche erfolgreich abgeschlossen wurde, werden die erhaltenen

Verbindungen in einer dynamisch generierten HTML-Seite in Form einer Trefferliste ange-

zeigt (Abbildung 6-15, unterer Teil). Die erhaltene Trefferliste liefert dem Benutzer die wich-

tigsten Daten zu den jeweiligen Verbindungen wie beispielsweise den Namen oder die CAS-

Nummer. Falls dem Anwender diese Angaben nicht genügen, kann auch ein spezifisch

kodierter Hyperlink zum Enhanced CACTVS NCI Database Browser genutzt werden, um alle

verfügbaren Detailinformationen zu der jeweiligen Verbindung in einem zweiten Browserfen-

ster darzustellen. Mit Hilfe von Checkboxen kann der Benutzer anschließend die für ihn inter-

essanten Strukturen für eine weitergehende Analyse im InfVis-Applet selektieren. Falls die

Trefferliste allerdings nicht die gewünschten Verbindungen enthält, ist auch eine Benutzer-

definierte Reorganisation der Trefferliste wie beispielsweise die Anzeige des nächsten Tref-

ferblocks möglich.

150

Page 163: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.3 NCI Screening Data 3D Miner

Abb. 6-15: Dynamisch generiertes HTML-Eingabeformular zur Selektion der chemischen Verbindungen, Krebszelllinien, Konzentrationen, Aktivitätsdaten und molekularen Eigenschaften.

Wie auch im VRML-Prototyp müssen neben den chemischen Verbindungen auch die

gewünschten Krebszelllinien zur Analyse der Struktur-Aktivitätsbeziehungen ausgewählt

werden. Durch Betätigung des ’Select Cell Lines’-Knopfes im Eingabeformular wird ein

separates Fenster geöffnet das dem Benutzer im Gegensatz zur Web-Applikation aus

Abschnitt 6.1 eine Vielzahl an diversen Selektionsmöglichkeiten bietet (Abbildung 6-16).

So kann der Benutzer neben der Wahl von Wirkortsklassen auch jede einzelne der sechzig

Krebszelllinien selektieren. Des Weiteren erlaubt das Formular die Auswahl von Krebszellen

nach weiteren funktionellen Kriterien wie beispielsweise die Selektion von Zelllinien mit

151

Page 164: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

einer niedrigen Multi-Drug Resistance (MDR) [230] oder einer p53-Wildtyp bzw. -Mutanten-

Funktionalität [231]. Die selektierten Zelllinien werden anschließend wieder an das Daten-

Selektionsformular (Abbildung 6-15) zurückgeliefert und dort unter Verwendung von Java-

Skript-Variablen gespeichert.

Abb. 6-16: Ausschnitt aus dem Krebszelllinien-Selektionsformular.

Während im NCI Datenbank Interface immer nur eine der drei vorhandenen biologischen

Aktivitäten betrachtet werden konnte, erlaubt der NCI Screening Data 3D Miner die parallele

Analyse der cytotoxischen, cytostatischen sowie wachstumhemmenden Effekte. Die

gewünschten Aktivitäten müssen dazu mit Hilfe von Checkboxen selektiert werden. Wie auch

beim VRML-Pendant werden bei der Datenbanksuche alle Substanzkonzentrationen für die

in der Trefferliste enthaltenen Verbindungen ermittelt und im Anschluss im Datenselektions-

formular zur Auswahl gestellt. Während der Selektion der einzelnen Verbindungen, Krebszel-

len und biologischen Aktivitäten wird mit Hilfe einer auf Java-Skript basierenden

Rechenfunktion automatisch die Anzahl der Datenpunkte berechnet (Abbildung 6-15, No. of

152

Page 165: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.3 NCI Screening Data 3D Miner

Datapoints). Da es sich bei dieser Funktion um eine simple Hochrechnung der möglichen,

sich aus der Datenselektion ergebenen Kombinationen handelt aber nicht alle dieser Kombi-

nationen in der Datenbank enthalten sein müssen, ist die berechnete Zahl der Datenpunkte in

der Regel größer als die tatsächliche Zahl der resultierenden Datenpunkte. Für den Benutzer

stellt diese Funktion aber dennoch ein geeignetes Hilfsmittel dar, weil er damit eine unge-

fähre Vorstellung von der Größe des resultierenden Datensatzes erhält und gegebenenfalls,

zum Beispiel im Fall einer leistungsschwächeren Graphikkarte, die Zahl der Datenpunkte

durch Überarbeitung der Selektionsangaben verändern kann.

Im Gegensatz zum NCI Datenbank Interface stehen im nachfolgenden visuellen Data

Mining-Prozess nicht nur die Aktivitätswerte zur Verfügung. Vielmehr kann der Benutzer

zusätzliche molekulare Dimensionen wie Molgewicht, Anzahl der H-Donoren und H-Akzep-

toren, Anzahl der frei rotierbaren Bindungen, logP-Werte oder die Verbindungskomplexität

mit in den Datensatz aufnehmen und während des visuellen Data Minings zum Beispiel in

Form von Dynamic Query-Filtern nutzen. Schließlich enthält das Datenformular noch einige

Optionen, mit denen sich die graphische Darstellung im InfVis-Applet beeinflussen lässt. So

kann zum Beispiel die Visualisierungstechnik (Glyph, Scatterplot, Barchart) oder auch die

Reihenfolge der chemischen Verbindungen auf der x-Achse festgelegt werden.

Nachdem der Benutzer den ’Visualize & Mine Data’-Knopf betätigt hat, wird ein temporä-

rer Datensatz entsprechend der Selektionsangaben generiert und zusammen mit dem InfVis-

Applet an den Client übermittelt (Abbildung 6-17). Das Browserfenster enthält neben dem

Applet zwei Hyperlinks zum Aufruf des Applet-Manuals oder einer kurzen Zusammenfas-

sung der Systemvoraussetzungen. Der generierte Datensatz wird beim Start des Applets auto-

matisch eingelesen und in Abhängigkeit zu den Applet-Parameterangaben dargestellt. Dabei

werden durch die Applet-Parameter die in Tabelle 6-1 aufgelisteten Zuordnungen definiert.

Dieser Zuordnungsvorschlag kann vom Benutzer zu jedem Zeitpunkt wieder geändert wer-

den. Der Datensatz kann im Folgenden mit allen in InfVis verfügbaren Werkzeugen und Funk-

tionen analysiert werden. Neben den im Datenselektionsformular definierten

Datendimensionen enthält der transferierte Datensatz auch Metainformation in Form von

Graphisches Attribut Datendimensionx-Achse NSCNr, kategorisch

y-Achse Biologische Aktivität, numerisch

z-Achse Krebszelllinien, kategorisch

Form Typ der biol. Aktivität, kategorisch

Farbe Biologische Aktivität, numerisch

Größe Keine Zuordnung

Tab. 6-1: Zuordnung der Datendimensionen auf retinale Eigenschaften.

153

Page 166: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Hyperlinks. Mit Hilfe dieser Hyperlinks können für jeden Datenpunkt detaillierte Informatio-

nen zu der jeweiligen Verbindung aus dem Enhanced CACTVS NCI Database Browser in

einem zweiten Browserfenster dargestellt werden.

Abb. 6-17: InfVis-Applet mit ausgewählten Daten aus dem Datenselektionsformular.

6.3.3 Implementierung

Da der NCI Screening Data 3D Miner zum gleichen Zweck wie das NCI Datenbank Inter-

face (vgl. Abschnitt 6.1) entwickelt wurde, weisen die zugrundeliegenden Prozessabläufe

starke Parallelen auf. Die schematische Prozessdarstellung des NCI Screening Data 3D Miner

in Abbildung 6-18 hebt deshalb vor allem die grundsätzlichen Unterschiede zwischen den

beiden Online-Diensten hervor. Die Prozesse zur Detaildarstellung durch den Enhanced

CACTVS NCI Database Browser werden zur Vereinfachung nur angedeutet. Wie auch das

NCI Datenbank Interface basiert die vorliegende Online-Anwendung sowohl auf der

154

Page 167: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.3 NCI Screening Data 3D Miner

CACTVS-Datenbank (250.000 Verbindungen mit molekularen Eigenschaften) als auch auf der

MySQL-Datenbank (41.000 Verbindungen mit Screeningdaten). Während der Online-Dienst

aus Abschnitt 6.1 eine Verbindungssuche ausschliesslich mit Hilfe der in der CACTVS-Daten-

bank enthaltenen molekularen Eigenschaften erlaubt, können im vorliegenden Fall auch die

biologischen Aktivitäten der MySQL-Datenbank zur Ermittlung der Struktur-Trefferliste her-

angezogen werden. Dieser optionale Suchmechanismus ist in Abbildung 6-18 durch eine

gepunktete Linie dargestellt.

Abb. 6-18: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI Screening Data 3D Miner. Die gepunkteten und gestrichkelten Pfade stellen optionale Prozesse dar.

Nach der Selektion der chemischen Verbindungen, Krebszellen und biologischen Aktivi-

tätsdaten werden vom CGI-Skript die entsprechenden Daten mittels einer SQL-Abfrage aus

der MySQL-Datenbank abgerufen und der resultierende Datensatz als temporäre Datei abge-

speichert. Im Gegensatz zum NCI Datenbank Interface können darüber hinaus weitere mole-

Strukturen

Softwaretransfer

CACTVS-System

Einlesen, AnalyseDatenbanksuche(Substruktursuche,

Ähnlichkeitssuche, etc.)

Client ServerCGI-Skript

Datentransfer

MySQL-NCI-Datenbank

41.000Screening-

datenSelektion

CACTVS-NCI-Datenbank

>250.000Strukturdaten,

MolekulareEigenschaften

HTML-

Formular

Auswahl

HTML-

Formular

Eingabe

Ausgabe

Applet

temporäreSpeicherung

der Daten

InfVis-Applet

Hyperlink zum externen ServiceEnhanced CACTVS

NCI Database Browser

155

Page 168: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

kulare Eigenschaften wie beispielsweise das Molgewicht oder der logP-Wert in den Datensatz

integriert werden. Dabei fragt das CGI-Skript die entsprechenden Daten zu den jeweiligen

Verbindungen aus der CACTVS-NCI-Datenbank ab. Diese ebenfalls optionale Funktion wird

in Abbildung 6-18 durch eine gestrichelte Linie dargestellt.

Schließlich erfolgt die Übertragung und Visualisierung der Daten. Dieser Schritt stellt

dabei den maßgeblichen Unterschied zum VRML-Ansatz dar. Im Fall des NCI Datenbank

Interfaces werden die ermittelten Daten vom CGI-Skript in eine VRML-Szene umgewandelt

und diese anschließend an den Client übertragen. Im Gegensatz zu diesem auf einem Gra-

phiktransfer basierenden Ansatz kommt im NCI Screening Data 3D Miner eine Kombination

aus Datentransfer (temporärer Datensatz) und Softwaretransfer (InfVis-Applet) zum Einsatz.

Während der visuelle Data Mining-Prozess dadurch komplett auf der Clientseite durchgeführt

werden kann, ist im VRML-Datenbank-Interface eine visuelle Datenanalyse nur durch Inter-

aktion von Client und Server (hybrider Ansatz) möglich. Die Vorteile des Client-seitigen

Ansatzes gegenüber einer Client-Server-verteilten Data Mining-Sitzung werden im nächsten

Abschnitt erläutert.

Der durch Hyperlinks vermittelte Aufruf des Enhanced CACTVS NCI Database Browser

zur Darstellung zusätzlicher Detailinformation ist auch im vorliegenden Online-Dienst mög-

lich. Die schematische Darstellung dieser Funktionalität ist in Abbildung 6-18 nur andeu-

tungsweise skiziert (rautiertes Rechteck, rechts unten).

6.3.4 Diskussion

Während im Abschnitt 6.1.4 die VRML-Ansätze im visuellen Data Mining vorgestellt und

im Vergleich mit dem NCI Datenbank Interface diskutiert wurden, sollen im Folgenden die

auf Java basierenden Web-Applikationen sowie deren Vergleich mit dem NCI Screening Data

3D Miner im Vordergrund stehen.

Eine sehr umfangreiche Sammlung an Java-basierten Datenvisualisierungstechniken stellt

das Programmpaket NetCharts der Firma VisualMining zur Verfügung [232]. Die Applet-

Sammlung umfasst dabei zahlreiche Darstellungen wie beispielsweise Balkendiagramme,

Box Charts, Pie Charts, Combo Charts, Linien- und Kurven-Graphen oder 2D-Scatterplots.

Des Weiteren können die Diagramme durch einige interaktive Basisfunktionen wie Scrolling,

Zooming und Rotation beeinflusst werden. NetCharts wurde vor allem für eine komfortable

und interaktive Datenpräsentation und weniger zur interaktiven Exploration bzw. zum visuel-

len Data Mining von Datensätzen entwickelt. Aus diesem Grund stehen auch keine speziel-

len, für visuelles Data Mining essentiellen Interaktionswerkzeuge wie zum Beispiel

Dynamic Query-Filter zur Verfügung.

156

Page 169: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.3 NCI Screening Data 3D Miner

Ein höheres Maß an Interaktion bieten zum Teil die Softwareprodukte (Data Vista Explo-

erer, Data Vista Screener, VantagePoint) der Firma Visualize [233]. Die Programmpakete

basieren auf einer Client-Server-Architektur und enthalten ein auf die jeweilige Aufgaben-

stellung angepasstes Applet zur Visualisierung und Analyse der Daten. Leider variieren die

verfügbaren Funktionalitäten zwischen den einzelnen Applikationen sehr stark, wobei entwe-

der die Datenvisualisierung oder die Datenfilterung im Vordergrund steht. So unterstützen der

Data Vista Explorer und die VantagePoint-Applikation diverse Visualisierungstechniken wie

Balkendiagramme, Scatterplots oder HeatMaps. Allerdings verfügen diese beiden Pro-

gramme nur über einfache Interaktionstechniken. Da hier bevorzugt hierarchische Daten im

Fokus des Interesses liegen, sind vor allem die implementierten Drill-Down-Funktionalitäten

komfortabel. Dynamische Filterfunktionen stehen aber auch hier nur in sehr rudimentärer

Form oder garnicht zur Verfügung.

Fortgeschrittenere Techniken sind hingegen im Data Vista Screener enthalten. Allerdings

stellt diese Applikation die Daten lediglich in tabellarischer Form oder als Ein-Balkendia-

gramm dar, wobei keine weiteren Navigations- und Interaktionsmöglichkeiten zur Verfügung

stehen. Darüber hinaus ist die Bedienung der Filterfunktion umständlich, wenig intuitiv und

nicht dynamisch. Die Filterung wird in einem separaten Fenster zur Verfügung gestellt. Aller-

dings muss der Benutzer dazu die zu filternde Dimension aus einer Liste heraussuchen und

die Grenzwerte manuell in Textfelder eintragen. Dynamische Schieberegler für die einzelnen

Datendimensionen werden nicht unterstützt. Aufgrund der fehlenden Dynamik, der dieser

Ansatz birgt, kann der Benutzer nicht unmittelbar die Folgen seiner Interaktion beobachten

und gegebenenfalls darauf reagieren. Vielmehr muss der Anwender nach Betrachtung der

Szene erneut das Filterfenster aufrufen, um seine Auswahl zu korrigieren. Der für visuelles

Data Mining notwendige Feedback-Mechanismus entfällt somit. Warum die Darstellungsfä-

higkeiten des Data Vista Explorers nicht mit den Filterfunktionen des Data Vista Screeners

kombiniert werden, ist mir unverständlich. Darüber hinaus können nur numerische Daten mit

Hilfe der Programme dargestellt werden.

VisMine von Hewlett Packard basiert ebenfalls auf einer Client-Server-Architektur [234].

Die Applikation besteht zum einen aus einer auf einem Server installierten Data Mining

Engine und zum anderen aus einem Java-Benutzerinterface, das auf dem Client ausgeführt

wird. Im Gegensatz zu den anderen, in diesem Kapitel erwähnten Applikationen enthält Vis-

Mine keine eigenen Techniken bzw. Anwendungen zur Visualisierung der Datenpunkte. Viel-

mehr erfolgt die Visualisierung der Daten mit externen portablen

Informationsvisualisierungs-Werkzeugen, die mit dem Client-seitigen Interface verbunden

werden können. Dabei kommen unter anderem das Star Tree-Applet der Firma Inxight (Dar-

stellung hierarchischer Datensätze) [235] sowie die 3D Master Suite der Firma Template Gra-

phics Software (TGS) [236] zum Einsatz. Die Client-seitige VisMine-Schnittstelle ermöglicht

157

Page 170: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

zum einen den Datentransfer zu den externen Visualisierungsapplikationen und zum anderen

die Rückgabe von Benutzerinteraktionen innerhalb der externen Applets an die VisMine-

Architektur. Da VisMine ebenfalls über keine zusätzlichen Interaktionswerkzeuge verfügt,

kann zur Analyse der Datensätze nur auf die in den Visualisierungsapplets implementierten

Funktionalitäten zurückgegriffen werden.

So erlaubt das Star Tree-Applet nur die Navigation durch eine hyperbolische Baumstruktur

sowie die Abfrage von Detailinformationen. Letztere Funktionalität wird von VisMine ver-

wendet, um einen entsprechenden Data Mining Prozess zu starten und die resultierenden

Daten an das Applet zurückzusenden. Die 3D Master Suite ist eine in Java implementierte,

OpenGL-unterstützende OpenInventor-Variante und ermöglicht daher im Gegensatz zum Star

Tree-Applet eine Vielzahl verschiedener Visualisierungstechniken. Darüber hinaus können

die Daten durch diverse Techniken modifiziert werden. Da OpenInventor in erster Linie zur

Datenvisualisierung und nicht zum visuellen Data Mining entwickelt wurde, fehlen auch hier

spezielle, explorative Interaktionswerkzeuge. VisMine kann daher vor allem zur "bestätigen-

den" Informationsvisualisierung eingesetzt werden und entspricht im Grunde dem Ansatz aus

Abbildung 5-3a. Eine explorative Informationsvisualisierung ist hingegen nur bedingt mög-

lich.

Eine Applikation, die alle Voraussetzungen einer visuellen Data Mining-Anwendung

erfüllt, ist die Java-Applikation Parallel Coordinate Tool von Haller et al. [237]. Wie der

Name schon zu erkennen gibt, basiert die Anwendung auf der Parallel Coordinates-Technik

(vgl. Abschnitt 5.4.2.1). Obwohl diese Technik hervorragend zur Darstellung hochdimensio-

naler Datensätze geeignet ist, setzt diese spezielle Visualisierungsform ein gewisses Maß an

Erfahrung voraus. Insbesondere der im Umgang mit Visualisierungstechniken ungeübte

Benutzer muss unter Umständen erst an die auf dem ersten Blick abstrakte Technik herange-

führt werden.

Wie auch die Parallel Coordinate-Applikation enthält das InfVis-Applet alle notwendigen

Funktionen zur Datenvisualisierung als auch eine Vielzahl essentieller Data Mining-Werk-

zeuge. Damit zählt das InfVis-Applet zu den seltenen WWW-fähigen Web-Applikationen, die

nicht nur auf die Präsentation limitiert sind, sondern ein komfortables, visuelles Data Mining

ermöglichen. Im Gegensatz zum Parallel Coordinates-Applet basiert InfVis auf der 3D-

Glyph-Technologie, die nach unserer Überzeugung eine intuitive und natürliche Datenvisuali-

sierung ermöglicht und daher auch von unerfahrenen Benutzern ohne zusätzliche Vorkennt-

nisse eingesetzt werden kann. Des Weiteren verwendet InfVis die plattformunabhängige

Graphikschnittstelle Java3D. Dieser Ansatz ermöglicht zum einen die Realisierung portabler,

Hardware-unterstützter 3D-Hochleistungsgraphiken und erlaubt zum anderen die Nutzung

des enormen Graphikpotentials heutiger Personalcomputer. Die bereits erwähnte 3D Master

158

Page 171: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.3 NCI Screening Data 3D Miner

Suite von TGS verfolgt das gleiche Ziel. Jedoch kommt hier anstelle der Java3D-Erweiterung

die OpenInventor-Bibliothek zum Einsatz, die ebenfalls auf OpenGL aufbaut und damit Gra-

phikfunktionen der Client-Hardware nutzen kann. Während Java3D frei und für alle aktuellen

Rechnerplattformen erhältlich ist, handelt es sich bei der OpenInventor-Bibliothek um ein

kommerzielles Produkt, welches nur für Windows-, Solaris- und Linux-Systeme zur Verfü-

gung steht. Darüber hinaus wird die aktuelle Java-Version 1.4 nicht unterstützt.

Im Gegensatz zu anderen Client-Server-basierten Data Mining-Ansätzen, sind im InfVis-

Applet alle zum visuellen Data Mining notwendigen Funktionalitäten integriert. Diese rein

Client-seitige Strategie birgt dabei viele Vorteile. Ein entscheidender Vorteil ist, dass die rela-

tiv kompakten Rohdaten direkt an den Client übermittelt werden können, während bei einem

Graphiktransfer-Ansatz wie beispielsweise dem auf VRML basierenden NCI Datenbank

Interface die Rohdaten zunächst auf der Serverseite in eine wesentlich größere, graphische

Form überführt werden müssen, was zum einen zeitaufwendig ist und zum anderen zu länge-

ren Übertragungszeiten führt. Des Weiteren kann durch einen Client-seitigen Ansatz ein

Maximum an Interaktivität realisiert werden. Da die Rohdaten direkt auf dem Client zur Ver-

fügung stehen, können alle Operationen ohne eine zeitaufwendige Serveranfrage interaktiv

und unmittelbar durchgeführt werden. Somit ist die InfVis-Applikation weder von der Netz-

werklast noch von der Bandbreite des Netzwerkes abhängig.

Das InfVis-Applet ist nach unserem Kenntnisstand einzigartig, da es sowohl Visualisie-

rungs- als auch Interaktionstechniken, die bis dato nur auf einigen wenigen, plattformabhän-

gigen Standalone-Programmen zur Verfügung standen, in einer portablen,

plattformunabhängigen Form realisiert.

Der Online-Dienst zeigt, dass durch die offene Architektur (Handhabung beliebiger nume-

rischer und kategorischer Datensätze) der InfVis-Applikation auf bestimmte Problem- und

Aufgabenstellungen ausgerichtete Anwendungen realisiert werden können. So erlaubt der

NCI Screening Data 3D Miner zunächst eine leistungsfähige, Server-seitige Datenbanksuche

und eine anschließende Client-seitige Analyse des vorselektierten Datensatzes durch das Inf-

Vis-Applet. Die Funktionalitäten des Online-Dienstes übertreffen sowohl die des NCI Daten-

bank Interfaces (vgl. Abschnitt 6.1), als auch die der Online-Werkzeuge des amerikanischen

Krebsforschungsinstituts [202]. Vor allem die Möglichkeit zusätzliche molekulare Eigen-

schaften mit in den Data Mining-Prozess zu integrieren, war bis dato nur den klassischen, auf

Standalone-Applikationen basierenden Data Mining-Verfahren vorbehalten. Der NCI Scree-

ning Data 3D Miner stellt deshalb nach unserem Wissen das umfangreichste Online-Analyse-

Tool für die Antitumor-Datensätze des National Cancer Institutes dar.

159

Page 172: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

Der Online-Dienst wurde vor wenigen Monaten auf unserem Web-Server eingerichtet,

allerdings noch nicht durch Bekanntmachungen in entsprechenden Mailinglisten und Foren

einem breiteren, wissenschaftlichen Publikum vorgestellt.

6.4 Ausblick

Die im Rahmen dieser Arbeit verwendeten, dreidimensionalen Visualisierungstechniken

wie Balkendiagramme, Scatterplots und die 3D-Glyph-Technik erlauben eine intuitive Dar-

stellung und Analyse tabellarischer Datensätze. Insbesondere der Glyph-Ansatz eignet sich

dabei aufgrund der Vielzahl verfügbarer, graphischer Attribute wie Form, Farbe oder Größe

der graphischen Objekte zur Darstellung multidimensionaler Datensätze. Da diese Ansätze

die 3D-Fähigkeiten aktueller Graphikkarten nutzen, hängt die Anzahl der darstellbaren

Datenpunkte unmittelbar von der Graphikleistung des Clients ab. So können bei Verwendung

einfacher 2D-Graphikkarten lediglich einige Hundert Datenpunkte dargestellt werden, wäh-

rend spezielle 3D-Graphikkarten wie die GeForce-Serie die Visualisierung einiger Tausend

Datenpunkte ermöglichen. Eine Visualisierung extrem großer Datensätze (10 Tausend bis 1

Million Datenpunkte) ist aufgrund der enormen, hierfür notwendigen Rendering-Kapazitäten

auch nicht mit aktueller 3D-Graphikhardware mit der gewünschten und notwendigen Interak-

tionsrate möglich. Aus diesem Grund wurde von unseren ChemVis-Projektpartner an der Uni-

versität Stuttgart ein alternativer, Textur-basierter Informationsvisualisierungsansatz

entwickelt [238].

Texturen setzen im Gegensatz zu Isoflächen-Darstellungen keine speziellen Rendering-

Kapazitäten voraus. Vielmehr nutzt diese Technologie vorhandene Rasterisierungs- und Mul-

titexturing-Verfahren moderner Graphikkarten. Während auf Rendering aufbauende Techni-

ken wie der 3D-Glyph-Ansatz unmittelbar von der Anzahl der durch Polygone dargestellten

Datenpunkte abhängen, ist die Auflösung des Textur-Ansatzes nur durch die Größe der Textur

und somit letztendlich durch die Speicherkapazitäten der Graphikhardware limitiert. Eine

direkte Abhängigkeit von der Anzahl der Datenpunkte besteht nicht. Textur-basierte Techni-

ken erlauben daher auch die Darstellung mehrerer Millionen Datenpunkte. Die Anzahl der

darstellbaren Datendimensionen ist jedoch im Gegensatz zur Glyph-Visualisierungstechnik

eingeschränkt. In Textur-Ansätzen wird ein Datenpunkt durch ein sogenanntes Voxel (dreidi-

mensionales Analogon zum Pixel) dargestellt (vgl. Abschnitt 5.4.2.3). Deshalb stehen nur die

drei orthogonalen Achsen sowie die Farbe und Transparenz als mögliche graphische Attribute

zur Verfügung.

Dieser Ansatz wird zur Zeit im Rahmen einer Doktorarbeit an der Universität Stuttgart

weiterentwickelt. Nach der Entwicklung einer entsprechenden Applikation soll schließlich

eine Schnittstelle zum InfVis-Ansatz implementiert werden. So kann der Benutzer beispiels-

160

Page 173: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6.4 Ausblick

weise zunächst den Textur-Ansatz nutzen, um einen Überblick über den vorliegenden Daten-

satz zu erhalten. Mit Hilfe der dort vorhandenen Data Mining-Werkzeuge ist der Anwender in

der Lage, interessante Datenpunkte oder Regionen zu selektieren und zu einer weiterführen-

den Analyse an das InfVis-Programm zu übermitteln. Hier kann dann der Datensatz auf

gewohnte Weise einem weiterführenden, visuellen Data Mining unterzogen werden.

161

Page 174: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

6 Visuelle Data Mining-Applikationen

162

Page 175: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 7

Anwendungsbeispiele

Während in den beiden vorausgegangenen Kapiteln die theoretischen Grundlagen sowie

die im Rahmen dieser Arbeit entwickelten Ansätze und Applikationen des visuellen Data

Minings vorgestellt wurden, sollen im Folgenden die Möglichkeiten des visuellen Data

Mining im Allgemeinen als auch die Fähigkeiten der InfVis-Applikation im Speziellen

anhand ausgewählter chemischer Datensätze und Fragestellungen beschrieben werden.

Der erste Teil des Kapitels basiert auf der neuartigen Datenbank chemischer Reaktionen

der Firma ChemCodes [239]. Dabei wird zunächst auf die Charakteristika der Datenbank

sowie auf die Unterschiede zu anderen aktuellen Reaktionsdatenbanken eingegangen.

Anhand ausgewählter Datensätze wird anschließend der visuelle Data Mining-Prozess an

zwei Anwendungsbeispielen erläutert.

Grundlage für das Anwendungsbeispiele des zweiten Kapitelteils ist die bereits erwähnte

Antitumor-Screening-Datenbank des amerikanischen Krebsforschungszentrums [202]. Nach

einer kurzen Einführung wird der Einsatz des InfVis-Programms zur visuellen Exploration

von Struktur-Aktivitäts-Beziehungen demonstriert.

7.1 ChemCodes-Reaktionsdatenbank

7.1.1 Zielsetzung und Aufbau der Datenbank

Während chemische Verbindungen und Strukturdaten bereits sehr früh in computergestüt-

zen Datenbanken archiviert wurden, begann man erst relativ spät mit der elektronischen Spei-

cherung publizierter Reaktionsdaten. Um einen möglichst effektiven Zugriff auf die bis dahin

bereits zahlreich vorhandenen Reaktionsdaten zu ermöglichen, wurden sogenannte Reakti-

onsdatenbanken aufgebaut, die eine elektronische Recherche der Information erlaubten. Zu

den bekanntesten Vertretern zählen dabei die ChemInform RX-Datenbank des FIZ Chemie

[240] sowie die CrossFireplusReactions-Datenbank von Beilstein Information Systems [241].

163

Page 176: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Obwohl Reaktionsdatenbanken heute standardmäßig in zahlreichen Anwendungsgebieten

wie beispielsweise der Syntheseplanung oder der Reaktionsvorhersage eingesetzt werden,

müssen diese Informationsreserrvoire sehr kritisch und mit Vorsicht betrachtet werden. Eines

der größten Probleme der in den Datenbanken enthaltenen Information liegt darin begründet,

dass für eine Vielzahl der archivierten Reaktionen nicht alle Reaktionsbedingungen angege-

ben sind. Ein weiteres Problem stellt der Umstand dar, dass die betrachteten Reaktionen unter

ganz unterschiedlichen Bedingungen durchgeführt wurden und somit ein Vergleich zwischen

den einzelnen Datenwerten kaum möglich ist. Des Weiteren werden in der Regel Nebenreak-

tionen aber auch solche Reaktionen, die zu unerwünschten Ergebnissen führen, nicht doku-

mentiert. Diese Fehldaten bzw. Negativergebnisse sind jedoch für eine Mustererkennung oder

zur Vorhersage neuer Reaktionsmodelle ebenso wichtig wie positive Reaktionsdaten. Ein

weiteres Problem von Reaktionsdatenbanken stellt die unvollständig Funktionelle-Grup-

pen(FG)-Kompatibilitätsinformation der publizierten Reaktionsdaten dar. So kann mit Hilfe

der Datenbankinformation in der Regel keine Aussage darüber getroffen werden, ob ein

bestimmtes Eduktderivat, welches sich vom Originaledukt durch zusätzliche oder veränderte

funktionelle Gruppen unterscheidet, in gleicher Weise reagiert oder ob eine Nebenreakion

bevorzugt wird.

Stellt man die in aktuellen Reaktionsdatenbanken enthaltene Information in Form einer

Funktionellen-Gruppen-Reaktivitäts-Matrix dar, so ergibt sich die in Abbildung 7-1a darge-

stellte Auftragung. Bei der Betrachtung der Matrix wird dabei deutlich, dass ein sinnvolles

Data Mining aufgrund des hohen Anteils an Fehlinformation sowie der häufig unzuverlässi-

gen Reaktionsdaten nur bedingt oder überhaupt nicht zu realisieren ist. Eine vernünftige

Mustererkennung bzw. zuverlässige Reaktionsmodellvorhersage fordert daher eine möglichst

umfassende Erschliessung des chemischen Reaktionsraums sowie eine hohe Konsistenz und

Zuverlässigkeit der enthaltenen Reaktionsdaten (Abbildung 7-1b). Der Aufbau einer entspre-

chenden Reaktionsdatenbank ist ein Ziel der Firma ChemCodes. Um dieses Ziel zu erreichen,

hat ChemCodes ein (an dieser Stelle nicht näher beschriebenes) Synthese- und Analyse-Ver-

fahren entwickelt, welches eine High-Throughput-Vermessung von Reaktionen ermöglicht.

Dabei sollen zahlreiche für chemische Problemstellungen wichtige funktionelle Gruppen bei

unterschiedlichen Reaktionsbedingungen umgesetzt werden. Mit Hilfe einer aus diesen

Ergebnissen generierten Reaktionsdatenbank können erstmals die Grenzen von Standardreak-

tionen aber auch die FG-Kompatibilität ermittelt werden. Darüber hinaus erlaubt der Daten-

satz die Generierung von Regeln sowie die Vorhersage chemischer Reaktionen.

Im Rahmen dieser Arbeit wurden zwei von der Firma ChemCodes zur Verfügung gestellte

Datensätze aus dieser Reaktionsdatenbank mit Hilfe der InfVis-Applikation analysiert. Dabei

stand zum einen die Optimierung einer ausgewählten Reaktion und zum anderen eine Reakti-

onsplanung im Vordergrund.

164

Page 177: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

Abb. 7-1: Matrix-Darstellung der Funktionellen-Gruppen-Reaktivität in a) aktuellen Reaktionsdatenbanken und b) in einer idealen Reaktionsdatenbank (ChemCodes-Ansatz) [14].

7.1.2 Reaktionsoptimierung

7.1.2.1 Zielsetzung

Grundlage des ersten ChemCodes-Datensatz ist die gemischte Aldolkondensation von

Benzaldehyd mit Acetophenon, die sogenannte Benzalacetophenon- bzw. Chalcon-Synthese

(Abbildung 7-2).

Abb. 7-2: Gemischte Aldolkondensation von Benzaldehyd und Acetophenon.

FG 1 2 3 4 49

123

4849

n

n

+/-

+

-

---

+

+++/-

a) AktuelleReaktionsdatenbanken

- Keine Reaktion

Keine DatenWiderspruch

Reaktionsdaten+/-

FG 1 2 3 4 49

123

4849

n

n

-

--

65%

85%

60%

70%

55%

45%30%

b) Reaktionsdatenbank

ChemCodes

------------

---

--

-

- -

---

--

--

+

O

H

H3C

O

OH+

H O

H

Benzaldehyd Acetophenon 1,3-Diphenyl-propen-2-on-1(Benzalaacetophenon, Chalcon)

165

Page 178: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Die Synthese wurde bereits 1891 erstmals durch Claisen und Claparede [242] sowie durch

Schmidt [243] beschrieben und wird daher auch als Claisen-Schmidt-Kondensation

bezeichnet. Bis heute wurden nach Angaben des Chemical Abstract Service (CAS) 50

verschiedene Chalcon-Synthesen sowie weitere 670 Synthesen von Chalconderivaten

publiziert.

Neben den beiden Edukten – Benzaldehyd (125 mM) und Acetophenon (immobilisiert auf

Trägerharz) – kamen in den Reaktionsansätzen von ChemCodes vier verschiedene

Lösungsmittel, fünf Basen, zwei unterschiedliche Reaktionstemperaturen sowie zwei

verschiedene Trägerharze zum Einsatz:

− 5 Basen (125 mM): LiOH, KOH, NaOMe, iPr2EtN, Keine Base

− 4 Lösungsmittel: MeOH, EtOH/H2O (4/1), DMSO, Dioxan

− 2 Temperaturen: 23 °C, 60 °C

− 2 Trägerharze: Polystyrol (PS), Tentagel (TG)

− 1 Zeit: 12 h

Durch Kombination dieser Reaktionsbedingungen konnten insgesamt achtzig

Syntheseansätze realisiert werden, die jeweils nach zwölf Stunden Reaktionszeit abgestoppt

und durch massenspektrometrische Verfahren analysiert wurden. Die einzelnen

Reaktionsansätze wurden dabei nicht nur einmal sondern bis zu sechs mal druchgeführt und

vermessen, um eine möglichst hohe Genauigkeit und Verlässlichkeit der experimentellen

Daten zu gewährleisten. Von den sich so ergebenen 480 Reaktionen (80 Einzelreaktionen x 6

Durchläufe) wurden uns die Ergebnisse von 364 Einzelreaktionen in Form einer Excel-

Tabelle zur Verfügung gestellt. Dieser eingeschränkte Datensatz enthielt im Gegensatz zum

Originaldatensatz nur noch 63 der 80 möglichen Kombinationen.

7.1.2.2 Datenaufbereitung

Der Datensatz mit den 364 verbliebenen Einzelreaktionen enthielt neben den oben

aufgeführten Reaktionsbedingungen auch einen ChemCodes-internen Zahlenwert, welcher

zur Klassifizierung der Reaktionsergebnisse diente (Tabelle 7-1).

Kategorie Beschreibung1 nur Produkt2 Produkt + Edukt4 nur Edukt7 Meßfehler

Tab. 7-1: ChemCodes-interne Reaktionskategorisierung.

166

Page 179: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

Die einzelnen Paralleldurchläufe der 63 Reaktionsansätze sollten zunächst gruppiert und

die entsprechenden Ausbeuten gemittelt werden. Dazu wurden die 364 Dateneinträge

nochmals überarbeitet, wobei vor allem Ausreisserdaten (stark abweichende Ausbeutenwerte)

und missglückte Reaktionsansätze (Tabelle 7-1, Kategorie 7) entfernt wurden. Da die im

Datensatz angegebenen Ausbeutewerte lediglich Faktoren des ChemCodes-internen

Analyseprogramms darstellen, mussten die gemittelten Werte im Anschluss auf eine 100

Prozentskala normiert werden, um allgemein übliche, prozentuale Reaktionsausbeuten zu

erhalten. Die so aufbereiteten Daten wurden schließlich mit dem InfVis-Programm visuell

analysiert.

7.1.2.3 Visuelles Data Mining

Nach dem Einlesen der Daten wurden die einzelnen Datendimensionen auf die

graphischen Attribut-Eigenschaften des InfVis-Programms abgebildet. Dabei wurde die

ChemCodes-Reaktionskategorie auf die x-Achse, die Lösungsmittel auf die y-Achse sowie

die Trägerharze auf die z-Achse aufgetragen (Abbildung 7-3, links).

Abb. 7-3: InfVis-Programm; 364 Reaktionen aus der ChemCodes-Datenbank.

Abb. 7-4: Legende für die Abbildungen 7-3 bis 7-7.

Kategorie 1

Kategorie 2

Kategorie 4

Kategorie 7

23 °C

60 °C

167

Page 180: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Die Reaktionsausbeute wurde durch die Größe der graphischen Objekte und die

Temperatur durch die Objektform repräsentiert (Abbildung 7-4). Die Objektfarbe diente

ebenfalls zur Darstellung der Reaktionskategorie (Abbildung 7-4). Darüber hinaus wurde

jeweils ein graphischer Filter in Form eines Schiebereglers für Basen, Temperatur und

Trägerharze eingefügt (Abbildung 7-3, rechts).

Bei der visuellen Exploration des Datensatzes konnten zunächst zwei grundsätzliche Ten-

denzen festgestellt werden. So zeigten zum einen Reaktionen, die bei höheren Temperaturen

(60 °C) durchgeführt wurden, deutlich niedrigere Ausbeuten als Ansätze bei Raumtemperatur

(Abbildung 7-5a). Zum anderen konnte beobachtet werden, dass Reaktionen auf Polystyrol-

harz ebenfalls zu kleineren Ausbeuten bzw. zu höheren Nebenproduktanteilen (kleine Objekt-

größen bzw. Ausbeuten in Kategorie 1) führten als die entsprechenden Reaktionen auf

Tentagel-Trägerharz (Abbildung 7-5b).

Abb. 7-5: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen bei 60 °C, b) Reaktionen auf Polystyrol-Harz (Farbabbildung: Anhang A, Abbildung A-15a, b).

168

Page 181: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

Abb. 7-6: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Kaliumhydroxid bei 23 °C auf Tentagel, b) Reaktionen mit Lithiumhydroxid bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15c, d).

Mit Hilfe des Basenfilters wurde anschließend der Einfluss der diversen Basen sowie der

Lösungsmitteleffekte genauer betrachtet. Dabei konnte eine Abnahme der Produktausbeuten

für die Basenreihenfolge KOH > NaOMe > LiOH > kein Base > iPr2EtN beobachtet werden

(Abbildung 7-6 und 7-7).

Die höchsten Aubeuten wurden im ChemCodes-Experiment mit Kaliumhydroxid in einem

4:1-Gemisch aus Ethanol und Wasser sowie mit reinem Ethanol als Lösungsmittel bei 23 °C

und unter Verwendung von Tentagel erzielt (Abbildung 7-6). In DMSO waren die Ausbeuten

aufgrund von Nebenreaktionen wesentlich geringer und in Dioxan wurde das Edukt schließ-

lich nur noch in geringen Maße umgesetzt (Abbildung 7-6a, grüne Kugel).

Der Einsatz von Lithiumhydroxid in Ethanol/Wasser zeigte im Gegensatz zu Kaliumhy-

droxid eine deutliche Zunahme der Nebenprodukte während die Reaktion in reinem Ethanol

zu unvermindert hohen Ausbeuten führte. Der Einsatz von Dioxan und DMSO zeigte hinge-

169

Page 182: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

gen keine nennenswerte Umsetzung der Edukte (Abbildung 7-6b). Im Gegensatz zu mit Kali-

umhydroxid aktivierten Reaktionen konnten mit Lithiumhydroxid in Ethanol auch noch bei

hohen Reaktionstemperaturen moderate Ausbeuten erzielt werden.

Bei der Verwendung von Natriummethanolat konnten insbesondere in Ethanol/Wasser

sowie in DMSO hohe Ausbeuten erzielt werden. Entsprechende Reaktionen in Ethanol und

Dioxan führten allerdings zu geringeren Umsätzen sowie einer höheren Nebenproduktrate

(Abbildung 7-7a). Während diese Beobachtungen auf Ansätzen mit Tentagel beruhten, zeig-

ten die analogen Ansätze auf Polystyrol nur geringe Ausbeuten.

Abb. 7-7: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Natriummethanolat bei 23 °C auf Tentagel, b) Reaktionen ohne Zugabe von Basen bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15e, f).

Chalcon-Synthesen ohne Zugabe von Basen führten lediglich in DMSO bei 23 °C auf

Polystyrol zu einer Produktbildung (Abbildung 7-7b). Die Ansätze mit Diisopropylethylamin

wurden nicht näher betrachtet, da die entsprechenden Ansätze extrem fehlerbehaftet waren

170

Page 183: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

und große Unterschiede in den Ausbeuten zeigten. Die genaue Ursache hierfür ist uns nicht

bekannt.

7.1.2.4 Diskussion

ChemCodes nutzt zur Analyse und Auswertung der generierten Datensätze eine Vielzahl

sowohl externer Programme als auch eigene computergestützte Analysemethoden. Dennoch

gestaltet sich die Auswertung dieser Datensätze aufgrund der Datenmenge, aber vor allem

auch aufgrund des multidimensionalen Charakters der Daten oft umständlich und schwierig.

So wurde in der Vergangenheit der oben beschriebene Datensatz mit Hilfe von zweidimensio-

nalen Scatterplot-Darstellungen visualisiert und analysiert. Um eine gleichzeitige Darstellung

aller sechs Dimensionen (Lösungsmittel, Base, Temperatur. Trägerharz, Ausbeute und Reak-

tionskategorie) zu ermöglichen, war ein paralleles Abbilden mehrerer Datendimensionen auf

den x- und y-Achsen notwendig (z. B. Lösungsmittel und Reaktionskategorie auf der x-

Achse), was zu unübersichtlichen Darstellungen führte und letztendlich die visuelle Identifi-

kation der gewünschten Ergebnisse erschwerte (Abbildung 7-8).

Abb. 7-8: Spreadsheet-Darstellung (Spotfire [214]) mit ChemCodes-Datensatz [14].

171

Page 184: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Im Gegensatz zu solchen Standardvisualisierungsansätzen ist die Darstellung und Analyse

multidimensionaler und multivariater Datensätze im InfVis-Programm problemlos zu realisie-

ren. So können mit Hilfe der drei Raumdimensionen als auch durch die diversen Objekteigen-

schaften zahlreiche Dimensionen gleichzeitig dargestellt werden, ohne dabei den Benutzer

visuell zu überfordern. Der Einsatz aller zur Verfügung stehenden retinalen Eigenschaften ist

dabei nicht immer zwingend erforderlich und kann in einigen Fällen sogar unzweckmäßig

sein. So werden beispielsweise im obigen Ansatz nicht alle graphischen Eigenschaften

genutzt, um jeweils eine Datendimension abzubilden. Vielmehr dient sowohl die Objektfarbe

als auch die x-Achsenauftragung zur Vermittlung der Reaktionskategorie, während die unter-

schiedlichen Basen nicht durch ein eigenes graphisches Attribut symbolisiert werden. Eine

solche Entscheidung kann in einigen Fällen zu einer übersichtlicheren Darstellung der Daten-

punkte führen. Obwohl die Baseninformation auf diese Weise nicht direkt dargestellt werden

kann, steht mit Hilfe der Dynamic Query-Filter-Technologie ein geeignetes, alternatives

Werkzeug zur Verfügung, das eine Darstellung der Baseneinflüsse in der graphischen Szene

erlaubt. Dabei führen die vom Benutzer vorgenommenen Änderungen der Filtereinstellungen

zu einer unmittelbaren Aktualisierung der dargestellten Datenpunkte. Auf diese Weise kön-

nen auch mehr als die durch die sechs graphischen Eigenschaften darstellbaren Datendimen-

sionen visualisiert werden. Die Dynamic Query-Filter eignen sich nicht nur zur Analyse von

multidimensionalen Datensätzen, sondern erlauben auch eine schnelle Exploration großer

Datenmengen. So reichte im oben geschilderten Fall lediglich ein Mausklick auf dem Tempe-

ratur- bzw. Trägerharz-Filter aus, um die allgemeine Ausbeutenabnahme bei höheren Tempe-

raturen bzw. bei Verwendung von Polystyrol-Harz zu erkennen. Komplizierte

Fragestellungen, wie beispielsweise die Suche nach Reaktionsausbeuten unter Verwendung

von Kaliumhydroxid bei 23 °C auf Tentagelharz sind einfach durch Kombination der entspre-

chenden Filter möglich. Der oben geschilderte visuelle Data Mining-Prozess der 364 Einzel-

reaktionen benötigte daher lediglich ein paar Minuten.

Obwohl das Anwendungsbeispiel in erster Linie zur Darstellung der InfVis-Fähigkeiten

diente, sollen im Folgenden auch kurz die Ergebnisse des Data Mining-Prozesses diskutiert

werden. Der verwendete Datensatz zählte zu den ersten experimentellen Studien der Firma

ChemCodes und diente vor allem zur Evaluierung und Feinabstimmung des experimentellen

Workflows. Dies zeigt sich vor allem anhand der stark abweichenden Ergebnisse zwischen

Tentagel- und Polystyrol-basierten Reaktionen, was auf damalige, grundsätzliche Probleme

bei den Reaktionen auf Polystyrol-Trägerharzen schließen lässt. Darüber hinaus konnten zum

damaligen Zeitpunkt auch einige Reaktionen mit bestimmten Basen wie beispielsweise Diiso-

propylethylamin nicht in der gewünschten Form umgesetzt werden. Trotz dieser Probleme,

die heute zum größten Teil behoben sind, zeigt die visuelle Exploration des Datensatzes, dass

der Großteil der durchgeführten Reaktionen den veröffentlichten Daten entspricht bzw. allge-

172

Page 185: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

mein gültigen, chemischen Tendenzen wie den Lösungsmitteleffekten folgt. So lassen sich

beispielsweise die nicht bzw. nur in geringen Ausbeuten beobachteten Reaktionen in Dioxan

durch den unpolaren Charakter des Lösungsmittels erklären. Dieser führt zum einen zu einer

schlechteren Löslichkeit der ionischen Basen und verhindert zum anderen die Stabilisierung

der ionischen Zwischenstufe. Die im Vergleich mit Ethanol bzw. Ethanol/Wasser schlechteren

Ausbeuten von Reaktionen in Dimethylsulfoxid können auf die starke Solvatation der Metall-

atome durch Dimethylsulfoxid zurückgeführt werden. Die Solvatation erschwert dabei die

Bildung des cyclischen Übergangszustands, der sich aus dem Carbonyl- und dem Enolat-Sau-

erstoffatom sowie aus dem als Lewis-Säure fungierenden Kation zusammensetzt [244].

7.1.3 Reaktionsplanung

7.1.3.1 Zielsetzung

Neben der umfassenden Analyse spezifischer Reaktionsklassen erlaubt die ChemCodes-

Reaktionsdatenbank nach ihrer Fertigstellung ebenfalls die Lösung des Funktionelle-Grup-

pen-Kompatibilitätsproblems. Das Wissen über die Funktionelle-Gruppen-Kompatibilität

(FG-Kompatibilität) erlaubt eine hochselektive Reaktionsplanung. So kann der Syntheseche-

miker bei Vorlage eines Eduktes bzw. einer Vorstufe mit mehreren, reaktiven funktionellen

Gruppen genau die Reaktionsbedingungen aus der Datenbank abfragen, die lediglich zu einer

Umsetzung der gewünschten funktionellen Gruppe führen, während die anderen funktionel-

len Gruppen nicht beeinflusst werden. Auf diese Weise kann die Reaktion in einem einstufi-

gen Prozess durchgeführt werden und der aufwendige, mehrstufige Einsatz von

Schutzgruppen entfällt.

Da diese Information erst in einigen Jahren zur Verfügung stehen wird, wurde von

ChemCodes ein prototypischer Datensatz generiert, der das Potential eines solchen Ansatzes

verdeutlichen soll. Im vorliegenden Datensatz wurden dazu die 48 wichtigsten funktionellen

Gruppen mit 37 gängigen Reagenzien und 6 sogenannten Quenchern in 11 Lösungsmitteln

bei 25 °C umgesetzt. Die Reagenzien dienen dabei zur Aktivierung des reaktiven Zentrums

bzw. der funktionellen Gruppe, wobei die Reagenzienpalette so zusammengestellt wurde,

dass eine abgestufte Aktivierung beispielsweise durch unterschiedliche Säurestärken

gewährleistet ist. Auf diese Weise lassen sich Aussagen darüber treffen, wann eine bestimmte

funktionelle Gruppe noch aktiviert wird und wann nicht mehr.

Die aktivierten Gruppen werden schließlich durch die Quencher – prototypische,

hochreaktive Gegenreagenzien (elektrophil, nucleophil, etc.) – abgefangen und auf diese

Weise detektiert.

173

Page 186: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Die 126.115 Einzelreaktionen umfassende Datenbank wurde im vorliegenden Fall dazu

verwendet, um solche Reaktionsbedingungen zu identifizieren, die für eine beliebige Amino-

benzaldehyd-Verbindung nur zu einer Reaktion der enthaltenen Aminogruppe und nicht der

Aldehydgruppe oder des aromatischen Systems führten (Abbildung 7-9). Die Reaktionsbe-

dingungen sollten darüber hinaus jedoch mild genug sein, um nur die Bildung eines einzelnen

Hauptproduktes und keiner Nebenprodukte zu bewirken.

Abb. 7-9: Aminobenzaldehyd. Nur die markierte Aminogruppe soll umgesetzt werden.

7.1.3.2 Datenaufbereitung

Die experimentellen Daten der zahlreichen Einzelreaktionen wurden zunächst in Form

einer MySQL-Datenbank gespeichert. In einem zweiten Schritt wurden anschließend mit

Hilfe eines SQL-Befehls alle Reaktionsansätze gesucht, in denen die Aldehydgruppe, der

Phenylring oder auch die Aminogruppe umgesetzt wurden. Dieser 7.326 Einzelreaktionen

umfassende Datensatz wurde schließlich in die InfVis-Applikation eingelesen und visuell aus-

gewertet.

7.1.3.3 Visuelles Data Mining

Zur visuellen Analyse des Datensatzes wurden die Produktanzahl auf die x-Achse, die

Lösungsmittel auf die y-Achse und die drei funktionellen Gruppen auf die z-Achse des Koor-

dinatensystems aufgetragen. Während die Objektform ebenfalls die Anzahl der Produkte und

die Objektfarbe die jeweilige funktionelle Gruppe symbolisierte, wurde die Objektgröße nicht

zum Abbilden einer Datendimension genutzt (Abbildung 7-10). Vielmehr wurden alle Daten-

punkte durch graphische Objekte mit einer definierten Standardgröße dargestellt (Abbildung

7-11).

Neben den einzelnen graphischen Attributen kamen des Weiteren zwei dynamische Filter

zum Einsatz – zum einen ein Filter für die Reagenzien, der durch einen Schieberegler gesteu-

ert wird, sowie ein Checkbox-basiertes Filterwerkzeug für die unterschiedlichen Quencher.

N

H

H

O

H

174

Page 187: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

Abb. 7-10: Legende zur Abbildung 7-11.

Abb. 7-11: InfVis-Applikation mit gefilterten Reaktionsdatensatz: Reaktionen mit 1,3-Diisopropylcarbodi-amid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln. Alleinige Umsetzung der Aminogruppe nur in Toluol und N,N-Dimethylformamid (Farbabbildung: Anhang A, Abb. A-16).

Mit Hilfe der Filterfunktionen wurden im Folgenden alle Reagenzien-Quencher-Kombina-

tionen dargestellt und in den resultierenden 3D-Szenen nach solchen Lösungsmitteln gesucht,

in denen das gewünschte Produktverhältnis (Aminogruppe = 1 Produkt sowie Aldehyd und

Phenylring = kein Produkt) zwischen den drei funktionellen Gruppen vorlag. Abbildung 7-11

Aldehyd-Gruppe

Phenylring

Amino-Gruppe

Kein Produkt

Hauptrodukt

Produkt undNebenprodukt

175

Page 188: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

zeigt eine solche Kombination. Dabei können für 1,3-Diisopropylcarboamid als Reagenz und

1-Phenyl-2-thioharnstoff als Quencher zwei Lösungsmittel (Toluol und N,N-Dimethylforma-

mid) identifiziert werden, in denen nur die Aminogruppe reagiert während der Phenylring

und die Aldehydgruppe unbeeinflusst bleiben.

Insgesamt konnten auf diese Weise 23 Reaktionen bzw. Reaktionsbedingungen für die

Aminogruppe identifiziert werden (Tabelle 7-2). Zwei entsprechende, visuelle Data Mining-

Ansätze für die Aldehyd- bzw. Phenylgruppe führten zur Identifikation von 17 bzw. 104

geeigneten Reaktionsbedingungen.

Lösungsmittel Reagenz QuencherWasser Kein Reagenz TrifluormethansulfonylchloridMethanol 1,3-Diisopropylcarbodiimid Kein QuencherN,N-Dimethylformamid 1,3-Diisopropylcarbodiimid 1-Phenyl-2-thioharnstoffToluol 1,3-Diisopropylcarbodiimid 1-Phenyl-2-thioharnstoffWasser Essigsäure PhenylisocyanatN,N-Dimethylformamid Ammoniak, 2.0 M in Ethanol 1-Phenyl-2-thioharnstoffPyridin Ammoniak, 2.0 M in Ethanol 1-Phenyl-2-thioharnstoffN,N-Dimethylformamid Ammoniak, 2.0 M in Ethanol TrifluormethansulfonylchloridTetrahydrofuran Ammoniumchlorid Kein QuencherEssigsäure Bortrifluoriddiethyletherate ButylaminAcetonitril Chlortrimethylsilan Kein QuencherMethanol Diisobutylaluminiumhydrid 1-Phenyl-2-thioharnstoff

AcetonitrilWasserstoffperoxid, 50% in H2O

Butylamin

Essigsäure Methansulfonylchlorid 1-Phenyl-2-thioharnstoffN,N-Dimethylformamid Methanol StyrolN,N-Dimethylformamid Kaliumhydroxid, 35 % in Öl TrifluormethansulfonylchloridMethanol Kaliumhydroxid StyrolAcetonitril Kaliummethanolat TrifluormethansulfonylchloridN,N-Dimethylformamid Natriumazid Trifluormethansulfonylchlorid

AcetonitrilTetrabutylammoniumfluorid-hydrate

Styrol

Tetrahydrofuran Thionylchlorid 1-Phenyl-2-thioharnstoffPyridin Triethylamin TrifluormethansulfonylchloridEssigsäure Wasser Trifluormethansulfonylchlorid

Tab. 7-2: Reaktionsbedingungen die nur zur Umsetzung der Aminogruppe (Abbildung 7-9) führten.

176

Page 189: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.1 ChemCodes-Reaktionsdatenbank

7.1.3.4 Diskussion

Für die Auswertung des Experiments wurde bis dato ein Online-Dienst eingesetzt, der in

Zusammenarbeit zwischen der Firma ChemCodes und dem Computer-Chemie-Centrum ent-

wickelt wurde. Die Datenbankausgaben wurden dabei in Form einer farblich gestalteten

Tabellendarstellung repräsentiert und konnten je nach Anzahl der eingesetzten funktionellen

Gruppen sowie der Auswahl der diversen Reaktionsbedingungen einige zehn bis hundert Sei-

ten umfassen. Trotz der farblichen Bewertung der Ergebnisse war eine Analyse großer Daten-

sätze wie beispielsweise des oben aufgeführten, 7.326 Datenpunkte umfassenden Datensatzes

extrem schwierig.

Im Gegensatz zur tabellarischen HTML-Darstellung konnten im InfVis-Programm alle

7.326 Reaktionsansätze kompakt und übersichtlich im dreidimensionalen Koordinatensystem

dargestellt werden. Beim Mapping der unterschiedlichen Datendimensionen auf die graphi-

schen Eigenschaften wurden wie auch beim Reaktionsdatensatz aus Abschnitt 7.1.2 nicht alle

in InfVis implementierten graphischen Dimensionen bzw. Eigenschaften verwendet. Tatsäch-

lich wurden lediglich drei der fünf Datendimensionen durch graphische Attribute repräsen-

tiert. Da keine Datendimension mit typischen "Größenwerten" wie beispielsweise Ausbeuten

oder Meßwerten existierte, wurde auf eine Nutzung der Objektgröße als retinale Eigenschaft

verzichtet. Auf diese Weise blieb die Szene übersichtlich und auf das Wesentliche nämlich

das Vorliegen oder Fehlen von Datenpunkten beschränkt. Dieses Beispiel zeigt auf anschauli-

che Weise, dass der Abbildungsvorgang stark vom Datensatz und der mit ihm verbundenen

Fragestellung abhängt. Natürlich spielen dabei auch persönliche Vorlieben des Benutzers eine

entscheidende Rolle. So könnte ein anderer Anwender eine andere Auftragung der Daten

bevorzugen.

Das ChemCodes-Experiment basierte lediglich auf Einzelreaktionen der eingesetzten

funktionellen Gruppen, so dass die in Tabelle 7-2 aufgelisteten Reaktionsbedingungen nur

mit Vorsicht zu betrachten sind. Induktive oder elektronische Effekte zwischen den einzelnen

funktionellen Gruppen oder zwischen den funktionellen Gruppen und dem aromatischen

Ringsystem konnten durch den experimentellen Ansatz nicht berücksichtigt werden. Aus die-

sem Grund wurde auch die Stellung (ortho, meta, para) der funktionellen Gruppen zueinander

nicht berücksichtigt. Obwohl die chemische Reaktivität der funktionellen Gruppen nur unzu-

reichend und stark verallgemeinert repräsentiert wird, zeigt der Datensatz sowie dessen visu-

elle Analyse das eigentliche Potential der ChemCodes-Reaktionsdatenbank. Nach der

Fertigstellung der Datenbank werden auch aufwendige Fragestellungen sowie komplexe

Wechselwirkungen zwischen den funktionellen Gruppen berücksichtigt werden können.

177

Page 190: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

7.2 NCI Antitumor-Screening-Datenbank

7.2.1 Zielsetzung und Aufbau der Datenbank

Die Bekämpfung von Krebs zählt zu den größten Anliegen der modernen Medizin. Ein

Ansatz zur Identifikation neuer Wirkstoffe war und ist dabei das sogenannte Screening von

Naturstoffen und synthetischen Verbindungen, bei dem die biologische Aktivität der entspre-

chenden Verbindung gegen bestimmte Krebszelllinien ermittelt wird. Vor 1985 wurde der

Screeningprozess an Mäusen durchgeführt, welche die Leukämie-P388-Zelllinie trugen. Ein

Hauptproblem dieses Ansatzes war jedoch die Unsicherheit, ob die gefundenen potentiellen

Wirkstoffe auch gegen menschliche Krebsarten wirkten.

Zwischen 1985 und 1990 wurde deshalb am amerikanischen Krebsforschungsinstitut ein

alternativer Screeningansatz zum üblichen in vivo Experiment entwickelt – der NCI in vitro

Anticancer Drug Discovery Screen [203, 204]. Dieses im April 1990 von Drug Therapeutics

Program [202] fertiggestellte in vitro Experiment umfasste dabei verschiedene menschliche

Krebszelllinien, die sowohl eine repräsentative Auswahl der wichtigsten Krebsarten wie

Brust-, Lungen-, Eierstock-, Prostata-, Augen- und Darmkrebs, Leukämie, Melanome und

Krebsarten des Zentralen Nervensystems als auch der diversen biochemischen Wirkungsme-

chanismen darstellte. Nach einer dreijährigen Erprobungsphase wurden weitere acht Brust-

krebsarten sowie zwei Prostatakrebszelllinien in den Screeningtest integriert. Um weiterhin

eine konstante Gesamtzahl von 60 Zelllinien zu gewährleisten, wurden im Gegenzug zehn

Krebszelllinien entfernt, die entweder redundant oder technisch schwierig zu handhaben

waren. Eine Übersicht der aktuellen Krebszelllinien kann Anhang C entnommen werden. Seit

seiner Einführung wurden über 80.000 chemische Verbindungen analysiert, von denen 41.000

öffentlich zugänglich sind (Stand: April 2002).

Die Ermittlung der drei bereits in Kapitel 6 (vgl. Abschnitt 6.1.2) beschriebenen biologi-

schen Aktivitäten (GI50, TGI, LC50) für alle 60 Krebszelllinien erlaubt die Generierung

eines eindeutigen, hochspezifischen Wirkungsvektors, der daher auch als Fingerabdruck

(engl. Fingerprint) bezeichnet wird. Diese für eine bestimmte Verbindung charakteristischen

Fingerprints spiegeln das Wirkungsverhalten einer Substanz wider und werden unter anderen

in quantitativen Struktur-Aktivitäts-Beziehungs-Studien (engl.: quantitative structure activity

relations, QSAR) eingesetzt. Grundlage solcher Untersuchungen ist die Annahme, dass struk-

turell ähnliche Verbindungen über ähnliche molekulare Eigenschaften verfügen und somit

auch ähnliche biologische Effekte hervorrufen können [245]. Zahlreiche QSAR- und Data

Mining-Studien wurden in den letzten Jahren mit den Daten der NCI-Datenbank durchgeführt

und führten unter anderen zur Identifikation neuer Wirkstoffverbindungen in bereits definier-

178

Page 191: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.2 NCI Antitumor-Screening-Datenbank

ten Klassen mit bekannten biochemischen Mechanismen. Darüber hinaus konnten durch diese

Studien aber auch neue mechanistische Klassen identifiziert werden.

7.2.2 QSAR-Studien mit Platin-Verbindungen

7.2.2.1 Zielsetzung

Wie bereits im vorausgegangenen Abschnitt erläutert wurde, können strukturell ähnliche

Verbindungen ein ähnliches Wirkungsmuster aufweisen. Trotz dieser allgemein gültigen

Struktur-Wirkungs-Beziehung wurden auch Verbindungsklassen identifiziert, die trotz eines

ähnlichen bzw. identischen Aktivitätsmechanismus (engl.: mechanism of action, MOA) sich

aus strukturell diversen Verbindungen zusammensetzen. Analog dazu wurden ebenfalls struk-

turell ähnliche Verbindungen klassifiziert, die unterschiedliche Wirkungsmuster aufweisen.

Die unterschiedlichen Ausprägungen von Struktur-Aktivitätsbeziehungen sollen anhand

der in der NCI-Datenbank enthaltenen Platin-Verbindungen veranschaulicht werden. Ähnli-

che Wirkungsmuster sollen dabei mit Hilfe des InfVis-Programms identifiziert und zu eigen-

ständigen Teildatensätzen zusammengefasst werden. Die gefundenen Aktivitätscluster sollen

schließlich unter Berücksichtigung der zweidimensionalen Strukturinformation interpretiert

werden. Die Klasse der Platinverbindungen wurden gewählt, weil die NCI-Datenbank sowohl

hochwirksame Platin-Cancerostatika als auch biologisch inaktive Platinverbindungen enthält.

7.2.2.2 Datenaufbereitung

Grundlage für die visuelle Analyse und Clusterung der Platinverbindungen waren die zwei

im vorangegangenen Kapitel erwähnten NCI-Datenbanken (CACTVS-basierte und MySQL-

basierte NCI-Datenbank). In einem ersten Schritt wurden von den 1381 in der NCI-Daten-

bank enthaltenen Platinverbindungen solche Strukturen isoliert, zu denen auch biologische

Aktivitätsdaten in der MySQL-Datenbank vorlagen. Da nicht für alle resultierenden 346 Ver-

bindungen alle drei Aktivitätswerte (GI50, LC50 und TGI) vorhanden waren, wurde der

Datensatz erneut auf die Verbindungen eingegrenzt, die sowohl über GI50-, LC50- und TGI-

Werte verfügten.

Zu den 150 verbliebenen Strukturen wurden in einem zweiten Schritt die zugehörigen bio-

logischen Aktivitätsdaten für alle 60 Krebszelllinien aus der MySQL-Datenbank entnommen.

Der auf diese Weise erhaltene Datensatz wurde im Anschluss von allen Aktivitätsdaten bzw.

Verbindungen befreit, die nicht bei der Standardkonzentration (0.001 mol/l) vermessen wur-

den. Durch diese Vorgehensweise war ein problemloser Vergleich aller Aktivitätsdaten

sichergestellt. Da für die vergleichende Betrachtung der Aktivitätsdaten vor allem der wachs-

179

Page 192: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

tumshemmende Effekt von Bedeutung ist, wurden die entsprechenden GI50-Werte aus dem

Datensatz extrahiert. Diese Werte wurden jedoch nicht direkt bei der visuellen Analyse ver-

wendet sondern vorher in einem letzten Aufarbeitungsschritt in die Mean-Graph-Repräsenta-

tion [206] überführt. Diese relative bzw. "Fingerprint"-Darstellung der Aktivitätsdaten hebt

dabei die spezifischen Effekte einer einzelnen Verbindungen gegenüber einer bestimmten

Krebszelllinie im Gegensatz zur direkten (absoluten) Auftragung hervor und ermöglicht

somit eine bessere Klassifizierung der Wirkungsmuster.

7.2.2.3 Visuelles Data Mining

Zur visuellen Mustererkennung und Clusterung der Aktivitätsdaten wurden die Platinver-

bindungen auf die x-Achse, die Krebszelllinien auf die z-Achse und die relativen Aktivitäten

auf die y-Achse aufgetragen. Die Objektfarbe wurde ebenfalls zur Hervorhebung der relati-

ven Aktivitätswerte verwendet (Abbildung 7-13). Objektgröße und Objektform wurden nicht

zum Abbilden von Datendimensionen eingesetzt (Abbildung 7-12).

Abb. 7-12: InfVis-Programm mit 2939 GI50-Aktivitätswerten. Aufsicht auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene, Auftragung der Verbindungen verläuft in Blickrichtung des Betrachters)(Farbabbildung: Anhang A, Abbildung A-17).

Abb. 7-13: Legende für die Abbildungen 7-12, 7-14 - 7-18.

ÜberdurchschnittlicheAktivität

UnterdurchschnittlicheAktivität

180

Page 193: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.2 NCI Antitumor-Screening-Datenbank

Mit Hilfe eines dynamischen, Checkbox-Filters wurden die Aktivitätsmuster der einzelnen

Verbindungen bewertet und Strukturen mit ähnlichen Wirkungsmuster zu Teildatensätzen

zusammengefasst.

Um die spezifischen Aktivitäten einer einzelnen Verbindung gegenüber allen Krebszellli-

nien zu identifizieren, wurde die dreidimensionale Szene so ausgerichtet, dass eine Aufsicht

auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene) gewährleistet war. Die Auftragung

der einzelnen Verbindungen verlief dabei in Blickrichtung des Betrachters. Überdurchschnitt-

lich hohe Aktivitäten gegenüber spezifischen Krebszellen wurden bei der relativen Aktivitäts-

darstellung durch graphische Objekte oberhalb der y-Achsen-Nullpunktebene dargestellt,

während Objekte unterhalb der Ebene unterdurchschnittliche Aktivitäten symbolisierten

(Abbildung 7-12). Diese Darstellungsform gewährleistete ebenfalls einen bestmöglichen Ver-

gleich der Verbindungs-spezifischen Wirkungsmuster. Neben der relativen GI50-Darstellung

wurden auch die absoluten Werte der GI50-, LC50- und TGI-Aktivitäten der isolierten Clu-

ster dargestellt (Abbildungen 7-14-7-18).

Bei der visuellen Analyse des Datensatzes konnten zunächst drei Ausreisserdaten aufgrund

ihrer unverhältnismässigen Aktivitäten identifiziert werden, die vor einer weiteren Bearbei-

tung des Datensatzes entfernt wurden. Die verbliebenen 2936 Datenpunkte wurden anschlie-

ßend hinsichtlich ihrer Aktivitätsähnlichkeiten in fünf Verbindungsklassen unterteilt. Die

einzelnen Cluster sowie die Auswahlkriterien, die zu ihrer Isolierung führten, werden im Fol-

genden näher beschrieben.

In einem ersten Schritt wurden zunächst solche Verbindungen isoliert, die gegenüber allen

Krebszelllinien keine nennenswerte Wachstumsinhibition (GI50-Aktivitäten) zeigten (Abbil-

dung 7-14a (relative Aktivitäten) und 7-14b (absolute Aktivitäten)). Dieses Ergebnis konnte

auch, wie erwartet, anhand der Aktivitäten der korrespondierenden LC50- und TGI-Werte

bestätigt werden (Abbildung 7-14c,d). Der Cluster umfasste dabei insgesamt 33 inaktive Ver-

bindungen (vgl. Anhang D).

Im Anschluss wurden 15 weitere Verbindungen identifiziert, die ebenfalls gegenüber dem

Großteil der getesteten Krebszellen keine Aktivität aufwiesen. Im Gegensatz zu den Struktu-

ren aus der ersten Gruppe zeigten diese Verbindungen jedoch gegenüber ein bis zwei verein-

zelten Krebszelllinien hohe Aktivitätswerte. Interessanterweise wies dabei jede Verbindung

gegenüber einer anderen Krebsart dieses Verhalten auf, was das Vorliegen von Meßfehlern

vermuten ließ (Abbildung 7-15a,b). Da jedoch auch die entsprechenden LC50- und TGI-

Werte dieses Verhalten teilweise bestätigten (Abbildung 7-15c,d), wurden die identifizierten

Verbindungen in einen eigenständigen Cluster zusammengefasst, um eine spätere Analyse

mit Hilfe der Strukturinformation zu gewährleisten.

181

Page 194: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Abb. 7-14: InfVis-Programm mit Cluster 1 (33 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18a).

Abb. 7-15: InfVis-Programm mit Cluster 2 (15 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18b).

182

Page 195: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.2 NCI Antitumor-Screening-Datenbank

Abb. 7-16: InfVis-Programm mit Cluster 3 (50 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18c).

Abb. 7-17: InfVis-Programm mit Cluster 4 (26 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18d).

183

Page 196: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Abb. 7-18: InfVis-Programm mit Cluster 5 (14 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18e).

Im Gegensatz zu den beiden zuvor isolierten Verbindungsklassen zeigten die verbliebenen

Strukturen sowohl über- als auch unterdurchschnittliche Wachstumsaktivitäten gegenüber

allen getesteten Krebszelllinien. Dabei konnten jedoch keine hochselektiven Effekte gegen-

über spezifischen Krebszellen, wie sie von anderen Verbindungsklassen bekannt sind [246],

festgestellt werden. Vielmehr variierten die Aktivitätswerte sehr stark über das gesamte

Krebszellenspektrum. Um dennoch eine weitere Unterteilung der verbliebenen 109 Verbin-

dungen zu ermöglichen, wurden bestimmte Grenzwerte für ausgewählte Krebszelllinien defi-

niert, die für die Zugehörigkeit zu einem Cluster nicht über- bzw. unterschritten werden

durften. Als besonders geeignet erschienen dabei die beiden Leukämiezelllinien SR (2. verti-

kale Kugelreihe von links, Abbildung 7-16a,b) und K-562 (16. Reihe von links, Abbildung 7-

16a).

Zunächst wurden dabei solche Verbindungen identifiziert, die sowohl überdurchschnitt-

liche Aktivitäten für SR als auch für K-562 aufwiesen. Darüber hinaus sollten die jeweiligen

Aktivitäten der restlichen Krebszellen zwischen den einzelnen Verbindungen tendenziell

übereinstimmen und in einem begrenzten Wertebereich vorliegen. Strukturen mit hohen Akti-

vitäten für SR und K-522 aber stark abweichenden Aktivitätswerten für eine andere Zelllinien

wurden deshalb nicht im dritten Teildatensatz berücksichtigt. Auf diese Weise konnten

schließlich 50 weitere Platinverbindungen isoliert werden (Abbildung 7-16, vgl. Anhang D).

184

Page 197: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.2 NCI Antitumor-Screening-Datenbank

Die entsprechenden LC50- und TGI-Werte waren erwartungsgemäß kleiner und zeigten zum

Teil ein leicht verändertes Wirkungsprofil (Abbildung 7-16c,d).

Analog zu der für Cluster 3 beschriebenen Vorgehensweise wurden 26 weitere Platinver-

bindungen isoliert, welche über überdurchschnittliche Aktivitätswerte gegenüber SR und

unterdurchschnittliche GI50-Werte für K-562 verfügten (Abbildung 7-17, vgl. Anhang D).

Dabei wurden auch in diesem Fall Verbindungen mit stark abweichenden Aktivitätswerten für

andere Krebszelllinien nicht im Teildatensatz berücksichtigt.

Die 14 restlichen Verbindungen wurden schließlich zu einer fünften Verbindungsklasse

zusammengefasst (Abbildung 7-18, vgl. Anhang D). Nach Abschluss der visuellen Cluste-

rung wurden die jeweiligen Verbindungsgruppen mit Hilfe der zweidimensionalen Strukturin-

formation (vgl. Anhang D) bewertet und interpretiert.

7.2.2.4 Auswertung und Diskussion

Der cytostatische bzw. cytotoxische Effekt einiger Platinverbindungen wie beispielsweise

cis-Diaminodichloroplatin(II) (cis-Platin, DDP) oder 1,2-Cyclohexandiamintetrachloroplatin

(Tetraplatin) wurde früh erkannt und bereits Ende der Siebziger Jahre zur therapeutischen

Behandlung von Krebspatienten genutzt [247, 248]. Die Platinverbindungen zählen dabei zu

der Klasse der alkylierenden Cancerostatika und wirken, indem sie direkt an die Nukleoside

(vor allem Guanosin) der DNA binden und diese somit schädigen. Aus diesem Grund wirken

Platinverbindungen nicht selektiv gegen bestimmte Zelllinien sondern auf das ganze Spek-

trum an Zelllinien, was auch bei der Betrachtung der Wirkungsmuster im vorangegangenen

Abschnitt deutlich wurde. Dieses unspezifische Wirkungsverhalten kann bei vielen DNA-

schädigenden Verbindungsklassen beobachtet werden [246]. Obwohl einige Platinverbindun-

gen zu den wirksamsten Cancerostatika zählen und daher auch zu den Standardwirkstoffen in

der Chemotherapie zählen, zeigen nicht alle Vertreter dieser Verbindungsklasse einen cytosta-

tischen Effekt. Besonders auffällig ist dabei die unterschiedliche Wirksamkeit der cis- und

trans-Form von Diaminodichloroplatin(II).

Unter Verwendung der zweidimensionalen Strukturinformation wurden die mit Hilfe des

InfVis-Programms generierten Cluster qualitativ analysiert. Dabei wurde hinterfragt, ob mit

Hilfe des visuellen Clusterings eine Trennung der aktiven und inaktiven Strukturen möglich

ist und ob dieser Prozess darüber hinaus eine weitere Unterteilung der aktiven Verbindungen

gestattet.

Zu den Verbindungen des ersten Clusters (vgl. Anhang D) zählt zum einen die nicht wirk-

same trans-Form des Diaminodichloroplatins (NSC131558). Darüber hinaus enthält der Clu-

ster diverse Strukturen mit großen und käfigartigen Ringsystemen (z.B. NSC631895,

185

Page 198: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

NSC532607, NSC685548), die wahrscheinlich aus sterischen Gründen eine Schädigung der

DNA verhindern. Eine weitere Gruppe inaktiver Strukturen stellen Platinkomplexe dar, in

denen das Platin durch Amino- und/oder Hydroxygruppen von Phosphon- und Aminophos-

phonsäurederivaten koordinativ gebunden ist (z.B. NSC627008, NSC632612, 639614). Des

Weiteren zeigen auch Bisaminoethylsilanderivate keine biologische Aktivität (NSC643120,

NSC643121). Allerdings konnten aktive, kürzerkettige Silanderivate in den nachfolgenden

Clustern identifiziert werden. Schließlich enthält der Cluster noch eine Gruppe von 1,2-Dia-

mincyclohexan-Derivaten (z.B. NSC623314, NSC623321). Da von dieser Verbindungsklasse

auch aktive Vertreter bekannt sind, liegt die Vermutung nahe, dass es sich bei den isolierten

Strukturen um inaktive Konformere handelt.

Bei der Betrachtung der Strukturen aus Cluster 2 (vgl. Anhang D) können vor allem Ver-

bindungsklassen wie Phosphonsäure- (z.B. NSC632614), Diamincyclohexan- (z.B.

NSC623320) und Silanderivate (z.B. NSC643122) identifiziert werden, die auch in Cluster 1

vertreten sind. Diese Beobachtung bestätigt somit die anfängliche Vermutung, dass es sich bei

den Strukturen aus Cluster 2 ebenfalls um inaktive Substanzen handelt, deren beobachtete,

selektive Aktivität für einzelne Krebszelllinien auf experimentelle Meßfehler zurückzuführen

sein dürfte. Diese Vermutung wird auch durch das generell unspezifische Wirkungsverhalten

von Platin enthaltenen Cancerostatika bekräftigt. Neben den bereits erwähnten Verbindungs-

klassen wurde noch eine weitere interessante Verbindung identifiziert – NSC644190. Die

inaktive, DMSO enthaltene Verbindung ist deshalb interessant, da auch in diesem Fall aktive,

strukturell ähnliche Verbindungen isoliert werden konnten (siehe Cluster 3). Der Aktivitäts-

unterschied ist dabei wahrscheinlich auch auf konformative Unterschiede zurückzuführen.

Bei der Analyse des ersten Clusters mit aktiven Verbindungen (Cluster 3) können zunächst

zwei große Strukturklassen identifiziert werden – Aminocyclohexanderivate (11 Verbindun-

gen) und Aminomethylsilanderivate (12 Verbindungen). Im Gegensatz zu den in Cluster 1

und 2 enthaltenen Cyclohexanverbindungen scheinen die analogen Strukturen dieses Clusters

in der aktiven Konformerform vorzuliegen. Allerdings scheinen einige dieser Derivate jedoch

sowohl in der cis- als auch in der trans-Form aktiv zu sein, was die parallele Existenz der bei-

den Verbindungen NSC265459 und NSC265460 im Cluster erklärt. Leider lässt sich diese

Fragestellung aufgrund fehlender genauerer struktureller Information nicht endgültig klären.

Die Strukturklasse enthält darüber hinaus zwei bekannte Vertreter der Antitumor-Standard-

wirkstofftabelle des DTP (NSC271674 und NSC363812). Bei den Derivaten der Aminosilan-

verbindungen scheint die Aktivität von der Länge der am Platin koordinierten

Aminoalkanketten abzuhängen. Während die Aminoethylsilane aus dem ersten und zweiten

Cluster noch keine Aktivität zeigten, können für die Aminomethylsilane (z.B. NSC603577)

des dritten Clusters hohe Aktivitäten festgestellt werden. Ob die Koordination des Platina-

toms dabei über zwei offenkettige Monoaminomethylsilane oder durch ein einzelnes Bis(ami-

186

Page 199: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7.2 NCI Antitumor-Screening-Datenbank

nomethyl)silan erfolgt, scheint dabei keine Rolle zu spielen. Neben den beiden großen

Substanzklassen können des Weiteren fünf Chinolin- (z.B. NSC632790), drei Thiazol- (z.B.

NSC641054) und drei Phosphinderivate (z.B. NSC685468), einige DMSO- (z.B.

NSC644188) und Anilin-haltige Komplexe sowie einige Schwefelderivate wie Thiocarbon-

säuren und Sulfoxide identifiziert werden. Die Aktivität der Platin-DMSO-Komplexe scheint

dabei auch in diesem Fall auf konformative Unterschiede zu basieren, da strukturell ähnliche

Verbindungen in Cluster 1 und 2 keine biologische Aktivität zeigten.

Der vierte isolierte Cluster enthält unter anderen den wohl bekanntesten, cancerostatischen

Vertreter der Platinverbindungen – das cis-Platin (NSC119875). Neben ähnlich kleinen Kom-

plexen wie dem Diaminodibromoplatin (NSC141523) und dem Bis(aziridin)dichloroplatin

(NSC170896) beinhaltet der Cluster auch diverse Platin-Sauerstoff-koordinierte Verbindun-

gen wie beispielsweise die beiden Antitumor-Standardwirkstoffe 1,1-Cyclobutandicarboxyla-

toplatin (NSC241240) und 2-Propanamindichlorodihydroxoplatin (NSC256927). Darüber

hinaus enthält der Cluster auch einige größere Komplexsysteme und Käfigstrukturen (z.B.

NSC683426), ionische Verbindungen sowie Zinn- und Selen-Komplexe (z.B. NSC626669).

Allerdings finden sich auch bekannte Verbindungsmotive aus dem dritten Cluster wie bei-

spielsweise eine Phosphin- (NSC615542), eine Silan- (NSC645355) und einige Diamincyclo-

hexan-Verbindungen (z.B. NSC623317). Letztere Vertreter lassen darauf schliessen, dass der

Verlauf der biologischen Aktivitäten zwischen den beiden Clustern verschwommen und eine

eindeutige Zuordnung der Verbindungen daher ausgeschlossen ist. Im Vergleich mit dem drit-

ten Cluster kann in der vorliegenden Gruppierung eine größere Anzahl an kleinen, offenketti-

gen Platinkomplexen festgestellt werden.

Der letzte Cluster enthält unter anderen, bis auf einen Vertreter, alle Imidazolderivate der

untersuchten Platinverbindungen (z.B. NSC647619). Die nicht enthaltene Imidazolverbin-

dung (NSC647615) wurde dem dritten Cluster zugeordnet. Im Gegenzug enthält der fünfte

Cluster eine Thiazolverbindung (NSC641053), während die übrigen Vertreter dieser Verbin-

dungsklasse im dritten Cluster enthalten sind. Dies lässt auf eine enge Beziehung zwischen

Cluster 3 und Cluster 5 schließen. Eine weitere interessante Verbindungsklasse stellen die

beiden Aminosilane des Clusters dar. Während im ersten und zweiten Cluster nur inaktive

Aminoethylsilanderivate und in den Clustern 3 und 4 nur aktive Aminomethylsilane identifi-

ziert werden konnten, handelt es sich bei den vorliegenden Silanen um Platinverbindungen, in

denen das Platinatom sowohl über eine Aminoethyl- als auch über eine Aminomethylkette

koordiniert wird. Wie auch in allen zuvor beschriebenen Clustern enthält Cluster 5 eine Reihe

von Aminocyclohexanderivaten (z.B. NSC255917). Offensichtlich neigt diese Verbindungs-

klasse zu stark unterschiedlichen Aktivitätsmustern, was eine eindeutige Zuordnung der

Strukturen unmöglich macht.

187

Page 200: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

7 Anwendungsbeispiele

Obwohl Platinverbindungen aufgrund ihres Wirkungsmechanismus im Allgemeinen

unspezifisch und gleichförmig gegen alle Krebszelllinien wirken, konnten mit Hilfe des visu-

ellen Data Minings fünf Verbindungscluster identifiziert werden. Dabei konnte zum einen

sicher zwischen aktiven und inaktiven Verbindungsvertretern unterschieden werden. Darüber

hinaus konnten die aktiven Platinstrukturen in drei weitere Untergruppen aufgeteilt werden.

Diese visuelle Aufteilung der aktiven Substanzen führte dabei für die in dem Datensatz ent-

haltenen Antitumor-Standardwirkstoffe zu den gleichen Ergebnissen, wie sie auch von ande-

ren Arbeitsgruppen mit klassischen QSAR-Studien erarbeitet wurden [246]. Dies spricht

letztendlich für die Qualität des visuellen Ansatzes. Der postulierte Zusammenhang zwischen

Struktur und Aktivität konnte in vielen Fällen nachgewiesen werden, da bestimmte Strukturen

ausschließlich oder zumindestens mit hohem Anteil in einem einzigen Cluster vorlagen. Bei-

spiele für entsprechende Struktur-Aktivitäts-Beziehungen sind die Thiazol-, Chinolin- und

Pyridinderivate im Cluster 3 sowie die Imidazolderivate in Cluster 5. Allerdings konnten

auch Ausnahmefälle von diesem Prinzip beobachtet werden. So enthielten zum einen biolo-

gisch ähnliche Cluster strukturell stark diverse Verbindungen, während zum anderen ähnliche

Strukturmotive wie beispielsweise die Aminocyclohexanderivate in vielen Clustern wieder-

gefunden wurden und vollkommen unterschiedliche biologische Aktivitäten zeigten.

188

Page 201: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 8

Zusammenfassung

Neben der praktischen Labortätigkeit zeichnet sich die chemische Forschung in der Regel

durch die schnelle, zuverlässige und vollständige Abfrage und Analyse von bereits bestehen-

den Literaturangaben, Lehrbuchwissen sowie Struktur- und Aktivitätsdaten aus. Während in

den Anfängen der klassischen Chemie lediglich auf papierbasierte, zweidimensionale Struk-

turdaten und textuelle Information zugegriffen wurde, reichen solche Darstellungsformen und

Medien heute insbesondere in der Pharmaforschung und Biochemie nicht mehr zum Ver-

ständnis und zur Analyse komplexer Sachverhalte aus. Zur Lösung dieser Problematik nutzen

Chemiker daher seit langem die Möglichkeiten der computergestützten Visualisierung, wobei

heute eine fast unüberschaubare Auswahl an kommerziellen und frei verfügbaren Anwendun-

gen zur Darstellung und visuellen Analyse von molekularen Eigenschaften, Oberflächen und

Dynamiken zur Verfügung steht. Diese Applikationen dienen jedoch in der Regel zur Lösung

einzelner, spezifischer Frage- und Problemstellungen und sind im Allgemeinen zueinander

nicht kompatibel, was den essentiellen Informationsfluss und -austausch von chemischen

Daten stark beeinträchtigt oder sogar verhindert. Insbesondere seit der durch automatisierte

Laborsysteme generierten Informationsflut hat diese Situation an Brisanz gewonnen. Um

einen einfachen, standardisierten und Datenzugriff zu gewährleisten, kommen in der chemi-

schen Industrie heute zunehmend portable Informationsmanagement- und Visualisierungs-

Systeme zum Einsatz. Da die bis dato erhältlichen portablen Standardapplikationen zur

Visualisierung chemischer Daten lediglich einfache, rudimentäre Strukturdarstellungen sowie

in Ausnahmefällen auch eine begrenzte Visualisierung komplexer Datenobjekte wie Oberflä-

chen erlauben, ist die Entwicklung plattformunabhängiger Visualisierungsanwendungen

heute dringend erforderlich.

Das Potential interaktiver und portabler Visualisierungssoftware wurde dabei nicht nur in

der chemischen Industrie erkannt, sondern wird in zunehmenden Maße von akademischen

Einrichtungen zur didaktischen Vermittlung von chemischen Daten eingesetzt. Statische und

animierte, dreidimensionale Szenen, die ein hohes Maß an Interaktion erlauben, ermöglichen

189

Page 202: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

8 Zusammenfassung

dabei eine wesentlich leichtere Vermittlung von theoretischen, abstrakten und komplexen

Sachverhalten.

In der vorliegenden Arbeit wurden zum einen portable, sich an Internet-Standards orientie-

rende Methoden und Applikationen entwickelt, die eine dynamische und interaktive 3D-

Visualisierung chemischer Datenobjekte erlauben. Im Wesentlichen wurden dabei drei unter-

schiedliche Client-Server-Strategien zur verteilten Vermittlung und Visualisierung von Daten

herausgearbeitet und in Form diverser Applikationen eingesetzt.

Hybride Client-Server-Strategien ermöglichen eine ausgewogene Verteilung der einzelnen

Visualisierungsschritte zwischen Client und Server und gestatten eine optimale Nutzung der

sowohl Client- als auch Server-seitig vorhandenen Hardware-Kapazitäten. Diese Strategie

diente dabei in den Anwendungen VRML File Creator for Chemical Structures, VRML-Ani-

mationsgenerator, ComSpec3D und MolSurf als Grundlage für den Visualisierungsprozess.

Der VRML File Creator ermöglicht eine 3D-Darstellung molekularer Strukturen und Eigen-

schaften unter Verwendung der Virtual Reality Markup Language (VRML), wobei die Ein-

gabe der entsprechenden Strukturinformation durch einen Java-Editor, SMILES-Strings oder

durch diverse, chemische Austauschformate erfolgen kann. Neben der Realisierung verschie-

dener Strukturdarstellungen ermöglicht der Service die codierte Einbettung von chemischen

Originaldaten wie beispielsweise Koordinaten oder molekularen Eigenschaften in die dreidi-

mensionale Szene, wodurch eine Weiterverarbeitung der Information durch andere Applika-

tionen gewährleistet ist. Der VRML-Animationsgenerator gestattet die Generierung von

molekularen VRML-Animationen und erlaubt somit eine plattformunabhängige Darstellung

von Reaktionspfaden und Moleküldynamiken. Die Dateneingabe erfolgt dabei über das mul-

tiple XYZ-Trajektorienformat. Der Online-Dienst ComSpec3D wurde zur Darstellung von

Raman- und IR-Spektren sowie der korrespondierenden Normalschwingungen entwickelt. Er

wurde dabei insbesondere für den Einsatz an Universitäten und Schulen konzipiert. Die

Applikation ermöglicht die Eingabe fast beliebiger Strukturen und berechnet mit Hilfe des

QM-Programms VAMP Raman- und Infrarot-Spektren sowie die entsprechenden Daten der

Normalschwingungen. Der Benutzer kann sich anschließend für jeden Peak die zugehörige

Normalschwingung als animierte VRML-Szene anzeigen lassen, wobei auch der Einfluss der

Kraftkonstante auf die Schwingungsfrequenz dargestellt werden kann. Der Web-Service Mol-

Surf basiert ebenfalls auf einem hybriden Ansatz. MolSurf ermöglicht die Berechnung und

3D-Visualisierung molekularer Oberflächen sowie des elektrostatischen Potentials von fast

beliebigen Molekülen. Die Oberfläche kann dabei zum einen in verschiedenen Darstellungs-

formen als auch mit diversen Farbpaletten dargestellt werden. Darüber hinaus enthält der Ser-

vice Funktionen, die einen normierten Vergleich von Oberflächeneigenschaften zwischen

verschiedenen Molekülen erlauben. Letztere Funktion ist insbesondere im Unterricht zur Ver-

deutlichung von induktiven Effekten vorteilhaft.

190

Page 203: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Client-seitige Strategien verlagern den gesamten Visualisierungsprozess auf den Client.

Dabei müssen sowohl die chemischen Originaldaten als auch die notwendigen Visualisie-

rungsalgorithmen auf das Clientsystem transferiert werden. Der wesentliche Vorteil dieses

Ansatzes ist die Nutzung lokal vorhandener Rechen- und Graphikressourcen, die insbeson-

dere in den letzten Jahren eine enorme Steigerung erfahren haben. Die Strategie bietet darüber

hinaus das größte Maß an Benutzerinteraktion. Ein entsprechender Ansatz wurde im Fall der

OrbVis-Applikation genutzt. OrbVis wurde ebenso wie ComSpec3D zur Darstellung von

quantenchemischen Zusammenhängen entwickelt und erlaubt die portable und interaktive

Berechnung und Visualisierung von Molekülorbitalen. Nach Eingabe der Strukturinformation

durch einen Java-Editor oder mittels SMILES-Strings berechnet der Online-Dienst die zuge-

hörigen Eigenwerte und Orbitalkoeffizienten (VAMP). Diese werden schließlich zusammen

mit einem Java-Applet an den Client übermittelt. Die Berechnung und dreidimensionale Dar-

stellung der Molekülorbitale erfolgt dabei vollständig auf dem Client. Der Benutzer kann dar-

über hinaus den Grenzwert der Elektronendichte interaktiv verändern, was zu einer

unmittelbaren Aktualisierung der dreidimensionalen Szene führt.

In Server-seitigen Strategien erfolgt die Visualisierung vollständig auf dem Server. Die

erzeugten Einzelbilder werden dabei in einem kontinuierlichen Datenstrom an den lokalen

Rechner übertragen. Diese Strategie bietet sich bei leistungsschwachen Clientsystemen, ver-

traulichen Originaldaten und vor allem extrem großen Volumendaten an. Da entsprechend

große Volumendaten zur Zeit nur geringe bis keine Bedeutung in der chemischen Forschung

haben, bestand keine Notwendigkeit zur Implementierung entsprechender Applikationen.

Die durch automatisierte Laborsysteme generierte Informationsflut stellt den Chemiker

heute vor neue Herausforderungen. Insbesondere in der projektorientierten, industriellen For-

schung wird dabei ein einfacher und schneller Datenzugriff sowie eine unkomplizierte und

leichtverständliche Informationsanalyse zunehmend wichtiger. Der Einsatz klassischer Data

Mining-Methoden ist dabei nicht immer sinnvoll, da die entsprechenden Ansätze häufig ein

enormes Maß an Spezialwissen und somit den Einsatz von Fachpersonal voraussetzen. Dar-

über hinaus handelt es sich bei den klassischen Ansätzen häufig um sogenannte Black Box-

Systeme, die nur einen stark begrenzten Einblick sowie eine limitierte Beeinflussung des

Data Mining-Prozesses zulassen. Eine schnelle Analyse setzt jedoch die Intuition und vor

allem das Fachwissen des Experimentators voraus. Die Erfüllung dieser Kriterien sowie ein

einfacher und intuitiver Analyseprozess kann durch Methoden des visuellen Data Minings

gewährleistet werden.

Die Möglichkeiten des visuellen Data Minings wurden anhand des NCI anti-Tumor Scree-

ning Data 3D Interfaces vorgestellt. Der Online-Dienst wurde speziell zur visuellen Analyse

von Struktur-Aktivitäts-Beziehungen in der Antitumor-Screeningdatenbank des amerikani-

191

Page 204: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

8 Zusammenfassung

schen Krebsforschungsinstituts entwickelt. Der Service erlaubt unter anderen Substruktur-

und Ähnlichkeitssuchen und stellt die biologischen Aktivitäten der resultierenden Verbindun-

gen gegen einen definierten Satz an Krebszelllinien mit Hilfe einer VRML-Szene dar. Des

Weiteren können in der Szene entdeckte, interessante Aktivitätsmuster mit Hilfe dynamischer

HTML-Formulare gefiltert und selektiert werden. Darüber hinaus erlaubt der Service die Dar-

stellung zusätzlicher Detailinformation.

Eine wesentlich breitere Verwendbarkeit und größere Anzahl spezieller, visueller Data

Mining-Werkzeuge bietet das im Rahmen dieser Arbeit entwickelte InfVis-Programm. InfVis

basiert vor allem auf der 3D-Glyph-Technologie und erlaubt eine komfortable Analyse von

großen, multidimensionalen bzw. multivariaten Datensätzen. Die einzelnen Datendimensio-

nen werden dabei durch sogenannte retinale Eigenschaften repräsentiert und die korrespon-

dierenden Datenpunkte durch graphische Objekte im dreidimensionalen Raum dargestellt.

Die Applikation verfügt über eine breite Auswahl an leistungsfähigen Filter- und Selektions-

werkzeugen, wobei vor allem den sogenannten Dynamic Query-Filtern eine besondere

Bedeutung im visuellen Data Mining-Prozess zukommt. Mit Hilfe dieser Filter kann auch der

unerfahrene Anwender schnell und interaktiv komplexe Data Mining-Fragestellungen beant-

worten. Das InfVis-Programm wurde vollständig in Java/Java3D entwickelt und kann daher

sowohl als Standalone- als auch Applet-Version betrieben werden.

Die portable Verwendbarkeit des InfVis-Programms wurde am NCI Screening Data 3D

Miner gezeigt. Der Online-Dienst wurde als Weiterentwicklung des bereits erwähnten NCI-

Datenbank-Interfaces konzipiert und bietet im Gegensatz dazu eine große Auswahl an unter-

schiedlichen Suchfunktionen. Der Benutzer kann darüber hinaus eine Vielzahl an unter-

schiedlichen Datendimensionen in den visuellen Data Mining-Prozess integrieren. Des

Weiteren können zusätzliche molekulare Eigenschaften mit in das Analyseverfahren einbezo-

gen werden. Die Darstellung und visuelle Exploration der generierten Datensätzte erfolgt

schließlich mit der Applet-Version des InfVis-Programms auf der Client-Seite.

Die Fähigkeiten des visuellen Data Mining im Allgemeinen als auch der InfVis-Applika-

tion im Speziellen wurden im letzten Kapitel anhand von Anwendungsbeispielen demon-

striert. Dabei wurde zum einen mit Hilfe eines Reaktionsdatensatzes die Suche nach

geeigneten Reaktionsbedingungen zur Optimierung einer Reaktion untersucht. In einem

zweiten Beispiel wurde die visuelle Exploration und Identifikation von Reaktionsbedingun-

gen beschrieben, die zur Reaktionsplanung verwendet werden können. Das letzte Anwen-

dungsbeispiel verdeutlichte die Verwendbarkeit des InfVis-Programms zur Analyse von

Struktur-Aktivitäts-Beziehungen in der Pharmaforschung.

192

Page 205: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Kapitel 9

Literaturverzeichnis

[1] Fischer, E., Einfluß der Configuration auf die Wirkung der Enzyme, Ber. Dtsch. Chem.Ges., 27, 1894, 2985 - 2993.

[2] Koshland, D. E. Jr., Protein Shape and Biological Control, Sci. Amer., 229(4), 1973,52 - 64.

[3] Casher, O.; Chandramohan, G. K.; Hargreaves, M. J.; Leach, C.; Murray-Rust, P.;Rzepa, H. S.; Sayle, R.; Whitaker, B. J., Hyperactive Molecules and the World-Wide-Web Information System, J. Chem. Soc. Perkin Trans. 2, 2, 1995, 7 - 11.

[4] Warr, W. A., Communications and Communities of Chemists, J. Chem. Inf. Comput.Sci., 38(6), 1998, 966 - 975.

[5] Rzepa, H. S., A History of Hyperactive Chemistry on the Web: From Text and Imagesto Objects, Models and Molecular Components, Chimia, 52, 1998, 123 - 132.

[6] Rzepa, H. S.; Whitaker, B. J.; Winter, M. J., Applications of the World-Wide-WebSystem, J. Chem. Soc., Chem. Commun., 17, 1994, 1907 - 1910.

[7] Clark, T.; Roth, H., The Journal of Molecular Modeling: Impact, Expectations andExperience, Chimia, 52(11), 1998, 664 - 667.

[8] Rzepa, H. S., Internet-based Computational Chemistry Tools, In: Encyclopaedia ofComputational Chemistry, von Rague-Schleyer, P.; Allinger,N. L.; Clark, T.; Gasteiger,J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.:Chichester, UK, 1998, 1426 - 1438.

[9] Vollhardt, H.; Brickmann, J., 3D Molecular Graphics on the World Wide Web, Pac.Symp. Biocomput., 1996, 663 - 673.

[10] Ihlenfeldt, W. D.; Gasteiger, J., Beyond the Hyperactive Molecule: Search, Salvage andVisualization of Chemical Information from the Internet, Pac. Symp. Biocomput., 1996,384 - 395.

[11] Krassavine, A., Java and JavaBeans for Cheminformatics, Chimia, 52, 1998, 668 - 672.

[12] Ertl, P.; Jacob, O., WWW-based Chemical Information Systems, Theochem, 419(1-3),1997, 113 - 130.

[13] Bormann, S., Combinatorial Chemistry, Chem & Eng. News, 4/98, 1998.siehe auch http://pubs.acs.org/hotartcl/cenear/980406/comb.html

193

Page 206: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[14] Quelle: Kiser, P.; Ihlenfeldt, W.-D.; Eichenbaum, G.; Bienfait, B., ChemCodes Inc.2001.

[15] Houghten, R. A.; Blondelle, S. E.; Cuervo, J. H., Development of New AntimicrobialAgents using a Synthetic Peptide Combinatorial Library involving more than 34 Mil-lion Hexamers. In: Innovation and Perspectives in Solid Phase Synthesis: Peptides,Polypeptides and Oligonucleotides, Epton, R., Ed.; Intercept Ltd., Andover, UK, 1992,237 - 239.

[16] Gasteiger, J., Database Mining: From Information to Knowledge, In: Proceedings of1997 Chem. Inf. Conf., Collier, H., Ed.; Infonortics Ltd., Calne, UK, 1997, 1 - 6.

[17] Upson, C.; Faulhaber, T.; Kamins, D.; Laidlaw, D.; Schlegel, D.; Vroom, J.; Gurwitz,R.; van Dam, A., The Application Visualization System: A Computational Environmentfor Scientific Visualization, IEEE Computer Graphics and Applications, 1989, 32 - 40.

[18] ChemSymphony: http://www.chemsymphony.com/

[19] Sayle, R., Glaxo Group Research, Greenford, UK.http://www.umass.edu/microbio/rasmol/

[20] Rezk-Salama, C.; Engel, K.; Bauer, M.; Greiner, G.; Ertl, T., Interactive Volume Rende-ring on Standard PC Graphics Hardware Using Multi-Textures and Multi-Stage Rasteri-zation, In: Proceedings of Eurographics SIGGRAPH, Workshop on GraphicsHardware, 147, 2000, 109 - 118.

[21] OpenGL Architecture Review Board. OpenGL Reference Manual, Release 1, Addison-Wesley, Reading, Massachusetts, USA, 1992.

[22] http://www.microsoft.com/directx/default.asp.

[23] Drebin, B.; Carpenter, L.; Hanrahan, P., Volume Rendering, In: Proceedings ofSIGGRAPH, Computer Graphics Conference Series, 1988, 65 - 74.

[24] GAUSSIAN: http://www.gaussian.com/

[25] Lorensen, W. E.; Cline, H. E., Marching Cubes: A High Resolution 3D Surface Con-struction Algorthm. In: Proceedings of SIGGRAPH, Computer Graphics ConferenceSeries, 1987, 163 - 169.

[26] Engel, K. D., Strategien und Algorithmen zur interaktiven Volumenvisualisierung inDigitalen Dokumenten, Dissertation, Institut für Informatik der Universität Stuttgart,2002.

[27] Foley, J.; van Dam, A.; Hughes, J., Computer Graphics: Principles and Practic, 2ndedition in C, Addison-Wesley, Reading, Massachusetts, USA, 1997.

[28] http://www.cave.vt.edu/

[29] http://www.pdc.kth.se/projects/vr-cube/

[30] Actuality Systems Inc., Burlington, MA, USAhttp://www.actuality-systems.com/

[31] Borenstein, N. S., Upper Layer Protocols, In: Architectures and Applications, Elsevier,Amsterdam, 1992, Vol. 7, Kapitel 37, 461 - 462.

194

Page 207: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[32] Van-Vliet, B.; Maffet, T., Recent Advances in Structure Search and Retrieval via Nets-cape Navigator and MDL CHEMSCAPE(tm), Abs. Papers Am. Chem. Soc., 212th ACSNational Meeting, Orlando, FL, USA, 212, CINF-29, 1996.

[33] Arnold, K.; Gosling, J., The Java Programming Language, Addison-Wesley, Reading,Massachusetts, USA, 1998.

[34] ISO/IEC 14772-1:1997. The Virtual Reality Modeling Language.http://www.web3d.org/technicalinfo/specifications/vrml97/, 1997.

[35] ISO/IEC 14772-2:1997. External Authoring Interface.http://www.vrml.org/WorkingGroups/vrml-eai/Specification/, 1997.

[36] Sowizral, H.; Nadeau, D.; Bailey, M.; Deering, M., Introduction to Programming withJava3D. ACM SIGGRAPH 98 Course Notes, July 1998, 1998.

[37] Ihlenfeldt, W. D.; Takahashi, Y.; Abe, H.; Sasaki, S. J., Computation and Managementof Chemical Properties in CACTVS: An Extensible Networked Approach towardModularity and Compatibility, J. Chem. Inf. Comput. Sci., 34, 1994, 109 - 116.

[38] Ihlenfeldt, W. D.; Takahashi, Y., Abe, H.; Sasaki, S., CACTVS: A Chemistry AlgorithmDevelopment Environment, In: Proceedings of the 15th Symposium on Chemical Infor-mation and Computer Sciences/20th Symposium on Structure-Activity Relationships;Machida, K.; Nishioka, T., Eds., Kyoto University, Kyoto, Japan, 1992, 102 - 105.

[39] Ousterhout, J. K., Tcl and the Tk Toolkit, Addison-Wesley, Reading, Massachusetts,USA, 1994.

[40] Sadowski, J.; Gasteiger, J., From Atoms and Bonds to Three-dimensional Atomic Coor-dinates: Automatic Model Builders., Chem. Reviews, 93, 1993, 2567-2581.

[41] Sadowski, J.; Gasteiger, J.; Klebe, G., Comparison of Automatic Three-dimensionalModel Builders Using 639 X-Ray Structures, J. Chem. Inf. Comput. Sci., 34, 1994,1000-1008.

[42] Rauhut, G.; Alex, A.; Chandrasekhar, J.; Steinke, T.; Sauer, W.; Beck, B.; Hutter, M.;Gedeck, P.; Clark, T., VAMP 6.1, Oxford Molecular, 1996.

[43] Kendrew, J. C.; Bodo, G.; Dintzis, H. M.; Parrish, R.G.; Wyckoff, H.; Phillips, D. C., Athree Dimensional Model of the Myoglobin Molecule obtained by X-ray Analysis,Nature, 181, 1958, 662 - 666.

[44] Rubin, B.; Richardson, J. S., The Simple Construction of Protein Alpha-CarbonModels, Biopolymers, 11(11), 1972, 2381 - 2385.

[45] Richardson J. S.; Richardson, D. C.; Thomas, K. A.; Silverton, E. W. Davies, D. R.,Similarity of three-dimensional Structure between the Immunoglobulin Domain and theCopper-Zinc Superoxide Dismutase Subunit, J. Mol. Biol., 102, 1976, 221 - 235.

[46] Levinthal, C., In: Proceedings of the IBM Scientific Computing Symposium on Compu-ter Aided Experimentation, International Business Machines, Yorktown Heights, NY,USA, 1965, 315 - 321.

[47] Levinthal, C., Molecular Model-Building by Computer, Sci. Am., 214, 1966, 42 - 52.

[48] Langridge, R., Interactive Three-Dimensional Computer Graphics in Molecular Bio-logy, In: Computers in Life Science Research, Siler, W.; Lindberg, D. A. B., Eds, Ple-num Publishing Corp., New York, USA, 1975, 53 - 59.

195

Page 208: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[49] Lesk, A. M., Macromolecular Marionettes, Comput. Biol. Med., 7, 1977, 113 - 129.

[50] Beem, K. M.; Richardson, D. C.; Rajagopalan, K. V., Metal Sites of Copper-ZincSuperoxidase Dismutase, Biochemistry, 16, 1977, 1930 - 1936.

[51] Feldmann, R. J., The Design of Computing Systems for Molecular Modelling, Annu.Rev. Biophys. Bioeng., 5, 1976, 477 - 510.

[52] Porter, T. K., Spherical Shading, Comput. Graphics (SIGGRAPH), 12, 1978, 282 - 285.

[53] Porter, T. K., Comput. Graphics (SIGGRAPH), 13, 1979, 234 - 236.

[54] Koradi, R.; Billeter, M.; Wüthrich, K., MOLMOL: A Program for Display and Analysisof Macromolecular Structures, J. Mol. Graphics, 14, 1996, 51 - 55.

[55] Dreiding, A. S., Simple Molecular Models, Helv. Chim. Acta, 42, 1959, 1339 - 1344.

[56] Gouraud, H., Shading of Curved Surfaces, IEEE Trans. Comput., 20(6), 1971, 623 -628.

[57] Richardson, J. S., The Anatomy and Taxonomy of Protein Structure, Adv. Protein.Chem., 34, 1981, 167 - 339.

[58] Richards, F. M., Areas, Volumes, Packing, and Protein Structure, Annu. Rev. Biophys.Bioeng., 6, 1977, 151 - 176.

[59] Connolly, M. L., Analytical Molecular Surface Calculation, J. Appl. Crystallogr., 16,1983, 548 - 558.

[60] Connolly, M. L., Solvent-Accessible Surfaces of Proteins and Nucleic Acids, Science,221, 1983, 709 - 713.

[61] Lee, B.; Richards, F. M., The Interpretation of Protein Structures: Estimation of StaticAccessibilty, J. Mol. Biol., 55(3), 1971, 379 - 400.

[62] Duncan, B. S.; Olson, A. J., Approximation and Visualization of large-scale Motion ofProteins Surfaces, J. Mol. Graphics, 13, 1995, 250 - 257.

[63] Jain, A. N.; Dietterich, T. G.; Lathrop, R. H.; Chapman, D., Compass: A Shape-basedMachine Learning Tool for Drug Design, J. Comput.-Aided Mol. Design, 8, 1994, 635 -652.

[64] Mezey, P. G., Molecular Surfaces, In: Reviews in Computational Chemistry, Lipkowitz,K.; Boyd, D., Ed., VCH, Weinheim, 1990, 265 - 294.

[65] Kühlbrandt, W.; Williams, A., Analysis of Macromolecular Structure and Dynamics byElectron Cryo-Microscopy, Curr. Opin. in Chem. Biol., 3, 1999, 537 - 543.

[66] Stark, H.; Dube, P.; Luhmann, R.; Kastner, B., Arrangement of RNA and Proteins in theSpliceosomal U1 small nuclear Ribonucleoprotein Particle, Nature, 409(6819), 2001,539 - 542.

[67] Blinn, J. F., Simulation of Winkled Surfaces, Comput. Graphics, 12, 1978, 286 - 292.

[68] Teschner, M.; Henn, C.; Vollhardt, H.; Reiling, S.; Brickmann, J., Texture Mapping: Anew Tool for Molecular Graphics, J. Mol. Graphics, 12, 1994, 98 - 105.

[69] Bonaccorsi, R.; Scrocco, E.; Tomasi, J., Molecular SCF Calculations for the GroundState of Some Three-Membered Ring Molecules, J. Chem. Phys., 54(10), 1970, 5270.

196

Page 209: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[70] Murray, J. S.; Politzer, P., Electrostatic Potential, In: Encyclopedia of ComputationalChemistry, von Rague-Schleyer, P.; Allinger,N. L.; Clark, T.; Gasteiger, J.; Kollman, P.A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.: Chichester, UK,1998, 912 - 920.

[71] Bernstein, F. C.; Koetzle, T. F.; Williams, G. J. B.; Meyer, E. F.; Brice, M. D.; Rodger, J.R. R.; Kennard, O.; Shimanouchi, T.; Tasumi, M., The Protein Data Bank: A Computer-based Archival File for Macromolecular Structures, J. Mol. Biol., 112(3), 1977, 535 -542.

[72] Dalby, A.; Nourse, J. G.; Hounshell, W. D.; Gushurst, A. K. I.; Grier, D. L.; Leland, B.A.; Laufer, J., Description of Several Chemical Structure File Formats used by Compu-ter Programs developed at Molecular Design Limited, J. Chem. Inf. Comput. Sci., 32,1992, 244 - 255.

[73] XMol, Minnesota Super Computer Center, Minneapolis, MN, USA.

[74] Casher, O.; Rzepa, H. S., Chemical Collaboratories using World-Wide Web Servers andEyeChem Based Viewers, J. Mol. Graphics, 13(5), 1995, 268 - 270.

[75] Casher, O.; Rzepa, H. S., A Chemical Collaboratory using Explorer EyeChem and theCommon Client Interface, Computer Graphics, 95, 1995, 52.

[76] http://molvis.sdsc.edu/protexpl/index.htm

[77] Lancashire, R. J.; Muir, C.; Reichgelt, H., JCAMP-DX Data Viewer for Windows (95,98, ME and NT/2000).http://wwwchem.uwimona.edu.jm:1104/software/jcampdx.html

[78] Hinchcliffe, A., CS Chem3D Pro 3.5 and CS MOPAC Pro (Mac and Windows) UK,Elec. J. Of Theor. Chem., 2, 1997, 215 - 217.

[79] Pear, M.; Bernstein, J.; Li, C. Z.; McDonald, R., Weblab(tm): A Framework for interac-tive Web-based Applications, Abs. Papers Am. Chem. Soc., 212th ACS National Mee-ting, Orlando, FL, USA, 1996, 28-CINF.

[80] Rzepa, H. S.; Tonge, A. P., VChemLab: A Virtual Chemistry Laboratory. The Storage,Retrieval, and Display of Chemical Information Using Standard Internet Tools, J.Chem. Inf. Comput. Sci., 38, 1998, 1048 - 1053.

[81] Suñer, G. A.; Casher, O.; Rzepa, H. S., Studying Perturbation Theory with ExplorerEyeChem and VRML, Electronic Conference on Trends in Organic Chemistry, Rzepa,H. S.; Goodman J.M.; Leach, C., Eds, The Royal Society of Chemistry, 1996.

[82] Casher, O.; Leach, C.; Page, C. S.; Rzepa, H. S., Advanced VRML Based ChemistryApplications: A 3D Molecular Hyperglossary, In: Proceedings of the Second ElectronicComputational Chemistry Conference, 1995.http://www.ch.ic.ac.uk/rzepa/eccc2/

[83] Vollhardt, H.; Henn, C.; Teschner, M.; Brickmann, J., Virtual Reality Modeling Lan-guage in Chemistry, J. Mol. Graphics, 13(6), 1995, 368 - 372.

[84] Moeckel, G.; Keil, M.; Spiegelhalder, B.; Brickmann, J., VRML in Cancer Research:Local Molecular Properties of the p53 Tumor Suppressor Protein-DNA Interface, J.Mol. Model., 2, 1996, 370 - 372.

[85] http://www.pc.chemie.tu-darmstadt.de/research/vrml/vib/index.html

197

Page 210: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[86] Casher, O.; Leach, C.; Page, C. S.; Rzepa, H. S., Virtual Reality Modelling Language(VRML) in Chemistry, Chemistry in Britain, 34, 1998, 26.

[87] http://www.pc.chemie.tu-darmstadt.de/research/vrml/p450/

[88] Tonge, A. P.; Rzepa, H. S.; Yoshida, H., Authentication of Internet-Based DistributedComputing Resources in Chemistry, J. Chem. Inf. Comput. Sci., 39, 1999, 483 - 490.

[89] Krause, S.; Willighagen, E.; Steinbeck, C., JChemPaint - Using the CollaborativeForces of the Internet to Develop a Free Editor for 2D Chemical Structures, Molecules,5, 2000, 93 - 98.

[90] http://www.openscience.org/jmol/

[91] http://www.openscience.org

[92] http://www.lionbioscience.com/solutions/srs/srs-3d

[93] Ihlenfeldt, W. D.; Voigt, J. H.; Bienfait, B.; Oellien, F.; Nicklaus, M. C., EnhancedCACTVS Browser of the Open NCI Database, J. Chem. Inf. Comput. Sci., 42, 2002,46 - 57.http://cactus.nci.nih.gov/ncidb2/http://www2.chemie.uni-erlangen.de/ncidb2/

[94] Brecher, J. S., The ChemFinder WebServer: Indexing Chemical Data on the Internet,Chimia, 52, 1998, 658 - 663.

[95] Murray-Rust, P.; Rzepa, H. S., Chemical Markup, XML, and the Worldwide Web. 1.Basic Principles, J. Chem. Inf. Comput. Sci., 39, 1999, 928 - 942.

[96] Ertl, P., QSAR Analysis through the World-Wide-Web, Chimia, 52, 1998, 673 - 677.

[97] Selzer, P., IR Spectra Simulation and Information Processing on the WWW, Chimia, 52,1998, 678 - 682.

[98] Wiggins, G., Chemistry on the Internet: The Library on Your Computer, J. Chem. Inf.Comput. Sci., 38, 1998, 956 - 965.

[99] Bender, M.; Seck, A.; Hagen, H., A Client-Side Approach towards Platform Indepen-dent Molecular Visualization over the World Wide Web, In: Proceedings ofVisSym ’99, Vienna, 1999.

[100] Bender, M.; Seck, A.; Hagen, H., Using the Web as a Basis for an Efficient, PlatformIndependent Client-driven Molecular Visualization System, In: Proceedings of WWW8,Toronto, 1999.

[101] Moeckel, G.; Keil, M.; Hollstein, M.; Spiegelhalder, B.; Bartsch, H.; Brickmann, J.,VRML in Cancer Research: Local Changes in Binding Properties of Wild Type andMutaded p53 Tumor Suppressor Protein, J. Mol. Model., 3, 1997, 382 - 385.

[102] Engel, K.; Oellien, F.; Ihlenfeldt, W. D.; Ertl, T., Client-Server-Strategien zur Visuali-sierung komplexer Struktureigenschaften in digitalen Dokumenten der Chemie, it+ti, 6,2000, 17 - 23.

[103] Ihlenfeldt, W. D.; Engel, K., Visualizing Chemical Data in the Internet - Data-drivenand Interactive Graphics, Computer and Graphics, 22(6), 1998, 703 - 714.

[104] Weininger, D., SMILES: A Chemical Language and Information System. 1. Introduc-tion to Methodology and Encoding Rules, J. Chem. Inf. Comput. Sci., 28, 1988, 31 - 36.

[105] BioRad: http://www.chemwindow.com/

198

Page 211: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[106] Cambridge Soft: http://www.cambridgesoft.com/products/family.cfm?FID=2

[107] Yoshida, H.; Matsuura, H., CyberMol: A Molecular Graphics Program System on theWorld Wide Web Using the Common Gateway Interface, J. Chem. Soft., 3, 1997, 157.

[108] Yoshida, H.; Matsuura, H., MOLDA for Java - A Platform-independent MolecularModeling and Molecular Graphics Program Written in the Java Language, J. Chem.Soft., 3, 1997, 81.

[109] Leipold, M., Integrated VRML Molecule Graphics for the WWW, Diplomarbeit, Uni-versität Erlangen-Nürnberg, 1996.http://www2.chemie.uni-erlangen.de/disserstationen/

[110] http://www.bris.ac.uk/Depts/Chemistry/MOTM/motm.htm

[111] IR-Tutor, Columbia Universität, NY, USA:http://www.columbia.edu/cu/chemistry/edison/IRTutor.html

[112] Organic Chemistry Online, Universität Illinois, Chicago, USA:http://www.chem.uic.edu/web1/OCOL-II/WIN/SPEC.HTM

[113] Lathi, P. M.; Motyka, E. J.; Lancashire, R. J., Interactive Visualization of Infrared Spec-tral Data: Synergy of Computation, Visualization, and Experiment for Learning Spec-troscopy, J. Chem. Educ., 77(5), 2000, 649 - 653.

[114] WebMO-Homepage: http://www.webmo.net/

[115] Steiner, D., Molecular Modelling als Medium im Chemieunterricht, Nachr. Chemie, 4,2001, 495 - 497.

[116] http://chemviz.ncsa.uiuc.edu/content/about-waltz.html

[117] Sanner, M. F.; Olson, A. J.; Spehner, J.-C., Fast and Robust Computation of MolecularSurfaces, In: Proceedings of the 11th ACM Symp. Comp. Geom., C6 - C7, 1995.

[118] Nayal, M.; Hitz, B. C.; Honig, B., GRASS: A Server for the Graphical Representationand Analysis of Structures, Protein Sci., 8, 1999, 676 - 679.

[119] Dodd, J., Digital Briefs: New Software and Websites for the Chemical Enterprise,C & EN, 2002, 34.

[120] http://www.roempp.com/

[121] Dewar, M. J. S.; Zoebisch, E. G.; Stewart, J. J. P., AM1: A New General Purpose Quan-tum Mechanical Molecular Model, J. Am. Chem. Soc., 107, 1985, 3902.

[122] http://www.cambridgesoft.com

[123] Clark, T.; Koch, R., The Chemist’s Electronic Book of Orbitals, Springer Verlag, Berlin,Deutschland, 1999.

[124] Pfeifer, P.; Reichelt, R., H2O & Co - Anorganische Chemie, Oldenbourg Verlag, Mün-chen, 2002.

[125] Engel, K.; Grosso, R.; Ertl, T., Progressive Iso-Surfaces on the Web. In: Proceedings ofIEEE Visualization, IEEE Computer Society Press, 1998.

[126] Bohne, A.; Lang, E.; von der Lieth, C.-W., Molecular Visualization Programs on theWeb, Drugs of the Future, 25(5), 2000, 489 - 500.

[127] http://wwwvis.informatik.uni-stuttgart.de/ger/teaching/sw_prakt/done/orbvis/

199

Page 212: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[128] http://www9.informatik.uni-erlangen.de:9080/Persons/Engel/orbitalanima-tion/

[129] Fayyad, U. M.; Piatetski-Shapiro, G.; Smyth, P., The KDD Process for Extracting Use-ful Knowledge from Volumes of Data, Comm. of the ACM, 39(11), 1996, 27 - 34.

[130] Wold, S.; Sjöström, M.; Andersson, P. M.; Linusson, A.; Edman, M.; Lundstedt, T.;Nordén, B.; Sandberg, M.; Uppgård, L-L., Multivariate Design and Modelling inQSAR, Combinatorial Chemistry, and Bioinformatics, In: Molecular Modeling andPrediction of Bioactivity, Gundertofte, K.; Jorgensen, F. S. (Editoren), Kluwer Acade-mic Press, New York, USA, 2000, 27 - 45.

[131] Wold, S.; Albano, C.; Dunn, W. J.; Edlund, U.; Esbensen, K.; Geludi, P.; Hellberg, S.;Johansson, E.; Lindberg, W.; Sjöström, M., Multivariate Data Analysis in Chemistry,In: Chemometrics: Mathematics and Statistics, Kowalski, B. R. (Editor), D. ReidelPublishing Company, Dordrecht, Holland, 1984, 250 - 300.

[132] Wold, S., Principal Component Analysis, Chemom. and Intell. Lab. Sys., 2, 1987, 37 - 52.

[133] Buydens, L. M. C.; Reijmers, T. H.; Beckers, M. L. M.; Wehrens, R., Molecular Data-Mining: A Challenge for Chemometrics, Chemom. and Intell. Lab. Sys., 49, 1999, 121 - 133.

[134] Bryant, C. H.; Rowe, R. C., Knowledge Discovery in Databases: Application to Chro-matography, Trends in Analyt. Chem., 17(1), 1998, 18 - 24.

[135] Geladi, P.; Kowalski, B., Partial Least Squares Regression: A Tutorial, Analyt. Chim.Acta, 185, 1986, 1 - 17.

[136] Derde, M. P.; Massart, D. L., Supervised Pattern Recognition, Anal. Chim. Acta, 191,1986, 1 - 16.

[137] Varmuza, K., Chemometrics: Multivariate View on Chemical Problems, In: Encyclope-dia of Computational Chemistry, von Rague-Schleyer, P.; Allinger, N. L.; Clark, T.;Gasteiger, J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley &Sons, Inc.: Chichester, UK, 1998, 346 - 366.

[138] Borg, I.; Groenen, P., Modern Multidimensional Scaling: Theory and Applications,Springer Verlag, New York, USA, 1997.

[139] Crippen, G. M.; Havel, T. F., Stable Calculation of Coordinates from Distance Informa-tion, Acta Crystall., A34, 1978, 282 - 284.

[140] Glunt, W.; Hayden, T. L., Raydan, M., Molecular Conformation from Distance Matri-ces, J. Comput. Chem., 14, 1993, 114 - 120.

[141] Agrafiotis, D., K.; Rassokhin, D. N.; Lobanov, V. S., Multidimensional Scaling andVisualization of Large Molecular Similarity Tables, J. Comput. Chem., 22(5), 2001,488 - 500.

[142] Brause, R, Neuronale Netze, 2.te Auflage, B. G. Teubner Verlag, Stuttgart, 1995.

[143] Zupan, J.; Gasteiger, J., Neural Networks in Chemistry and Drug Design - An Introduc-tion, Wiley-VCH, Weinheim, 1999.

200

Page 213: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[144] Gasteiger, J.; Zupan, J., Neuronale Netze in der Chemie, Angew. Chem., 105, 1993,510 - 536.Gasteiger, J.; Zupan, J., Neural Networks in Chemistry, Angew. Chem. Int. Ed. Engl.,32, 1993, 503 - 527.

[145] Ritter, H.; Martinez, T.; Schulten, K., Neuronale Netze: Eine Einführung in die Neuro-informatik selbstorganisierender Netzwerke, Addison-Wesley, Bonn, 1990.

[146] Kohonen, T., Self-Organizing Maps, 3rd edition, Springer Verlag, Heidelberg, 2001.

[147] Kohonen, T., Self-Organized Formation of Topologically Correct Feature Maps,Bioorg. Med. Chem. Letters, 8, 1982, 11 - 16.

[148] Wehrens, R.; Buydens, M. C., Evolutionary Optimization: A Tutorial, Trends Analyt.Chem., 17, 1998, 193 - 203.

[149] Gasteiger, J., Data Mining in Drug Design, In: Rational Approaches to Drug Design,Proceedings of the 13th Europ. Symp. on QSAR, Höltje, H.-D.; Sippl, W., Prous Sci-ence, 2001, 459 - 474.

[150] Wagener, M.; van Geerestein, V. J., Potential Drugs and Nondrugs: Prediction and Iden-tification of Important Structural Features, J. Chem. Inf. Comput. Sci., 40, 2000, 280 -292.

[151] Willett, P., A Comparison of some Hierarchial Agglomerative Clustering Algorithmsfor Structure-Property Correlation, Anal. Chim. Acta, 136, 1982, 29 - 37.

[152] Stanton, D. T.; Morris, T., W.; Roychoudhury, S.; Parker, C. N., Application of Nearest-Neighbor and Cluster Analyses in Pharmaceutical Lead Discovery, J. Chem. Inf. Com-put. Sci., 39, 1999, 21 - 27.

[153] Ware, C., Information Visualization - Perception for Design, Morgan KaufmannPublishers, San Francisco, USA, 1999.

[154] Card, S., K.; Mackinlay, J., D.; Shneiderman, B., Readings in Information Visualization- Using Vision to Think, Morgan Kaufman Publishers, San Francisco, USA, 1999.

[155] Fayyad, U.; Grinstein, G., G.; Wierse, A., Information Visualization in Data Mining andKnowledge Discovery, Morgan Kaufman Publishers, San Francisco, USA, 2002.

[156] Soukup, T.; Davidson, I., Visual Data Mining - Techniques and Tools for Data Visuali-zation and Mining, Wiley Publishing Inc., New York, USA, 2002.

[157] Ankerst, M., Visual Data Mining, Dissertation, Fakultät für Mathematik und Informatikder Ludwig-Maximilians-Universität München, München, 2000dissertation.de - Verlag im Internet GmbH, Berlin, 2001.

[158] Shneiderman, B., The Eyes Have It: A Task by Data-type Taxonomy for InformationVisualization, In: Proceedings of Visual Languages, IEEE Computer Science Press, LosAlamitos, CA, USA, 1996, 336 - 343.

[159] Tufte, E. R., The Visual Display of Quantitative Information, Graphics Press, Cheshire,CT, USA, 1983.

[160] Bertin, J., Graphics and Graphic Information Processing, Walter de Gruyter Verlag,Berlin, 1981.

201

Page 214: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[161] Wong, P. C.; Bergeron, R. D., 30 Years of Multidimensional Multivariate Visualization,In: Proceedings of the Workshop of Scientific Visualization, IEEE Computer SocietyPress, Los Alamitos, CA, USA, 1995.

[162] Keim, D. A., Visual Exploration of Large Data Sets, Comm. of the ACM, 44(8), 2001,39 - 44.

[163] Keim, D. A., Information Visualization and Visual Data Mining, IEEE Trans. Vis. Com-put. Graph., 8(1), 2002, 1 - 8.

[164] Wills, G.; Keim, D. A., (Editoren), Proceedings of the 1999 IEEE Symposium on Infor-mation Visualization (InfVis’99), IEEE Computer Society Press, Los Alamitos, CA,USA, 1999.

[165] Roth, S. F.; Keim, D. A., (Editoren), Proceedings of the 2000 IEEE Symposium onInformation Visualization (InfoVis 2000), IEEE Computer Society Press, Los Alamitos,CA, USA, 2000.

[166] Andrews, K.; Roth, S. F.; Wong, P. C., (Editoren), Proceedings of the 2001 IEEE Sym-posium on Information Visualization (InfoVis 2001), IEEE Computer Society Press, LosAlamitos, CA, USA, 2001.

[167] Hoffman, P. E.; Grinstein, G. G., A Survey of Visualitations for High-Dimensional DataMining, In: Information Visualization in Data Mining and Knowledge Discovery,Fayyad, U.; Grinstein, G. G.; Wierse, A., (Editoren), Morgan Kaufman Publishers, SanFrancisco, USA, 2002, 47 - 82.

[168] Cleveland, W.S., Visualizing Data, Hobart Press, Summit, NJ, uSA, 1993.

[169] Huber, P. J., Projection Pursuit, The Annals of Statistics, 13(2), 1985, 435 - 474.

[170] Wright, W., Information Animation in the Capital Markets, In: Proceedings Int. Symp.On Information Visualization’ 95, Atlanta, GA, USA, 1995, 19 - 25.

[171] Furnas, G. W.; Buja, A., Prosection Views: Dimensional Inference Through Sectionsand Projections, J. Comput. Stat., 3(4), 1994, 323 - 353.

[172] Andrews, D. F., Plots of High-Dimensional Data, Biometrics, 1972, 69 - 97.

[173] van Wijk, J. J.; van Liere, R., HyperSlice, In: Proceedings IEEE Visualization ’93, SanJose, CA, USA, 1993, 119 - 125.

[174] Alpern, B.; Carter, L., Hyperbox, In: Proceedings IEEE Visualization ’91, San Diego,CA, USA, 1991, 133 - 139.

[175] Inselberg, A.; Dimsdale, B., Parallel Coordinates: A Tool for Visualizing Multi-Dimen-sional Geometry, In: Proceedings IEEE Visualization ’90, 1990, 361 - 370.

[176] Hoffman, P. E., Table Visualizations: A Formal Model and its Applications, Disserta-tion, Computer Science Department, University of Massachusetts Lowell, MA, USA,1999.

[177] Microsoft Excel 2002, Microsoft Corporation, Redmond, WS, USA, 2002.http://www.microsoft.com/office/excel/

[178] Statistica 6, StatSoft Incorporate, Tulsa, OK, USA, 2002.http://www.statsoftinc.com/

202

Page 215: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[179] Ward, M. O., XmdvTool: Integrating Multiple Methods for Visualizing MultivariateData, In: Proceedings IEEE Visualization ’94, Washington, DC, USA, 1994, 326 - 336.http://davis.wpi.edu/~xmdv/

[180] Bertin, J., Semiology of Graphics, The University of Wisconsin Press, Madison, WS,USA, 1983.

[181] Chernoff, H., The Use of Faces to Represent Points in n-Dimensional Space Graphi-cally, Technical Report No. 71, Department of Statistics, Stanford University, CA,USA, 1971.

[182] Chambers, J. M.; Cleveland, W. S.; Kleiner, B.; Tukey, P. A., Graphical Methods forData Analysis, Wadsworth Press, Belmont, CA, USA, 1983.

[183] Pickett, R. M.; Grinstein, G. G., Iconographic Displays for Visualizing Multidimensio-nal Data, In: Proceedings IEEE Conf on Systems, Man and Cybernetics, IEEE Press,Piscataway, NJ, USA, 1988, 514 - 519.

[184] Beddow, J., Shape Coding of Multidimensional Data on a Microcomputer Display, In:Proceedings IEEE Visualization ’90, San Francisco, CA, USA, 1990, 238 - 246.

[185] Levkowitz, H., Color Icons: Merging Color and Texture Perception for IntegratedVisualization of Multiple Parameters, In: Proceedings IEEE Visualization ’91, SanDiego, CA, USA, 1991.

[186] Keim, D. A., Pixel-orientated Database Visualizations, In: Proceedings Tutorial ACMSIGMOD Int. Conf. on Management of Data, Montreal, Canada, 1996, 543.

[187] Keim, D. A.; Kriegel, H.-P.; Ankerst, M., Recursive Pattern: A Technique for Visuali-zing Very Large Amounts of Data, In: Proceedings Visualization ’95, Atlanta, GA,USA, 1995, 279 - 286.

[188] Ankerst, M.; Keim, D. A.; Kriegel, H.-P., Circle Segments: A Technique for VisuallyExploring Large Multidimensional Data Sets, In: Proceedings Visualization ’96, HotTopic Session, 1996.

[189] Becker, B. G., Research Report: Volume Rendering for Relational Data, In: ProceedingsInformation Visualization ’97, Dill, J.; Gershon, N., Editoren, IEEE Computer SocietyPress, Los Alamitos, CA, USA, 1997, 87 - 90.

[190] LeBlanc, J.; Ward, M. O.; Wittels, N., Exploring N-Dimensional Databases, In: Procee-dings IEEE Visualization ’90, San Francisco, CA, USA, 1990, 230 - 239.

[191] Robertson, G. G.; Mackinlay, J. D.; Card, S. K., Cone Trees: Animated 3D Visualizati-ons of Hierarchical Information, In: Proceedings Human Factors in Computing SystemsCHI ’91 Conf., New Orleans, LA, USA, 1991, 189 - 194.

[192] Kraus, M.; Ertl, T., Interactive Data Exploration with Customized Glyphs, In: Procee-dings of WSCG ’01, Plyen, Tschechien, 2001, P20-P23.http://wscg.zcu.cz/wscg2001/Papers_2001/R54.pdfhttp://wwwvis.informatik.uni-stuttgart.de/~kraus/glyphs/

[193] Swayne, D. F.; Cook, D.; Buja, A., User’s Manual for XGobi: A Dynamic GraphicsProgram for Data Analysis, Bellcore technical memorandum, 1992.

[194] Bier, E. A.; Stone, M. C.; Pier, K.; Buxton, W.; DeRose, T., Toolglass and magic Len-ses: The See-Through Interface, In: Proceedings SIGGRAPH ’93, 1993, 73 - 80.

203

Page 216: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[195] Spoerri, A., Infocrystal: A Visual Tool for Information Retrieval, In: ProceedingsVisualization ’93, 1993, 150 -157.

[196] Ahlberg, C.; Shneiderman, B., Visual Information Seeking: Tight Coupling of DynamicQuery Filters with Starfield Displays, In: Proceedings Human Factors in ComputingSystems CHI’94 Conf., 1994, 313 - 317.

[197] Shneiderman, B., Dynamic Queries for Visual Information Seeking, In: Readings inInformation Visualization - Using Vision to Think, Card, S., K.; Mackinlay, J., D.;Shneiderman, B., Editoren, Morgan Kaufman Publishers, San Francisco, USA, 1999,236 - 243.

[198] Fishkin, K.; Stone, M. C., Enhanced Dynamic Queries via Moveable Filters, In: Rea-dings in Information Visualization - Using Vision to Think, Card, S., K.; Mackinlay, J.,D.; Shneiderman, B., Editoren, Morgan Kaufman Publishers, San Francisco, USA,1999, 253 - 259.

[199] Sarkar, M.; Brown, M., Graphical Fisheye Views, Comm. ACM, 37(12), 1994, 73 - 84.

[200] Schaffer, D.; Zuo, Z.; Bartram, L.; Dill, J.; Dubs, S.; Greenberg, S.; Rodeman, M.,Comparing Fisheye and Full-Zoom Techniques for Navigation of Hierarchically Cluste-red Networks, In: Proceedings Graphics Interface (GI ’93), 1993, 87 - 96.

[201] Carpendale, M. S. T.; Cowperthwaite, D. J.; Fracchia, F. D., IEEE Computer Graphicsand Applications, Sonderausgabe: Informationsvisualisierung, 17(4), 1997, 42 - 51.

[202] http://dtp.nci.nih.gov

[203] Boyd, M. R., Status of the NCI Preclinicalantitumor Drug Discovery Screen. In:Cancer: Principles and Practice of Oncology Update, DeVita, V. T.; Hellman, S.;Rosenberg, S. A., Editoren, J. B. Lippicott, Philadelphia, Vol. 3, 1989, 1 - 12.

[204] Boyd, M. R., The NCI in vitro Anticancer Drug Discovery Screen: Concept, Implemen-tation, and Operation, 1985 - 1995, In: Anticancer Drug Development Guide: Preclini-cal Screening, Clinical Trials, and Approval, Teicher, B. A., Editor, Humana Press,Totowa, NJ, USA, 1997, 23 - 42.

[205] Shi, L., M.; Fan, Y.; Lee, J. K.; Waltham, M.; Andrews, D. T.; Scherf, U.; Paull, K. D.;Weinstein, J. N., Mining and Visualizing Large Anticancer Drug Discovery Databases,J. Chem. Inf. Comput. Sci., 40, 2000, 367 - 379.

[206] Paull, K. D.; Shoemaker, R. H.; Hodes, L.; Monks, A.; Scudiero, D. A.; Rubinstein, L.;Plowman, J.; Boyd, M. R., Display and Analysis of Patterns of Differential Activity ofDrugs against Human Tumor Cell Lines: Development of Mean Graph and COMPAREalgorithm, J. Natl. Cancer Inst., 81, 1989, 1088 - 1092.

[207] http://www.mysql.com

[208] Rohrer, R. M.; Swing, E., Web-Based Information Visualization, IEEE Computer Gra-phics and Appl., 17(4), 1997, 52 - 59.

[209] http://www.stocksmartpro.com/ows-bin/owa/vpv/

[210] Roskothen, M., http://www.vruniverse.com/vrml/chart/chart.html[211] http://www.em7.com

[212] http://www.parallelgraphics.com

[213] http://www.rinvoice.com

204

Page 217: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[214] Demesmaeker, M., Decision Analytics in Life Science Discovery through Visual Inte-gration of Chemical and Biological Information on the Desktop, In: Rational Approa-ches to Drug Design, Proceedings of the 13th Europ. Symp. on QSAR, Höltje, H.-D.;Sippl, W., Prous Science, 2001, 506 - 511.http://www.spotfire.com

[215] Ahlberg, C.; Wistrand, E., IVEE: An Information Visualization and Exploration Envi-ronment, In: Proceedings Information Visualization ’95, IEEE Computer Society Press,Los Alamitos, CA, USA, 1995, 66 - 73.

[216] Persönliche Mitteilungen: Zielesny, A., ehemals Bayer AG; Rudolph, C., AventisPharma AG.

[217] Persönliche Mitteilung: Zielesney, A., ehemals Bayer AG.

[218] http://java.sun.com/products/jdbc/

[219] http://www.mysql.com

[220] Travis, D., Effective Color Displays: Theory and Practice, Academic Press, London,UK, 1991.

[221] Catarci, T., Interaction with Databases, IEEE Computer Graphics and Applications,1996, 67 - 69.

[222] Ahlberg, C.; Shneiderman, B., The Alphaslider: A Rapid and Compact Selector, In:Proceedings ACM Conference on Human Factors in Computing Systems, CHI’94 Con-ference, ACM Press, New York, USA, 1994, 365 - 371.

[223] Lipinski, C. A.; Lombardo, F.; Dominy, B. W.; Feeney, P. J., Experimental and Compu-tational Approaches to Estimate Solubilty and Permeability in Drug Discovery Settings,Adv. Drug Discovery, 23, 1997, 3 - 25.

[224] Kobsa, A., An Empirical Comparison of Three Commercial Information VisualizationSystems, In: Proceedings of the 2001 IEEE Symposium on Information Visualization(InfoVis 2001), Andrews, K.; Roth, S. F.; Wong, P. C., (Editoren), IEEE ComputerSociety Press, Los Alamitos, CA, USA, 2001, 123 - 130.

[225] http://www.partek.com

[226] http://www.miner3d.com

[227] Roberts, G.; Myatt, G. J.; Johnson, W. P.; Cross, K. P.; Blower, P. E. Jr., LeadScope:Software for Exploring Large Sets of Screening Data, J. Chem. Inf. Comput. Sci., 40,2000, 1302 - 1314. http://www.leadscope.com

[228] http://servus.itn.liu.se/smartdoc/project_results/knowledge/hte.html

[229] http://www.avs.com

[230] http://dtp.nci.nih.gov/docs/compare/cellmdr.html

[231] http://dtp.nci.nih.gov/docs/compare/cellp53wild.htmlhttp://dtp.nci.nih.gov/docs/compare/cellp53mut.html

[232] http://chartworks.com

[233] http://www.visualizeinc.com

205

Page 218: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

9 Literaturverzeichnis

[234] Hao, M. C.; Dayal, U.; Hsu, M.; Baker, J.; D’Eletto, R., A Java-based Visual MiningInfrastructure and Applications, In: Proceedings of th 1999 IEEE Symposium on Infor-mation Visualization (InfVis’99), Wills, G.; Keim, D. A., (Editoren), IEEE ComputerSociety Press, Los Alamitos, CA, USA, 1999, 124 - 127.

[235] Munzner, T., Exploring Large Graphs in 3D Hyperbolic Space, IEEE Computer Gra-phics, 18(4), 1998, 18 - 23.http://www.inxight.com

[236] http://www.tgs.com

[237] Haller, M.; Jenichl, G.; Küng, J., Data Mining, Multidimensional Databases and theWeb for a Better Interpretation of Data, In: Proceedings 5th International ConferenceIDG’98, Florenz, Italien, 1998, on CDROM.

[238] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T., Multi-Variate Interactive Visualizationof Data from Laboratory Notebooks, In: Proceedings ECDL: Workshop ’GeneralizedDocuments’, Sep. 2001, Darmstadt, Deutschland, 2001.

[239] http://www.chemcodes.com

[240] Parlow, A.; Weiske, C.; Gasteiger, J., ChemInform - An Integrated Information Systemon Chemical Reations, J. Chem. Inf. Comput. Sci., 30, 1990, 400 - 402.

[241] MDL Reaktionsdatenbank Referenz

[242] Claisen, L.; Claparede, A., Ber., 14, 2463, 1881.

[243] Schmidt, J. G., Ber., 14, 1459, 1881.

[244] Carey, F. A.; Sundberg, R. J., Organische Chemie - Ein weiterführendes Lehrbuch,Wiley-VCH, Weinheim, 1995.

[245] Maggiora, G.; Johnson, M. A., Concepts and Applications of Molecular Similarity, JohnWiley, NY, USA, 1990.

[246] Keskin, O.; Ivet, B.; Jernigan, R. L.; Myers, T. G.; Beutler, J. A.; Shoemaker, R. H.;Sausville, E. A.; Covell, D. G., Characterization of Anticancer Agents by Their Growth-Inhibitory Activity and Relationships to Mechanism of Action and Structure, Anti-cancer Drug Design, 15(2), 2000, 79 - 98.

[247] Lippard, S. J., Platinum Complexes: Probes of Polynucleotide Structure and AntitumorDrugs, Acc. Chem. Res., 11, 1978, 211 - 217.

[248] Verheijen, R. H.; Beex, L.; Wagener, D. J.; Kenemans, P., Cis-Platin in Combinationwith low Dose Adriamycin and Cyclophosphoamide in Advanced Ovarian Carcinoma,Eur. J. Gynaecol. Onc., 6(2), 1985, 116 - 120.

[249] COSMOlogic, http://www.cosmologic.de

[250] http://www.tripos.com/sciTech/inSilicoDisc/moleculeModeling/molcad.html

206

Page 219: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang

Anhang A: Farbabbildungen

Anhang B: Hyperlinksammlung

Anhang C: Krebszelllinien im NCI In Vitro Screen

Anhang D: Platinverbindungen im NCI In Vitro Screen

Anhang E: Publikationsliste

Anhang F: Lebenslauf

A-1

Page 220: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang

A-2

Page 221: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Farbabbildungen

Anhang A: Farbabbildungen

Abb. A-1: VRML-Strukturdarstellungen von 3,5-Diaminophenol: a) Ball & Stick-Repräsentation, interaktiver Schalter zum Umschalten der Strukturdarstellung; b) Wireframe-Repräsentation mit σ-Ladungen; c) CPK-Modell; d) Capped-Darstellung.

Abb. A-2: VRML-Szene: Ball & Stick-Modell mit interaktiver, VRML-Skript-basierter Bindungswinkel- und Atomabstands-Berechnungsfunktion.

A-3

Page 222: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang A

Abb. A-3: VRML-Animationssequenz: Initialisierung einer kationischen Polymerisation von 2-Methyl-buten-1 mit Ethanol und Bortrifluorid; unten rechts: Eingebettete Stop/Play/Step-Option.

Abb. A-4: ComSpec3D: Quantenchemisch berechnete Raman- (rot) und Infrarotspektren (blau).

Abb. A-5: ComSpec3D: VRML-Animationssequenz: -OH Deformationsschwingung von Phenol bei 1383 cm-1.

A-4

Page 223: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Farbabbildungen

Abb. A-6: MolSurf: VRML-Szene mit Strukturen und SES-Oberflächen (semitransparent) von TNT: a) - c): Rainbow-Farbskalierung einer a) Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation; d)-f): Blau-Weiß-Rot-Farbskalierung einer Solid-Oberflächen-Repräsentation mit unterschiedlichen Strukturmodellen: d) Capped, Ball & Stick und f) Wireframe.

Abb. A-7: MolSurf: VRML-Szene mit Oberfläche (Solid-Repräsentation) von Trinitrotoluol und integriertem HUD-Menü.

A-5

Page 224: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang A

Abb. A-8: OrbVis: Auswahlfenster.

Abb. A-9: OrbVis: Java-Applet und VRML-Plugin, HOMO von Anilin.

A-6

Page 225: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Farbabbildungen

Abb. A-10: Visualisierungsansatz mit dreidimensionalen Glyphen [192].

Abb. A-11: NCI anti-Tumor Screening Data 3D Interface: VRML-Szene mit biologischen Aktivitäten (relative Auftragung) in einer Balkendiagramm-Darstellung.

A-7

Page 226: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang A

Abb. A-12: InfVis-Programm.

Abb. A-13: InfVis: Visualisierungstechniken; a) Balkendiagramm, b) Scatterplotdarstellung, c) 3D-Glyph-Technik

A-8

Page 227: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Farbabbildungen

Abb. A-14: InfVis-Selektions- und Detail-Werkzeuge; a) Selektionsboxen, b) Einzelpunktselektion,c) Detailwerkzeug, Darstellung von Datenwerten und Metainformation (Hyperlinks, Bilder).

a)

b)

c)

A-9

Page 228: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang A

Abb. A-15: Reaktionsoptimierungs-Beispiel: a) Reaktionen bei 60 °C; b) Reaktionen auf Poystyrol; c) Reaktionen mit KOH, 23 °C, Tentagel; d) Reaktionen mit LiOH, 23 °C, Tentagel; e) Reaktionen mit NaOMe, 23 °C, Tentagel; f) Reaktionen ohne Reagenzienzugabe, 23 °C, Polystyrol.

a) b)

c) d)

e) f)

A-10

Page 229: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Farbabbildungen

Abb. A-16: Reaktionsplanungs-Beispiel: Reaktionen mit 1,3-Diisopropylcarbodiamid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln.

Abb. A-17: InfVis-Progamm mit 2939 GI50-Aktivitätswerten; Aufsicht auf die zy-Ebene.

A-11

Page 230: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang A

Abb. A-18: Antitumor-Aktivitätsbeispiel: relative Auftragung der GI50-Werte; a) Cluster 1 mit 33 Verbindungen; b) Cluster 2 mit 15 Verbindungen; c) Cluster 3 mit 50 Verbindungen; d) Cluster 4 mit 26 Verbindungen; e) Cluster 5 mit 14 Verbindungen.

a) b)

c) d)

e)

A-12

Page 231: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Hyperlinksammlung

Anhang B: Hyperlinksammlung

Hyperlinks zum ChemVis-Projekt, zu den in dieser Arbeit entwickelten Online-Diensten

und zum InfVis-Manual.

• ChemVis-Projekt:http://www2.chemie.uni-erlangen.de/ChemVis/Das ChemVis-Projekt ist Teil des DFG-Schwerpunktprogramms "VerteilteVerarbeitung und Vermittlung von digitalen Dokumenten" und setzt sich ausMitgliedern des Computer-Chemie-Centrums, Universität Erlangen-Nürnberg sowieder "Interaktive Systeme und Visualisierungsgruppe" des Instituts für Informatik,Universität Stuttgart zusammen.

• VRML File Creator for Chemical Structures:http://www2.chemie.uni-erlangen.de/services/vrmlcreator/http://cactus.nci.nih.gov/services/vrmlcreator/Der Service generiert VRML-Szenen von chemischen Strukturen und molekularenEigenschaften. Die Web-Applikation unterstützt eine Vielzahl von chemischen 2D-und 3D-Dateiformaten und berechnet bei Vorlage von 2D-Koordinaten dienotwendige 3D-Information automatisch.

• VRML-Animationsgenerator:http://www2.chemie.uni-erlangen.de/services/vrmlanim/Die Online-Anwendung erlaubt die portable 3D-Darstellung von animiertenTrajektorien wie beispielsweise Moleküldynamiken.

• ComSpec3D:http://www2.chemie.uni-erlangen.de/services/vrmlvib/Das Ziel von ComSpec3D ist die Berechnung und Visualisierung von Infrarot- undRamanspektren sowie die animierte VRML-Darstellung der korrespondierendenNormalschwingungen.

• MolSurf:http://www2.chemie.uni-erlangen.de/services/molsurf/MolSurf ermöglicht die Berechnung und dreidimensionale Darstellung vonmolekularen Oberflächen und Strukturen sowie des elektrostatischen Potentials.

• OrbVis:http://www2.chemie.uni-erlangen.de/services/orbvis/OrbVis wurde zur interaktiven Berechnung und 3D-Visualisierung vonMolekülorbitalen entwickelt.

A-13

Page 232: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang B

• NCI anti-Tumor Screening Data 3D Interface:http://www2.chemie.uni-erlangen.de/services/ncitumordb/Das NCI anti-Tumor Screening Data 3D Interface ermöglicht die Analyse derAntitumor-Screeningdaten des amerikanischen Krebsforschungsinstituts, NCI, NIH.Der Service unterstützt eine Reihe von Suchoptionen wie beispielsweise Substruktur-und Ähnlichkeitssuchen und ermöglicht die dreidimensionale Darstellung derStruktur-Aktivitätsbeziehungen in einer VRML-Szene.

• NCI Screening Data 3D Miner:http://www2.chemie.uni-erlangen.de/services/nciscreen/Der NCI Screening Data 3D Miner stellt einer Weiterentwicklung des NCI anti-Tumor Screening Data 3D Interfaces dar. Der Service wurde um eine Vielzahl anSuchoptionen erweitert und ermöglicht mit Hilfe des InfVis-Programms das visuelleData Mining der resultierenden Struktur-Aktivitätsbeziehungen.

• InfVis:http://www2.chemie.uni-erlangen.de/research/information_visualization/http://www2.chemie.uni-erlangen.de/research/information_visualization/doc/ Das InfVis-Programm wurde zum visuellen Data Mining und zur Visualisierunggroßer, multidimensionaler Datensätze der Chemie wie beispielsweise High-Throughput-Screening-Daten entwickelt. Die Applikation ist sowohl als Standalone-als auch als Applet-Version erhältlich.

A-14

Page 233: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Krebszelllinien im NCI In Vitro Screen

Anhang C: Krebszelllinien im NCI In Vitro Screen

Liste der 60 humanen Krebszelllinien im In Vitro Screeningtest des amerikanischen Krebs-

forschungsinstituts (NCI, NIH) [202].

Name der Zelllinie FamilieWildtyp p53

FunktionMutanten

p53 Funktion

Niedrige MDR-

FunktionCCRF-CEM Leukemie – + –HL-60(TB) Leukemie – + +K-562 Leukemie – + +MOLT-4 Leukemie + – +RPMI-8226 Leukemie + – +SR Leukemie – – +A549/ATCC Non-Small Cell Lung + – +EKVX Non-Small Cell Lung – + +HOP-62 Non-Small Cell Lung – + –HOP-92 Non-Small Cell Lung – + +NCI-H226 Non-Small Cell Lung – + +NCI-H23 Non-Small Cell Lung – + +NCI-H322M Non-Small Cell Lung – – +NCI-H460 Non-Small Cell Lung + – +NCI-H522 Non-Small Cell Lung – + +COLO 205 Dickdarmkrebs – + +HCC-2998 Dickdarmkrebs – + +HCT-116 Dickdarmkrebs – – +HCT-15 Dickdarmkrebs – – –HT29 Dickdarmkrebs – + +KM12 Dickdarmkrebs – + +SW-620 Dickdarmkrebs – + –SF-268 Zentrales Nervensystem – + +SF-295 Zentrales Nervensystem – + –SF-539 Zentrales Nervensystem + – +SNB-19 Zentrales Nervensystem – + +SNB-75 Zentrales Nervensystem – + +U251 Zentrales Nervensystem – + +IGROV1 Eierstockkrebs – + +OVCAR-3 Eierstockkrebs – + +OVCAR-4 Eierstockkrebs + – +OVCAR-5 Eierstockkrebs – + +OVCAR-8 Eierstockkrebs – + +SK-OV-3 Eierstockkrebs – – +

A-15

Page 234: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang C

Fortsetzung:

Name der Zelllinie FamilieWildtyp p53

FunktionMutanten

p53 Funktion

Niedrige MDR-

Funktion786-0 Augenkrebs – + +A498 Augenkrebs + – –ACHN Augenkrebs + – –CAKI-1 Augenkrebs + – –RXF 393 Augenkrebs – + +SN12C Augenkrebs – + +TK-10 Augenkrebs – + +UO-31 Augenkrebs + – –PC-3 Prostatakrebs – + +DU-145 Prostatakrebs – – +MCF7 Brustkrebs + – +NCI/ADR-RES Brustkrebs – + –MDA-MB-231/ATCC Brustkrebs – + +HS 578T Brustkrebs – + –MDA-MB-435 Brustkrebs – + +MDA-N Brustkrebs – + +BT-549 Brustkrebs – – +T-47D Brustkrebs – + +LOX IMVI Melanom + – +MALME-3M Melanom + – +M14 Melanom – + +SK-MEL-2 Melanom + – +SK-MEL-5 Melanom + – +SK-MEL-28 Melanom – + +UACC-257 Melanom + – +UACC-62 Melanom + – +

A-16

Page 235: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Platinverbindungen im NCI In Vitro Screen

Anhang D: Platinverbindungen im NCI In Vitro Screen

D.1 Cluster 1

Pt

Cl

Cl

N

N

H

H

H

H

NSC131558

N

O+

Pt+ S

+

N+

N−

N

O

ClH

H

H

H

NSC613670

Pt

ClSn

N+

SnCl

−Cl

Cl

Cl

ClCl

Cl

NSC615537

Pt

Cl−

Sn

Sn

C

Cl

Cl

Cl

ClCl

Cl

O+

N+

NSC615539

O

O

O

O

N

N

Pt

Cl

Cl

H

H H

HH

H

NSC623314

O

O

N

N

Pt

Cl

Cl

H

H H

H

H

H

H

H

NSC623321

N+

N

O

Pt

Cl

Cl

N+

Br

H

NSC625506

Pt++

NN

O+

O

PO

O−

O+

Na+

H

HH

H

HH

NSC627008

O

O

O

O

O

O

Pt4+Cl

Cl−

Cl−

Cl−

NSC631895

Pt++

N

N

N N

O

O

Cl−H

H

H

H

NSC631896

Pt++

N

N

N

N

O

O

Cl−

H

HH

H

NSC631897

NN

N

P

OO

O−

O

PO−

O+

Pt++

H

HH

H

H

H

NSC631898

O

OO

O

N+

N+

O

O

Pt−−Cl

Cl

Cl

Cl

H

H

NSC632607

Pt++O

+N

O+

O+

N Cl−

NSC632609

O+

N

O+

O+N

Pt

Cl−

OHH

NSC632611

Pt++

N N

O+

N+

P

O

O−

PO

O−

O−

P

O+

O−

O−

H

H

H

HH

H

NSC632612

O

P

NP

OO−

O−

O−

NN

O+

Pt++

H H

HH

H

NSC632613

NPt

++

PO

O+

N

P

O+

O− O

O−

N

H

H

H

H

HH

NSC632615

Pt

Cl

ClN

N

S O

O+

O

S OO

O+

HH

HH

H H

NSC632869

PtCl Cl

N+

N+

OO−

O O−

HH

HH

NSC632870

A-17

Page 236: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang D

O

O

O

O

NN

Pt++O+

O+

H

H

H

H

H HH

HH

HH

H

H

NSC634048

N

O

N

O

O+

O

Pt ClCl

O O−

H

H

H

H

HH NSC638370

Pt++

N+

N+

PO

O−

O−

PO

O−

O−

P

O+

O

O− P

O

O−

O−

N+

N+

H

H

HH

H

H

H

H

NSC639594

N

Pt++

NO

+

NPO

O−

N

P

O+

O−

O−

H H

H

H

H

H

H

NSC639614

N

Pt++

N

O+

N+

PO

O−

P

O+ O

−O

−Na

+

N O

H

H

H

H

HH

NSC639615

N

Pt

N

Cl

Cl

Si

H

H

NSC643120

Cl

Pt

S

O

N

N

Si

H

H

NSC643121

C−

Pt++

O+ S

O

O−

FF

FP

HH

NSC646701

Pt

O O

ClCl

N NH H

NSC647059

OP

N+

PO

O−

O−

N+

PO

O−

PO

O−

O−

O−

NN

O+

O+

Pt++

H

H

H

H H

HH

H H

NSC647060

P

Cl

P

ClPt

N

N

H

H

NSC685471

N+

N+

N+

Ru++

N+

N+

N+

N+

N+

Pt

Cl

Cl

Cl−

NSC686548

Pt

O+

ClCl

N

O

N

H+

HH

H

H

H

NSC695782

A-18

Page 237: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Platinverbindungen im NCI In Vitro Screen

D.2 Cluster 2

Br

Br

N+

NN

S+

N

N

O

O

OO

Pt

HH

H

H

H

H

O

S

O

O O

NN

Pt

H H

HH

O+

Pt++

NN

O+

O

S

N

O O

SO+O

O−

O

S

O+

OO−

H

HHHH

H

HH

H

H

ClSn

Cl

Cl

N+

Sn

Cl

Cl

Cl

CO+

Pt

N

NCl

Cl

Pt

O

H

HH

H

H N

NCl

Cl

Pt

O

H

HH

H

H

Pt++

O+

P

O−

O

O

O+

N N

Na+

HH

H H

HH

N

O

O

N

O

O

PtCl Cl

H

H

Pt++

N N

O+

N+

PO

O−

O−

P

O+

O−

O−

O

H

H

H

HH

H

Pt

Cl

ClN

N

OO+

O O+

HH

HH

H

H

H H

H

H

O+

O+

N

NO+O

+Pt Cl

+HH

N

N+

PO

O−

O−

PO

O−

N+

P

O

O−

O−

P

OO−

N

O+

O+

Pt++

H

H

H

H

HH

H

H

Pt++

Cl−

Cl−

Cl−

Cl−

N+

N+

Si

HH

HH

Pt+

C−

S

Cl

O

S

O

HH

O

N

O

O−

N

N

Pt++

O+

H

H

H

A-19

Page 238: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang D

D.3 Cluster 3

Cl

Cl

N

N

Pt

H

HH

H

NSC265459

Cl

Cl

N

N

Pt

H

HH

H

NSC265460

O

O

O

O

NN

Pt

H H

HH

NSC266046

O

O

O

O

NN

Pt

H H

HH

NSC266047

O

O

O

O

O

O

N N

Pt

H

HH

H H

NSC271674N

N

N+

N

N

S+

N+

N

N

S+

N

N

Pt

H

H

H

H

H

H

H

H

NSC276299

O Se

PtO

O

O

ON

N

H

HH

H

H

H

NSC281279

Cl

Pt

Cl

Cl

Cl

N

N

H

H

H

H

NSC363812

SiN

Pt

Cl

Cl

NSi

H

H

NSC600300

Si

N+

Pt++

Cl−

Cl−

Cl−

Cl−

N+

Si

H

H

H

H

NSC600301

Si

N N

Pt

ClCl

H H

NSC603577

Si

N+

N+

Pt++

Cl−

Cl− Cl

−Cl

H

H

H

H

NSC603578

N+

N+

Pt

N−

Cl

Cl

S

S+

NSC614802

OS O

N

O

N

N

SO

O

N O

O+

Pt++

O+

H

HH

H

H

H

NSC614887

Pt++N

N O−O−

S

N

OO

+O−

NN

NN

N

SO+

O

O−

H

H

H

H

H H

H

HH

H

NSC615589

N

S+

S+

N

S+

S+Pt

++H

H

NSC619298

Pt

Cl

Cl

P

P

H

H

NSC624902

C−

Fe++

C−

NN

Pt

ClCl

C−

Fe++

C−

NSC625197

N+

N+

Pt++

Cl−

Cl−

Si

Cl−

Cl−

H

H

H

H

NSC625298

NN

Pt

ClCl

Si

HH

NSC625299 No Name

A-20

Page 239: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Platinverbindungen im NCI In Vitro Screen

Pt

N Si

NSi

Cl

Cl

H

H

NSC626538

N

N

O

O

Pt ClCl

HH

H

NSC631304

N

O

N

O

Pt

Cl

Cl

HH

NSC631305

N

N

O

Pt

Cl

Cl

H

HH

NSC631306

N+

Pt ClCl

S

O

NSC632790

Pt

N+

ClCl

S O

NSC632791

Pt

N+

N+

ClCl

NSC632819

N+

N+

PtCl Cl

NSC632820

ClO

+

O

O

O PtN

+

NN

N

N Cl

Cl

N

Cl

Cl

Cl−

Cl−

HH

H

NSC633053

N+

N+

Pt++

N+

N+Cl

NSC633560

N+

O+

O

N−

N

S+

Pt+

ClH

H

H

NSC638284

Se+

N

Pt

Cl

Cl

H

H

H

NSC638726

O

NN

O+

Se

O+

Pt++

H

H

H

H

HH

NSC638728

Pt

ClCl

N+

O−

N+

O−

NSC639083

N+

N+

Pt++

O

O

O+

O

C−

O

H

NSC639222

Pt ClCl

N+

S O

NSC641052

PtCl Cl

N+

S

N+

S

NSC641054

I Pt I

N+

S

N+

S

NSC641055

PtI I

N+

S

N+

S

NSC641056

Pt++

C−

C−

S

O

S

O

HH

HH

NSC644188

A-21

Page 240: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang D

Pt++

C−

C−

SS

O O

NSC644189

Pt++

C−

C−

CO+

S O

NSC644191

Si

N

Pt

Cl Cl

NH H

NSC645351

Si

N+

N+

Cl−

Cl− Cl

−Cl

Pt++

H

H

H

H

NSC645352

Si

N

N

Pt

Cl

Cl

H

H

NSC645353

Si

N+

N+

Cl−

Cl−

Cl−

Cl− Pt

++

HH

HH

NSC645354

Si

N+

N+

Cl−

Cl− Cl

−Cl

Pt++

H

H

H

H

NSC645356

N

N+

PtI I

N

N+

NSC647615

Pt++P

N P

N

Cl−

H

H

H

H

NSC685468

P

N+

PN

Pt+

Cl

Cl−

H

H

NSC685470

A-22

Page 241: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Platinverbindungen im NCI In Vitro Screen

D.4 Cluster 4

Pt

Cl

Cl

N

N

H

H

H

H

NSC119875

Br

Br

N

N

PtH

H

H

H

NSC141523

N

N

O

OO

O

PtH

HH

H

NSC146067

Cl

Cl

N NPt

NSC170896

Cl

ClN

N

Pt

H

H

NSC215153

OO

O O

N

N

PtH

HH

H

NSC241240

N

Pt

N Cl

Cl

O

O

H

HH

H

NSC256927

S

O

O

O

O S

O

O

N

N

Pt

H

HH

H

NSC263158

Pt

Cl−

Sn

Sn

C

Cl

Cl

Cl

ClCl

Cl

O+

As+

NSC615538

Pt

Sn

SnN+

Cl

Cl

Cl

Cl

Cl

Cl

N+

C

O+

NSC615541

PtP

SnC

P

Sn

O+

Cl

Cl

Cl

Cl

Cl

Cl

HH

NSC615542

O

N

N

S OO

N

NS

N N

O

O

O

O+

O+Pt

++

H

H

H H

H

H

HH

NSC615590

Pt++N+C

N+

CO

SO+O O

NNN

NN

N

SO+O

O−

OO

O

O+S

O+

S

H

H H

HH

H

NSC615593

Pt−−Cl

Cl

Cl

Cl

O

N+

N+

H

H

H

NSC620256

O

N+

N+

N

Pt−−Cl

Cl

Cl

Cl

H

H

H

NSC620257

O

O

O

O

N

N

Pt

Cl

Cl

H

H H

HH

H

NSC623315

N

NCl

Cl

Pt

O H

H

HH

H

H

NSC623317

Pt

Se

O

O

O O

Se

O

O

H

H

NSC626669

O+

O+O

+

O+

Pt++

N

N

N

Cl−

HH

H

NSC632608

Pt++O

+N

O+

O+

N Cl−

NHH

H

NSC632610

A-23

Page 242: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang D

D.5 Cluster 5

Cl

Cl

N

N

Pt

H

HH

H

NSC255917

Br

O

Br

S OO

O

N

N

O

Br

O

Br

S

O

OO+

O+

Pt++

H

H H

H H

H

H

H

NSC615592

O

O

O

O

N

N

Pt

Cl

Cl

H

H H

HH

H

NSC623316

N

NCl

Cl

Pt

O H

H

HH

H

H

NSC623318

Si

N

Pt

N

Cl

Cl

H

H

NSC630765

N

O+

O+

NO+ O

+Pt++

Cl−

Cl−

NSC633559

Pt++

Cl−

Cl−

Cl−

Cl−

N+

N+Si

HH

HH

NSC640322

PtCl Cl

N+

S

N+

S

NSC641053

N

N+

PtBr Br

N

N+

NSC647616

N

N+

PtCl Cl

N

N+

NSC647617

N

N+

PtBr Br

N

N+

NSC647618

N

N+

PtCl Cl

N

N+

NSC647619

Pt

Cl−

Cl−

Cl−

Cl−

N+

N+

N+

N+

H

H

NSC647620

N

Pt++

N

O+

O+

O

O

O−

O

O

O

HH

HH

H

H

H

NSC651087

A-24

Page 243: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Publikationsliste

Anhang E: Publikationsliste

[1] Ihlenfeldt, W.-D.; Voigt, J. H.; Bienfait, B.; Oellien, F.; Nicklaus, M. C.Enhanced CACTVS Browser of the Open NCI Database J. Chem. Inf. Comput. Sci., 42, 2002, 46 - 57.

[2] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T. Multi-Variate Interactive Visualization of Data from Laboratory Notebooks ECDL: Workshop "Generalized Documents", Sep. 2001, Darmstadt.

[3] Engel, K.; Oellien, F.; Ertl, T.; Ihlenfeldt, W.-D. Client-Server-Strategien zur Visualisierung komplexer Struktureigenschaften in digitalen Dokumenten der Chemie it+ti, 6, 2000, 17 - 23.

[4] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T. Chemische Visualisierung und Datenintegration im Internet Informatik ’99: Workshop "Neue Medien in Forschung und Lehre", Oct. 1999, Paderborn.

Die Publikationen 2), 3) und 4) sind Teil dieser Arbeit.

A-25

Page 244: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang F

Anhang F: Lebenslauf

Name Frank Oellien

Geburtsdatum und -ort 27. Januar 1970 in Oldenburg

Staatsangehörigkeit deutsch

Familienstand ledig

Schulbildung

1976 - 1980 Grundschule Elmendorf / Aschhausen

1980 - 1982 Orientierungsstufe Bad Zwischenahn

1982 - 1986 Realschule Bad Zwischenahn

1986 - 1989 Gymnasium Bad Zwischenahn / Edewecht

Grundwehrdienst

06/1989 - 08/1990

Hochschulausbildung

09/1990 - 04/1993 Studium der Chemie an der Carl von Ossietzky Universität

Oldenburg

09/1993 - 12/1997 Studium der Chemie an der Universität Bayreuth

04/1997 - 12/1997 Diplomarbeit bei Prof. Sprinzl am Lehrstuhl für Biochemie der

Universität Bayreuth zu dem Thema „Terminationsfaktor RF3

von Thermus thermophilus“

seit 08/1998 Anfertigung der Doktorarbeit bei Prof. Gasteiger am Computer-

Chemie-Centrum und Institut für Organische Chemie der

Friedrich-Alexander-Universität Erlangen-Nürnberg

A-26

Page 245: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Lebenslauf

Berufstätigkeit

03/1997 - 07/1997 Wissenschaftliche Zusammenarbeit mit Dr. Hoffmann, Institut

für Algorithmen und Wissenschaftliches Rechnen (SCAI), GMD

Forschungszentrum Informationstechnologie GmbH,

St. Augustin

09/1999 - 10/1999 Gastwissenschaftler am Laboratory of Medicinal Chemistry,

National Cancer Institute, National Institutes of Health,

Bethesda, USA

seit 09/2002 Chemoinformatiker in der Abteilung BioChemInformatics /

Drug Discovery der Firma Intervet Innovation GmbH,

Schwabenheim

A-27

Page 246: Algorithmen und Applikationen zur interaktiven  Visualisierung und Analyse chemiespezifischer Datensätze

Anhang F

A-28