31
Lehrveranstaltung Sommersemester 2004 nalyse und Visualisierung in der Bioinf W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung + 4 SWS praktische Taetigkeit (betreutes Arbeiten) )

Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Embed Size (px)

Citation preview

Page 1: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Lehrveranstaltung Sommersemester 2004

Datenanalyse und Visualisierung in der Bioinformatik

W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer

(Praktikum, 1 SWS Präsenzveranstaltung + 4 SWS praktische Taetigkeit (betreutes Arbeiten) )

Page 2: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Was ist Bioinformatik?

aus Hofestädt & Schnee (2002)

“Bioinformatik ist die Entwicklung und Anwendung vonComputeranwendungen für die Analyse, Interpretation,

Simulation und Vorhersage von biologischenSystemen und korrespondierenden experimentellen Methoden in

den Naturwissenschaften”.Steffen Schulze-Kremer (RZPD Deutsches Ressourcenzentrum für Genomforschung GmbH)

"Bioinformatik ist die computerunterstützte Analyse biologischer Systeme."

Thomas Dandekar (EMBL Heidelberg)

"Bioinformatik besteht darin, biologische Gesetzmäßigkeiten der Entwicklung neuer Algorithmen zugrunde zu legen und auf diese Weise zu synergistischen Effekten zu kommen, die weder in der Biologie noch in der Informatik alleine

möglich wären."Thomas Werner (CEO Genomatix Software GmbH München)

Page 3: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Was ist Bioinformatik?

1. Bio-Informatik = Probleme aus der Biologie + Methoden aus der Informatik;2. Bio-Informatik = Probleme aus der Informatik + Methoden aus der Biologie.

Rolf Backofen (Institut für Informatik, LMU München)

aus Hofestädt & Schnee (2002)

a. Schwerpunkt auf biologischer Fragestellung, Informatikwerkzeuge nach Bedarf eingesetztb. Schwerpunkt auf Informatikmethoden, Biologie nur entfernte Motivation für untersuchte Problemec. wirklich interdisziplinärer Ansatz: untersuchte Fragestellung und verwendete Informatikmethoden werden in ständigem Prozess adaptiert. Notwendig, da die Problemformalisierung nur eine Abstraktion des ursprünglichen Problems sein kann.

Feinunterscheidung (nach Michael Waterman):

Page 4: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

aus Hofestädt & Schnee (2002)

Page 5: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändertGen

Protein

MakromolekularerKomplex

Organelle

Zelle

Netzwerk

Gewebe

Organ

System

Organismus

Empirische Daten

Ontologien

Statistische Modellierung

System-analyse

VorhersagendeModellierung

Physiko-chemischeerste Prinzipien

MathematischeTheorie

Drei Integrationsachsenin der Computerbiologie

funktional

zwischen Datenund Theorie

strukturell

regulatorisch Wachs-tum

Metabolik elektrisch mechanisch Transport

Page 6: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

funktional

Systembiologie

Page 7: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

Zentrales Ziel der Systembiologie:Funktional integrierte biologische Modellierung- datenbezogen datenintensiv

funktional

Page 8: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

funktional

strukturell

Systembiologie

ComputationalBiology

Page 9: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändert

Herausforderungen:

funktional

strukturell

Systembiologie

ComputationalBiology: strukturell integriert (z.B. Molekulare Dynamik,Vorhersage der Proteinstruktur)

- gesteuert durch physico- chemische 1. Prinzipien berechnungsintensiv

Page 10: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändert

Physico-chemische Erste Prinzipien:

- Problem der Proteinfaltung - Massengleichgewicht bei Analysen metabolischer Flüsse (auch bei sink-source-Modellen)

Page 11: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

nach McCULLOCH & HUBER (2002), verändert

Beispiele für Schnittstellen zwischen strukturell und funktionellintegrierter Computational Biology:

• Kopplung zwischen biochemischen Netzwerken und räumlich gekoppelten Netzwerken • Nutzung physiko-chemischer Beschränkungen zur Optimierung genomischer Systemmodelle des Zellmetabolismus• Entwicklung kinetischer Modelle der Zellsignalübertragung in Verbindung mit physiologischen Targets wie z.B. Energiestoff- wechsel, Ionenflüsse oder Zellmotilität• Nutzung empirischer Beschränkungen zur Optimierung von Vorhersagen der Proteinfaltung• Integration von Systemmodellen der Zelldynamik in Kontinuum- modelle der Gewebe- und Organphysiologie

Page 12: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Das Zentrale Dogma

aus Waterman (1995)

„The central dogma states that once 'information' has passed into a protein it cannot get out again. The transfer of information from nucleic acid to nucleic acid, or from nucleic acid to protein, may be possible, but transfer from protein to protein, or from protein to nucleic acid,is impossible. Information here means the precise determination of sequence, either of bases in the nucleic acid or of amino acid residues in the protein"

Francis Crick (1958).

Page 13: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Bioinformatik-Probleme

Probleme, die mit dem zentralen Dogma assoziiert sind: Alle Probleme, die direkt mit einem spezifischen Level von Information (Sequenz, Struktur, Funktion) assoziiert sind oder aber mehrere Levels umfassen.

Beispiele: Alignierungsverfahren (sequence alignment, structural alignment); Proteinstrukturvorhersage

Probleme der Datenhaltung: Fragestellungen der Speicherung, Wiedergewinnung und Analyse der Daten.

Beispiele: Aufbau von biologischen Datenbanken; data mining (Gewinnung neuen Wissens aus der Ansammlung der Daten)

Simulation biologischer Systeme: Vorhersage des dynamischen Verhaltens eines biologischen Systems auf der Basis seiner Komponenten.

Beispiel: Untersuchung metabolischer Netzwerke.

Rolf Backofen (Institut für Informatik, LMU München)

aus Hofestädt & Schnee (2002)

Page 14: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Allgemeine Literatur:

Page 15: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Allgemeine Literatur:1) Hofestädt, R., Schnee, R. (2002): Studien- und Forschungsführer

Bioinformatik. Spektrum-Verlag. 234 S.2) Rashidi, H., Bühler, L.K. (2001): Grundriss der Bioinformatik.

Spektrum-Verlag. 215 S.3) Hansen, A. (2001): Bioinformatik. Ein Leitfaden für

Naturwissenschaftler. Birkhäuser-Verlag. 112 S.4) Waterman, M.S. (1995): Introduction to Computational Biology.

Maps, sequences and genomes. Chapman & Hall, London. 431 S.5) Mount, D.W. (2001): Bioinformatics. Sequence and Genome

Analysis. Cold Spring Harbor Laboratory Press. 564 S.

Page 16: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T1: Erstellung einfacher genetisch-metabolischer Regelungsnetzwerke mit Hilfe

der java-basierten Modellierplattform GroIMP • Stark vereinfachtes Netzwerkmodell des Metabolismus einer Zelle von E.coli. • Ein Teilaspekt des Stoffwechsels (z.B. Atmung, N-Fixierung) wird modelliert, Umfang des Modells: 10-15 Komponenten• Komponentenklassen: Gene, kodierte Peptide, Enzyme, Reaktionen (Metabolite).• Regelungsnetzwerke anzufertigen und zu visualisieren in der Modellierumgebung GroIMP: Growth grammar related Interactive Modelling Platform; Formalisierung als Relational Growth Grammars (erweiterte L-Systeme: Kniemeyer, Buck-Sorlin, und Kurth 2003) . • GroIMP: arbeitet mit RGGs: java-basierte Modelliersprache, daher formal sehr ähnlich zu Java. Einbettung von Java-Klassen in den XL-Code erlaubt. Support: Ole Kniemeyer

Page 17: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T1: Regelungsnetzwerke mit GroIMP Beispiel: ABC-Modell der Blüten-Morphogenese

(Portierung eines in "transsys" implementierten Modells von Jan T. Kim (2001) nach XL)

XL erlaubt:

• die Modellierung der (Konzentrations-) Dynamik eines Genregulationsnetzwerkesf:Factor(c, d) ::> {f.concentration +:= -c * d;};

f:Factor <+ g:Gene(ct) ::> {f.concentration +:= Math.max(0, sum((* Factor(c2,) Activate(s,m) g *), m * c2 / (s + c2)) + ct);};

m:Meristem (* -factors-> Factor(a,) Factor(b,) Factor(c,) *) ==> ShootPiece((b > 80) ? ((c > a) ? STAMEN : PETAL) : (a > 80) ? ((c > 80) ? SHOOT : SEPAL) : (c > 80) ? CARPEL : PEDICEL) m;

ShootPiece(type) ==> ... graphical representation ...;

• die Modellierung der Genexpression und

Page 18: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T1: Regelungsnetzwerke mit GroIMP Beispiel: ABC-Modell der Blüten-Morphogenese

zugrundegelegtes Netzwerk (nach Kim 2001):

resultierende Konzentrationsdynamik:

Page 19: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T2: Morphologisches Modell der sich entwickelnden Raps-Pflanze

• Modellierung der Morphologie der Raps-Pflanze mittels relationaler Wachstumsgrammatiken unter GroIMP, Verknüpfung biometrischer Parameter mit genetischer Information, Modellierung von Dominanz und Rezessivität. • Grundlage: parametrische RGGs• Vorgaben: Fotos und einige biometrische Messungen/Erfassungen (Organgrössen, Winkel, ...)• Abschätzen der anderen Parameter bzw. aus der Literatur• Individuenmodell, Auflösung: Organebene (Blatt, Spross, Wurzel)• Einbau genetischer Modellparameter aus der Literatur• Visualisierung mit GroIMP

Page 20: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T2: Beispiel

Entwicklungsstudie Raps, durchgeführt mit cpfg/L-Studio

Page 21: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T3: 3D-Visualisierungs-/Animationstool für zellbiologische Anwendungen

• Schaffung ein Visualisierungstool für die Anwendung in der Zellbiologie auf der Basis von Java3D zum interaktiven Erstellen von deskriptiven Graphiken und Animationen• Eignung für die Erklärung von Methoden und Hypothesen v.a. im zellbiologischen Bereich im Rahmen von Präsentationen. • Erwünschte Eigenschaften:

• Interaktives Modellfenster, in dem das Modell in 2D und eventuell in 3D darstellbar (und – falls 3D - möglichst drehbar) ist. • Eine Toolbox mit einem baumartig strukturierten Katalog von vorgefertigten biologischen Grundobjekten (Bsp.: ‚Pilz’ ‚Spore’, ‚Hyphe’, ‚Haustorium’; oder ‚Zelle’ ‚Zellkern’, ‚Golgi-Apparat’, ‚ER’, etc.). • Möglichkeit, Grundobjekte zu editieren (Farbe etc.) sowie Tool-Elemente vor einen importierten Hintergrund („Szene") zu stellen.

Page 22: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T3: 3D-Visualisierungs-/Animationstool für zellbiologische Anwendungen

• Optionale Eigenschaften:• Interaktive Erstellung (und Import in die Toolbox) weiterer Grundobjekte• Drehbuch für Animationen• Import von Pixelgrafiken in die Szene, Möglichkeit der Verknüpfung mit dem Modell• Ausgabeschnittstelle für gängige Animationsformate

• Objektkatalog baumförmig (hierarchisch)• Anwendungsbeispiel:

• Wirt-Parasiten-System Gersten-Mehltau (Blumeria graminis hordei - Bgh) – Gerstenblattoberfläche (Hordeum vulgare)• Visualisiert werden soll der Entwicklungszyklus der Konidien (asexuellen Sporen) von Blumeria graminis hordei.

Page 23: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Blumeria graminis

...eine wichtige Getreide-krankheit.

anamorph

teleomorph

Page 24: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

24 h nach Inokulation

Page 25: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

72 h nach Inokulation

Page 26: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

anamorph

teleomorph

Schema eines frühen Entwicklungsstadiums:

Haustorium

Epidermiszelle

Mesophyllzelle

Konidie

Hyphe

Page 27: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T4: Visualisierung von Proteinstrukturen

• Visualisierung von Proteinstrukturen aus einer Proteinstruktur- Datenbank mittels GroIMP.• Eingabeformat: PDB (Protein Data Bank, http://www.rcsb.org/pdb/): Gibt Topologie und Geometrie (u.a.) aller beteiligten Atome vor.• Direkte Visualisierung in GroIMP durch Interpretation der vor- gegebenen Strukturinformation.• Ausgabe: interaktives Makromolekülmodell als 'C-Backbone', Cartoon, Kalottenmodell oder "Ball and Stick".

Page 28: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T4: Beispiel PDB-Format

........

........

........

........

Page 29: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T4: Beispiele für graphische Ausgaben

backbone(Kohlenstoff-skelett)

stick

cartoon

Kalotten-modell

Page 30: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Projekt T5: Übersetzung von Root Typ in eine Relationale Wachstumsgrammatik

• Wurzelarchitekturmodell RootTyp: (Loic Pagès, INRA Avignon,

Frankreich). Simuliert das Wachstum und die Verzweigung von Wurzeln verschiedener botanischer Arten (Getreide, Unkräuter...) unter Berücksichtigung eines eindimensionalen Bodenprofils. • Simulierte Prozesse: Wurzelbildung, axiales und radiales (Dicken)Wachstum, sequentielle Verzweigung, Reiteration, Übergang, Verfaulen und Abwurf.• Aufgabe:

• Übersetzung des Programms von C in ein durch GroIMP darstellbares kompaktes RGG-Regelsystem mit entsprechender Visualisierung

Page 31: Lehrveranstaltung Sommersemester 2004 Datenanalyse und Visualisierung in der Bioinformatik W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer (Praktikum, 1 SWS Präsenzveranstaltung

Graphische Ausgabe des Modells RootTyp:links Original (Zeichnung), rechts Simulation