44
Sommersemester 2012 Dr. Toralf Kirsten, Anika Groß http://dbs.uni-leipzig.de Universität Leipzig Institut für Informatik Datenbanken in der Bioinformatik Kapitel 3 Sequenzierung und Genexpressionsanalyse

Datenbanken in der Bioinformatik - dbs.uni-leipzig.dedbs.uni-leipzig.de/file/biodb-kap-03-part2_new.pdf · Sommersemester 2012 Dr. Toralf Kirsten, Anika Groß Vorlesung Biodatenbanken

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Sommersemester 2012

Dr. Toralf Kirsten, Anika Großhttp://dbs.uni-leipzig.de

Universität LeipzigInstitut für Informatik

Datenbanken in der Bioinformatik

Kapitel 3

Sequenzierung und Genexpressionsanalyse

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Vorläufiges Inhaltsverzeichnis

1. Grundlagen

2. Klassifizierung von BioDB, Überblick

3. Sequenzierung und Genexpressionsanalyse

4. Datenmodelle und Anfragesprachen

5. Modellierungsalternativen

6. Versionierung von Datenbeständen

7. Annotationen

8. Datenintegration: Ansätze und Systeme

9. Datenmanagement in der Cloud

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Genexpression

� Was ist Genexpression?� Aktivierung der

Gentranskription durch endogene, exogene Einflüsse

� Ausbildung der einem Gen inhärenten Eigenschaften

� Ziel der Genexpressionsanalyse� Charakterisierung der

Funktion von Genen, deren Interdependenzen, Interaktionen und Einfluss in verschiedenen Netzwerken (metabolische N., regulatorische N. etc.)

� Annahme: Genexpression korreliert mit Proteinsynthese

Messung der Genexpression

� Messung der mRNA Konzentration in Zellen unter verschiedenen Bedingungen

� Gesundes vs. krankes Gewebe

� Verschiedene Zell-/Gewebetypen

� Entwicklungsstadium: Embryo, Kind, Erwachsener …

� Umwelt: Einfluss von Hitze, Ernährung, Therapie …

� Subtypen einer Krankheit (z.B. teilweise Chemotherapieresistenz)

� Suche nach Genen mit gleicher Expression (Koexpression, →) bzw. differenzieller Expression (↑, ↓)

� Co-Regulation

� Ähnliches Genmuster → ähnliche Funktion?

� Ähnliches Genmuster → ähnliche Regulation?

� Techniken: Northern Blotting, SAGE, Microarray ...Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Von der objekt- zur genomweiten Messung

� "Gene expression profiling"� Idee: Messung der Aktivität von Genen /

Transkripten unter verschiedenen Bedingungen � Chip-Plattformen: Gen ~, Exon ~, Tiling arrays, ...

� "Mutation profiling"� Idee: Messung der genetischen Variabilität der Genomsequenz� Chip-Plattformen: Matrix-CGH ~, SNP arrays, …

� "Sequence profiling"� Idee: Sequenzierung des Genomes eines

Probanden� Chip-Plattformen: Roche 454, Illumina Solexa, ...

Affymetrix gene expression microarray

Bildquelle: http://www.affymetrix.com

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Microarrays

� Parallele Analyse von mehreren tausend Einzelnachweisen/Genen� Nur geringe Menge an biologischen Probenmaterial nötig� Auch Gen-/Biochip genannt (ähnlich Computerchip)� cDNA Arrays, Oligo Arrays

� Einzelstränge� Unterscheidung nach Sequenzart, Sequenzlänge

� Sonden werden an definierten Positionen eines Rasters z.B. auf einem Glasträger aufgebracht werden

� Hersteller: Affymetrix, Agilent, Rosetta Inpharmics etc.

Verteilung von Extrakten ausUntersuchungsgewebe und

Kontrolle auf einem oder mehreren Chips

Bildquellen: � http.//www.affymetrics.com

Oligonucleotide Microarrays,

einfarbig

DNA Microarrays,

zweifarbig

A C T A T CG

1 25

T A G T CG G CA T A C GTG C T A

A C T A T CG

1 25

T A G A CG G CA T A C GTG C T A

PM

MM

komplementäre Mittelbaseprobe probe pairprobe set

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Affymetrix GeneChip Technologie

� Verschiedene Hersteller und Chiptypen

� Abbildung unterschiedlicher Spezies, Transkriptregionen

� Terminologie:

� Hybridisierungsprozess (stark vereinfacht)

Bildquelle: Affymetrix, http://www.affymetrix.com

1) 2) 3)

„Roh“-Chip Bindungsprozess „hybridisierter“ Chip

Hybridisierungsprozess

� Hybridisierung ist der Prozess zwei komplementäre DNA-oder RNA-Einzelstränge zu einem Doppelstrangzusammenzuführen/ zu vereinigen.

1)500000 Zellen (Bereiche) auf jedem Gen-Chip-Array

Millionen von DNA Strängen in jeder Zelle – Redundanz!!!

Eigentlicher Strang ca. 25bp

2) RNA Fragmente mit fluoreszenz-markierten Tags aus dem zu testenden Sample � RNA Fragment hybridisiert mit DNA auf Gen-Chip

3)Bestrahlung des Gen-Chip durch Laser→ hybridisierte, fluoreszenz-markierte DNA-Fragmentebeginnen zu leuchten

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Ablauf

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

RNA-Hybridisierung

Auswaschen des Chips

Scannen

TIFF-Bild

Bilderkennung

Rohdaten

Analyse

Vorlesung Ulf Leser, Philip Thomas: Analysis of gene expression data

Sample Vorbereitung, Labeling

Sample-cDNA/RNA hybridisiert mit Probe-cDNA

Entfernen nicht gebundener Sample-cDNA/RNA

Scannen des Arrays mittels Laserstrahl

Erkennung der Lichtintensitäten und

Bildeinteilung/-segmentation

Normalisierung und Datenanalyse

gelabelte Targets → „Zu untersuchendes Material“Reporter,Auf Chip

fixiert

SampleProbe

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Expressionsexperiment und -analyse

sample

(5)Image Analysis

(4) Array Scan

(1) Cell Selection

(2) RNA/DNA Preparation

(3) Hybridizationchip

array spot intensities

array image

labeling(6)Preprocessing

spot intensities forexperiment series

gene expression matrix

(7) Expression Analysis/Data mining

mRNA

x

y

x

y

DNA-Microarrays

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

KontrolleStress

Gelb (Grün&Rot)

→Exprimiert in Kontrolle und Stress

Quelle: Dion Whitehead, Division of Bioinformatics,Westfälische WilhelmsUniversität Münster,http://dionamago.net/content/courses/2006.06.12.BioinformatikII.Microarrays.Improved.GERMAN.pdf

� Zugabe von rot (Cy5) und grün (Cy3) markierten (Fluoreszenzfarbstoff) Untersuchungsproben (sample)

� Binden bei komplementärer Basenabfolge an die DNA im Chip

� Kontrolle versus „Stress“ (z.B. gesundes versus krankes Gewebe)

DNA-Microarrays

� rot:grün-Verhältnis entspricht der „relativen Expression“

� Beispiel: der Wert 2,5 von Gen G bedeutet, dass dessen Expression im untersuchten „Stress“-Fall 2,5 mal höher ist als unter normalen Bedingungen

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Quelle: Dion Whitehead, Division of Bioinformatics,Westfälische WilhelmsUniversität Münster,http://dionamago.net/content/courses/2006.06.12.BioinformatikII.Microarrays.Improved.GERMAN.pdf

Analyse und Visualisierung

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Quelle: Dion Whitehead, Division of Bioinformatics,Westfälische Wilhelms-Universität Münster,http://dionamago.net/content/courses/2006.06.12.BioinformatikII.Microarrays.Improved.GERMAN.pdf

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Genexpressionsanalyse: Rohdatentransformation

� Ziel: Generierung von Expressionswerten per Gen auf Basis bereinigter, normalisierter Messwerte von Probenintensitäten

� Grundannahme: Mehrheit der Gene ist nicht differentiell exprimiert

� Kein Standard für Datentransformationsschritte (z.B. verschiedene Normalisierungsverfahren)→ Speicherung der Rohdaten notwendig

Messfehler

� Systematische Fehlerkomponente� Temperatureinfluss, falsch geeichte Messinstrumente, …

� Zufällige Fehlerkomponente� Nicht beherrschbare Einflüsse aus der Umgebung, uneinheitliche

Ablesung von einer Skala (Winkel) …

� Abschätzung aus genügend großer Anzahl von Einzelmesswerten (Wiederholung der Messung, Messreihen)

� Additiver Fehler

� Konstant-systematische Messfehler: Offset

� Hintergrundbereiningung (Background subtraction): Bereinigung der Probenintensität um messtechnisches Signallevel

� Multiplikativer Fehler

� Ansteigend/abfallende Messfehler: Trend (bias), Drift

� Normalisierung: Ausgleich von Niveauunterschieden zwischen Daten verschiedener Experimente

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Normalisierung von Microarray-Daten

� Ein ideales Experiment bräuchte keine Normalisierung

� Normalisierung von Microarray-Daten innerhalb eines Arrays zur Kontrolle eines systematischen Bias

� Trend, Messung hat „Schlagseite“

� Fehlerquellen: Neigung/Winkel bei der Bildaufnahme (Laser), Farbstoffe fluoreszieren unterschiedlich stark, unterschiedliche Intensität bei ungleichmäßiger Array-Beschichtung, Hybridisierungseffizienz, …

� Messwerte zwischen zwei Experimenten sind nicht direkt vergleichbar

� Einfluss systematischer Fehler verringern

� Minimieren der Variationen → Finden der tatsächlichen biologischen Unterschiede

� Ist Normalisierung notwendig?

� Einfache Möglichkeit: Grün gegen rot plotten → Anstieg sollte 1 sein

� MA-Plot

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

M/A Plot

� Qualitätskontrolle - gibt es einen Bias?

� M (y-Achse) geplottet gegen A (x-Achse)

� R= Rot-Intensität, G=Grün-Intensität

� � = �����

� Unterschied/Differenz zwischen log-Intensitäten

� = �

����� � + ���� �

� Durchschnittsintensität eines Punktes im Plot

� Meist keine Änderung: � = log 1 = 0

� Viele Werte nahe 0 (y-Achse)

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

M/A Plot

http://www.mathworks.com/help/toolbox/bioinfo/ref/function_mainvarsetnorm_plot2.gif

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

M/A Plot

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

M/A plot to visualize differentially expressed genes

possible differentially expressed genes

Normalisierung *

� Annahme: mRNA-Konzentration ist in jeder Zelle gleich

� Messung der Gesamt-mRNA Menge

� Dividiere Intensitäten durch diesen Wert

� Annahme: ähnliche Expression von Referenzgenen über alle Gewebe

� Auswahl der „Housekeeping“ Gene

� Dividiere Intensitäten durch diesen Wert

� Nicht lineare Methoden

� LOWESS (LOESS, locally weighted scatterplot smoothing): lokale, gewichtete, polynomielle Regression

� Quantil-Normalisierung

� …

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

* Vorlesung Ulf Leser, Philip Thomas: Analysis of gene expression data

Quantil-Normalisierung

Erinnerung/Grundlage

� Quantile� zur Einteilung der Verteilung

aller Werte in gleich große Abschnitte

� Beispiele� Terzil: unteres, mittleres und

oberes Drittel

� Quartil: jeweils �

�der Werte in

einem Bereich

� Median: 50% aller Werte liegen rechts bzw. links vom Median

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Bild

aus

Vor

lesu

ng U

lf Le

ser,

Phi

lip T

hom

as: A

naly

sis

ofge

neex

pres

sion

data

Quantil-Normalisierung*

� Annahme: die Verteilung der Genexpression ist bei allen Experimentwiederholungen ungefähr gleich

� Ziel: gleiche empirische Verteilung in jedem (zu vergleichenden) Array

� Meist besser als lineare Methoden

1) Matrix X: p x n� jedes Array ist eine Spalte

� jedes Transkript / Gen ist eine Zeile

2) Sortiere jede Spalte von X separat → Xsort

3) Weise jedem Feld in einer Zeile den jeweiligen arithmetischen Mittelwert der Zeile zu (X‘sort)

4) Bestimme Xn durch Reorganisieren der Spalten von X‘sort

um die gleiche Sortierung wie im Inputvektor zu erhalten

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

* Folien zu Quantil-Normalisierung aus Vorlesung Ulf Leser, Philip Thomas: Analysis of gene expression data

Quantil-Normalisierung

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Quantil-Normalisierung

Jeder normalisierte Wert liegt in dem Vektor aus Mittelwerten im

selben Quantil wie der ursprüngliche (nicht normalisierte) Wert.

Quantil-Normalisierung

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Genexpressionsanalyse und Visualisierung

� Integrierte Berichte, parametrisierte Abfragen� weit verbreitete Anwendung zur oberflächlichen

Datensichtung (Überblick, Filterung)� Großes Spektrum an statistischen Verfahren und

Data Mining Ansätzen� Hauptkomponenten~, Korrespondenzanalyse� Clustering, Klassifikation

� Visualisierung� Tabellen, Genexpressionsmatrix� Dendrogramm, Heatmaps� Kombination mit Pathways

� Analyseintegration� Dateibasierter Datenaustausch� API basierter DB-Zugriff� DB-Integration (UDF, SP)

� Suche nach Genen, welche signifikante Unterschiede in ihrer Expression aufweisen

� Vergleiche die Werte eines Gens in zwei verschiedenen Gruppen (z.B. krankes vs. gesundes Gewebe, zwei verschiedene Organismen, …)

� Fold change, T-test …

� Finde „Ausreißer“,welche nach Normalisierung (Ausschließen zufälliger und systematischer Fehler)noch vorhanden sind

Differentielle Expression

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Sample 1

Sam

ple

2

Klassifikation und Clustering

� Welche (Sub)gruppen von Genen repräsentieren ein biologisches Phänomen?

� Sind sie z.B. co-reguliert / co-exprimiert?

� Überwachtes Lernen� Zur Klassifikation

� SVM (support vector machine)

� Bayes Klassifikator

� KNN (K-Nearest-Neighbor)

� …

� Unüberwachtes Lernen� Zum Clustern

� SOM (self-organizing map)

� K-means

� Hierarchisches Clustern

� Entscheidungsbäume

� …Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Ramaswamy, Golub: DNA Microarrays in Clinical Oncology, 2002

Beispiel: Hierarchisches Clustern

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

� Nutze z.B. euklidische Distanz

� Berechne alle paarweisen Distanzen (Ähnlichkeitsmatrix)

� Bottom-up, agglomerativ

� jedes Gen ist zunächst ein eigenes Cluster

� schrittweises Zusammenfassen der Gene/Cluster mit kürzestem Abstand

� Top-Down, divisiv

� Zunächst sind alle Gene in einem Cluster

� In jedem Schritt wird Cluster gesplitted

� Ergebnis z.B. Dendrogram, Baum

Bildquelle: Hongbo Wang, MD et al.: Distinctive proliferative phase differences in gene expression in human myometrium and leiomyomata, 2003

http://ars.els-cdn.com/content/image/1-s2.0-S0015028203007301-gr2.jpg

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Visualisierung der GE in einem Pathway

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Integration im Kontext molekular-genetischer Experimente

� Viele verschiedene Datenquellen � Großes und schnell wachsendes Datenvolumen an

experimentellen Daten (Hochdurchsatzdaten) � Verschiedene Hersteller von Chip-Plattformen mit

verschiedenen Chip-Typen� Breites Spektrum an Analysemethoden (wenig

Standardroutinen) → Datenexploration� Experiment-Annotationen (Metadaten zu Experimenten)� Klinische Daten� Private vs. öffentliche Datenquellen

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Plattformen zur Analyse von HT-Daten

� Diverse Plattformen zur Genexpressionsanalyse: ArrayExpress (EBI), Gene Expression Omnibus (NCBI), Stanford Microarray Database, ...

� caBIG: Rembrandt� Verschiedene HT-Daten: Genexpression, CGH, SNP, Proteine,

Bilddaten, etc.

� Toolset zur Datenanalyse

� Probleme (2003)*� Experiment-Annotation: Meist Textfelder, verbale Beschreibung

� Einmalige spezifische Integration von externen Daten

� Lose oder keine Analyseintegration

*Do, H-H; Kirsten, T; Rahm, E: Comparative evaluation of Microarray-based databases.

Proc. 10th Conf. on Database Systems for Business, Technology and Web (BTW), 2003

Microarray Datenbanken - Beispiele

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Unterscheidungsmerkmale von GE-DB

� Speicherung verschiedener Daten zur Genexpressionsanalyse

� Integration und Management beschreibender Daten (Annotationsdaten)

� Management und Transformation von Expressionsdaten

� Integration/Kopplung von Methoden und Verfahren zur Genexpressionsanalyse

Weiterführende Information: H.H. Do, T. Kirsten, E. Rahm: Comparative Evaluation of Microarray-based Gene Expression Databases. Proc. BTW Conf. 2003

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Datenformat und -modellierung

� Rohdaten

� Binärdateien (Bilder) + numerische Daten

� Herstellerspezifische Formate: CEL-Dateien bei Affymetrix

� Speicherung meist im Dateisystem

� Seltene Re-prozessierung → Archivierung

� Expressionsdaten

� Speicherung in RDBMS

� Eignung der multidimensionalen Modellierung

� Aber vielfach: Expressionsmatrix im Dateisystem

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Multidimensionales Datenmanagement

� Dimensionen vs. Fakten� Skalierbarkeit und Erweiterbarkeit

� Hinzufügen neuer Chip-Typen, Gene, Analysemethoden und assoziierter Fakten ohne Schemaänderungen

� Hinzufügen neuer Dimensionen und Fakten� Multidimensionale Analyse

� Einfache Selektion, Aggregation und Vergleich von Werten� Basis für anspruchsvolle Analysemethoden

� Fokussierte Selektion und Erstellung von Matrizen

Analysemethode � Analyse

Gen � Gengruppe

Studie � Experiment � Treatment � Replikat � Sample

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Integration klinischer Daten

� Studienmanagmentsystem zur einheitlichen Erfassung der klinischen Daten(Metadaten + Instanzdaten)

� Anforderungen

� Datenintegration: Patient-bezogene Daten + Chipbasierte genetische Daten

� Privacy Aspekte:Keine „eine Person identifizierende Daten“

� Nutzung existierender Software für Datenmanagement und Analyse

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Klinische Daten: Inter-organisationale Workflows

Gemeinsame Datenakquisition und Analyse

Studiendesign / Spezifikation /Auswahl von Patienten, die vor-definifierten Einschlußkriteriengenügen

Patienten bezogene Daten

Data

Chip-basierte genetische Daten

Genomeweite Chip-basierte genetische Analyse

• Mutation profiling (Matrix-CGH)• Expression profiling (Microarray)

Wiederkehrende Doktor-/Spital-Besuche

• Operationen• Untersuchungen

Klinische Befunde

Genomlokationsspezifische genetische Analyse

• Mutation profiling (Bänderungsanalyse, FISH)Lokationsspez. genetische Befunde

Gewebe-extraktion Pathologische Analyse

• Mikroskopie• Antibody-Tests

Pathologische Befunde

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Architektur zur Integration klinischer Daten*

Chip-based genetic Data

Gene expression data

Matrix-CGH data

Lab annotation data

Chip Id

ClinicalCenters

PathologicalCenters

Clinical findings

Location specific genetic findings

Pathologicalfindings

GeneticsCenters

Patient-related Findings

Public Gene/Clone Annotations

GO Ensembl NetAffx…

Management of Chip-related Data

(GeWare)•Data analysis & reports •Data export

Data Warehouse

Management of Clinical Studies

(eResearch Network)

StudyRepository

•Administration•Simple reports•Data export

Validationby data checks

commonPatient ID

Mapping table

Patient IDs �������� Chip IDs

periodic

transfer

*Kirsten, T; Lange, J; Rahm, E : An integrated platform for analyzing molecular-biological data within clinical studies.

Proc. EDBT Workshop on Information Integration in Healthcare Application, March 2006

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Voraussetzung: Schema-Mapping

Definition of the relevant parameter subset

Initiation of a clinical trial &specification of the study design, e.g. parameter definition

Step 1

Step 2b

Step 2a

Preparation of the study management software eRN

Step 3

Template definition within GeWare according to the defined parameters and without database schema modifications

Matching both schemas results in a schema mapping

Step 4

periodic transferStep 5

Step 6

Storing patient related anno-tation data within GeWare according to the defined template (Step 3)

Querying annotationdata and save resultsin treatment groupswhich can be utilized in the later analysis

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Genexpressionsanalyse

� Visualisierung von Genexpressionsdaten unter Nutzung klinischer Daten

Heatmap für selektierteGenexpressionsdaten

Ch

ip 1

Ch

ip 2

Ch

ip 3

Ch

ip 4

Ch

ip 5

Ch

ip 6

Ch

ip 7

Ch

ip 8

Ch

ip 9

Ch

ip 1

0

Ch

ip 1

1

Ch

ip 1

2

Ch

ip 1

3

Ch

ip 1

4

Ch

ip 1

5

Ch

ip 1

6

Ch

ip 1

7

Ch

ip 1

8

Ch

ip 1

9

Ch

ip 2

0

Ch

ip 2

1

Ch

ip 2

2

Ch

ip 2

3

Ch

ip 2

4

Ch

ip 2

5

Chip/Patient Dendrogram

Gen

e de

ndro

gram

Chips/Patienten

Genes

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Datencharakteristika

Datenart Quelle Typ Charakteristik Nutzung

Bilddaten Scan binär Sehr großes Datenvolumen, Dateien

Generierung von Expressions-, Muta-tions- und Sequenz-daten

Expressions-/ Mutationsdaten

Bildverar-beitung

numerisch schnell wachsendes und großes Daten-volumen; aber kleiner als Bilddaten

Visualisierung, statistische und genetische Analyse,Data MiningSequenzdaten Text

Experiment-Annotation

Eingabe durch Benutzer

gemischt:Text, numerisch, ...

oftmals Freitext,Umfang + Inhalt variiert je nach Experimenttyp

Dokumentation, Selektion,Interpretation

Klinische Daten Studien-management-system

gemischt:Text, numerisch, ...

Umfang + Inhalt variiert je nach Studie

Selektion,Interpretation

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Zusammenfassung: Genexpressionsanalyse

� Microarray

� populäre Technik zur Genexpressionsanalyse

� Generierung eines enormen Datenvolumens

� Datenbanken zur Unterstützung der Genexpressionsanalyse

� fehlende / unzureichende Integration von Experiment & Sample-, Genannotation

� ungenügende Analyseintegration, meist beschränkt auf eine Analysesoftware / parametrisierte Abfragen

Sommersemester 2012Dr. Toralf Kirsten, Anika Groß

Vorlesung BiodatenbankenUniversität Leipzig

Noch Fragen?