Bioinformatik Ringvorlesung SS2005 - UMG · Die Medianzentrierung ist eine globale Methode: Es...

Dienstag21. April 20099:15

UMG Georg-August-Universität GöttingenAbt. Medizinische Statistik - Biostatistik

Bioinformatik/System Biologie Sommersemester 2009

Prof. Dr. Tim Beißbarth

Tim Beißbarth Bioinformatik

Übersicht

Di 14.4.: Vorbesprechung - Microarrays und statistische Datenanalyse

Di 21.4.: Normalisierung/Differentielle Genanalyse

Di 28.4.: Clustern/Klassifikation

Di 8.5.: Gene-Ontologies

Di 19.5.: Bayes-Netze

Online

Vorlesungsslides und R-Skripte: http://www.ams.med.uni-goettingen.de/biostatistics/Sysbio09

Lectures Terry Speed, Berkeley: http://www.stat.berkeley.edu/users/terry/Classes/

Kurs NGFN „Practical DNA Microarray Analysis”: http://compdiag.molgen.mpg.de/lectures.shtml

R/Bioconductor Dokumentation (Vignetten): http://www.bioconductor.org

R Tutorial von Günther Sawitzki http://statlab.uni-hd.de/users/gs

Google, Pubmed, Wikipedia

GeneChip Affymetrix

cDNA microarray

Nylon membrane

Agilent: Long oligo Ink Jet

IlluminaBead Array

VerschiedeneTechnologien

Normal Krank

isoliere mRNA

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

Schneide bei

Extrahiere tags(14-21bp)

Konkatenieretags

Ditag Ditag

NlaIII

Tag 1 Tag 2 Tag 3 Tag 5 NlaIIIDitag

NlaIII

Tag 4 Tag 6

Sequenziere

Normal Krank

Quantifiziere tags

cDNA und Affimetrix (kurze, 25 bp) Oligo Technologien.Lange Oligos (60-75 bp) werden so ähnlich wie cDNA benutzt.

Microarray Hybridisierung

Gewebe 1 total RNA 1 Gewebe 2total RNA 2

reversen Strang synthetisieren,labeln, mischen

Hybridisierung

cDNA “A”Cy5 gelabelt

cDNA “B”Cy3 gelabelt

TARGET

Definition von probe and target

Microarrays Geschichte

Basiert auf Southern BIot Technologie (Edward Southern, 1975, J. Mol. Biol.)

1990: erste high-density Nylonfilter Arrays (Lennon/Lehrach, 1991, Trends Genet., Review)

1995: cDNA-Microarrays beschrieben von Schena et al, Science

1996: Affymetrix Genechip Technologie beschrieben von Lockhart et al, Nat. Biotechnol.

PCR Produkt Amplifikationpurification

cDNA Klone(probes)

printing

Microarray

0.1nl/spot

Hybridisiere Target mit Microarray

mRNA target)

excitation

laser 1laser 2

Emission

scanning

Analyse

Bilder überlagern

cDNA arrayszusammengefasst

Zwei verschiedene Aspekte von Array Design

Design des Arrays Allokierung der mRNA Samples zu den Slides

Arrayed Library(96 oder 384-well plates)

cDNAcDNA “A”Cy5 gelabelt

cDNA “B”Cy3 gelabelt

Hybridisierung

Spotte Microarrayauf Glas Slides

Biologische Verifikation und Interpretation

Microarray Experiment

Experimentelles Design

Bildanalyse

Normalisierung

Biologische Fragestellung

TestenAuswerten KlassifizierungAnalyse

Clustern

Experimenteller Zyklus

Qualitäts-Sicherung

fehlgeschlagen

In Ordnung

Vorverarbeitung

Gen-expressions Daten

mRNA Samples

gene-expressions level or ratio für Gen i in mRNA Sample j

M =Log2 (rote Intensität / Grüne Intensität)

Vergleich jeweils zweier Bedingungen.

sample1 sample2 sample3 sample4 sample5 …1 0.46 0.30 0.80 1.51 0.90 ...2 -0.10 0.49 0.24 0.06 0.46 ...3 0.15 0.74 0.04 0.10 0.20 ...4 -0.45 -1.03 -0.79 -0.56 -0.32 ...5 -0.06 1.06 1.35 1.09 -1.09 ...

Gen-expressions Daten für G Gene und n Hybridisierungen. Gene x arrays Daten-matrix:

A =mittel: log2 (rote Intensity), log2 (Grüne Intensität)

Function (PM, MM) von MAS oder RMA

Der Scatterplot

Aus Vorlesung von Rainer König vom Vorjahr

Daten Daten, logarithmisch

MA Plot

A = 1/2 log2 (RG)

Vulcano Plot (B=Maß für die Reproduzierbarkeit, mehr dazu nächstes Mal)

Rotierter Scatter Plot

M = log R/G = logR - logG A = ( logR + logG) /2

Positive Kontrollen(in verschiedenen Konzentrationen gespottet)Negative

Kontrollen

Leere Spots

Lowess Kurve

Quellen der Variabilität: Bias und Varianz

“biased” “unbiased”

Schwaches Rauschen

Starkes Rauschen

Quellen der Variabilität bei Microarray-Messungen

RNA-Menge in der ProbeRNA-Menge in der Probe

Streu-/HintergrundsignalStreu-/Hintergrundsignal

Spot Größe/-Form

Hybridisierungseffizienz und -Spezifität

Amplifikationseffizienz

Bindung der DNA an die Chipoberfläche

Spotting Effizienz

DNA Qualität RNA Degradation

Bindung der DNA an die ChipoberflächeSpot Größe/-Form

Hybridisierungseffizienz und -Spezifität

Spotting EffizienzAmplifikationseffizienz

RNA DegradationDNA QualitätStreu-/Hintergrundsignal

GewebskontaminationGewebskontaminationEffizienz der RNA Extraktion, Reversen Transkription, LabelingEffizienz der RNA Extraktion, Reversen Transkription, Labeling

• Ähnliche Effekte auf viele Messpunkte

• Korrektur kann aus den Daten geschätzt werden

Systematisch Stochastisch• Einzeleffekte• Zufallseffekte können

nicht geschätzt werden, “Rauschen”

Normalisierung FehlermodellBeseitigung

von BiasQuantifizierung

des Fehlers

• Ähnliche Effekte auf viele Messpunkte

• Korrektur kann aus den Daten geschätzt werden

Systematisch Stochastisch• Einzeleffekte• Zufallseffekte können

nicht geschätzt werden, “Rauschen”

Array 2Cy3 Cy5Array 1

Cy3 Cy5

median

Q3=75% Quantil

Q1=25% Quantil

Minimum

Maximum

Medianzentrierung

Eine der einfachsten Strategien besteht darin, die „Zentren“ und die „Streuung“ aller Arraydaten auf das gleiche Niveau zu bringen, da man annimmt, dass diese bei allen Microarrays in Wirklichkeit in etwa gleich sind. Als robustes Maß für das Zentrum eines Datensatzes wird gerne der Median verwendet. Als Maß für die Streuung kann z.B. die Standardabweichung verwendet werden. Hieraus ergibt sich folgende Normalisierungsvorschrift (Medianzentrierung):

Ziehe von allen Expressionswerten eines Arrays den Median seiner Expressionswerte ab und teile sie durch deren Standardabweichung

Probleme bei der Medianzentrierung

Log Grün

Scatterplot der log-Signale nach Medianzentrierung

A = (Log Grün + Log Rot) / 2

M-A Plot der gleichen Daten

Die Medianzentrierung ist eine globale Methode: Es werden pro Array nur zwei Parameter (der Median und die Std.Abw.) aus den Daten geschätzt und zur Adjustierung benutzt. Oft gibt es jedoch intensitätsabhängige Effekte:

QuantilnormalisierungDie Grundidee der Quantilnormalisierung ist bestechend einfach:

„Die Histogramme aller Microarrays sehen gleich aus“

Dies ist eine Verschärfung der Hypothese, die der Medianzentrierung zu Grunde lag. Nicht nur das 50%-Quantil=der Median soll in allen Arrays (in etwa) gleich sein, sondern alle

Quantile.

Der Algorithmus lautet:• Ordne die Gene eines jeden Arrays der Größe

• Sei Mn

der Mittelwert der Gene mit der n-t höchsten Expression. Ersetze den Messwert dieser Gene jeweils durch Mn

• Verfahre so für alle Positionen n.

Boxplot nach Quantilnormali-

sierung

•Nachteil der Quantilnormalisierung: In einzelnen Arrays differentiell exprimierte Gene am unteren und am oberen Ende der Messskala werden nivelliert.

Sample A Sample B Sample C

Gen 1 100 200 180

Gen 2 10 40 280

Gen 3 100 120 80

Prinzip der Quantilnormalisierung

Gen 1 100 200 180

Gen 2 10 40 280

Gen 3 100 120 80

100 Gen 1

200 Gen 1

140 Gen 1

10 Gen 2

40 Gen 2

270 Gen 2

100 Gen 3

120 Gen3

70 Gen3

10 Gen 2

40 Gen 2

70 Gen 3

100 Gen 1

120 Gen 3

140 Gen 1

100 Gen 3

200 Gen 1

270 Gen 2

Mittelwert

(10+40+70) / 3 =

(100+120+140) / 3 =

(100+200+270) / 3 =

40 Gen 2

40 Gen 3

100 Gen 1

120 Gen 3

120 Gen 1

190 Gen 3

190 Gen 1

190 Gen 2

Mittelwert

(10+40+70) / 3 =

(100+120+140) / 3 =

(100+200+270) / 3 =

Gen 1 120 (100)

190 (200)

120 (180)

Gen 2 40 (10)

40 (40)

190 (280)

Gen 3 190 (100)

120 (120)

40 (80)

Varianzstabilisiernde Transformationen•Gegeben sei eine Familie von Zufallsvariablen Xμ

, μ є [a,b],

mit Erwartungswert

•E(Xμ

) = μ. •Die Varianz dieser Zufallsvariablen sei eine Funktion von μ,

•Var(Xμ

) = v(μ).

v(μ)(Realisierungen von)

Gesucht ist eine Transformation T: IR→IR derart, dass

Var(T(Xμ

)) ≈

const.

Herleitung der varianzstabilisiernden Transformation

Ursprüngliche Messskala

y=T(x)

μδ δ

Tangente an den Graphen von T im Punkt (μ,T(μ))

T(μ)T´(μ)·δ

T´(μ)·δ

Das Zweikomponenten-Fehlermodell

additives Rauschen

multiplikatives Rauschen

Originalskala Logarithmische Skala

B. Durbin, D. Rocke, JCB 2001

Same vs. Same Experiment

Schätzung der Parameter des Fehlermodells

ε= +iik ika aai

per-sample offset

~ N(0, bi2s1

2)“additive noise”

per-samplenormalization factor

sequence-wiseprobe efficiency

ηik ~ N(0,s22)

“multiplicative noise”

exp( )iik k ikb b b η=

ik ik ik ky a b x= +measured

intensity

= offset

+ gain

abundance

Die „glog“-Transformation

intensity-200 0 200 400 600 800 1000

- - - f(x) = log(x)

——— hσ

(x) = asinh(x/σ)

P. Munson, 2001

D. Rocke & B. Durbin, ISMB 2002

W. Huber et al., ISMB 2002

)2log( ))log((asinh(x) lim ⎯⎯→⎯−→∞x

Die „glog“-Transformation

Additiver Anteil

Varianz:

Multiplikativer AnteilP. Munson, 2001

D. Rocke & B. Durbin, ISMB 2002

W. Huber et al., ISMB 2002

Literatur, Links

Bioconductor vignette for vsn. W.Huber http://www.maths.lth.se/help/R/.R/library/vsn/doc/vsn.pdf•

A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bolstad, B., et al. Bioinformatics

19 2:185-193 (2003)

A model for measurement error for gene expression analysis. D. Rocke, B. Durbin. Journal of Computational

Biology, 8:557-569, 2001

Variance stabilization applied to microarray data calibration and to the quantification of differential expression. W. Huber, A. von Heydebreck, H. Sültmann, A. Poustka, M. Vingron. Bioinformatics 18 suppl. 1 (2002), S96-S104 (ISMB 2002).

Parameter estimation for the calibration and variance stabilization of microarray data. W. Huber, A. von Heydebreck, H. Sültmann, A. Poustka, M. Vingron. Statistical

Applications

in Genetics

and Molecular

Biology

2003 Vol. 2: No. 1, Article

Error models for microarray intensities. W. Huber, A. von Heydebreck, and M. Vingron. to appear

in: Encyclopedia of Genomics, Proteomics

and Bioinformatics. John Wiley & sons

(2004).

Interpretability and Data Transformations for Gene Expression Microarray Data. D. M. Rocke, W. Huber, B. Durbin, A. von Heydebreck, M. Vingron. submitted

(2004).

Statistical methods for identifying differentially expressed genes in microarray experiments. S. Dudoit, Y.H. Yang, T.P. Speed, and M.J. Callow. Statistica

Sinica, 12:111-139, 2002.

Differentielle Gene finden

Wir haben in n

Experimenten jeweils die differentielle Genexpression zwischen zwei Bedingungen gemessen, z.B. WT/KO.

Messwerte M-values für Gen g: x1

, … , xn

Hypothese H0 - die Gene sind nicht differentiell:

Annahme – die Meßwerte sind Normalverteilt N(μ0

( ) 0E x =

221( )2

f x eμ

− −

- 3 - 2 - 1 0 1 2 3

Differentielle Gene finden

Bester Schätzer für μ: (Mittelwert)

Bester Schätzer für σ: (Standardabweichung)

Erwartete Abweichung von von μ:

Standard error of the mean

x xn =

- 3 - 2 - 1 0 1 2 3

T-test

Vergleiche beobachtete Abweichung von μ0

mit erwarteter:

t-Verteilung mit n-1 Freiheitsgraden.

Berechne p-value.

Wenn T(x)

außerhalb des Akzeptanzbereichs lehne H0 ab.

0( ) xT xSEM

μ−=

Beispiel 2 – T-test 2

Affymetrix Daten von Golub et al, 1998•

38 Tumor Gewebe:

27 acute lymphoblastic leukemia (ALL)•

11 acute myeloid leukemia (AML)

6817 Gene, 3051 nach filtern•

Expressionswerte von Gen g in ALL x1

, … , xn

und in AML y1

, … , yn

Berechne gemeinsame Varianz:

2 Sample T-test:

t-Verteilung mit nx

-2 Freiheitsgraden.

1 1( , )

x yn n

x yT x ys

1 ( ) ( )2

i ii ix y

s x x y yn n = =

⎛ ⎞= − + −⎜ ⎟⎜ ⎟+ − ⎝ ⎠

∑ ∑

Beispiel

Bedeutung des p-Wertes: Typ I Fehler

Multiples Testen

Problem: Tausende von Hypothesen werden gleichzeitig getestet.

Beispiel: Bei 10000 Genen auf dem Chip und einem Cutoff des p-Wertes von 0.01 erwarte ich, daß 10000×0.01=100 Gene einen signifikanten p-Wert p<0.01 haben.

Resultat: Ein einzelner p-Wert von 0.01 indiziert nicht mehr unbedingt ein signifikantes Gen. Es gibt eine erhöhte Chance falsch-positive Gene zu finden.

Lösung: Man muß die p-Werte für multiples Testen korrigieren.

Methode: Einfachstes Verfahren von Bonferroni Multipliziere alle p-Werte mit der Anzahl der Tests.

Mehr dazu am Montag 18.4.

Beispiel

T-test: Variante von Welch

Erlaube verschiedene Varianzen in den beiden verschiedenen Stichproben.

Wir nehmen an x ~ N(μ1

und y ~ N(μ2

Testen Hypothese H0 : μ1

22( , )

yx ssn m

x yT x y −=

Mehr Tests: Wilcoxon-Test (auch Man-Whitney Test)

Nicht-parametrischer Test (keine Normalverteilungsannahme) zum Vergleichen von zwei empirischen Verteilungen.

Berechne die Ränge der Werte aus beiden Messreihen:

Die Teststatistik wird aus der Summe der Ränge berechnet: R1

Für kleine Stichprobengrößen kann die Verteilung der Teststatistik exakt berechnet werden (i.e. alle Möglichkeiten), für große Stichproben kann eine Approximation durch Normalverteilung benutzt werden.

Vorteile: Nicht-parametrisch, robust gegen Ausreißer.•

Nachteile: weniger Mächtig da keine Verteilungsannahmen.

Permutationstests

Vorteile: kein statistisches Modell notwendig.•

Nachteile: evtl. sehr rechenintensiv.

Problem beim T-test

Problem:

Es gibt sehr viele Gene (Tests) meistens aber nur sehr wenige Wiederholungen.

Als Schätzer für σ2

habe ich s2

benutzt → evtl. zufällige Fehler bei s2.

Beispiel: Gen g

wird mit den M-Werten 0.0011, 0.0012 und –0.0009 gemessen → T~12, p~0.007.

Merke: Bei sehr kleiner gemessener Varianz wird der Wert für T sehr groß.

Fazit: Bei Microarray Experimenten nach Möglichkeit keinen Standard-T- test verwenden.

Folgerung: Modifizierte T-Statistik nötig.

moderated T-statistics

Beim T-test schätzen wir die Varianz für jedes Gen sg2

einzeln. Dies ist evtl. unstabil.

Stattdessen versuchen wir nun die Varianz über alle Gene s02

oder Subgruppen von Genen zu schätzen und damit die Varianzschätzung zu korrigieren.

Dieser „Fudge Factor“ kann noch durch Faktoren (α, β) unterschiedlich gewichtet werden.

Referenz: Efron/Tibshirani, Genet. Epidemiol., 2000•

Software: R/Bioconductor Pakete – limma, siggenes

( , ) x yT x ys sα β

Empirical Bayes

Methode um über viele Gene moderierte Statistiken zu Berechnen unter Annahme von Prior-Distributions.

Verschiedene Varianten existieren. Siehe Efron et al 2001, Lönsted/Speed 2002, ...

Beispiel:

Für große n:≈ t

B = const + log

+ s 2 + M•2

+ s2 + M•2

1 + nc

⎜ ⎜

⎟ ⎟

Lineare Modelle um differentielle Expression zu messen

Erlaubt, daß alle Vergleiche simultan ausgewertet werden.

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎟⎟⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜⎜⎜

yyyyyyy

11100100100001001100010010000100100

WT.P11μ

MT.P21μ

+ (a1 + a2) + b + (a1 + a2)b

MT.P11μ

+a1+b+a1.b

WT.P21μ

+ a1 + a2

WT.P1μ

MT.P1μ

Ein etwas größeres Beispiel:

Lineare Modelle berechnen

Entwerfe lineares Modell für jedes Gen g

Schätze Modell durch robuste Regression,least squares oder generalized least squares (in R Funktionen lm, rlm, glm) und erhalte

coefficients

standard deviations

standard errors

References

T. P. Speed and Y. H Yang (2002). Direct versus indirect designs for cDNA microarray experiments. Sankhya

: The Indian Journal of Statistics, Vol. 64, Series A, Pt. 3, pp 706- 720

Y.H. Yang and T. P. Speed (2003). Design and analysis of comparative microarray Experiments In T. P Speed (ed) Statistical analysis of gene expression microarray data, Chapman & Hall.

R. Simon, M. D. Radmacher and K. Dobbin (2002). Design of studies using DNA microarrays. Genetic Epidemiology 23:21-36.

F. Bretz, J. Landgrebe and E. Brunner (2003). Efficient design and analysis of two color factorial microarray experiments. Biostaistics.

G. Churchill (2003). Fundamentals of experimental design for cDNA microarrays. Nature genetics review 32:490-495.

G. Smyth, J. Michaud and H. Scott (2003) Use of within-array replicate spots for assessing differential experssion in microarray experiments. Technical Report In WEHI.

Glonek, G. F. V., and Solomon, P. J. (2002). Factorial and time course designs for cDNA microarray experiments. Technical Report, Department of Applied Mathematics, University of Adelaide. 10/2002

Acknowledgements – Slides geborgt von

Achim Tresch

Benedikt Brors

Wolfgang Huber

Anja von Heydebreck

Terry Speed

Jean Yang

Bioinformatik Ringvorlesung SS2005 - UMG · Die Medianzentrierung ist eine globale Methode: Es...

Documents

MEDIAN Rehaklinik Aukammtal Wiesbaden · 8 Wohnen & Wohlfühlen Die MEDIAN Rehaklinik Aukammtal liegt im Kurgebiet Wies-badens, der charmanten Landeshauptstadt Hessens mit zahlreichen

Speisekarte Median

DAU Einl SHG 2019 2 UES - median-kliniken.de · Programm 09:30 Uhr Begrüßung und Moderation Alexandra Putlitz Öffentlichkeitsarbeit , MEDIAN Kliniken Daun 09:40 Uhr Einführungsvortrag

Recommender Systeme in digitalen Bibliothekenmichael.hahsler.net/SE/SS2005/papers/Brand.pdf · Recommendersysteme in digitalen Bibliotheken - II - Stichworte: digitale Bibliothek,

Dialog - median-kliniken.de · Dialog So leben wir unser Unternehmen. Ausgabe 4-2018 Sehr geehrte Mitarbeiterinnen und Mitarbeiter, die MEDIAN Klinik Mühlen-grund Bad Wildungen ist

Standortplanung - State of the Art · uncondtional p-Median Problem noch keine Einrichtung im Graphen existiert, ist die Anzahl der existierenden Einrichtungen beim condtional p-Median

Dialog - median-kliniken.de · Dialog So leben wir unser Unternehmen. Ausgabe 1-2019 Sehr geehrte Mitarbeiterinnen und Mitarbeiter, MEDIAN wächst weiter. Mit diesem Dialog begrüßen

UMG 96RM – M ultifunktionaler Netzanalysator - janitza.com 2 UMG 96RM • Messung, Überwachung und Kontrolle elektrischer Kennwerte in Energieverteilungsanlagen • Aufzeichnung

Neutrinos und die kosmologische Strukturbildung Neutrinoseminar SS2005 Neutrinos und die kosmologische Strukturbildung Copyright, 1996 © Dale Carnegie

Figge Martin, SS2005 Kommunikation und Persönlichkeitsstile Psychologie der Kommunikation

UMG 96L / UMG 96 – Universalmessgerät - Cloud Storage · PDF file2 Universal-Messgeräte UMG 96L / UMG 96 UMG 96L / UMG 96 Universalmessgeräte 96x96 mm Einbaugeräte Der Einsatz

Entwurf Anwendungslogik SS2005. Inhalt Schaubild Beziehungen zwischen den Gruppen Bestandteile der Gruppe (AL) Zusammenfassung

Streuungsparameter Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c

WHV Flyer MS 10 SL - MEDIAN Kliniken

Qualitätsbericht, MEDIAN-Klinik Grünheide [261201129] · Name/Funktion: Doktor Kathrin Bölle, Chefarzt Neurologie Telefon: 03362 739102 Fax: 03362 739225 E-Mail: kathrin.boelle@median-kliniken.de

Amtliche Abkürzung: UMG Quelle: Gesetz 223-42 Nr: 09.07 ... · PDF fileGesamtes Gesetz Amtliche Abkürzung: UMG Dokumenttyp: Gesetz Quelle: Gliederungs-Nr: 223-42 Landesgesetz über

Open Access für die Universitätsmedizin Göttingen (UMG ... · PDF file05. Dezember 2012 . Open Access für die Universitätsmedizin Göttingen (UMG) - Überblick, Finanzierung und

Quantile. Median bei Klassenbildung Formel Quantile bei Klassenbildung wobei aber

Koronare Herzkrankheit (KHK) - MEDIAN Kliniken€¦ · 3 Herausgeber MEDIAN Unternehmensgruppe B. V. & Co. KG Marketing / PR Franklinstraße 28–29 · 10587 Berlin Telefon +49 (0)530055-165

UMG 96RM-P UMG 96RM-CBM 6 UMG 96RM-P/-CBM Eingangskontrolle Der einwandfreie und sichere Betrieb dieses Gerätes setzt sachgemäßen Transport, fachgerechte Lagerung, Aufstellung