Johann Wolfgang Goethe Universität Frankfurt am Main Fachbereich 15: Biologie und Informatik Junior...

Preview:

Citation preview

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

1

Größenbestimmung bei MicroarrayexperimentenKlassenvergleiche und Classifier

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

2

Microarrays

• Dienen zur Erkennung von Expressionsprodukten.

• Platten aus Glas, Silizium etc.• Enthalten die Gene des Organismus.• Position jedes Gens auf Platte ist bekannt.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

3

Versuchsablauf• Transkriptionsprodukte (Targets) werden

auf das MA gegeben. Diese sind mit Fluoreszenz-Markern versehen.

• Binden der Targets an den komplementären Strängen auf dem MA.

• Waschen um nicht oder unzureichend gebundene Targets zu entfernen.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

4

Auswertung• Farbstoffe werden durch Laser zum

Leuchten gebracht. • Scannen des Bildes.• Normalisierung. • Fehlerbeseitigung• Erstellen der Genexpressionsmatrix.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

5

Warum Versuchsgrößenbestimmung?

• Beschränkungen durch:– Finanzmittel– Zeit– Vorhandene Proben

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

6

Klassen-Vergleiche

• Vergleich von zwei Gewebetypenz.B.:

- Krebsgewebe normales Gewebe- histologisch verschiedene Krebsgewebe

• Ziel ist es, unterschiedliche Gen-Expressionen zu identifizieren.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

7

Verschiedene MA-Versuchstypen

• Single Label/ Double Label– Pooling– Dye Swap– Nutzen von technischen Replikaten

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

8

Single Label Arrays

• DNA – Oligonukleotid MAs (Affymetrix)• Nur Targets einer Zelle• Hohe Spotdichte• teuer

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

9

Notation• Floureszens-Intensität: Ygadvfs

– g :1,2,...G | Gen– a :1,...,n | Array– d : 1 = Single Label; 2 = double Label | Farbe– v : 1,2 | Phänotypen– f : 1,2,...F | Individuen– s : 1,2,...m | Unterprobe/technisches Replikat

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

10

Single Label MAs

• Log (Ygadvfs) = Gg + GVgv + (GF)gf(v) + gadvfs

– Gg = Genexpression von g in der Population

– GVgv = Effekt der Klasse oder des Typs

– (GF)gf(v) = individueller Effekt gadvfs = unabh. Fehler mit Normal(0, )

2x

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

11

),σNormal(

Normaly

mlnkyw

Normal

Normalx

mjnixz

kl

xk

klkykl

ij

xi

ijixij

2

2

2

2

fsg2fsfsg1fs

0~

),0(~

..1;...1;

),0(~

),0(~

..1;...1;

w Y , z Y

Single Label MAs

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

12

Varianz e technisch

Varianz ebiologisch

Entdeckte negativfalsch Entdeckte positvfalsch zchschnitteKlassendurder Distanz

Sample pro Replikateer technischAnzahl msMicroarray benötigtenan Anzahl totalen

)(][4

2

2

/2

2222/

g

g

gg

z

mzz

mn

Single Label MAs

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

13

Single Label MAs

Samplesdlichen unterschie biologischder Anzahl /

)(][4/2

222/

mnm

zzmn g

g

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

14

Dual Label Arrays

• cDNA MAs• Targets von 2 Zellen. Dies erleichtert einen

direkten Vergleich• Teilweise geringe Spotdichte

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

15

Dual Label MAs

• Log (Ygadvfs) = Gg + GAga + GDgd + GVgv+ (GF)gf(v) + gadvfs

– Gg = Genexpression von g in der Population– GAga = Spot auf Array– GDgd = Effekt des Färbemittels– GVgv = Effekt der Klasse oder des Typs – (GF)gf(v) = individueller Effekt gadvfs = unabh. Fehler mit Normal(0, )

2x

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

16

Dual Label MAs

• Referenz Design:

A1

R

A2

R

B1 B2

R R

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

17

Dual Label MAs

• Reference Design

Muss aus vorherigen Daten geschätzt werden.

Klassen.der einer innerhalb Varianz 2

)2(][4

22

2222/

gg

gg

zzn

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

18

Dual Label MAs

• Design mit technischen Replikaten und Dye Swap:

)2

(][42

222/

mzz

mn gg

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

19

Dual Label MAs

α = 0,001β = 0,05δ = 1

VarianzVerhältnis

technische Replikate /Sample

Anzahl benötigter Arrays

Anzahl benötigter Samples 

2 1 49 49  2 74 37  3 99 33  4 124 314 1 49 49  2 82 41  3 114 38  4 148 37

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

20

Dual Label Mas

.Replikatenhnischen keinen tec bei n Anzahl zur Verhältnis im Replikaten m bei

Arrays Benötigtender Anzahl dieist n

]2)/(2)/(

[

1

m

22

22

1

gg

ggm

mnn

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

21

Dual Label MAs

• Block Design:

A2 A3

B2

A1

B1

A4

B3 B4

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

22

Dual Label MAs

• Balanced Block Design– Leichter Vergleich von 2 Klassen.– Weniger Arrays benötigt.– unflexibel

)2()( 22

2,2

1,

2

22/

ggg

zzn

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

23

Dual Label MAs

• Single Paired Design– Natürliche biologische Paarungen ( z.B. von

Individuum vor und nach einer Behandlung).– Je eine Seite mit einer Farbe pro Probe.

– η an Stelle von τ. Varianz des veränderten Gewebes (z.B. Tumor) zum normalen Gewebe.

)2()( 22

2

22/

ggbalanced

zzn

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

24

Dual Label MAs

• Dye-Swap Paired Design– Die gleichen Targets wie Single Paired Design.– Die gleichen Arrays werden nocheinmal mit

dem jeweils anderen Fluoreszensstoff ausgewertet.

)2()( 22

2

22/

ggdyeswap

zzn

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

25

Prognostic Markers• Finden von Genen oder Genklassen, die bei

einer Krankheit exprimiert werden.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

26

Prognostic Markers

• Effekt von Pooling

• Mehr Samples weniger Arrays

Samplesen biologischen unabhängigan Anzahl

)2

()(

4222

22/

kmk

zzmn gg

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

27

Prognostic Markers

• α = Wahrscheinlichkeit für falsch positive Entdeckung.

• 1-β = Wahrscheinlichkeit richtig positive Entdeckung.

• Problem: Wie wählt man α?

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

28

Prognostic Markers

Genenan Anzahl GGeneen exprimiert andersder Anteil

)1(1

Entdeckte richtig #Entdecktefalsch #

]##

#[

GE[#TD]

π)Gα(E[#FD] FDFD

TDFDFDEFDR

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

29

Prognostic Markers

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

30

Prognostic Markers

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

31

Training eines Classifiers

• Ein Classifier soll Gene als Prognostic Marker erkennen.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

32

Training eines Classifiers

• Bedingung: Solle wenige Samples brauchen• Lösung: Sequentielle Bestimmung• Vorteile

– Lernt durch eigene Erfahrung.– Stopp-Kriterium wird bei jedem Schritt

überprüft.– Erzielen der gewünschten Signifikanz garantiert– Mit jeder Klassifikationsmethode einsetzbar.

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikJunior Prof. Dr. Dirk Metzler

Sebastian Bremm

33

Training eines Classifiers

N

ii

N

N

ii

N

QN

k

NQN

kzN

1

1

^

0

2

1

1

^

1

0

0

,min

Recommended