80
MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

Embed Size (px)

Citation preview

Page 1: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

MCMC genome rearrangement

SE Aktuelle Themen der BioInformatikAndré Brück (2579542)

Page 2: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

2/80

Gliederung

• Einführung• Grundlagen

• Miklós – „MCMC genome rearrangement“• Ausblick

• Fragen / Diskussion

Page 3: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

3/80

EinführungWorum geht es?

Abschätzung evolutionärer Abstände

mittels Zählen der benötigten Mutationen

•„reversals“

•„signed permutations“

Page 4: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

4/80

Einführung

• Wie viele Mutationen benötigt man, um aus einem Grünkohl eine Mohrrübe zu machen ???

• ...und wie viele um von der Mitochondrien – DNA eines Wurmes zu der humanen zu kommen ???

Page 5: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

5/80

Gliederung

• Einführung• Grundlagen

• Miklós – „MCMC genome rearrangement“• Ausblick

• Fragen / Diskussion

Page 6: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

6/80

Grundlagen• Permutation

1,5,3,4,2

• vorzeichen-behaftete Permutation

+1,-5,+3,+4,-2

Jede Zahl steht für eine bei beiden Individuen gleiche Abfolge der DNA-

Moleküle

Page 7: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

7/80

Grundlagen

Was ist ein „reversal“?

„Eine Inversion der Abfolge der Nukleotide einer DNA-Sequenz“

ACGATA -> ATAGCA

+1 -> -1

Page 8: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

8/80

Grundlagen

76315824 16847325

76315824

13675824

13675284

13674825

16374825

5 reversals

Page 9: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

9/80

Grundlagen 7

Page 10: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

10/80

Grundlagen 26

Page 11: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

11/80

Grundlagen„Reality – Desire – Diagram“ (+3,-2,-1,+4,-5)

Definieren wir als:

Page 12: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

12/80

Grundlagen„Reality-Diagram“ =

tatsächliches Vorkommen

„Desire-Diagram“ = „so soll´s sein“ bzw. „so war es einmal“

Page 13: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

13/80

Grundlagen

Koventionen:– „Reality“ wird auf den Kreis gezeichnet

(Lit.: „black edges“)

– „Desire“ als Kanten im Kreis(Lit.: „gray edges“)

– Pfeilrichtung immer - +

Page 14: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

14/80

Grundlagen

„Reality – Desire – Diagram“ für Beispiel R=(+3,-2,-1,+4,-5) und D=(+1,+2,+3,+4,+5)

Page 15: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

15/80

Grundlagen

„Reality – Desire - Diagram“

Page 16: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

16/80

Grundlagen„breakpoint – graph“

eine Abschätzung, wie viele „reversals“ mindestens benötigt werden

Grobe untere Schranke

Page 17: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

17/80

Grundlagen

Was ist ein „breakpoint“ ?Definition:

Wenn (x,y) in einem Graphen α vorliegt, in einem Graphen β aber weder (x,y) noch (-y,-x) vorkommen, so bezeichnet man (x,y) als „breakpoint“ von α in Bezug auf β.

Beispiel:(+3,-2,-1,+4,-5) (+1,+2,+3,+4,+5)(+3,-2) (-1,+4) sind „breakpoints“, (-2,-1) ist KEIN „breakpoint“

Page 18: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

18/80

Grundlagen

Warum sind „breakpoints“ wichtig, bzw. als Abschätzung geeignet?

Intuitiv: Wenn (x,y) ein „breakpoint“ ist, dann muss es eine Veränderung von α gegeben haben, um zu β zu kommen.

Anzahl der „breakpoints“ ≈ Anzahl der „reversals“

bβ(α) := # “breakpoints” von α in Bezug auf β

Page 19: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

19/80

Grundlagen

Beispiel: (3, 5, 8, 6, 4, 7, 9, 2, 1, 10, 11)

Page 20: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

20/80

Grundlagen

Genauere untere Schranke:(0,2,3,1,4,6,5,7,8) (0,1,2,3,4,5,6,7,8)

Ein „reversal“ kann maximal 2 „breakpoints“ löschen

(0,2,3,1,4,6,5,7,8) (0,2,3,1,4,5,6,7,8)

bβ(α) = 5 bβ(α) = 3dβ(α) ≥ bβ(α)/2

Page 21: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

21/80

Grundlagen

Kurze Zwischenzusammenfassung:

• „signed permutations“• „Reality-Desire-Diagrams“• „breakpoint-graph“

Page 22: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

22/80

Grundlagen

Was passiert, wenn ein „reversal“ im RD-

Diagramm vorkommt?

Page 23: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

23/80

Grundlagen

„Hürden“ und „Festungen“ (Hannenhalli & Pevzner 95)

Page 24: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

24/80

Grundlagen

Page 25: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

25/80

Grundlagen„Interleaving graph“ „RD-diagram“

Page 26: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

26/80

Grundlagen

Komponenten• Interleaving-Graph

gibt Komponenten zurück

• F ist „good“• A/E ist „bad“• B/C/D ist „good“

Page 27: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

27/80

Grundlagen

Definitionen nach Hannenhalli & Pevzner

Hurdle– Simple Hurdle:

» Wenn durch diese Hürde nicht zwei „schlechte“ Komponenten getrennt werden

– Super Hurdle:» Wenn bei einem reversal aus einer „guten“

Komponente eine Hürde wird

– Non-Hurdle:» Wenn bei einem reversal nur „gute“ Kreise entstehen

Page 28: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

28/80

Grundlagen

Definitionen(2)

FortressWenn das Diagramm

aus einer ungeraden Anzahl von Super-Hürden besteht.(hier 3 SH)

Page 29: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

29/80

Grundlagen

• A,C,D,F sind Hürden• A,C,D „simple H.“• F „super H.“

Methode:Man nimmt „formal“

einen Nachbarn raus.Definitionen ergeben

Klassifizierung

Page 30: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

30/80

Grundlagen

L +3 -3 +4 -4 -1 +1 -2 2 6 -6 5 -5 R

L -1 +1 -2 +2 -3 +3 -4 +4 -5 +5 -6 +6 R

(-3,-4,+1,+2,-6,-5)

Page 31: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

31/80

GrundlagenL

-3

+3

+4

-6

-5

+5

R

-4

+2

+6

-2+1

-1

Ziel

Page 32: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

32/80

Grundlagen

-3

+3

+5

+6

-6

+2

-5

-2+1

-1

+4

-4

L R

Page 33: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

33/80

Grundlagen

-3

+3

+5

+6

-6

+4

-5

-4-1

+1

+2

-2

L R

Page 34: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

34/80

Grundlagen

+1

-1+6

+4

-5

-4+3

-3

-2

+2

RL

-6

+5

3 Reversals

Page 35: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

35/80

Grundlagen

Reversal-TypenKind I: („safe reversal“)Divergente „reality edges“

werden invertiert.

Kind II: („Hurdle Merging“)

Zwei gegenüberliegende Hürden , falls die Anzahl der Hürden geradegerade ist.

Page 36: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

36/80

GrundlagenKind III: („Hurdle Cutting“)Zwei gegenüberliegende

Hürden, falls die Anzahl der Hürden ungeradeungerade ist.

Diese 3 Möglichkeiten decken alles ab:

- Gute Komponente- Schlechte Komponente

- Gerade Anzahl- Ungerade Anzahl

Page 37: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

37/80

GrundlagenAlgorithmus-SkizzeAlgorithmus-Skizzerepeat

if es gibt eine gute Komponente in RDβ(α)führe Kind I reversal durchelse if gerade Anzahl Hürdenführe Kind II reversal durchelse if ungerade Anzahl Hürden und min 1 Simple H.führe Kind III reversal durch else [fortress]Kind II reversal mit beliebigen Hürden

until α = β.

Page 38: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

38/80

Grundlagen

Laufzeit-Verhalten

Erstellen von RD O(n)Interleaving graph O(n2)Komponenten O(n)

--------------RDβ(α)(dynamisch) O(n2)

Page 39: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

39/80

Grundlagen

Laufzeit-Verhalten

Für einen reversal (2 edges) O(n2)Prüfen ob schlechte Komp.(RD) O(n2)Maximal n-mal O(n)

GesamtlaufzeitGesamtlaufzeit O(nO(n55))

Page 40: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

40/80

Grundlagen

Kurze Zwischenzusammenfassung:

• Interleaving Graph• Hürden & Festungen• Algorithmus mit O(n5)

Page 41: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

41/80

Gliederung

• Einführung• Grundlagen

• Miklós – „MCMC genome rearrangement“• Ausblick

• Fragen / Diskussion

Page 42: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

42/80

Miklós – „MCMC genome rearrangement“

• University of Oxford, 2003.• Greift mehrere Essays auf, die er

einfließen lässt:– Hannenhalli & Pevzner, 1999.– Blanchette et al., 1996.– Eriksen et al., 2001.– Geman & Geman, 1984.

Page 43: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

43/80

Miklós – „MCMC genome rearrangement“

Miklós teilt Mutationen in 3 Kategorien ein:– Inversions:

• Ein Teilabschnitt wird nur umgedreht– Transposition

• Ein Teilabschnitt wird an einer anderen Stelle lokalisiert

– Inverted Transposition• Inversion+Transposition

Page 44: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

44/80

Miklós – „MCMC genome rearrangement“

Page 45: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

45/80

Miklós – „MCMC genome rearrangement“

Zur Erinnerung:– 1 (inverted) Transposition kann mehrere

inversions ersetzen

– Beispiel vom Anfang

76315824 16847325

Inverted transposition 31567824

Page 46: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

46/80

Miklós – „MCMC genome rearrangement“

• Wie werden die Mutationen gewichtet?– In den meisten existierenden Algorithmen

werden alle Mutationen gleichgewichtet.(Gu et al, Kececioglu & Sankoff, etc)

– (fast) alle bisherigen Veröffentlichungen / Untersuchungen beruhen nur auf einem Typ.

(inversions: Larget et al, Sankoff & Blanchette)– Miklós führt stochastische Methode zur

Gewichtung ein

Page 47: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

47/80

Miklós – „MCMC genome rearrangement“

Stochastisches ModellMiklós nimmt eine

Gleichverteilung der Mutationstypen an (Poisson-Verteilung)

Hierbei wird λ als Rate α·t für inversions und β·t für inv. Transpos.

dargestellt.

Page 48: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

48/80

Miklós – „MCMC genome rearrangement“

Es gibt maximal...

2

1n

verschiedene Inversionen und

3

1n

verschiedene Transpositionen.

Inv. Transpositionen werden definiert als:n : Länge der Permutation

3

12n

Page 49: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

49/80

Miklós – „MCMC genome rearrangement“

• l ist die Summe aller Positionen an denen i Inversionen stattgefunden haben.

• m ist die Summe aller Positionen an denen j Transpositionen oder invertierte Transpositionen stattgefunden haben.

• li und mj sind die Summen aller Positionen, an denen Inversionen oder Transpositionen stattgefunden haben.

Page 50: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

50/80

Miklós – „MCMC genome rearrangement“

Da die Ereignisse als unabhängig angenommen werden, kann die Wahrscheinlichkeit der Ereignisse für einen Datensatz so dargestellt werden.

(multiplizieren der Einzelwahrscheinl.)

t t

Page 51: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

51/80

Miklós – „MCMC genome rearrangement“

Permutationen sind nicht kommutativ

Daraus ergibt sich die Wahrscheinlichkeit für einen Pfad

[(8) durch (9) geteilt]

Page 52: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

52/80

Miklós – „MCMC genome rearrangement“

• MCs likelihood wird mit dem Satz von Bayes bestimmt, wobei G1 und G2 zwei Genome sind, α und β die Parameter.

• Das t kann weggelassen werden, da Zeit und Rate nicht getrennt werden können.

Page 53: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

53/80

Miklós – „MCMC genome rearrangement“

ist die Wahrscheinlichkeit, dass G2 aus G1 entstanden ist, mit den Parametern α und β, wobei Traj(G1, G2) die Menge aller möglichen Pfade von G1 zu G2 angibt.

Dies kann so nicht berechnet werden!!!

,,| 12 GGP

Page 54: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

54/80

Miklós – „MCMC genome rearrangement“

Aber: interessiert uns auch nicht ;-)

Was wir wollen: Abschätzung α und βWir wollen nur die Rate der Mutationen,

bzw. die Anzahlen der verschiedenen Mutationen in Bezug auf einen Datensatz.

Page 55: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

55/80

Miklós – „MCMC genome rearrangement“

Zurück zu MCMC:Per Definition ist die „posterior distribution“ eines

MCMC Netzwerkes:

Page 56: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

56/80

Miklós – „MCMC genome rearrangement“

Dies wird mit den Formeln (10)-(12) eingesetzt zu:

Page 57: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

57/80

Miklós – „MCMC genome rearrangement“

wobei....

P(α) und P(β) sind die Eingangs-wahrscheinlichkeiten der Parameter α und β.

(Dichtefunktion über zwei Parameter)

Page 58: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

58/80

Miklós – „MCMC genome rearrangement“

Nun kann P(α, β |G1,G2) aus P( t, α, β) gesampelt werden.

Mittels einer niedrigen Eingangs-wahrscheinlichkeit für α und β und einem sehr hohem cut-off wird der Einfluss der a priori Verteilung minimiert.

Page 59: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

59/80

Miklós – „MCMC genome rearrangement“

Wir betrachten nur die folgende Näherung:

Page 60: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

60/80

Miklós – „MCMC genome rearrangement“

Wie bei Markoff-Ketten üblich wird eine Funktion erstellt, die uns angibt, ob wir den Pfad annehmen oder verwerfen:

Diese Berechnung heißt „Metropolis-Hastings ratio“

Page 61: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

61/80

Miklós – „MCMC genome rearrangement“

Grundidee für die „proposal distribution“:

1. Eine Mutation, die die Anzahl der Kreise erhöht, bekommt eine hohe Wahrscheinlichkeit

=> „Der Weg zum Ziel“

Page 62: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

62/80

Miklós – „MCMC genome rearrangement“

2. Eine Mutation, die die Anzahl der Kreise nicht verändert, bekommt eine niedrigere Wahrscheinlichkeit

=> „Die Natur nimmt „normalerweise“ den kürzesten Weg“

Page 63: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

63/80

Miklós – „MCMC genome rearrangement“

Folge daraus...

3. Eine Mutation, die die Anzahl der Kreise vermindert, bekommt die niedrigste Wahrscheinlichkeit.

Page 64: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

64/80

Miklós – „MCMC genome rearrangement“

Versuchen wir den Bogen zu den Grundlagen zu schlagen :

• Inversions / Transpositions verändern die „black edges“ => Reality-Linien (RD) (und ziehen die D-Edges mit)

• „Gut ist, was Kreise schafft...“• Hannenhalli & Pevzner:

– Ein reversal kann maximal 2 breakpoints löschen– Ein reversal kann maximal 1 Kreis neu erzeugen

Page 65: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

65/80

Miklós – „MCMC genome rearrangement“

Wie wird mit diesen Vorgaben ein neuer Pfad vorhergesagt?

1. Fange am Start an (Komponentenweise)2. Laufe den Weg auf den Desire-Edges durch den

Graphen und markiere die Kanten entsprechend ihrer Orientierung mit +1 oder -1

3. Wenn man mindestens 3 R-Edges überspannt, prüfe ob eine Transposition vorkommen kann und notiere alle Möglichkeiten.

4. Berechne Anzahl der Inversionen

Page 66: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

66/80

Miklós – „MCMC genome rearrangement“

Was wissen wir jetzt?

• Maximale Anzahl der Inversionen• Alle möglichen Transpositionen• Anzahl der Kreise / Komponenten

Page 67: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

67/80

Miklós – „MCMC genome rearrangement“

Jetzt kommt die „proposal distribution“ ins Spiel:

• Gibt es einen safe-Reversal: hohe Wahrscheinlichkeit

• Gibt es nicht: Gibt es eine Möglichkeit, safe-Reversals zu erzeugen?

• (Ist es schon die Ziel-Permutation?)• Alles andere: niedrige Wahrscheinlichkeiten

Page 68: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

68/80

Miklós – „MCMC genome rearrangement“

Die „proposal-distribution“ wurde von Miklós empirisch bestimmt.

Page 69: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

69/80

Miklós – „MCMC genome rearrangement“

Kurze Wiederholung:• Miklós nutzt die MCMC Methode um die Raten α

und β zu berechnen• Dazu hat er eine Verteilung empirisch bestimmt

(proposal distribution)• Sein Algorithmus läuft über alle Reality-Kanten

des RD-Diagrammes und berechnet in jedem Zyklus alle möglichen Mutationen und gewichtet sie mittels seiner Wahrscheinlichkeitswerte.

Page 70: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

70/80

Miklós – „MCMC genome rearrangement“

Ergebnis auf simulierten Daten:

• 5 inversions / 5 Transpositions / n = 50• Ein run (Sample / MIS) benötigte ca. 3

Stunden auf 1.5 GHz Rechner.• In allen Fällen wurden mehr Mutationen

vorhergesagt, wie simuliert.

Page 71: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

71/80

Miklós – „MCMC genome rearrangement“

Auffällig ist, dass wenn keine Inversionen / Transpositionen vorhanden waren, trotzdem welche gefunden wurden

(„Problem mit Wahrscheinlichkeiten“)

Page 72: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

72/80

Miklós – „MCMC genome rearrangement“

Test auf reelen Daten gegen DERANGE2Humane / Drosophila mitochondrialer DNADERANGE2

– unterteilt nur in gute / schlechte Mutation -> manche Pfade können nie begangen werden

– Blanchette et al. (1996)

Page 73: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

73/80

Miklós – „MCMC genome rearrangement“

Miklós• 6.76 ± 3.32

Inversionen• 6.80 ± 1.12

TranspositionenMit angepassten Gewichten:

2 Inversions + 9 Transpositions = 11 Mutationen

DERANGE2• Findet minimal 12

Mutationen, davon 3 Transpositionen

• Bei leichter Veränderung der Gewichte 16 / 3

Page 74: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

74/80

Miklós – „MCMC genome rearrangement“

Bewertung von Miklós MCMC Ansatz:Sein Algorithmus kann bessere Werte

erzielen, wenn die proposal distribution sinnvoll gewählt ist.

Er findet mehr Transpositionen und weniger Inversionen als vorhanden sind.

Page 75: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

75/80

Miklós – „MCMC genome rearrangement“

• Zwei Zitate:

– „a better implementation of the approach might improve both the theoretical time complexity and the running time in practice“

– „The proposed auxiliary distribution in the MIS step is far from the optimal“

Page 76: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

76/80

Gliederung

• Einführung• Grundlagen

• Miklós – „MCMC genome rearrangement“• Ausblick

• Fragen / Diskussion

Page 77: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

77/80

Ausblick

Weiterentwicklung von Algorithmus mit besserer Laufzeit

Bessere „proposal distribution“, die nicht empirisch bestimmt ist, sondern die den Daten (allen Daten) mehr entspricht

=> Bessere & schnellere Ergebnisse

Page 78: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

78/80

Gliederung

• Einführung• Grundlagen

• Miklós – „MCMC genome rearrangement“• Ausblick

• Fragen / Diskussion

Page 79: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

04/26/23 André Brück - MCMC genome rearrangement

79/80

Fragen / Diskussion

Page 80: MCMC genome rearrangement SE Aktuelle Themen der BioInformatik André Brück (2579542)

Danke für Eure Aufmerksamkeit !!!