Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

Thorsten BurmesterInstitut für Zoologie

Universität Mainz

Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser?

Sequenz 1: KIADKNFTYRHHNQLVSequenz 2: KVAEKNMTFRRFNDIISequenz 3: KIADKDFTYRHW-QLV Sequenz 4: KVADKNFSYRHHNNVVSequenz 5: KLADKQFTFRHH-QLV Sequenz 5

Sequenz 3

Sequenz 2

Sequenz 4

Sequenz 1

Ziel des Kurses:

Programm

Grundlagen der Molekularen Evolution Datenbanken und Datenbankanalysen Sequenzalignment Stammbaumerstellung Statistische Auswertung

Warum molekulare Phylogenie?

Verständnis von phylogenetischen Zusammenhängen:

• Organismische Evolution (Systematik)

• Evolution von Proteinfamilien (Funktion!)

• forensische Medizin (Bsp. HIV)

• Epidemiologie

• Mathematische Probleme

Rekonstruktion von Verwandtschaftsverhältnissen

A. Morphologische DatenB. Sequenzdaten

Vorteil der Sequenzdaten:

- leichte Zugänglichkeit- Grosse Datenmenge- Zumeist frei von Gewichtungen- können aber dennoch zu falschen Ergebnissen führen!

Warum molekulare Phylogenie?

Voraussetzungen der molekularen Phylogenie

1. Evolution vollzieht sich durch Veränderungen.

2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab.

3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung.

4. Deren Verlauf läßt sich durch Stammbäume darstellen.

5. Es gibt nur einen historisch korrekten Stammbaum.

6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und

Aminosäuresequenzen speichern die Informationen über die Vergangenheit.

7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der

DNA bzw. den Proteinen gespeicherten Informationen.

Schwestergruppen

Was ist ein Stammbaum?

Darstellung der Verwandtschaftsverhältnisse

A – F auch "operational taxonomic units" (OTUs)

Phylogenetische Grundbegriffe

A B C D E A B C D E

Dichotomie Polytomie

Ast(branch)

Knotenpunkt(node)

Außengru

Monophylie

A B C D E F (AB)(CDEF)(DEF)(EF)

monophyletische Taxa

Paraphylie=> nicht alle Nachkommen werden erfasst

Vögel

aufgrund von Plesiomorphien(ursprünglichen Merkmalen)

"Reptilien"

Schildkröten Krokodile

Eidechsen +Schlangen

"Geier"

Neuwelt-Geier

Storchen-vögel Raubvögel

Altwelt-Geier

Polyphylie=> verschiedenen Ursprungs

aufgrund von Homoplasien (Konvergenzen)

ungewurzeletes Phylogramm

Vogelspinne

Heuschrecke

Languste

Tausendfüsser

Regenwurm

Tintenfisch

Schnecke

=> keine Evolutions"richtung"

Stammbaum

Regenwurm

TintenfischSchnecke

Tausendfüsser

Vogelspinne

Languste

Heuschrecke

Mensch (Außengruppe)

Wurzel("Root")

Mit Außengruppe gewurzelt

= "outgroup"

Molekure Phylogenie

Vorgehensweise zur Stammbaumerstellung:A. Wie ist meine Sequenz zu anderen verwandt?• Auswahl ähnlicher Sequenzen aus Datenbanken• Sequenzalignment• Molekularphylogenetische Analyse• Statistische Überprüfung

B. Wie sind bestimmte Taxa miteinander verwandt?• Auswahl geeigneter Sequenzen• Sequenzierung (Datenbanken, Klonierung, PCR)• Sequenzalignment usw. wie oben

Datenbanksuche:

Welche Sequenz ist meiner Sequenz "ähnlich"?

=> Sequenzvergleich: "Alignment" (dt. Alignierung)DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE

::: ::::::::: :: :::::: :: :: : :::::: ::: :: :::: :DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE

Datenbanksuche

z.B. BLAST (Basic Local Alignment Search Tool)=> vergleicht zwei Sequenzen miteinander

BLASTN: Vergleicht eine Nukleinsäuresequenz mit Nukleinsäuredatenbank

=> nahe verwandte SequenzenBLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank.

=> entfernt verwandte Sequenzen

Datenbanksuche

.BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank.

=> Für welches Protein kodiert meine Sequenz?

TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure- datenbank, die in allen 6 Leserastern translatiert wird.

=> findet z.B. nicht annotierte Proteine in DNA-Daten

TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6

Leseraster einer Nukleinsäuredatenbank. => z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen

BLAST (Basic Local Alignment Search Tool)

Multiples Sequenz-Alignments

Gegeben:

Gesucht:

SeqA N A F L S SeqB N A F SSeqC N A K Y L SSeqD N A Y L S

SeqA N A - F L S SeqB N A - F - SSeqC N A K Y L SSeqD N A - Y L S

Sequenzalignments

Algorithmus (z.B. ClustalX): 1. paarweiser Vergleichen aller Sequenzen

miteinander => Berechnung der Distanzen zw. Sequenzen

2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung)

3. Erstellung paarweiser Alignments4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst

Wie erhält man ein multiples Sequenzalignment?

CLUSTALX

1) Sequenzvergleich

Alle Sequenzen werden miteinander verglichen (schnelles "quick and dirty" Alignment) => Berechnen der Distanzen

CLUSTALX

"guide tree"

2) Ähnliche Sequenzen werden gruppiert

=> Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree").

0.77-C

0.820.45-B

0.270.890.75-A

CLUSTALX

3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst.

CLUSTALX

4) Sukzessives globales Alignment

Lücken = "gaps"

Alignment Parameter

Substitutionsmatrix (Wahrscheinlichkeit von nt bzw. AS-Austauschen)

"Gap creation" und "Gap length weights"

jeweils für paarweise und Multi-Alignments

StammbaumerstellungAnzahl der möglichen Stammbäume:

Number

of OTUs

Number of

rooted trees

Number of

unrooted trees

4 15 3

5 105 15

6 954 105

7 10395 954

8 135135 10395

9 2027025 135135

10 34459425 2027025

Stammbaumerstellung

1. Matrix-orientierte Methoden• UPGMA (Unweighted Pair-Group Method with Arithmetric Means)

• Neighbor-joining• Minimal Evolution (least squares)

2. Charakter-orientierte Methoden• Maximum Parsimony• Maximum Likelihood

Matrix-orientierte Methoden

Aus jedem Datensatz kann im Prinzip eine Distanzmatrix erstellt werden

Zwei Schritte:

1. Berechnen der paarweisen Abstände zwischen den einzelnen Sequenzen

2. Erstellen eines Stammbaums anhand dieser Abstandsdaten

Sequenzevolution

Ursprungssequenz

Sequenz A

Sequenz B

ZeitMutationen

Unterschied = Divergenz = Distanz

Berechnung einer Distanzmatrix

Sequenz 1 TATAAGCATGACTAGTAAGCSequenz 2 TATTAGCATGACTGGTAACCSequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC

Distanz = Durchschnittliche Änderung pro Position

hier: 20 Positionen; => Wieviele beobachtete Änderungen?

1 2 3 4 5Sequenz 1 0.00 0.15Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5

Distanzmatrix

1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50Sequenz 2 0.00 0.25 0.40 0.65Sequenz 3 0.00 0.35 0.40Sequenz 4 0.00 0.50Sequenz 5 0.00

Abstand zwischen Sequenz 1 und Sequenz 2, ausgedrückt in durchschnittlichen Änderungen pro Nukleotidposition (unkorrigierte Hamming-Distanz).

Abstand gegen Zeit!

beobachteter Abstand

tatsächlicher Abstand zweier Sequenzen= Anzahl der Mutationen

=> Abstand wird unterschätzt!

Sättigung

Warum?

13 Mutationen =>3 Unterschiede

Korrektur der Distanzen

beobachteter Abstand

tatsächlicher Abstand= Anzahl der Mutationen

Korrektur

Korrektur der Distanzen

Frage: Wie korrigieren wir?

Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren.

Wir brauchen also ein Evolutionsmodell, welches die Wahrscheinlichkeit von multiplen Austauschen, Rückmutationen etc. berücksichtigt.

DNA-Evolutionsmodelle

1969: Jukes & Cantor (JC) 1980: Kimura 2-Parameter (K2P) 1981: Felsenstein 81 (F81) 1985: Hasegawa, Koshino & Yano

(HKY85) 1990: General Reversible Model (REV) etc.

Evolutionsmodell Jukes & Cantor

K ist der berechnete Abstand (Anzahl der tatsächlichen Substitutionen), p der beobachtete Abstand zwischen zwei Sequenzen.

Korrigierte Distanz nach Jukes & Cantor:

Abstandsberechnung - Proteine

Modelle für Proteinevolution meist empirisch.

Nach Kimura 1983: D = - ln(1 - p - 0.2 x p2) Beispiel: Beobachtete Distanz = 60% => p = 0.6 => D = - ln(1 – 0.6 – 0.2 x 0.62) = 1.11474

=> d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden

Aber: Modell ist zu einfach! Denn jeder Aminosäureaustausch

wird gleich bewertet. In der Natur aber nicht so

beobachtet. In der Praxis sind meist bessere

Modelle notwendig. Wir kennen diese Modelle: => PAM, BLOSUM-Matrizen

Aminosäureeigenschaften

positiv

geladenpolar

aliphatisch

aromatisch

Sehr klein

hydrophob

A R N D C Q E G H I L K M F P S T W Y V B Z

A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

PAM-Distanzmatrix

PAM und BLOSUM Matricen

Hohe Sequenzähnlichkeit

Geringe Sequenzähnlichkeit

PAM 120

PAM 250

Hohe Sequenzähnlichkeit

Geringe Sequenzähnlichkeit

BLOSUM 80

BLOSUM 62

BLOSUM 30

Distanzmatrix

Sequenz 1 0.000 0.236 0.621 0.702 1.510Sequenz 2 0.000 0.599 0.672 1.482Sequenz 3 0.000 0.112 1.561Sequenz 4 0.000 1.425Sequenz 5 0.000

• Ausgedrückt i.d.R. als Mutationen pro Position• Abstand kann > 1 werden!

Berechnen des paarweisen Abstands

Stammbaumerstellung

Wie kommen wir von einer Distanzmatrix zu einem Stammbaum?

=> Algorithmus berechnet aus den Distanzen den "besten" Stammbaum.

Sequenzen selbst werden nicht mehr berücksichtigt.

UPGMA Unweighted Pair-Group Method with Arithmetric Means

Additive Methode. OTUs werden durch sequenzielles Clustern nach absteigender Ähnlichkeit gruppiert.

UPGMA Unweighted Pair-Group Method with Arithmetric Means

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A/B C D OTU A/B 0 11 19 OTU C 0 19OTU D 0

A/B/C D Sequenz A/B/C 0 19Sequenz D 0

• nimmt konstante Evolutionsraten an• Außengruppe wird "automatisch" bestimmt

Ausgangsmatrix

rekonstruierte Matrix

Neighbor-joining (NJ)

• Ähnlicher Algorithmus wie UPGMA • berücksichtigt unterschiedliche Evolutionsraten:

=> Astlängenberechnung• Sukzessives Gruppieren der OTUs• Minimierung der Astlängen

=> Stammbaum wird aufgelöst

=> keine konstante Evolutionsrate angenommen

S = ( dji)/N; 1ijN

S = Summe aller Astlängen d = Distanzen zwischen allen OTUs N = Anzahl der OTUs

Ziel NJ => Minimierung von S

Beispiel:

A B C D

OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

A B C D

OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

10 1812 20

Abstand OTU A zu allen anderen ist aber kürzer als der von OTU B

=> Astlängen werden bei ungleichen Raten falsch berechnet. NJ korrigiert dies, indem es den Gesamtabstand des

betrachteten OTUs zu allen anderen Sequenzen berücksichtigt

Beispiel: A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

1. Schritt: Berechnung der Summe der Abstände

SA = dAB + dAC + dAD

34 38 41 57

A B C D OTU A 0 6 10 18OTU B 0 12 20 OTU C 0 19 OTU D 0

2. Schritt: Transformation der Matrix:

d'AB = dAB – (SA + SB)/2

= 6 – (34 + 38)/2 = –30 usw.

34 38 41 57

Neighbor-joining (NJ)Transformation der Matrix:

d'AB = dAB – (SA + SB)/2

= 6 – (34 + 38)/2 = –30 usw.

A B C D S

OTU A 0 6 10 18 34OTU B -30 0 12 20 38 OTU C -27.5 -27.5 0 19 41OTU D -27.5 -29.5 -30 0 57

A B C D S

=> Auswahl der Nachbarn (negativster Wert) hier: A+B oder C+D (führen zum gleichen Ergebnis)=> Werden durch Knotenpunkt verbunden

Neighbor-joining (NJ)3. Schritt: Berechnen des Abstands von A und B zu Knotenpunkt X:

dXA = dAB/2 + [SA/(N-2)* - SB/(N-2)]/2

<=> 6/2 + (17 - 19)/2 = 2

dXB = dAB/2 + [SB/(N-2) - SA/(N-2)]/2 <=>

<=> 6/2 + (19 - 17)/2 = 4

oder einfacher: dAB – dXA = 6 – 2 = 4

D*N-2 = Anzahl der Knotenpunkte

A B C D S

Erstellen einer reduzierten Datenmatrix

dXC = (dAC – dAX + dBC – dBX)/2

<=> (10 – 2 + 12 –4)/2 = 8 usw.

X C D S

OTU X 0 8 16 24OTU C -17.5 0 19 27 OTU D -15.5 -12 0 35

X C D S

OTU X 0 8 16 24OTU C -17.5 0 19 27 OTU D -15.5 -12 0 35

usw...

Ausgangsmatrix

rekonstruierte Matrix

Neighbor-joining (NJ)Warum Transformation?

A B C D

OTU A 0 18 10 13 OTU B 0 22 25 OTU C 0 13 OTU D 0

A B C D

Neighbor-joining (NJ)UPGMA würde rekonstruieren:

A B C D

=> "long branch attraction"

Neighbor-joining (NJ)NJ konstruiert?

A B C D S

OTU A 0 18 10 13 41OTU B -35 0 22 25 65 OTU C -33 -33 0 13 45OTU D -31.5 -31.5 -33.5 0 48

A B C D S

OTU A 0 18 10 13 41OTU B -35 0 22 25 65 OTU C -33 -33 0 13 45OTU D -31.5 -31.5 -33.5 0 48

Neighbor-joining

Matrix-orientierte Methoden

Charakter-orientierte Methoden

1. Maximum Parsimony (MP)2. Maximum Likelihood (ML)

• Arbeiten direkt mit dem Alignment• Extrahieren mehr Information

Charaktere• kontinuierliche oder diskontinuierliche Eigenschaften

• Nukleotide und Aminosäuren können als diskrete, diskontinuierliche Charaktere behandelt werden

• Der phylogenetische Stammbaum wird anhand des Musters der Änderungen der Charaktere berechnet

1,2,3,4.... = kontinuierliche Charaktere

A,T,G,C = diskontinuierliche Charaktere

Maximum Parsimony

• Annahme: Evolution ging stets den

kürzesten Weg• => Methode des "maximalen Geizes" • kürzester Stammbaum wird berechnet,

d.h., der die wenigsten evolutiven

Schritten benötigt.

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Beispiel:

3 mögliche Stammbäume

((A,B)(C,D)) ((A,C)(B,D)) ((A,D)(B,C))

Maximum Parsimony

3 Positionen invariabel => nicht informativ

Welche Positionen sind informativ, bevorzugen also eine bestimmte Topologie?

Maximum Parsimony

6 Positionen sind variabel=> aber auch informativ?

Maximum Parsimony

3 Positionen sind zwar variabel, aber nicht informativ

Maximum Parsimony

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * *

Welche Positionen sind aber nun informativ?

=> nur 3 von 9 Positionen sind informativ, d.h., favorisieren eine best. Topologie.

10 11 - A - G C G C G *

=> Indels sind Charaktere!

Maximum Parsimony

Position 3:

((A,B),(C,D)) ((A,C),(B,D)) ((A,D),(B,C))

•• •

••

•A AAAAA

••

•G AAAAA

G•• ••

•A AAGAA

Position 5:

Position 9:

Maximum Parsimony

3 mögliche Stammbäume

10 Mutationen 15 Mutationen 14 Mutationen

Position Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G * * *

Maximum Parsimony

Aber: Ort der Mutation nicht (immer) eindeutig definiert => Parsimony kann keine Astlängen berechnen.

10 Mutationen

= = = .....

Proteinparsimony:

1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt).

Beispiel Ile -> Trp Ile -> Met Ile -> Ala ...

2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP).

Beispiel: Ile -> Met: ATA/C/T -> ATG: ein Schritt Ile -> Ala: ATA/C/T -> GCN: zwei Schritte

Ile -> Trp: ATA/C/T -> TGG: drei Schritte

Maximum Parsimony

B C(1)Start: 3 bel. Taxa

D(2b) (2c)

+ 4. Taxon (D) in jeder möglichen Position -> 3 Bäume

+ 5. Taxon (E) in jeder der fünf möglichen Positionen=> 15 Stammbäume etc.

Maximum ParsimonyProblem: Anzahl der möglichen Stammbäume

Number

of OTUs

Number of

rooted trees

Number of

unrooted trees

4 15 3

5 105 15

6 954 105

7 10395 954

8 135135 10395

9 2027025 135135

10 34459425 2027025

=> bei > 10 Sequenzenausführliche Suche allerStammbäume de facto unmöglich

Maximum Parsimony

1. Lösung: "Branch and bound"-Methode verwirft Gruppen von

Bäumen, die nicht kürzer werden können als der bis dahin erhaltene kürzeste Stammbaum.

Man kann die maximale Stammbaumlänge (in Schritten) vorgeben.

Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden.

Maximum Parsimony

2. Lösung: Heuristische Verfahren: "Random addition" "Branch Swapping": Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR)

Maximum Parsimony

einfach; ohne konkretes Evolutionsmodell Errechnung ancestraler Positionen funktioniert gut mit konsistenen Datensätzen

Vorteile:

empfindlich gegen Homoplasien (Konvergenz) empfindlich gegen "Long Branch Attraction" Astlängen werden unterschätzt kein Evolutionsmodell möglich für die meisten molekularen Analysen nicht sehr gut geeignet

Nachteile:

1. Maximum Parsimony (MP)

2. Maximum Likelihood (ML)

Maximum Likelihood

L = P(data|tree)•Die "Likelihood" ist die Wahrscheinlichkeit

der beobachteten Daten (Sequenzen!), gegeben die Hypothese (Stammbaum).

•d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.

Maximum Likelihood

Probability (P) = Wahrscheinlichkeit

Wahrscheinlichkeiten summieren sich stets auf 1 auf:Wie wahrscheinlich ist es, dass ich eine 6 würfele? Antwort: 1/6. Wie wahrscheinlich ist es, dass ich keine 6 würfele? Antwort 5/6. => 1/6 + 5/6 =1.

Maximum Likelihood (L) Wahrscheinlichkeit (P)

Für "Likelihood"-Werte summieren sich nicht auf 1 auf:=> Wie wahrscheinlich ist meine Hypothese unter dem gegebenen Randbedingungen?

Maximum Likelihood

Seq1 CGAGACSeq2 AGCGACSeq3 AGATTASeq4 GGATAG

Frage: Wie hoch ist die Wahrscheinlichkeit, daß der Stammbaum A für die Daten (Sequenzen) unter dem gegebenen Modell verantwortlich ist?

Maximum Likelihood

OTU 1 CGAGA COTU 2 AGCGA COTU 3 AGATT AOTU 4 GGATA A

C C A A

ACGT 4 x 4 Möglichkeiten

Wurzel willkürlich!

Die Wahrscheinlichkeit für eine best. Position j ist die Summe der Einzelwahrscheinlichkeiten aller möglichen ancestralen Nukleotide unter dem gegebenen Modell.

ML – Beispiel (vereinfacht):

Daten: Modell (nicht realistisch):

A T C G

A 1 0.1 0.1 0.1

T 1 0.1 0.1

C 1 0.1

OTU 1 OTU 2OTU 3OTU 4

ML - Beispiel:

Stammbaum A:

X YX,Y = A, T, G, oder C

ML: Summe der 4 x 4 Einzelwahrscheinlichkeiten

ML - Beispiel:

Stammbaum 1:

1 x 1 x 0.1 x 1 x 1 = 0.1 1 x 1 x 0.1 x 0.1 x 0.1 = 0.001

usw... Summe aus 16 möglichen Stammbäumen!

Stammbaum 2:

ML - Beispiel:

Stammbaum A:

Gesamt"wahrscheinlichkeit":

= 0.12427=> logL = -0.90563

Gesamt"wahrscheinlichkeit":

= 0.02302=> logL = -1.6379

Stammbaum B:

Wahrscheinlichkeit des Stammbaums A ist das Produkt aller Wahrscheinlichkeiten für jede Position. ML-Stammbaum = Stammbaum mit größter "Likelihood".

Maximum Likelihood

1 CGAGAC2 AGCGAC3 AGATTA4 GGATAG i . . . . z

Maximum Likelihood

Austauschparameter werden aus Evolutionsmodell berechnet

Typisches Evolutionsmodell:

•Substitationswahrscheinlichkeit unabhängig von der Historie der Position (Markov-Modell).

•Eine Substitutationswahrscheinlichkeit im Stammbaum unabhängig von Zeit oder Position (homogener Markov-Prozeß).

•Ratenreversibilität: P(A -> T) = P(T -> A).

Maximum Likelihood - Vorteile

Mathematisch gut definiert Funktioniert gut in

Simulationsexperimenten Erlaubt explizite Verbindung von

Evolutionsmodell und Daten (Sequenzen) "Realistische" Annahmen zur Evolution Verschiedene Modelle und Stammbäume

lassen sich testen

Maximum Likelihood - Nachteile

Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?

Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen.

Maximum Likelihood Bei vielen Taxa sind

computertechnisch nicht alle möglichen Stammbäume berechenbar

Lösung: "Intelligente Algorithmen" - Quartet puzzling - Bayessche Methode + MCMCMC

Statistische Auswertung

ML-Methoden Parametrisches Bootstrapping (Datensimulation) Nicht-parametrisches

Bootstrapping=> häufigste Methode

Bootstrapping

Position Sequence 1 2 3 4 5 6 7 8 9 A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Orginalsequenzen Position Sequence 1 2 2 4 5 5 7 8 8 A A A A A G G G C C B A G G C G G C C C C A G G T A A C C C D A G G G A A C C C

Pseudosample 1

z.B. 100 Wiederholungen Position Sequence 1 1 1 4 4 6 7 7 7 A A A A A A T G G G B A A A C C T G G G C A A A T T T C C C D A A A G G T C C C

Pseudosample 2

Bootstrapping

123456789 Freq-----------------.**...... 100.00...**.... 100.00.....**.. 100.00...****.. 100.00...****** 95.50.......** 84.33...****.* 11.83...*****. 3.83.*******. 2.50.**....*. 1.00.**.....* 1.00

Majority-rule consensus tree

Taxon 1

Taxon 3

Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

Taxon 2

Taxon 5

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

Documents

Biophysik der Moleküle - LMU München · Inhalt Biophysik der Moleküle. Proteine! Struktur und Dynamik! Funktion als Enzyme! Molekulardynamik ... Flagellenmotor ! Linearmotoren!

2012 074 f1

11 S-66-71 Spinat-Tomaten-Zucc-Mais - · PDF fileROMANA, F1 TOMOSA, F1 Hellfrucht 80 65 – 70 mittelfrüh SIDERNO, F1 Cherry 15 – 20 30 sehr früh SERRAT, F1 Rispentomate 110 57

Mechanische Wellen, Akustik, Ultraschall Péter Maróti Professor für Biophysik, Universität von Szeged, Ungarn. Lehrbücher: Biophysik für Mediziner (Herausgeber

Kalender f1 2014

Gerätehaus Montageanleitung · P6 P5 P3 P3 P3 P3 19 19. 2 2 1 1 F1 F1-7-1 NO. PART Qty. 4 F1 1 1 2 NO. PART Qty. 2 F1 2 2 1 1 x2. NO. PART Qty. 1 1 3L 3R 3L 3R F1 F1 NO. PART Qty

Preisträgerliste - Bundesgartenschau · 2018. 2. 6. · O07.001. Ranunculus F1-Hybriden S O07.002.F Ranunculus F1-Hybriden (Gambit Orange F1, Gambit Yellow - F1) O08.001. Viola-Cornuta-F1-Hybriden,

Wärmelehre, Thermodynamik Péter Maróti Professor für Biophysik Universität von Szeged Lehrbücher: Biophysik für Mediziner (Herausgeber S. Damjanovich,

„Molekulare Biophysik“ NMR-Spektroskopie (Teil 3)schmieder.fmp-berlin.info/.../pdf/molekulare_biophysik_schmieder_teil3.pdf · Peter Schmieder FMP 4/90 Vorlesung "Molekulare Biophysik":

Biophysik der Zelle - uni-muenchen.de · 09.07. Flagellen und Cilien ( ) 16.07. Haarzellen als Verstärker im Ohr ( ) Rädler SS08 Biophysik der Zelle 5 A freshwater amoeba crawls,

Computergestützte Biophysik I Bert de Groot, Udo Schmitt, Helmut Grubmüller · 2012-04-26 · Computergestützte Biophysik I Bert de Groot, Udo Schmitt, Helmut Grubmüller Max Planck-Institut

Ipsen Kursteil III Berlin - medkom-akademie.demedkom-akademie.de/pdf/Archiv 13/Kurs Berlin 2012/Kursteil 3 - Berlin.pdf · Praktikum soll durchgeführt werden · ine ro klgsc h Etu

EINFÜHRUNG Internationales Einheitensystem Péter Maróti Professor für Biophysik, Universität von Szeged, Ungarn. Medizinische Physik Lehrbücher: Biophysik

Hauptseminar Biophysik der Systeme Crime Scene DNA ?

Betriebsanleitung Axai-lRolsl ysteme F1 – F3 Operating ... · Axai-lRolsl ysteme F1 – F3 Operating Instruction F1 – F3 Ronillg Systems . Betriebsanleitung 1 – 3 EVO 1 Inhaltsverzeichnis

Biophysik I Struktur und Funktion von Biopolymeren Elmar Lang

Medizinische Biophysik I. 0

F1 heugl michael_30.06.2015_facebook advertising_wie_sie_beginnen

Thermodynamik der Transportvorgänge Péter Maróti Professor für Biophysik, Universität von Szeged, Ungarn. Lehrbücher: Biophysik für Mediziner (Herausgeber

11.06. Biophysik der Zelle Photosynthese I Chloroplasten ... · pathway of carbon in the stroma. Rädler SS 08 Biophysik der Zelle 34 Synthesis of sucrose incorporating ﬁxed CO