100
1 Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld Institut für Zoologie Universität Mainz

Fernstudium Molekulare Phylogenie

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fernstudium Molekulare Phylogenie

1

Fernstudium"Molekulare Phylogenie"

Bernhard LiebMichael Schaffeld

Institut für ZoologieUniversität Mainz

Page 2: Fernstudium Molekulare Phylogenie

2

Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser?

Sequenz 1: KIADKNFTYRHHNQLVSequenz 2: KVAEKNMTFRRFNDIISequenz 3: KIADKDFTYRHW-QLV ⇒Sequenz 4: KVADKNFSYRHHNNVVSequenz 5: KLADKQFTFRHH-QLV Sequenz 5

Sequenz 3

Sequenz 2

Sequenz 4

Sequenz 1

Ziel des Kurses

Page 3: Fernstudium Molekulare Phylogenie

3

Programm

• Datenbanken

• Sequenzalignment

• Stammbaumerstellung

• Statistische Auswertung

Page 4: Fernstudium Molekulare Phylogenie

4

Warum Phylogenie?

⇒Weshalb ist das Verständnis von phylogenetischen Zusammenhängen wichtig?

• Organismische Evolution (Systematik)

• Evolution von Proteinfamilien (Funktion)

• Medizin (Epidemiologie)

• Forensik (CSI Miami)

=> Stammbäume

Page 5: Fernstudium Molekulare Phylogenie

5

Voraussetzungen der

Wieso können Phylogenien aus den heute existierenden Daten abgeleitet werden?

Phylogenie

Page 6: Fernstudium Molekulare Phylogenie

6

AAGACTT

TAGCCCT AGCACTT

AAGGCCT AGGACTT

AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT heute

AGGGCAT

A B C D EOTU

TAGCCCT AGCACTT

AAGGCCT AGGACTT

AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT

AGGGCAT

Evolution vollzieht sich durchVeränderungen

Page 7: Fernstudium Molekulare Phylogenie

7

Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab.

Vorfahre

Nachkomme 1 Nachkomme 2

Gemeinsame Vorfahren

© Dan Graur

Page 8: Fernstudium Molekulare Phylogenie

8

Vorfahre

Einige Organismen haben einen

Vorfahren, der erst vor kurzem gelebt

hat.

(~5 MYA)

© Dan Graur

Page 9: Fernstudium Molekulare Phylogenie

9

Vorfahre

© Dan Graur

(~100 MYA)

Andere gemeinsame Vorfahren haben früher gelebt.

Page 10: Fernstudium Molekulare Phylogenie

10

Vorfahre

© Dan Graur

(1.500 MYA)

Aber: Alle Organismen haben einen gemeinsamen Vorfahren!

Page 11: Fernstudium Molekulare Phylogenie

11

AAGACTT

TAGCCCT

AAGGCCT TGGACTT

AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT

heute

AGGGCAT

Hierarchie und Stammbaum

A B C D E

AGCACTT

Die Entstehung der Spezies erfolgte durch hierarchische Auftrennung, die durch einen Stammbaum darstellbar ist.

Page 12: Fernstudium Molekulare Phylogenie

12

(1.500 MYA)

(100 MYA)

(5 MYA)

© Dan Graur

Page 13: Fernstudium Molekulare Phylogenie

13

Ein korrekter Stammbaum

AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT heute

A B C D E

Page 14: Fernstudium Molekulare Phylogenie

14

Rekonstruktion

AGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT Daten

A B C D E

Rek

onst

rukt

ion

In Merkmalen (Morphologie, Sequenzen) sind dieInformationen über die Vergangenheit gespeichert

Page 15: Fernstudium Molekulare Phylogenie

15

„Das große Ziel“

Aus den Daten (Sequenzen u.a.) einen Stammbaum erstellen,

der die tatsächlichenhistorischen

Verwandtschaftsverhältnisse widerspiegelt.

Page 16: Fernstudium Molekulare Phylogenie

16

Warum molekulare Phylogenie?

Rekonstruktion von Verwandtschaftsverhältnissen

A. morphologische Daten (Fossilien, Merkmale, Ontogenie …)B. molekulare Daten (DNA- u. AS-Sequenzen, Gene …)

Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen.

Vorteil der Sequenzdaten:

- leichte Zugänglichkeit- grosse Datenmenge- können aber dennoch zu falschen Ergebnissen führen!

Page 17: Fernstudium Molekulare Phylogenie

17

Molekulare PhylogenieVorgehensweise zur Stammbaumerstellung:

A. Evolution der Proteine Wo liegt der Ursprung eines Proteins oder einer Proteinfamilie?� Auswahl ähnlicher Sequenzen aus Datenbanken� Sequenzalignment� Molekularphylogenetische Analyse� Statistische Überprüfung

B. Evolution der Organsimen (Tree of Life)Verwandschaft bestimmter Taxa?� Auswahl geeigneter Sequenzen� Sequenzierung (Datenbanken, Klonierung, PCR)� Sequenzalignment usw. (wie oben)

Page 18: Fernstudium Molekulare Phylogenie

18

Datenbanken

• NCBI – GenBank• DDBJ - DNA• EMBL-EBI• SWISS-PROT• PIR• UniProt• pdb

Page 19: Fernstudium Molekulare Phylogenie

19

Datenbanksuche

BLAST (Basic Local Alignment Search Tool)=> vergleicht zwei Sequenzen miteinander

BLASTN: Vergleicht eine Nukleinsäuresequenz mitNukleinsäuredatenbank

=> nahe verwandte SequenzenBLASTP: Vergleicht eine Aminosäuresequenz mit

Proteindatenbank.=> entfernt verwandte Sequenzen

z.B. Ausgangspunkt: eigene ermittelte Sequenz (Query)

Page 20: Fernstudium Molekulare Phylogenie

20

Datenbanksuche

.BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6

Leserastern mit Proteindatenbank.=> Für welches Protein kodiert meine Sequenz?

TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure-datenbank, die in allen 6 Leserastern translatiert wird.

=> findet z.B. nicht annotierte Proteine in DNA-Daten

TBLASTX: Vergleicht die Translationsprodukte aller 6 Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank.

=> z.B. entfernte Verwandtschaft unbekannte DNA-Sequenzen

Page 21: Fernstudium Molekulare Phylogenie

21

BLAST(Basic Local Alignment Search Tool)

PRAXIS 1

Page 22: Fernstudium Molekulare Phylogenie

22

Multiples Sequenz-Alignments

Gegeben:

Gesucht:

SeqA N A F L SSeqB N A F SSeqC N A K Y L SSeqD N A Y L S

SeqA N A - F L SSeqB N A - F - SSeqC N A K Y L SSeqD N A - Y L S

Indel:

Insertion/Deletion

Page 23: Fernstudium Molekulare Phylogenie

23

ABCD

Alle Sequenzen werden paarweisemiteinander verglichen

CLUSTALX

-D

0.77-C

0.820.45-B

0.270.890.75-A

DCBA

Berechnung der Distanzen

guide tree

A

D

CB

Page 24: Fernstudium Molekulare Phylogenie

24

AD

CB

Lücken = "gaps"

Alignment innerhalb der Cluster

B

C

A

D

CLUSTALX

Ähnliche Sequenzen werden zu einem Clustergruppiert

Page 25: Fernstudium Molekulare Phylogenie

25

BC

AD

ADBC

Sukzessives globales Alignment

neue Lücken = "gaps"

CLUSTALX

alte Lücken = "gaps"

AD

CB

Page 26: Fernstudium Molekulare Phylogenie

26

Alignment ParameterPRAXIS 2

Page 27: Fernstudium Molekulare Phylogenie

27

Schwestergruppen

Was ist ein Stammbaum?

� Darstellung der Verwandtschaftsverhältnisse

ABC

A – F auch "operational taxonomic units" (OTUs)

DEF

AB

CD

EF

t t

Taxon/Taxa

Page 28: Fernstudium Molekulare Phylogenie

28

Phylogenetische Grundbegriffe

A B C D E A B C D E

Dichotomie Polytomie

Ast(branch)

Knotenpunkt(node)

Wurzel(root)

Innengruppe(ingroup)

Page 29: Fernstudium Molekulare Phylogenie

29

Mono-, Para- und Polyphylie

Monophyletische Taxa:

Alle Nachkommen einer gemeinsamen Stammform

Polyphyletische Taxa:

Keine gemeinsame Stammform (unterschiedliche Vorfahren)

Paraphyletische Taxa:

Nicht alle Nachkommen einer gemeinsamen Stammform

A B C D E F

Page 30: Fernstudium Molekulare Phylogenie

30

Paraphylumaufgrund von homologen

(ursprünglichen) MerkmalenVögel

"Reptilien"

Schildkröten Krokodile

Eidechsen +

Schlangen

Phylogenetische Grundbegriffe

aber nicht alle Nachkommen werden erfasst

Page 31: Fernstudium Molekulare Phylogenie

31

"Geier"

Neuwelt-Geier Raubvögel

Polyphylie=> verschiedenen Ursprungs

aufgrund von Homoplasien (Konvergenzen)

Altwelt-Geier

Storchen-vögel

Phylogenetische Grundbegriffe

Page 32: Fernstudium Molekulare Phylogenie

32

Cladogramm und Phylogramm

B

A

C

D

E

F

Änderungen

A

BC

D

E

F

Cladogramm Phylogramm

A

B

C

D

E

F

Änderungen & Zeit

metrisch ultrametrisch

Page 33: Fernstudium Molekulare Phylogenie

33

StammbaumOhne Außengruppe: Mit Außengruppe:

Evolutionsrichtung

Neunauge

Hai

Goldfisch

Flösselhecht

Zebrafisch

Forelle

Lungenfisch

Molch

Ochsenfrosch

Krallenfrosch

Mensch

Maus

Stahlen-flosser

Land-wirbeltiere

Flösselhecht

Goldfisch

Neunauge

Hai

Zebrafisch

Lungenfisch

Maus

Mensch

ForelleMolch

Ochsen-frosch

Krallenfrosch

Evolutionsrichtung?

Page 34: Fernstudium Molekulare Phylogenie

34

Vorgehensweise

Stammbaumberechnung

Multiples Sequenz Alignment

Auswahl der Methode

Evolutionsmodell/Algorithmus

Ergebnisüberprüfung (output)

Sequenzen (Input)

Page 35: Fernstudium Molekulare Phylogenie

35

Stammbaumerstellung

1. Distanz-orientierte Methoden• UPGMA (Unweighted Pair-Group Method with

Arithmetric Means)• Neighbor-joining• Minimal Evolution

=> Sequenzen werden in Distanzmatrix konvertiert

2. Charakter-orientierte Methoden• Parsimony• Maximum Likelihood

=> jede Position wird als informative Einheit betrachtet

Stammbaumberechnung

Multiples Alignment

Auswahl der Methode

Evolutionsmodell/Algorithmus

Ergebnisüberprüfung

Sequenzen

Page 36: Fernstudium Molekulare Phylogenie

36

Distanz-orientierte Methoden

Zwei Schritte:

1.Berechnen der paarweisen Abstände zwischen den Sequenzen

2. Erstellen eines Stammbaums anhand dieser Abstandsdaten

Aus ‘jedem‘ Datensatz kann eine Distanzmatrix erstellt werden

Stammbaumberechnung

Multiples Alignment

Auswahl der Methode

Evolutionsmodell/Algorithmus

Ergebnisüberprüfung

Sequenzen

Page 37: Fernstudium Molekulare Phylogenie

37

1 2 3 4 5Sequenz 1 0.00 Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5

1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50Sequenz 2 0.00 0.25 0.40 0.65Sequenz 3 0.00 0.35 0.40Sequenz 4 0.00 0.50Sequenz 5 0.00

Berechnung einer DistanzmatrixSequenz 1 TATAAGCATGACTAGTAAGCSequenz 2 TATTAGCATGACTGGTAACCSequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC

Distanz = durchschnittliche Änderung pro Position

0.15

hier: 3 von 20 Positionen verändert

Page 38: Fernstudium Molekulare Phylogenie

38

Korrektur der Distanzen

beobachteter Abstand

t

%tatsächlicher Abstand= Anzahl der Mutationen

Korrektur

Page 39: Fernstudium Molekulare Phylogenie

39

Korrektur der Distanzen

Frage: Wie korrigieren wir?

� Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren.

� Wir brauchen also ein Evolutionsmodell, welches Rückmutationen und die Austauschwahrscheinlichkeiten etc. berücksichtigt.

Page 40: Fernstudium Molekulare Phylogenie

40

Korrekturmodelle (Evolutionsmodell)

Modelle

für Proteinevolution sind meist

empirisch

Page 41: Fernstudium Molekulare Phylogenie

41

Transmembran-Proteine

Evolutionsmodelle

Globuläre Proteine

K

R N

K

Page 42: Fernstudium Molekulare Phylogenie

42

Stammbaumberechnung

Alignment

Distanzmatrix

Evolutionsmodell z.B. JTT; PAM; BLOSUM ...

Stammbaum

Algorithmusz.B UPGMA; NJ…

Protdist

neighbor

UPGMA-TreeNJ-Tree

DatenClustalX

Page 43: Fernstudium Molekulare Phylogenie

43

Stammbaumberechnung

PRAXIS 3

output

Page 44: Fernstudium Molekulare Phylogenie

Distanzmatrix und Newick

44

12Ente 0.000000 0.027538 0.131789 0.189059 0.254695 0.305737 0.366709 0.437865 0.342427 0.680479 0.664999 0.809168Gans 0.027538 0.000000 0.133790 0.182028 0.254414 0.305450 0.366525 0.423258 0.355341 0.689492 0.689962 0.811354Huhn 0.131789 0.133790 0.000000 0.214235 0.279128 0.343764 0.395035 0.450144 0.371808 0.687246 0.709803 0.789037Taube 0.189059 0.182028 0.214235 0.000000 0.376477 0.426717 0.437753 0.430975 0.385513 0.685211 0.706543 0.853846Krokodil 0.254695 0.254414 0.279128 0.376477 0.000000 0.127816 0.366086 0.462063 0.403623 0.715770 0.751314 0.759451Alligator 0.305737 0.305450 0.343764 0.426717 0.127816 0.000000 0.437020 0.495107 0.437141 0.741703 0.755032 0.781956Schildkrot 0.366709 0.366525 0.395035 0.437753 0.366086 0.437020 0.000000 0.441266 0.407947 0.716215 0.761426 0.758189Wal 0.437865 0.423258 0.450144 0.430975 0.462063 0.495107 0.441266 0.000000 0.159417 0.764462 0.688008 0.809193Mensch 0.342427 0.355341 0.371808 0.385513 0.403623 0.437141 0.407947 0.159417 0.000000 0.710450 0.635149 0.705371Zebrafisch 0.680479 0.689492 0.687246 0.685211 0.715770 0.741703 0.716215 0.764462 0.710450 0.000000 0.367123 1.012071Lachs 0.664999 0.689962 0.709803 0.706543 0.751314 0.755032 0.761426 0.688008 0.635149 0.367123 0.000000 0.907433Salamander 0.809168 0.811354 0.789037 0.853846 0.759451 0.781956 0.758189 0.809193 0.705371 1.012071 0.907433 0.000000

(Gans:0.01404,(Taube:0.13426,(Huhn:0.07823,((Krokodil:0.04150,Alligator:0.08631):0.10799,(Schildkrot:0.20098,((Wal:0.11272,Mensch:0.04670):0.11592,((Zebrafisch:0.19023,Lachs:0.17689):0.25250,Salamander:0.52369):0.05289):0.02137):0.03693):0.06954):0.00251):0.03752,Ente:0.01350);

Page 45: Fernstudium Molekulare Phylogenie

45

Ente

Gans

Taube

Huhn

Krokodil

Alligator

Schildkrot

Wal

Mensch

Salamander

Zebrafisch

Lachs100

100

100

65

52

79

95

36

95

?‚Long branch attraction?‘

Der Baum

Page 46: Fernstudium Molekulare Phylogenie

46

UPGMA - NJ

A

B

C

D

E

F

B

A

C

D

E

FUPGMA

Unweighted Pair-Group Method with Arithmetric Means

NJNeighbor Joining

•Aussengruppe festgelegt

•konstante Evolutionsrate

•Aussengruppe wählbar

•unterschiedliche Evolutionsraten

Page 47: Fernstudium Molekulare Phylogenie

47

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A/B C D OTU A/B 0 11 19OTU C 0 19OTU D 0

3 A

3B

6

A/B

C

5.5

5.5

2.5

=3

d AD + d BD2

=5,5

d AC + d BC2

UPGMA Unweighted Pair-Group Method with Arithmetric Means

Page 48: Fernstudium Molekulare Phylogenie

48

A/B/C D Sequenz A/B/C 0 19Sequenz D 0

A

3 B

2.5

5.5 C

D

4

9.5

3

• nimmt konstante Evolutionsraten an• Außengruppe wird „automatisch“ bestimmt

UPGMA Unweighted Pair-Group Method with Arithmetric Means

Page 49: Fernstudium Molekulare Phylogenie

49

A B C D OTU A 0 6 10 18 OTU B 0 12 20OTU C 0 19OTU D 0

A B C D OTU A 0 6 11 19 OTU B 0 11 19OTU C 0 19OTU D 0

A

3 B

2.5

5.5 C

D

4

9.5

3

Ausgangsmatrix

rekonstruierte Matrix

UPGMA setzt absolute molekulare Uhr voraus, aber in Realität müssen Evolutionsraten berücksichtigt werden

UPGMA Unweighted Pair-Group Method with Arithmetric Means

Page 50: Fernstudium Molekulare Phylogenie

50

Problem UPGMA

A B C D

OTU A 0 18(21,7) 10 13OTU B 0 22(21,7) 25(21,7)OTU C 0 13OTU D 0

3

2

5

1

7

15

A

B

C

D

5

1.5

6.5

4.33

10.83

5

A

C

D

B

Page 51: Fernstudium Molekulare Phylogenie

51

Neighbor-joining NJ

Ziel NJ => Minimierung der Summe aller Astlängen

B C

D

E

A

bc

de

a

S0 = (∑ dji)/N-1i≤j

S0=Summe aller Astlängend =Distanzen zwischen allen OTUsN =Anzahl der OTUs

S0=a+b+c+d+e

„Star-tree“

B C

D

E

A

bc

d

e

af

„modified Star-tree“

Paare werden kombiniert

A B C D E

OTU A 0 22 39 39 41OTU B 0 41 41 43OTU C 0 18 20OTU D 10OTU E 0

SAB=67,7

S0=78,5

SBC=81SCD=76

SDE=70

Aber: Welche Paare werden kombiniert?

Page 52: Fernstudium Molekulare Phylogenie

52

Grouping -> BaumlängenAstlängen -> FMNeues taxon -> neue Matrix

B

A

b

a

C

D

E

c

d

e

f

„modified Star-tree“

„Star tree“ -> BaumlängeGrouping -> BaumlängenAstlängen -> FM

Neues taxon (AB) -> neue Matrix

Grouping -> BaumlängenAstlängen -> FMNeues taxon -> neue Matrix

Neues taxon (XY) -> neue Matrix

Neighbor-joining NJ

C

D

E

c

d

e

f

Page 53: Fernstudium Molekulare Phylogenie

53

B C

D

E

A

b=12c

d=4

e=6

a=10f=20

„final tree“

g=5

c=9

A B C D EOTU A 0 22 39 39 41OTU B 0 41 41 43OTU C 0 18 20OTU D 0 10OTU E 0

Neighbor-joining NJ

Page 54: Fernstudium Molekulare Phylogenie

54

• Ähnlicher Algorithmus wie UPGMA• Sukzessives Gruppieren der Taxa ohne Verlust eines

Astlängenunterschiedes• Minimierung der Gesamt-Astlängen des Baums

=> Stammbaum wird aufgelöst=> berücksichtigt unterschiedliche Evolutionsraten

(Rekonstruierte Distanzmatrix=Ausgangsmatrix)

Neighbor-joining NJ

Page 55: Fernstudium Molekulare Phylogenie

55

Was bisher geschah...

Alignment

Distanzmatrix

Evolutionsmodell JTT, PAM, BLOSUM ...

Stammbaum

Algorithmus

z.B UPGMA; NJ…

DatenClustalX, Dialign…

UPGMANJFM

LS ME

Page 56: Fernstudium Molekulare Phylogenie

56

Statistische Auswertung

….oder….

Wie gut passt mein Stammbaum zu den Daten?

häufigste Methode ist „Bootstrapping“…

Page 57: Fernstudium Molekulare Phylogenie

57

Ziehen MITZurücklegen

Bootstrapping

Page 58: Fernstudium Molekulare Phylogenie

58

D

Position Sequence 1 2 3 4 5 6 7 8 9 A A A A A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

OrginalsequenzenPosition

Sequence 1 2 2 4 5 5 7 8 8A A A A A G G G C CB A G G C G G C C CC A G G T A A C C CD A G G G A A C C C

Pseudosample 1

z.B. 100 WiederholungenPosition

Sequence 1 1 1 4 4 6 7 7 7A A A A A A T G G GB A A A C C T G G GC A A A T T T C C CD A A A G G T C C C

Pseudosample 2

A

D

BC

A

B

C

…100 Stammbäume

Bootstrapping

Page 59: Fernstudium Molekulare Phylogenie

59

123456789 Freq-----------------.**...... 100.00...**.... 100.00.....**.. 100.00...****.. 100.00...****** 96.00.......** 84.00...****.* 13.00...*****. 5.00.*******. 3.00.**....*. 1.00.**.....* 1.00

Majority-rule consensus tree

Taxon 1

Taxon 3

Taxon 8

Taxon 9

Taxon 4

Taxon 6

Taxon 7

100

96

84

100

100

100

Taxon 2

Taxon 5

Bootstrapping

Page 60: Fernstudium Molekulare Phylogenie

60

Stammbaumberechnung

Protdist

ClustalX

UPGMANJ

neighbor

Alignment

Distanzmatrix

Daten

„Evolutionsmodell“

Seqboot x100

consense

100

100

1 NJ UPGMA

Bootstrapping

Page 61: Fernstudium Molekulare Phylogenie

61

I ATAAII AAAAIII AAAA

I ATAAII AAAAIII AAAA

I AAAAII AAAAIII AAAA

IIIIII

IIIIII

IIIIII

99x

1x

Page 62: Fernstudium Molekulare Phylogenie

62

Bootstrapping

Page 63: Fernstudium Molekulare Phylogenie

63

Stammbaumerstellung

1. Matrix-orientierte Methoden

2. Charakter-orientierte Methoden

Page 64: Fernstudium Molekulare Phylogenie

64

Charakter-orientierte Methoden

1. Maximum Parsimony (MP)2. Maximum Likelihood (ML)

• Arbeiten direkt mit dem Alignment indem Nukleotide

bzw. Aminosäuren als diskrete Charaktere behandelt

werden

• Der phylogenetische Stammbaum wird anhand des

Musters der Änderungen der Charaktere berechnet

• Extrahieren mehr Information als Matrix-orientierte

Methoden

Page 65: Fernstudium Molekulare Phylogenie

65

Maximum Parsimony„Maximaler Geiz"

Annahme:• Evolution ging stets den kürzesten Weg und somit wird der Stammbaum berechnet, der die wenigsten evolutiven Schritte benötigt.

Methode:• Alle Möglichkeiten analysieren

Page 66: Fernstudium Molekulare Phylogenie

66

A

B

C

D

A

C

B

D

A

D

B

C

3 mögliche Stammbäume

10 Mutationen 15 Mutationen 14 Mutationen

Position Sequenz 1 2 3 4 5 6 7 8 9A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Maximum Parsimony

Page 67: Fernstudium Molekulare Phylogenie

67

Maximum ParsimonyPosition

Sequenz 1 2 3 4 5 6 7 8 9 A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

2 Mutationen

=G

C

A

A

AG2 Mutationen

C

C

A

A

AG

Sequenz A

Sequenz B

Sequenz C

Sequenz D

Sequenz A

Sequenz B

Sequenz C

Sequenz D

Ort der Mutation nicht immer eindeutig definiert => Parsimony kann keine Astlängen berechnen.

Page 68: Fernstudium Molekulare Phylogenie

68

Position Sequenz 1 2 3 4 5 6 7 8 9A A A G A G T G C A B A G C C G T G C G C A G A T A T C C A D A G A G A T C C G

Gesamt-Alignment:

A

B

C

D10 Mutationen

A

B

C

D10 Mutationen

A

B

C

D10 Mutationen

= = = .....

Maximum Parsimony

Page 69: Fernstudium Molekulare Phylogenie

69

Proteinparsimony:1. Modell (z.B. PAUP): Alle Substitutionen sind gleich wahrscheinlich (1 Schritt).

Beispiel Ile -> Trp ≡ Ile -> Met ≡ Ile -> Ala ...

2. Modell: liegt genetischen Code zugrunde, wobei "silent site mutations" ignoriert werden (PROTPARS-Modell in PHYLIP).

Beispiel: Ile -> Met: ATA/C/T -> ATG: ein SchrittIle -> Ala: ATA/C/T -> GCN: zwei Schritte Ile -> Trp: ATA/C/T -> TGG: drei Schritte

Maximum Parsimony

Page 70: Fernstudium Molekulare Phylogenie

70

� gesamter Datensatz

Vorteile:

� empfindlich gegenüber stark unter-schiedlichen Evolutionsraten

� Evolutionsmodelle eingeschränkt möglich� hoher Rechenaufwand bei >20 Taxa

Nachteile:

Maximum Parsimony

Page 71: Fernstudium Molekulare Phylogenie

71

Stammbaumberechnung

Alignment

Evolutionsmodell „kürzester Weg“

MaximumParsimony

Stammbaum

Protpars

DatenClustalX

Page 72: Fernstudium Molekulare Phylogenie

72

Stammbaumberechnung

PRAXIS 5

Page 73: Fernstudium Molekulare Phylogenie

73

Maximum Likelihood

Wahrscheinlichkeit der beobachteten Daten im Lichte der

Hypothese

L = P(data|hypothesis)

Page 74: Fernstudium Molekulare Phylogenie

74

Likelihood

Daten: KKZKZKKZZZ

• Ereignisse sind unabhängig

• Alle ‚Kopfwürfe‘ besitzen gleiche UNBEKANNTE Kopfwahrscheinlichkeit p

Hypothese

=> Likelihood L(D|H) = pp(1-p)p(1-p)pp(1-p)(1-p)(1-p)

Für jede vorgegebene Kopfwahrschein-lichkeit p ergibt sich eine bestimmte Likelihood

=> Plot der selben Daten (KKZKZKKZZZ) gegen verschiedene Werte von p (Hypothese)

=> Mit welcher Kopfwahrscheinlichkeit p bekomme ich am ehesten diese Daten?

L = P(Daten | Hypothese )

0,0 0,2 0,4 0,6 0,8 1,0[p]

Like

lihoo

d

Page 75: Fernstudium Molekulare Phylogenie

75

Maximum LikelihoodL = P(data|hypothesis)

• Wahrscheinlichkeit die beobachteten Daten(Sequenzen!) unter der angenommenen Hypothese(Stammbaum/Evolutionsmodell) zu erhalten.

• d.h, es wird der Stammbaum errechnet, der die beobachteten Daten (also die alignierten Sequenzen) am besten (unter der Annahme des Modells) erklärt.

Evolutions-

modell

Ein Baum wird generiert und man prüft dann ob die gegebenen Daten den Baum generieren können

Page 76: Fernstudium Molekulare Phylogenie

76

ML - Prinzip

X,Y = A, T, G, oder C

A T C G

A 1,0 0,1 0,2 0,4

T 1,0 0,3 0,6

C 1,0 0,1

G 1,0

Sequence 1 CGAGAASequence 2 AGCGAASequence 3 AGATTTSequence 4 GGATAT

1x1x1x0,1x0,1=0,01

Sequence 1 CGAGAASequence 2 AGCGAASequence 3 AGATTTSequence 4 GGATAT

CGAGAAAGCGAAAGATTTGGATAT

Likelihood einer vorgegebenen Topologie ist das Produkt aller

Wahrscheinlichkeiten jederPosition

Berechnen aller Möglichkeiten für eine Topologie und eine Position

Page 77: Fernstudium Molekulare Phylogenie

77

ML - Beispiel:

Stammbaum A:

1

2

3

4

Gesamt"wahrscheinlichkeit":

= 0,12427=> logL = -0,90563

1

3

2

4

Gesamt"wahrscheinlichkeit":

= 0,02302=> logL = -1,6379

Stammbaum B:

Page 78: Fernstudium Molekulare Phylogenie

78

Maximum Likelihood

� Der Wert für die eingesetzten Wahrscheinlichkeiten p entspricht den vorgegebenen Stammbäumen.

� Die Hypothese „alle Kopfwürfe besitzen die gleiche Wahrscheinlickeit“ entspricht dem Evolutionsmodell

Page 79: Fernstudium Molekulare Phylogenie

79

Maximum Likelihood Vorteile

� Mathematisch gut definiert� Funktioniert gut in Simulationsexperimenten � Erlaubt explizite Verbindung von

Evolutionsmodell und Daten (Sequenzen) � "Realistische" Annahmen zur Evolution� Verschiedene Modelle und Stammbäume

lassen sich testen

Page 80: Fernstudium Molekulare Phylogenie

80

� Maximum likelihood ist nur konsistent (ergibt einen "wahren" Stammbaum) wenn die Evolution nach den gegebenen Modell ablief: Wie gut stimmt mein Modell mit den Daten überein?

� Computertechnisch nicht zu lösen wenn zu viele Taxa oder Parameter berücksichtigt werden müssen.

Maximum Likelihood Nachteile

Page 81: Fernstudium Molekulare Phylogenie

81

Maximum Likelihood

� Bei vielen Taxa sind computertechnisch nicht alle möglichen Stammbäume berechenbar

� Lösung: "Intelligente Algorithmen"- Quartet puzzling- Bayessche Methode + MCMCMC

Page 82: Fernstudium Molekulare Phylogenie

82

Maximum Parsimony

Exhaustive = Alle Stammbäume werden untersucht, der beste Stammbaum wird erhalten (garantiert).

Exhaustive search:Erschöpfung garantiert

Page 83: Fernstudium Molekulare Phylogenie

83

Maximum Parsimony:Exhaustive Search

A

B C(1)Start: 3 beliebige Taxa

(2a)

A

B DC

A

BD C

A

B C

D(2b) (2c)

+ 4. Taxon (D) in jeder möglichen Position -> 3 Bäume

+ 5. Taxon (E) in jeder der fünf möglichen Positionen=> 15 Stammbäume etc.

E

E

EE

E

"Branch addition“

Page 84: Fernstudium Molekulare Phylogenie

84

Problem: Anzahl der möglichen Stammbäume

=> bei > ~10 Sequenzenausführliche Suche allerStammbäume de factounmöglich

Maximum Parsimony:Exhaustive Search

Number

of OTUs

Number of

rooted trees

Number of

unrooted trees

2 1 13 3 1

4 15 35 105 15

6 954 1057 10 395 9548 135 135 10 395

9 2 027 025 135 13510 34 459 425 2 027 025

Page 85: Fernstudium Molekulare Phylogenie

85

Maximum Parsimony

1. Lösung "Branch and bound":• Stammbaum wird mit schneller Methode (z.B. NJ) berechnet, die Anzahl der notwendigen Schritte (L) wird berechnet.

• => verwirft Gruppen von Bäumen, die nicht kürzer werden können als L.

• Kann für Problemlösungen mit < ~ 20 Taxa verwendet werden.

Page 86: Fernstudium Molekulare Phylogenie

86

MaximumParsimony

„branchand bound“

„abzweigen und beenden“

Page 87: Fernstudium Molekulare Phylogenie

87

Maximum Parsimony2. Lösung:

Heuristische Verfahren:� „stepwise addition“ drei Taxa Baum – schrittweise

Addition auf allen nächsten Ebenen (großes Problem: lokale Maxima)

� „star decomposition“: „star tree“ schrittweiser Abbau von Taxa bzw. Zusammenführung und Evaluation (großes Problem: lokale Maxima)

Kombination mit anderen Algorithmen� „branch swapping“ (Zweige vertauschen):

Nearest neighbor interchange (NNI)Subtree pruning and regrafting (SPR)Tree bisection and reconnection (TBR)

Page 88: Fernstudium Molekulare Phylogenie

88

Problem: Lokale Maxima „stepwise addition"

„star decomposition“

Maximum Parsimony

? !

„Bauminsel“

Page 89: Fernstudium Molekulare Phylogenie

go go go !!!

No go !!! Back up!!!

Down? Don‘t go !

Lokales Maximum

Page 90: Fernstudium Molekulare Phylogenie
Page 91: Fernstudium Molekulare Phylogenie

91

Durch zwischenzeitliche Einführung einer veränderten MatrixWird man aus einem lokalen maximum herauskatapultiert…

Programme wie:NONA, TNT, PRAP…

Weitere „Parsimony“-Verfahren:

• Wagner (binäre Charaktere),• Dollo (gewichtet) und• Fitch (unordered multistate characters, DNA)

Parsimony Ratchet

Page 92: Fernstudium Molekulare Phylogenie

92

ML, MP versus NJ und UPGMA

� Stammbaum vorgegeben� Analyse aller Möglichkeiten diesen Stammbaum zu

erhalten� MP: kürzester – ML: zutreffenster

ML, MP

NJ, UPGMA� Sukkzessive Rekonstruktion des Stammbaumes� NJ: „echte“ Evolutionsraten� UPGMA: „gemittelte“ Evolutionsraten

Page 93: Fernstudium Molekulare Phylogenie

Vorgehensweise UPGMA und NJ

Sukzessives Hinzufügen neuer OTUs zum Stammbaum

93

A

B

CA

B

C

D

A

B

Page 94: Fernstudium Molekulare Phylogenie

Vorgehensweise MP und ML

Maximum Parsimony

94

D

A

D

BC

A

B

C

Maximum Likelihood

Welcher Stammbaum erfordert die wenigsten

Mutationen, um den Datensatz zu erhalten?

Welcher Stammbaum liefert die höchste

Wahrscheinlichkeit den Datensatz zu erhalten?

Alle möglichen Stammbäume

Page 95: Fernstudium Molekulare Phylogenie

95

Stammbaumberechnung

Protdist

ClustalX

MPMLUPGMANJ

neighbor

Alignment

Distanzmatrix

Daten

„Evolutionsmodelle“

protparsproML

Page 96: Fernstudium Molekulare Phylogenie

96

Stammbaumberechnung

Protdist

ClustalX

MPML

MP

UPGMANJ

neighbor

Alignment

Distanzmatrix

„Evolutionsmodelle“

Seqboot x100

consense

100

100

1 NJ UPGMA

100

1ML

protparsproML

Page 97: Fernstudium Molekulare Phylogenie

97

Was ‚können‘ oder ‚kennen wir !?

Alignment

Distanz matrix

Evolutions-modelle

Neigbor JoiningMax.Parsimony

Max. Likelihood UPGMA

CharakterMatrix

Stammbaum

Page 98: Fernstudium Molekulare Phylogenie

98

☺ �Kritik,

AnregungenVorschläge

Verbesserungen…

…. oder was auch immer,bitte

anBernd

oder

Michael

[email protected]

[email protected]

Page 99: Fernstudium Molekulare Phylogenie

Merke ☺

� Alles außer UPGMA ist radial � „rooting“

� Nur UPGMA gibt Außengruppe vor

� Alles außer MP zeigt Abstände

� MP � Cladogramm-Darstellung

� UPGMA, NJ, ML � Phylogramm-Darstellung

� Bootstrapping zeigt Info des Datensatzes

99

Page 100: Fernstudium Molekulare Phylogenie

DATEN

alignment

ClustalX

Matrix

protdist

seqboot

100 aln

100 Matrizen

Matrix orientierte Methoden:

UPGMA / NJ

Tree

Evolutionsmodell:

JTT

Neighbor

(UPGMA / NJ)

Tree100 Trees

consense

bootstrap Tree

Bootstrap-

Werte

≥ 100 Trees

protpars

Evolutionsmodell:

parsimony (Geiz)

bootstrap Tree

Bootstrap-

Werte

Charakter orientierte Methoden:

MP

HbA.seq

HbA.phy

HbA_JTT.dst

HbA_UPGMA.tre (.out)

HbA_NJ.tre (.out)

HbA_seqboot.txt

HbA_seqboot_ protdist.txt

HbA_seqboot_ protdist_UPGMA.tre

HbA_seqboot_ protdist_NJ.tre

HbA_seqboot_ protdist_UPGMA_con.tre

HbA_seqboot_ protdist_NJ_con.tre

HbA_MP.tre (.out)sbmp.tre (.out)

HbA_seqboot_ MP_con.tre

Programm

File name

Datenform