Statistische Tests in der Phylogenie Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath

Statistische Tests in der Phylogenie

Likelihood-Based Tests of Topologies in Phylogenetics

Nick Goldman, Jon P. Anderson, Allen G. Rodrigo

-Lisha Naduvilezhath

2

Gliederung1. Hintergrund-“wissen“

- Signifikanz-/ Hypothesentest- Bootstrap

2. Verschiedene Tests- KH- / SH- / SOWH- Test- Beispiel HIV-1 / Säugetiere

3. Zusammenfassung/ Ausblick

3

Thema Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT…Seq5 : CGATTGA…

T1/ L1

T2/ L2LX ist log- Likelihood für TX

4

Signifikanz-/ Hypothesentest Statistische Hypothese: Annahme

über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann

Nullhypothese (H0): statistische Hypothese, die meist verworfen wirdz.B.: Aussage: „Münze präpariert“

Hypothese: Münze fairH0: p= 0,5 für Kopf

5

Signifikanz-/ Hypothesentest Alternativhypothese (HA, H1): jede

von H0 andere Hypothese (z.B.: p<0,5) Signifikanztest: Verfahren zum

Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind

Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen

6

Signifikanz-/ Hypothesentest Signifikanzlevel/ -niveau/

Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1%

P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird

7

Signifikanz-/ Hypothesentest

Einseitiger Test

Zweiseitiger Test

8

Bootstrap Bootstrap- Gedanke: Neu erzeugte

Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter.

Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen

Parametrischer (P) Bootstrap (Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren

9

Bootstrap In der Phylogenie:

Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen

Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T…Seq5 : C G A T T G A…

Site

10

Kishino- Hasegawa Test (KH-Test)

Gegeben: Topologien T1 (L1) und T2(L2) Fragestellung: Unterstützen T1 und

T2 die Daten gleichermaßen? H0: E[δ] =0 mit δ = L1 - L2

(HA: E[δ] =0) keine Verteilung für δ gegeben in H0

nichtparametrischer Bootstrap

11

KH- Test (=Test priNPfcd)1. Test Statistik: δ = L1 - L2 2. Mit NP-Bootstrap Datenmengen i

erzeugen3. Für jedes i:

- Schätzen von Θ1 und Θ2 für maximale log-likelihoods L1,(i) und L2,(i) - δ(i)= L1,(i) - L2,(i)

4. Zentrieren der δ(i) Δ(i)(Verteilung der Δ(i) ist Schätzung für δ- Verteilung)

5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?

12

Resampling estimated log-likelihood (RELL- Methode)

Zeitgewinn RELL-Methode:

für L1,(i) - bzw. L2,(i) - Berechnung stets

ΘML,1 und ΘML,2 verwenden (ΘML,X: optimierter Parameter für Originaldaten)

Vorrausetzung für Anwendung: Korrektes Evolutionäres Modell Ausreichend große Datenmengen

13

Test priNPncd1. Test Statistik: δ = L1 - L2 2. Mit NP-Bootstrap Datenmengen i

erzeugen3. Für jedes i:

- Mit ΘML,1 und ΘML,2 bestimmen von Ľ1,(i) und Ľ2,(i) („΄“ bedeutet Schätzung) - δ̛(i)= Ľ1,(i) - Ľ2,(i)

4. Zentrieren der δ̛(i) Δ̛(i)5. Zwei-seitiger Test: Fällt δ in Konfidenz-

intervall für E[δ]?

14

Test priNPncn Kishino und Hasegawa (1989):

δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz:(normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt

15

Test priNPncn Im Test priNPncd letzten Schritt

mit folgendem austauschen:5. Berechne Varianz von Δ̛(i) (=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt

16

Test priNPnca := log- Wahrscheinlichkeit

am Site k von Baum TX (k= 1,2,… S)

Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar

17

Test priNPnca1. Test Statistik: δ = L1 - L2

2. Mit ΘML,1 und ΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k)

3. Zentrieren der δ(k) Δ(k)

18

Test priNPnca4. Schätzen der Varianz von Δ(k)

(=Var(δ(k))) mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν²

5. Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung?

Implementiert in PHYLIP, PUZZLE (MOLPHY)

19

Test priNPncs Letzte beiden Schritte von Test

priNPnca ersetzen mit:4. paired- t- Test von L1(k) und L2(k) (Paare {L1(1), L2(1)}, {L1(2), L2(2)},…, {L1(S), L2(S)}) zur Überprüfung, ob Mittelwerte

gleich sind (E[μ1 - µ2] =0)

20

Students t- Verteilung Nach dem

Pseudonym des „Entdeckers“ William S. Gosset benannt

m = Anzahl Freiheitsgrade (m ∞: Normverteilung)

21

Test priNPncs implementiert in PAUP*

Keine theoretische Erklärung denkbar für zusätzliche Annahme

Trotzdem ähnliche Signifikanzlevels in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)

22

Falscher Gebrauch des KH-Tests

T1 und T2 müssen unabhängig voneinander UND ohne vorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0

Falls TX = TML INKORREKTER KH-T - Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0

! einseitige Tests erforderlich

23

Korrektes Vorgehen Trainer: Unterscheiden

sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant?

Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)

24

Korrektes Vorgehen

Team- Statistiker: H0: E[δ(Asterix, Obelix)] =0 HA: E[δ(Asterix, Obelix)] =0

25

Verdeutlichen des Fehlers Trainer glaubt Idefix ist

schnellster δ(Idefix, schnellster)=

t(Idefix) – t(schnellster) Vermutung: wenn gleich

gut E[δ] 0 Team-Statistiker: Falsch!!

- Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0

26

Shimodaira- Hasegawa Test (SH- Test)

Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien)

a priori Wahl der Topologien in M H0: alle Tx ε M sind gleichgute

Erklärungen

27

SH- Test (=Test posNPfcd)1. Für jedes TX ε M: δX:=LML – LX

2. Mit NP-Bootstrap Datenmengen i erzeugen

3. Für jedes i und jedes TX : maximiere LX,(i) über ΘX

4. Für jedes TX : LX,(i) L ̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))

28

SH- Test (=Test posNPfcd)5. Für jedes i:

- Finde L ̃ML,(i) (Maximum über L ̃X,(i))- Bootstrap-Statistik: δX,(i)= L ̃ML,(i) - LX,(i)

6. Einseitiger Test (da, L ̃ML,(i) ≥ LX,(i)) :Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?

29

Test posNPncd Zeitgewinn mit RELL-Methode1. Für jedes TX ε M: δX:= LML – LX

2. Mit NP-Bootstrap Datenmengen i erzeugen

3. Für jedes i und jedes TX : approximiere LX,(i) mit ΘML,X

4. Rest wie bei Test posNPncd

30

SH- Test …… schätzt gleichzeitig

Signifikanzlevels für jede Topologie TX

… als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)

31

Rettung falscher KH- Test- Ergebnisse

Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist

Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern

den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt

Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0

32

Keine Rettung der KH- Ergebnisse

Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels

Grund: SH- Test liefert Ergebnis ≥ p/2 Beispiel:

a. p< 0,05 p/2<0,025b. 0,05< p< 0,1 (keine H0-Ablehnung) 0,025< p/2< 0,05

Wie viel größer?

33

SOWH- Test (=Test posPfud) Von Swofford et al. beschrieben und

Hillis et al. implementiert Schätzt, ob a priori- gewählte

Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte

H0: T1 ist wahre TopologieHA: wahre Topologie ist andere

34

SOWH- Test (=Test posPfud)1. Test Statistik: δ = LML – L1 2. Mit P- Bootstrap und ML-Schätzer

ΘML,1 Datenmengen i erzeugen 3. Für alle Tx: Schätzen von ΘX für

maximale LX,(i)4. Finde LML,(i)

5. δ(i) = LML,(i) - L1,(i) (Verteilung für δ)6. Einseitiger Test: δ signifikant?

35

SOWH- Test (=Test posPfud) Test Statistik δ wie bei KH und SH-Test Da TML benutzt Annahme E[δ] =0

nicht möglich Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX

Vorschlag 1: RELL-like für (a priori) T1

36

Test posPpud (Schätzung unter H0)

1. Schritte 1 und 2 siehe Test posPfud 2. Für alle Tx/{T1}: Schätzen von ΘX

für maximale LX,(i)

3. Für T1 benutze ΘML,1 Ľ1,(i)

4. Finde LML,(i)

5. δ̛(i)= LML,(i) – Ľ1,(i) (Verteilung für δ)6. Einseitiger Test: δ signifikant?

37

Test posPpud (Schätzung unter H0)

nicht besonders schneller Test posPnud unvernünftig, da

original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt)

Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)

38

Test posPpud (Schätzung unter HA) Alle Parameterkomponenten, die

gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen

Unterschied zum vorigen Test:- nur „freie“ Parameterwerte (Astlängen) werden maximiert

Wenn beide Tests H0 nicht verwerfen Wenn beide Tests H0 verwerfen ?

39

Beispiel HIV-1 - DNA Geg: 6 homologe DNA Sequenzen

à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2)Alignieren

Konventionelle Phylogenie: T1= ((A1,A2), (B,D), (E1,E2))L1= -5073,75

40

Beispiel HIV-1 - DNA ML Phylogenie:

TML=(A1, (B,D), (A2, (E1,E2)))LML= -5069,9

SH-Test: M enthält alle 105 möglichen Tx

Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung

41

Gamma (Γ) - Verteilung Kontinuierliche, reproduktive

Wahrscheinlichkeitsverteilung über positive reelle Zahlen

Wahrscheinlichkeitsdichte gegeben durch

E(X)= α/β V(X)= α/β²

42

Gamma (Γ) - Verteilung

43

Beispiel HIV-1 - DNA ΘX: Astlängen, Basenhäufigkeiten, relative

Substitutionsrate zwischenNukleotidpaaren, α (Parameter für Γ- Verteilung)

1000 Bootstrap-Datenmengen erzeugt Für alle Test: Teststatistik δ=

LML -L1 = 3,90 α = 0,05

Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)

44

Beispiel HIV-1 - DNA

45

Beispiel HIV-1 - DNA Mögliche Erklärungen für Unterschied

in SH- und SOWH- Testergebnis:- unterschiedliche H0- Hypothesen(- parametrische (SOWH-) Tests sind mächtiger als nichtparametrische (SH-))- parametrische Tests vom zugrunde gelegten Modell abhängig

46

Beispiel HIV-1 - DNA

47

Beispiel Säugetiere - aa Geg: - 6 mt Proteinsequenzen à 3414

Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O) - (S, C) 15 mögliche TX

SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen

48

Beispiel Säugetiere - aa SOWH- Test:

- T1= ((H, ((S, C), R)), M, O) (a priori)- TML= (((H, (S, C)), R), M, O)

Mit „model of mammalian mt aa replacement + F + Γ “ (Yang et al. 1998):L1 = - 21727,26LML = - 21724,60

Teststatistik δ= LML -L1 = 2,66

49

Beispiel Säugetiere - aa

50

Zusammenfassung/ Ausblick Veröffentlichte KH- Test Ergebnisse mit

Vorsicht behandeln!! Alle zukünftigen Tests mit SH- oder

SOWH- Tests ausführen Untersuchung von Ergebnissen mit

kombinierten Tests Untersuchung der Unterschiede zwischen

SH- und SOWH- Testergebnissen

Documents

Statistische Tests in der Phylogenie Likelihood-Based Tests of Topologies in Phylogenetics Nick Goldman, Jon P. Anderson, Allen G. Rodrigo -Lisha Naduvilezhath