30
1 Promotor Prediction Programms (PPP) Christian Ehrlich & Falko Krause Evolution eukaryontischer Promotorsequenzen

Promotor Prediction Programms (PPP)

  • Upload
    manon

  • View
    49

  • Download
    0

Embed Size (px)

DESCRIPTION

Evolution eukaryontischer Promotorsequenzen. Promotor Prediction Programms (PPP). Christian Ehrlich & Falko Krause. Übersicht. Einführung Bilogischer Hintergrund Maschinenlernen Eponine Relevance Vector Machine FirstEF Quadratische Diskriminanzanalyse Vergleich von PPPs. - PowerPoint PPT Presentation

Citation preview

Page 1: Promotor  Prediction  Programms (PPP)

1

Promotor Prediction Programms (PPP)

Christian Ehrlich&

Falko Krause

Evolution eukaryontischer Promotorsequenzen

Page 2: Promotor  Prediction  Programms (PPP)

2

Übersicht

• Einführung– Bilogischer Hintergrund– Maschinenlernen

• Eponine– Relevance Vector Machine

• FirstEF– Quadratische Diskriminanzanalyse

• Vergleich von PPPs

Page 3: Promotor  Prediction  Programms (PPP)

3

Der Promotor

Ort:– vor und nach der

Transkriptionsstart- stelle (TSS)

Merkmale:– Transkriptionsfaktor-

bindungsstellen (TFBS) z.B. TATA-Box

– CpG-Inseln– TSS– Initiator Sequenz

Einführung Eponine FirstEF Vergleich von PPPs

Page 4: Promotor  Prediction  Programms (PPP)

4

Maschienenlernen

Hidden Markov Modelle (HMM)

Neuronale Netze (NN)

Einführung Eponine FirstEF Vergleich von PPPs

Page 5: Promotor  Prediction  Programms (PPP)

5

Maschienenlernen

Sampling Relevance

Vector Machine (RVM)

Quadratische

Diskriminanz-

analyse (QDA)

Einführung Eponine FirstEF Vergleich von PPPs

Page 6: Promotor  Prediction  Programms (PPP)

6

Eponine

What can we learn from noncoding regions of similarity between regions

T.Down, T.J.P. Hubbard2004 , BMC Bioinformatics

Einführung Eponine FirstEF Vergleich von PPPs

Page 7: Promotor  Prediction  Programms (PPP)

7

Maschinenlernen

Überwachtes Maschinenlernen– annotierte Daten (Promoter Regionen, TSS,

proteincodierende Bereiche)– Modellerstellung aus diesen Daten– automatische Daten Annotierung

überwacht unüberwacht

Einführung Eponine FirstEF Vergleich von PPPs

Page 8: Promotor  Prediction  Programms (PPP)

8

Trainingset

H Chromosome 6

Human Maus

BLAST-Z F i l t e r

ab initioGen-Suche

codierend (annotiert)

RepeatMasker

M Genome

+ Trainingssetkonserviert funktionell

nicht proteincodierend

- Trainingssetnicht proteincodierend

Einführung Eponine FirstEF Vergleich von PPPs

Page 9: Promotor  Prediction  Programms (PPP)

9

Relevance Vector Machine

Bayes’sche automatische Relevanz Determination (ARD)für Modelle mit linearen Parametern (RVM 2000 M.E.Tipping M$)

• wenige Basis-Funktionen können von einem Generalisierten Linearem Modell (GLM) gelernt werden

• Basis-Funktionen können selbst gewählt werden (SVM nur Kernel Funktionen)

• Anzahl der Basis-Funktionen wird reduziert

Einführung Eponine FirstEF Vergleich von PPPs

Page 10: Promotor  Prediction  Programms (PPP)

10

Relevance Vector Maschine

+ Trainingsset - Trainingsset

RVM

)(

)()|()|(

DP

MPMDPDMP

Trainings Modell

PWM

Einführung Eponine FirstEF Vergleich von PPPs

Page 11: Promotor  Prediction  Programms (PPP)

11

Sampling

„Sequenzen in der Nähe der TATA-Box sind auch für Promotoren spezifisch“

• generiere eine neue PWM aus einer vorhanden durch Veränderung der Gewichte (Dirichlet verteilt)

• generiere eine neue PWM durch weglassen der ersten oder letzten Spalte

Einführung Eponine FirstEF Vergleich von PPPs

Page 12: Promotor  Prediction  Programms (PPP)

12

EAS, EWS, cEWS

• Eponine Anchored Sequence (EAS) – Anker

• Eponine Windowed Sequence (EWS)– zufallige PWMs

• Convolved Eponine Windowed Sequence(C-EWS)– PWM Gerüste

Einführung Eponine FirstEF Vergleich von PPPs

Page 13: Promotor  Prediction  Programms (PPP)

13

EWS – Ergebnisse

TSS Datenbank

H Chromosome 22

[-2k, TSS, +2k]

• Testset• Seedwort Länge

• Hits dist. TSS• ohne CpG

• Receiver Operating Characteristic curve

Einführung Eponine FirstEF Vergleich von PPPs

Page 14: Promotor  Prediction  Programms (PPP)

14

First Exon Finder (FirstEF)

Computational identification of promoters and first exon in the human genome

Ramana V. Davuluri. Ivo Gross & Michael Q. Zhang

Nature genetics, Volume 29, December 2001

Einführung Eponine FirstEF Vergleich von PPPs

Page 15: Promotor  Prediction  Programms (PPP)

15

Motivation

Gen Vorhersage erreicht ~90% Sensitivität– Genscan– FGENES– MZEF

Promoter Vorhersage erreicht ~50% Sensitivität– PromoterInspector– Eponine– DragonPF

\\|// (o o)-. .-. .-oOOo~(_)~oOOo-. .-. .-. .-. ||X|||\ /|||X|||\ /|||X|||\ /|||X|||\ /|||X|/ \|||X|||/ \|||X|||/ \|||X|||/ \|||X|||/ ' `-' `-' `-' `-' `-' `-' `-' `-' Genscan

Einführung Eponine FirstEF Vergleich von PPPs

DragonPF

Page 16: Promotor  Prediction  Programms (PPP)

16

Methoden

Diskriminanzanalyse

Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen

Voraussetzung:

Günstig:

Benötigt:

0 1 ... n

X

~ ( , )X N

0 1 ... n

( | )iP Gruppe x

Einführung Eponine FirstEF Vergleich von PPPs

Page 17: Promotor  Prediction  Programms (PPP)

17

Methoden

Quadratische Diskriminanzanalyse (QDA)

Idee: Klassifizierung eines Objektes anhand mind. einer Zufallsvariablen

Voraussetzung:

Günstig:

Benötigt:

0 1 ... n

X

~ ( , )X N

0 1 ... n

( | )iP Gruppe x

Einführung Eponine FirstEF Vergleich von PPPs

Page 18: Promotor  Prediction  Programms (PPP)

18

Algorithmen Design

Suche nach Splice Donor Site (GT)

Suche 1500bp/500bp up-/downstream nach GT

Fenster = Promotor Region

first-Exon gefunden

P(donor site | GT) > 0.4

nicht CpG CpG

P(promotor | Fenster) > 0.4 P(promotor | Fenster) > 0.4

P(exon | alle) > 0.5

Einführung Eponine FirstEF Vergleich von PPPs

Fenster = Promotor Region

Page 19: Promotor  Prediction  Programms (PPP)

19

Training

QDF Training Probleme: Nicht viele GenBank Einträge beinhalten first-Exon

AnnotationenIdee: Sammele first-Exons und Promotoren durch Mapping von vollständige 5’ UTR’s auf Gensequenzen

2.139 first-Exons welche durch eine 500bp5’ Region (Promotor) und 500bp 3’ Region (Intron) flankiert sind

61% teilweise codierend und 39% nicht cod.

Einführung Eponine FirstEF Vergleich von PPPs

Page 20: Promotor  Prediction  Programms (PPP)

20

Training

QDF Training Evaluation

(sensitivity) (specificity)

Einführung Eponine FirstEF Vergleich von PPPs

Vorhersage von CpG first-Exons ist sehr gut

Vorhersage von nicht CpG first-Exons ist ok

Page 21: Promotor  Prediction  Programms (PPP)

21FirstEF: 106/121~87% vorhergesagt (33/42~78% nicht-codierent)

UCSC

Evaluation

Evaluation procedureGenBank

Genes + Promoters

(Chrom. 21/22)Chromosom 21/22

mit repeats & ohne repeats

BLAT

aliniere G. + P. mit Chromosom Sequenz

121annotierte first-Exons (42 nicht-codierent)

Einführung Eponine FirstEF Vergleich von PPPs

Page 22: Promotor  Prediction  Programms (PPP)

22

PPPs

Promoter prediction analysis on

the whole human genome

V.B.Bajic, S.L.Tan, Y.Suzuki, S.Sugano

Nature biotechnology, Volume 22, Number 11, November 2004

Einführung Eponine FirstEF Vergleich von PPPs

Page 23: Promotor  Prediction  Programms (PPP)

23

Testset

• basiert auf experimental Daten (full-length oligo-capped’ cDNA)

• nicht bei allen PPPs möglich

• einige false negatives werden in kauf genommen

Humanes Genom

[-2000bp , TSS , +2000bp]

Einführung Eponine FirstEF Vergleich von PPPs

Page 24: Promotor  Prediction  Programms (PPP)

24

Funktion

X

X

only

CpG Insel

X

HMM

X

X

X

TATA-Box

QDAFirst EF

XPromoter 2.0

INR + AbstandXNNPP

pysikalische Eigenschaften

XMC Promoter

RVMEponine

XXDragon GSF/PF

stat. regelbasiertes System

CpgProD

Weitere KonzepteC+G Gehalt

ANNName

Einführung Eponine FirstEF Vergleich von PPPs

Page 25: Promotor  Prediction  Programms (PPP)

25

Page 26: Promotor  Prediction  Programms (PPP)

26

PPPs im Vergleich – Gewinner?

• PPPs haben oft schlechtere Ergebnisse geliefert als angegeben – Eponine p.p.v.72,73% angegenen 66,97% erreicht– FirstEF p.p.v 86 % angegeben 67,1% erreicht

• nicht CpG-Insel Promotoren werden schlecht erkannt

• höchste p.p.v. < 65% ( 2 Richtige 1 Falsche )

• RepeatMasker verbessert oft das Ergebniss

• „Traue keiner Statistik die du nicht selbst gemacht hast“

Einführung Eponine FirstEF Vergleich von PPPs

Page 27: Promotor  Prediction  Programms (PPP)

27

PPPs in Kombiation

• Kombination von PPPs verbessert Ergebnisse

• Vorgehen:

– Scannen mit Fensterbreite von 2000bp– Wahlverfahren:

• Regel 1: Fester k bekommt +Vorhersagen von s PPPs

• Regel 2: Fester k bekommt +Vorhersagen von s PPPs von einer festgelegten Untergruppe

Einführung Eponine FirstEF Vergleich von PPPs

Page 28: Promotor  Prediction  Programms (PPP)

28

Zusammenfassung

• Lerverfahren ?– Relevance Vector Machine– Quadratische Diskriminierungs Analyse

• Wie bekomme ich Promotor-Regionen ?

• Evaluierung von PPPs ?– Verfahren– Vergleichbarkeit

• Probleme der Promotor Vorhersage ?

Page 29: Promotor  Prediction  Programms (PPP)

29

ENDE

Noch Fragen?

Page 30: Promotor  Prediction  Programms (PPP)

30

Literatur

• What can we learn from noncoding regions of similarity between regions, T.Down, T.J.P. Hubbard, http://www.biomedcentral.com/1471-2105/5/131

• Relevance Vector Machines for classifying points and regions in biological sequences, T.Down, T.J.P. Hubbard

• A Machine Learning Strategy to Identity Exonic Splice Enhancers in Human Protein-coding Sequence, T.Down, B.Leong, T.J.P. Hubbard

• Chapter 4. Learning from comparative genomics, http://library.sanger.ac.uk/uhtbin/cgisirsi/0/0/520/a12334d?user_id=HYP-REST

• The Relevance Vector Machine, M.Tipping• Crouching Introns,Hidden Exons, B.Leong• Promoter prediction analysis on the whole human genome, V.B.Bajic,

S.L.Tan, Y.Suzuki, S.Sugano• Computational identification of promoters and first exon in the human

genome, R.V.Davuluri, I.Gross, M.Q.Zhang