RNA Sekundärstruktur -...

Preview:

Citation preview

RNA Sekundärstruktur

Dipl. Math. Isabelle Schneider

Universität GöttingenInstitut für Mikrobiologie und Genetik

Abteilung für Bioinformatik

12.12.2005

(Universität Göttingen) 1 / 40

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 2 / 40

RNA

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 3 / 40

RNA Motivation

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 4 / 40

RNA Motivation

RNA Varianten

mRNA (messenger RNA) : Übermittlung der genetischen Information,

tRNA (transfer RNA) : Transport von Aminosäuren,

rRNA (ribosomale RNA) : Katalyse verschiedener Reaktionen,

hnRNA (heterogene Kern-RNA) : Vorstufe von mRNA bei Eukaryoten,

snRNA (small nuclear-RNA) : verantwortlich für die enzymatischeSpaltung von hnRNA,

microRNA : dient der Feinregulation des Wachstums in Zellen,

etc.

(Universität Göttingen) 5 / 40

RNA Motivation

Struktur als Hinweis

Primärstruktur -Informationen nicht ausreichend für Funktion(GGCGGCATAGCCAAGTGGTAAGGCAGAGG)

Räumliche Struktur (Tertiärstruktur ) beeinflusst die Funktionalität

Bei nichtkodierenden RNAs Strukturinformationen stärker konserviertals Sequenzinformationen

Ähnliche Struktur =⇒ Ähnliche Funktionalität

(Universität Göttingen) 6 / 40

RNA Motivation

Strukturbestimmung kontra Strukturvorhersage

Bestimmung der Sequenz wird immer einfacher:Didesoxymethode nach Sanger (Kettenabbruch-Synthese)PyrosequenzierungSequenzierung durch Hybridisierung

Seit 1995 wurden über 150 Organismen sequenziert.Bestimmung der räumlichen Struktur sehr mühsam:

NuclearMagneticResonance Spectroscopy (NMR),x-ray Kristallographie,Enzymatische Strukturerprobung,etc.

Es werden verstärkt Methoden zur Strukturvorhersage entwickelt.

(Universität Göttingen) 7 / 40

RNA Grundlagen

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 8 / 40

RNA Grundlagen

RNA Bausteine

Adenin Guanin

Cytosin Uracil

C

H

N

C

N

C

C

O

H

O

(Universität Göttingen) 9 / 40

RNA Grundlagen

Watson-Crick Basenpaarungen

O

C

N

H

C

N

C

N

O

N

H

H

NH

HC

C

NH

C

CN

N

CH

H

Zucker

C

Zucker

Cytosin

Guanin

O

CH 3

N

C

N

N

HC

C

N

C

CN

N

CH

C

Zucker

C

O

N

HH

H

HC

Adenin

Uracil

Zucker

(Universität Göttingen) 10 / 40

RNA Grundlagen

Wobble Basenpaarungen

O

C

N

O

NH

NH

C

CN

N

CH

H

C

Zucker

Guanin

C

N

H

C

N

HC

C

Zucker

Uracil

O

H

(Universität Göttingen) 11 / 40

RNA Grundlagen

Elemente einer RNA Sekundärstruktur

Helikale Struktur Haarnadel-Schleife Ausbuchtung

Interne Schleife Multiple Schleife

(Universität Göttingen) 12 / 40

RNA Grundlagen

(Universität Göttingen) 13 / 40

RNA Grundlagen

Tertiärstruktur vers Sekundärstruktur

Primärstruktur:

ACUCUUUAGCGUUAGGCUUUGAUUUAUAGCCUUGUCGAGCGUUUCGCCAGACACUAACUUAUUGAGUACU

Schema Sekundärstruktur:

Schema Tertiärstruktur:

(Universität Göttingen) 14 / 40

RNA Grundlagen

Tertiärstruktur vers Sekundärstruktur

ACU

CUUUA

GC G

UUA

GGCUUUG

AU

U U AUA G C C

U UG

UCG

A GC

GU U

UC

GCC

AGA

CA

CUAAC U U

AUUGA

GU

ACU

g g g u a a g g g g g c u ggugAC

UAUCCA

CU

G G GAGGAAGCU CUGCCCACCC

AAUUG

UG

UAGA

UU

UC

CUG

AG A

AGG

AA U GA

AUAGGG

UA U A G A A A C

GA

CAC G G U U C U A A G A A

AU A U G

ACUA

UGA

UAUUUU

CAA

AA

UUG

AGGA

UUCUUAGAAAA

UCGA

UG

AA

ACGACCUUAU

UUU

AC

AC G GG U G C A A G C A

UAUGU

GCUAAGCUGAAUGUCACC G A A A U U A C

AG

AAGGCAGgcua

uagcccccauaccc

Methanococcus marapaludisRNase P RNA

(Universität Göttingen) 15 / 40

Vorhersage einer Sekundärstruktur

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 16 / 40

Vorhersage einer Sekundärstruktur Trivialer Ansatz

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 17 / 40

Vorhersage einer Sekundärstruktur Trivialer Ansatz

Nussinov

Bestimme die Struktur mit den meisten Basenpaaren!

Problem:

Biologisch nicht begründet

Beliebige Kombinationen möglich

Berücksichtigt nicht die unterschiedliche Bedeutung von Basenpaaren

(Universität Göttingen) 18 / 40

Vorhersage einer Sekundärstruktur Exkurs: Freie Energie

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 19 / 40

Vorhersage einer Sekundärstruktur Exkurs: Freie Energie

Freie Energie

Freie Energie∆G:

Die durch eine chemische Reaktion benötigte oder durch diesefreigesetzte Energie.

Einheit: kcal pro Mol

∆G > 0 für Reaktionen, die Energie benötigen

∆G < 0 für Reaktionen, die Energie abgeben

Die Stabilität einer Struktur wird durch die Menge der abgegebenenEnergie bestimmt.

(Universität Göttingen) 20 / 40

Vorhersage einer Sekundärstruktur Optimale Struktur

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 21 / 40

Vorhersage einer Sekundärstruktur Optimale Struktur

Optimale Struktur

Suche die energetisch günstigste Konformation, d.h. die Struktur mit derniedrigsten freien Energie.

Reaktionen mit ∆G < 0 (stabilisierend)

Bildung von Basenpaaren

Stapelung von Basenpaaren Energiewerte

Reaktion mit ∆G > 0 (destabilisierend)

Initialisierung der Faltung

Erhalt ungebundener Strukturen (z.B.: Schleifen, Ausbuchtungen etc.)abhängig von der Strukturart und ihrer Länge

(Universität Göttingen) 22 / 40

Vorhersage einer Sekundärstruktur Optimale Struktur

Rechenaufwand

Je niedriger die freie Energie, umso stabiler ist die Sekundärstruktur.

Wie bestimmt man dieoptimaleSekundärstruktur?Berechne die freie Energie einer jeden möglichen Struktur.Wähle diejenige Struktur für die gilt:∆G minimal.

Problem:Anzahl möglicher Strukturen hängt exponentiell von der Länge derSequenz ab.

Effizienter Algorithmus ist erforderlich:Dynamische Programmierung

(Universität Göttingen) 23 / 40

Vorhersage einer Sekundärstruktur Optimale Struktur

Bedeutung Suboptimaler Strukturen

Problem:

Eine RNA-Sequenze kann mehrere gleichwertige Strukturen besitzen!

Biologisch optimale Struktur6= Stuktur mit niedrigster freier Energie (?)

Berechnung deroptimalen Strukturist nicht ausreichend.

Lösungsansatz:

Berechne neben der optimalen auch suboptimale Strukturen.

GewinnerichtigeStruktur durch z.B. Vergleich innerhalb vonSequenzfamilien.

(Universität Göttingen) 24 / 40

Vorhersage einer Sekundärstruktur Software

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 25 / 40

Vorhersage einer Sekundärstruktur Software

Software

MfoldMichael ZukerBestimmt Struktur mit der niedrigsten freien EnergieBestimmt suboptimale Strukturen

Vienna PaketIvo L. HofackerBestimmt Struktur mit der niedrigsten freien Energie nach ähnlichemVerfahren wie mfoldOption: Bestimme Matrix mit Bindungswahrscheinlichkeiten für jedesBasenpaarBestimme Konsensstruktur eines Alignments

(Universität Göttingen) 26 / 40

Vorhersage einer Sekundärstruktur Software

Beispiel: Mfold

boxplot_ng by D. Stewart and M. Zuker

© 2005 Washington University

Fold of AP000058.1.196 at 37° C.

Lower Triangle: Optimal Energy

δG in Plot File = 9.3 kcal/mole

Optimal Energy = -187.9 kcal/mole -187.9 < Energy <= -184.8 kcal/mole -184.8 < Energy <= -181.7 kcal/mole -181.7 < Energy <= -178.6 kcal/mole

2741 30 60 90 120 150 180 210 2401

274

30

60

90

120

150

180

210

240

Upper Triangle Base Pairs Plotted: 697

plt22ps by D. Stewart and M. Zuker

© 2005 Washington University

dG = -186.4 [initially -187.9] AP000058.1.196

G

GG

G

C

C

C

CGA

AGG

C

G

CC

A

C

G

C

G

G

G

G

G

C

CA

GAA

GA A C

C

C

G

C

CC

C

C

A

G

A

G

CU

U

G

A

A

G

C

A

G

G

C

C

A

GCAA

G

G

G

C

C

U

G

C

A

G

G

G

UA

C

A

A

UG

A A C

C

C

C

G

U

C

C

C

G

C

G

G

G

G

C

C

G

G

C

GGA

G

G

C

G

G

G

C

G

G

C

C

A

G

C

C

G

G A

G

G

G

CC

G

G

C

C

GA

AG

C

C

G

C

C GU

A GC

CG

GG

GC

C

AC

C

CG

GC

G

AG G

CC

C

G G

A

AGG

G

A

GCA

GC

CG

ACC

CC

GG

C

C

GA

C

C

G

G

CG

U

U

C

G

C

G

G

G G

G

GA

A

C

G

G

G

G

G

G

A

G

AAG

C

C

C

U

G

C

A

G

G G

U

AA

C

C

C

U

C

U

G

G

C

C

U

G

C

U

U

C

A

A

AC

U

C

U

G

G

G

AG

C

G

G

G

20

40

60

80

100

120

140

160 180

200

220

240

260

(Universität Göttingen) 27 / 40

Anwendungsbeispiele

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 28 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 29 / 40

Anwendungsbeispiele Bsp: RNA Alignment

RNA Alignment

Ansatz: reines SequenzalignmentGut geeignet bei sehr ähnlichen SequenzenVersagt bei geringer Sequenzkonservierung (≤ 60%)

Ansatz: reines StrukturalignmentNoch vorhandene sequenzielle Information wird ignoriert

Ansatz: Struktur-Sequenz-AlignmentAusnutzung aller vorhandener Informationen ist gegebenZeitaufwändigSpeicherintensiv

(Universität Göttingen) 30 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Aktuelle Forschung

Projekt von Prof. Backofen und Sven Siebert(Universität Freiburg)

Programm für paarweisen RNA Sequenz-Struktur Vergleich

Bestimmung ähnlicher lokaler Bereiche

Information soll Alignments verbessern

Programm von Prof. Morgenstern (Universität Göttingen)

Dialign: Multiples Sequenzalignment Programm

Option: Berücksichtigung vorab bekannter Informationen(Ankerfragmente)

(Universität Göttingen) 31 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Alignment mit Dialign

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 32 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Alignment mit Dialign

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 32 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Alignment mit Dialign

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 32 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Alignment mit Dialign

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 32 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Sequenzalignment

Sequenzen:

>vhuD GUUCUCUCGGGAACCCGUCAAGGGACCGAGAGAAC

>vhuU AGCUCACAACCGAACCCAUUUGGGAGGUUGUGAGCU

Alignment (DIALIGN format):

>vhuD guu CUCUCgg-- GAACCCgucaa GGGACCGAGAGAAC-

>vhuU ag- CUCACaacc GAACCCauuu- GGGAGGUUGUGAGCu

Alignment mit Ankerpunkten:

>vhuD guu CUCUCgg-- GAACCCgucaa GGGAcc-- GAGAGaac

>vhuU ag- CUCACaacc GAACCCauuu- GGGAgguu GUGAGcu-

(Universität Göttingen) 33 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Dialign ohne Ankerfragmente

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 34 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Dialign ohne Ankerfragmente

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 34 / 40

Anwendungsbeispiele Bsp: RNA Alignment

Dialign mit Ankerfragmenten

GUUCUCUCGGG

AACCC

GU C A

AGGG

ACCGAGAGAAC A

GCUCACAACCG

AACCC

AU U

UGGG

AGGUUGUGAGCU

(Universität Göttingen) 35 / 40

Anwendungsbeispiele Bsp: RNA Alignment

UUG

G

G

C

G

C

G

A

G

G

C

C

G

C

A

C

C

C

A

C

U

U

U

G

C

A

C

U

A

G

C

G

C

G

A

G

U

G

A

C

G

G

A

A

U

C

A

A

A

C

U

U

U

C

C

C

C

A

C

C

C

C

U

A

G

U

U

A

G

G

A

A

G

U

G

C

A

A

A

C

U

U

U

C

A

C

C

C

U

CU

G

G

U

U

U

G

U

A

U

G

A

G

A

A

C

A

G

C

C

U

A

A

G

C

A

U

A

G

A

U

G

C

C

U

G

U

U

C

U

A

U

C

A

G

G

C

C

A

C

G

A

A

U

A

G

A

G

G

C

C

G

G

U

U

U

C

A

U

G

A

U

G

A

C

U

C

G

A

A

U

G

G

U

G

G

C

U

G

C

U

G

U

U

A

G

G

C

U

A

A

G

U

C

G

U

A

U

G

C

U

C

G

A

U

G

C

G

G

A

C

U

C

C

G

C

C

C C

AG

C

C

U

C

C

U

C

C

C

C

G

A

G

G

G

G

A

A

G

C

A

C

G

C

C

C

C

C

A

C

U

C

A

U

G

C

U

C

G

C

G

G

U

G

C

G

U

A

G

G

C

A

G

G

G

C

A

C

A

A

C

U

C

A

G

G

G

U

U

G

G

G

A

U

G

C

U

U

A

G

C

C

A

G

C

G

C

AA

G

C

G

C

A

G

A

G

U

U

U

G

G

A

C

G

C

U

A

A

G

C

GA

A

C

U

C

G

G

A

G

C

A

C

A

G

U

G

U

G

G

U

C

C

C

C

A

U

G

U

G

U

A

C

C

G

U

A

U

C

G

C

G

G

A

G

UG CU

A

C

A

C

C

U

C

U

C

U

G

C

C

U

U

U

C

G

A

G

A

A

U

U

G

C

C

A

C

A

U

C

G

C

G

C

A

G

G

C

A

U

U

C

U

A

U

A

G

U

G

G

G

C

C

C

G

U

U

G

G

G

C

A

C

G

C

A

C

U

C

U

G

U

C

G

G

G

A

G

G

C

A

G

C

U

U

G

G

C

C

C

U

C

A

C

G

C

C

G

C

C

G

G

A

A

G

G

U

A

A

C

G

U

U

G

G

C

U

U

U

A

G

G

G

G

C

C

U

G

C

A

G

G

C

U A

G

G

A

U

A

G

A

U

G

U

G

G

C

G

C

G

U

U

U

C

G

G

U

C

G

G

A

G

AA

U

G

A

G

C

C

U

C

G

U

C

U

C

G

U

U

G

G

A

G

U

U

A

A

G

C

G

U

G

G

U

C

G

C

C

U

U

G

U

A

G

U

C

A

G

G

A

G

G

G

U

U

G

G

C

C

C

U

C

U

C

G

G

C

G

G

G

A

A

G

G

U

G

G

U

C

C

C

U

C

C

C

G

G

U

G

A

G

G

A G

A

G

C

U

C

C

G

U

U

C

G

G

C

U

A

A

U

G

C

A

A

C

U

C

G

G

A

U

G

G

C

C

A

A

C

U

A

C

A

A

A

U

U

G

C

A

C

G

U

C

A

A

A

AC

C

C

A

C

A

C

A

A

U

A

C

A

C

G

A

A

A

A

A

A

A

A

C

A

C

C

C

C

C

A

A

A

A

A

A

C

G

G

A

U

A

A

A

A

A

C

A

A

U

C

C

C

A

A

A

A

A

C

C

C

G

G

UA

ACA

CC

AA

CCG

1 1

2

2

3

3

4

4

5

5

(Universität Göttingen) 36 / 40

Anwendungsbeispiele Bsp: ncRNA-Vorhersage

Themen der Vorlesung

1 RNAMotivationGrundlagen

2 Vorhersage einer SekundärstrukturTrivialer AnsatzExkurs: Freie EnergieOptimale StrukturSoftware

3 AnwendungsbeispieleBsp: RNA AlignmentBsp: ncRNA-Vorhersage

(Universität Göttingen) 37 / 40

Anwendungsbeispiele Bsp: ncRNA-Vorhersage

Vorhersage und Labor

ncRNA-Information liegt zwischen Genen

Nicht jeder intergene Bereich enthält automatisch ncRNA

Identifikation von ncRNA im Labor ist zeitaufwändigncRNA-Vorhersage:

Entferne alle Gene aus einem GenomVergleiche intergene Bereiche zwischen mehreren Genomen (BlastN)Erzeuge Alignment aus ähnlichen KandidatenBewerte Grad an Strukturkonservierung zwischen Sequenzen imAlignment (RNAz)

Verifikation der Vorhersage im Labor

(Universität Göttingen) 38 / 40

Anwendungsbeispiele Bsp: ncRNA-Vorhersage

ENDE

(Universität Göttingen) 39 / 40

Freie Energie für Basenpaarungen

A • U - Paare ∆G gem. Paare ∆G G • C - Paare ∆G-AA--UU-

-0,9-CA--GU-

-1,8-CG--GC-

-2,0

-AU--UA-

-0,9-CU--GA-

-1,7-GC--CG-

-3,4

-UA--AU-

-1,1-GA--CU-

-2,3-GG--CC-

-2,9

-GU--CA-

-2,1

Quelle: Benjamin Lewin, “Molekularbiologie der Gene”

back

(Universität Göttingen) 40 / 40

Recommended