59
5. Vorlesung WS 2005/06 Softwarewerkzeuge 1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs (maximal unique matches) andere wichtige Bereiche, für die wir heute keine Zeit haben - Gene identifizieren Hidden Markov Modelle - Transkriptionsfaktorbindestellen Position Specific Scoring Matrices (PSSM) - finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven Suche auf Suffix-Baum

5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

Embed Size (px)

Citation preview

Page 1: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 1

V5 – Analyse von Genomsequenzen

- Genom-Assemblierung

finde identische k-Tupel

- Genom-Alignment

Suche nach MUMs (maximal unique matches)

andere wichtige Bereiche, für die wir heute keine Zeit haben

- Gene identifizieren

Hidden Markov Modelle

- Transkriptionsfaktorbindestellen

Position Specific Scoring Matrices (PSSM)

- finde Repeat-Sequenzen

Suche nach bekannten Repeat-Motiven

Suche auf Suffix-Baum

Page 2: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 2

Whole Genome Shotgun Assemblierung

Es gibt 2 Strategien für die

Sequenzierung von Genomen:

clone-by-clone Methode

whole-genome shotgun Methode

(Celera, Gene Myers).

Die Shotgun Sequenzierung wurde

bereits 1977 von F. Sanger et al.

eingeführt und ist seither eine

Standardmethode für die

Sequenzierung von Genen.

Umstritten war jedoch, ob man sie

auch für komplette Genome

verwenden kann. ED Green, Nat Rev Genet 2, 573 (2001)

Page 3: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 3

Arachne Programm

von Serafin Batzoglou (MIT, Doktorarbeit 2000)

(i) konstruiere Graph G für Überlappungen zwischen Paaren von reads aus

Shotgun-Daten

(i) prozessiere G um Supercontigs von gemappten reads zu erhalten.

Batzoglou et al. Genome Res 12, 177 (2002)

Wichtige Variation der whole-genome shotgun Sequenzierung:

sequenziere reads jeweils von beiden Enden eines Klons.

Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre

Abstand zwischen dem Paar von reads bekannt.

Man nennt diese earmuff (Ohrenwärmer) Verbindungen.

Page 4: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 4

Arachne: erzeuge Überlappungsgraphen

Liste von reads R = (r1, ..., rN) , N ist die Anzahl der reads.

Jeder read ri besitzt eine Länge li < 1000.

Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link),

besitzt ri eine Verknüpfung zu einem anderen read rj in einer festen Distanz dij.

Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an

reads (Knoten) dies ergibt die Paare an reads in R, die aligniert werden müssen.

Da R sehr lang sein kann, sind N2 alignments nicht praktikabel.

erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads,

zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads.

Führe dann paarweise Alignments zwischen den Paaren an reads durch,

die mehr als cutoff gemeinsame k-mere besitzen.

Batzoglou PhD thesis (2002)

Page 5: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 5

Arachne: Tabelle für Vorkommen von k-meren

Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung

zwischen jedem Paar von reads in R.

(1) Ermittle alle Triplets (r,t,v)

r = Nummer des reads in R

t = Index eines k-mers, das in r vorkommt

v = Richtung des Auftretens (vorwärts oder rückwärts)

(2) sortiere die Menge der Paare nach den k-mer Indices t

(3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (ri, rj, f, v)

zu erstellen, wobei ri und ri die reads sind, die mindestens einen gemeinsamen

k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen

k-mers zwischen ri und rj in Richtung v.

Batzoglou PhD thesis (2002)

Page 6: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 6

Arachne: Tabelle für Vorkommen von k-mers

Batzoglou PhD thesis (2002)

Hier:k = 3

Page 7: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 7

Arachne: Tabelle für Vorkommen von k-mers

Wenn ein k-Tupel „zu oft“ auftritt gehört er wahrscheinlich zu einer

Repeat-Sequenz.

Man sollte diese nicht für die Detektion von Überlappungen verwenden.

Implementierung

(1) finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechen den ersten

drei Nukleotiden jedes k-mers.

(2) Für i=1,64

lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab.

end

(3) lade 64 sortierte Dateien nacheinander in den Speicher,

fülle Tabelle T nacheinander auf.

In der Praxis ist k = 8 bis 24.Batzoglou PhD thesis (2002)

Page 8: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 8

Arachne: paarweise read-Alignments

Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff

gemeinsame k-mers besitzen.

Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist

sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt

werden müssen.

Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer

überlappenden Region zweier alignierter reads erlaubt.

Output des Alignment-Algorithmus:

für die reads ri, rj gibt es Quadrubletts (b1, b2, e1, e2) für jede detektierte

Überlappungsregion mit den Anfangspositionen b1, b2 und Endpositionen e1,e2.

Falls eine signifikante Überlappungsregion vorliegt, wird (ri, rj, b1, b2, e1, e2) eine

Kante im Überlappungsgraphen G. Batzoglou PhD thesis (2002)

Page 9: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 9

Kombination teilweiser Alignments

3 teilweise Alignments der Länge

k=6 zwischen einem Paar von

reads werden zu einem einzigen

vollen Alignment der Länge k=19

kombiniert.

Die vertikalen Linien verbinden

übereinstimmenden Basen,

wogegen x Mismatche sind.

Dies ist eine oft auftretende

Situation, in der ein ausgedehnter

k-mer Treffer ein volles Alignment

von zwei reads ist.

Batzoglou et al. Genome Res 12, 177 (2002)

Page 10: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 10

Repeats erzeugen Mehrdeutigkeit

Ohne das Auftreten von Sequen-

zierungsfehlern und Repeats wäre es

einfach, alle entdeckbaren paarweise

Abstände von reads zu finden und

den Graph G zu konstruieren.

Da es Repeats jedoch sehr häufig

auftreten, bedeutet eine Verbindung

zwischen zwei reads in G nicht ohne

weiteres eine wahre Überlappung.

Eine „Repeat-Verbindung“ ist eine

Verbindung in G zwischen zwei

reads, die aus verschiedenen

Regionen des Genoms stammen und

in der repetitiven Sequenz überein-

stimmen. Batzoglou PhD thesis (2002)

Page 11: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 11

Sequence contigs

Batzoglou PhD thesis (2002)

unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache

Sequenzierung = coverage) derselben Genomregionen

Page 12: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 12

Verbinden von Contigs

Batzoglou PhD thesis (2002)

Sequenz-Contigs werden gebildet

indem Paare von reads verbunden

werden, die eindeutig verbunden

werden können.

Tatsächlich ist die Situation viel

schwieriger als hier gezeigt, da

Repeats häufig nicht zu 100%

zwischen Kopien konserviert sind.

Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im

Genom vor der Erzeugung von G effizient maskiert.

Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen,

die hier nicht diskutiert werden sollen.

Page 13: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 13

Benutze Überlapp-Paarungen um die reads zu verbinden

Arachne sucht nach 2 Plasmiden mit

gleicher Insert-Länge, deren

Sequenzen an beiden Enden

überlappen paired pairs.

Batzoglou et al. Genome Res 12, 177 (2002)

(A) A paired pair of overlaps.

The top two reads are end sequences from

one insert, and the bottom two reads are

end sequences from another.

The two overlaps must not imply too

large a discrepancy between the insert

lengths.

(B) Initially, the top two pairs of reads

are merged. Then the third pair of

reads is merged in, based on having

an overlap with one of the top two left

reads, an overlap with one of the top

two right reads, and consistent insert

lengths. The bottom pair is similarly

merged.

Unten: eine Menge von paired pairs

werden zu contigs zusammengefasst

und eine Konsensussequenz erzeugt.

Page 14: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 14

Detection of repeat contigs

Contig R is linked to contigs A and

B to the right. The distances

estimated between R and A and

R and B are such A and B cannot

be positioned without substantial

overlap between them. If there is

no corresponding detected overlap

between A and B then R is

probably a repeat linking to two

unique regions to the right.

Batzoglou et al. Genome Res 12, 177 (2002)

Some of the identified contigs are repeat contigs in which nearly identical

sequence from distinct regions are collapsed together. Detection by

(a) repeat contigs usually have an unusually high depth of coverage.

(b) they will typically have conflicting links to other contigs.

After marking repeat contigs, the remaining

contigs should represent the correctly

assembled sequence.

Page 15: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 15

Contig assembly

If (a,b) and (a,c) overlap, then

(b,c) are expected to overlap.

Moreover, one can calculate that

shift(b,c)=shift(a,c)-shift(a,b).

A repeat boundary is detected

toward the right of read a, if there

is no overlap (b,c), nor any path

of reads x1, ..., xk such that (b,x1),

(x1,x2) ..., (xk,c) are all overlaps,

and shift(b,x1) + ... + shift(xk,c)

shift(a,c) – shift(a,b).

Batzoglou et al. Genome Res 12, 177 (2002)

Page 16: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 16

Consistency of forward-reverse links

(A) The distance d(A,B) (length of

gap or negated length of

overlap) between two linked

contigs A and B can be

estimated using the forward-

reverse linked reads between

them.

(B) The distance d(B,C) between

two contigs B,C that are

linked to the same contig A

can be estimated from their

respective distances to the

linked contig.

Batzoglou et al. Genome Res 12, 177 (2002)

Page 17: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 17

Filling gaps in supercontigs

(A) Contigs A and B are connected by

a path p of contigs X1,..., Xk. The

distance dp(A,B) between A and B

(along the path p) is the length of

the sequence in the path that does

not overlap A and B.

(B) Contigs Y1 and Y2 share forward-

reverse links with the supercontig

S. These links position them in the

vicinity of the gap between A and

B. Therefore, Y1 and Y2 will be

used as possible stepping points in

the path closing the gap from A to

B. Batzoglou et al. Genome Res 12, 177 (2002)

Page 18: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 18

Contig Coverage and Read Usage

Batzoglou et al. Genome Res 12, 177 (2002)

Page 19: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 19

Characterization of Contigs and Supercontigs

Batzoglou et al. Genome Res 12, 177 (2002)

Page 20: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 20

Base Pair Accuracy

Batzoglou et al. Genome Res 12, 177 (2002)

base quality x*10 means that (on average) one sequencing error occursin 10-x bases.

Page 21: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 21

Misassemblies

Batzoglou et al. Genome Res 12, 177 (2002)

Page 22: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 22

Computational Performance

Batzoglou et al. Genome Res 12, 177 (2002)

Page 23: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 23

Contig Coverage and Read Usage

Batzoglou et al. Genome Res 12, 177 (2002)

Page 24: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 24

Comparison of different assemblers

Pevzner, Tang, Waterman PNAS 98, 9748 (2001)

you should look out for:

- smallest number of contigs + misassembled contigs- highest possible coverage by contigs- lowest possible coverage by misassembled contigs

Page 25: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 25

There is no error-free assembler to date

Pevzner, Tang, Waterman PNAS 98, 9748 (2001)

Comparative analysis of EULER, PHRAP, CAP, and TIGR assemblers (NM sequencing project). Every box corresponds to a contig in NM assembly produced by these programs with colored boxes corresponding to assembly errors. Boxes in the IDEAL assembly correspond to islands in the read coverage. Boxes of the same color show misassembled contigs. Repeats with similarity higher than 95% are indicated by numbered boxes at the solid line showing the genome. To check the accuracy of the assembled contigs, we fit each assembled contig into the genomic sequence. Inability to fit a contig into the genomic sequence indicates that the contig is misassembled. For example, PHRAP misassembles 17 contigs in the NM sequencing project, each contig containing from two to four fragments from different parts of the genome.

„Biologists "pay" for these errors at the

time-consuming finishing step“.

Page 26: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 26

What comes next? Finishing the genome

Usually, the assembly of shotgun data is finished with a number of contigs

with some remaining gaps.

Also, within each contig there are some regions of high error rate.

The goal of the finishing phase is then to get a single continuous contig

with low error rate.

„Finishers“ apply ad hoc rules to decide where additional data is necessary.

This experimental data may then be generated in experiments using

different chemistry or higher coverage.

Autofinish (phrap group) is a program to help humans with deciding

which new reads to get.

Page 27: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 27

Whole Genome Alignment (WGA)

Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar

wird, ist die erste Frage, wie das Alignment beider Genome aussieht.

Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn.

Im anderen Fall muß man erst die genomischen Rearrangements betrachten.

Dann kann man die systenischen Regionen (Regionen, in denen Gen-

Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert

blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.

Page 28: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 28

Vergleich von Maus und Mensch auf Genomebene

Wichtigste Ergebnisse:

* das Mausgenom ist etwa 14% kürzer als das menschliche Genom.

Die unterschiedliche Länge liegt wohl an der höheren Deletionsrate in Maus.

* über 90% des Maus- und Menschen-Genoms kann in entsprechende

Regionen mit konservierter Syntenie eingeteilt werden

* auf dem Nukleotid-Level kann etwa 40% des menschlichen Genoms mit dem

Maus-Genom aligniert werden (diese am stärksten orthologen Sequenzen

blieben wohl in beiden Linien vom gemeinsamen Vorfahren erhalten).

Der Rest wurde wohl in einem oder beiden Genomen gelöscht.

* die neutrale Substitutionsrate beträgt etwa 0.5 Nucleotid-Substitutionen pro

Position seit der Divergenz der beiden Spezien. Etwa doppelt so viele

Austausche haben in Maus gegenüber Mensch stattgefunden.

aus dem Paper des Mouse Genome Sequencing Consortiums „Initial sequencing and comparative analysis of the mouse genome“,Nature 420, 520-562 (5.12.2002). Excellent paper! Well readable!

Page 29: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 29

Vergleich von Maus und Mensch auf Genomebene

Key findings:

* der Anteil kurzer (50-100 bp) Segmente in den Säugetier-Genomen, der

reinigender Selektion unterliegt, ist etwa 5%, d.h. wesentlich höher als der Anteil

der Protein-kodierenden Regionen

Genome enthalten viele zusätzliche Eigenschaften wie UTRs (untranslated

regions), regulatorische Elemente, nicht-Protein-kodierende Gene, chromosomale

Strukturelemente, die unter Selektion für die biologische Funktion stehen.

* die Evolution von Säugetier-Genomen verläuft ungleichmäßig. Es gibt deutliche

Unterschiede an Divergenz je nach Genomposition.

* Sowohl Maus wie Mensch-Genom enthalten etwa 30.000 Gene, die für Proteine

kodieren. Der Anteil an Mausgenen mit einem eindeutigen Orthologen im

menschlichen Genom ist etwa 80%. Der Anteil der Mausgene ohne ein homologes

Gen im menschlichen Genom ist < 1%.

Page 30: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 30

The mouse genome. Nature 420, 520 - 562

Konservierung von Syntenie zwischen Mensch und Maus

Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem

600-kb Stück des menschlichen Chromosom 14 verwandt ist.

Blaue Linien: reziprok eindeutige Treffer in beiden Genomen.

Rote Markierungen kennzeichnen die Länge der passenden Regionen.

Die Abstände zwischen diesen „Landmarks“ sind im Maus-Genom kleiner als

im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms

übereinstimmt.

Page 31: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 31

The mouse genome. Nature 420, 520 - 562

Entsprechung syntenischer Regionen

342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch

sind im Maus-Genom markiert.

Jede Farbe entspricht einem bestimmten menschlichen Chromosom.

Page 32: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 32

Sensitivität

Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)

Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen

stärker als 70% konserviert (auf 100-bp Level)

– diese Regionen decken > 200 Million bp ab.

Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt.

Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale

Alignment finden kann!

Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales

Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen

ausserhalb der Anker-Regionen zu finden.

Page 33: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 33

hohe Sensitivität von globalen Alignments

Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)

Beispiel: das globale Alignment der mouse finished sequence

NT_002570 gegen die Region, die mit BLAT-Ankern gefunden

wurde, zeigt konservierte kodierende und nicht-kodierende

Elemente, die mit BLAT nicht gefunden wurden.

Page 34: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 34

Zusätzliche Informationen aus globalem WGA

• Unterschiede in Repeat-Merkmalen– Duplikationen (große Fragmente, chromosomal)

– Tandem-Repeats

• Große Insertionen und Deletionen

• Translokationen von einem Teil des Genoms zu einem anderen

• Single Nucleotide Polymorphism

Page 35: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 35

Methods for WGA: iterative pairwise global alignment

These Methods follow a general strategy of iteratively merging two multiple

alignments of two disjoint subsets of sequences into a single multiple

alignment of the union of those subsets.

Construct a hash table on either the query string, or the database string (or

both) for all possible substrings of a pre-specified size (say l)

Find exactly matching substrings of length l using this hash table (seeds).

In the second phase, these seeds are extended in both directions, and

combined if possible, in order to find better alignments.

If the global pairwise alignment of two genomic DNA sequences S1 and S2

is computed by standard dynamic programming algorithms

(which requires O( | S1 |∙| S2 | time, where |S| is the length of sequence S)

such iterative methods cannot be used in practice to align DNA sequences

of entire genomes due to time and memory limitations.

examples are: FASTA, BLAST, MegaBLAST, BL2SEQ,

Wu-blast, flash,PipMaker (BLASTZ), and PatternHunter

Page 36: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 36

Methods for WGA: anchor-based global multiple alignment

These methods try to identify substrings of the sequences under

consideration that they are likely parts of a global alignment.

(As mentioned, these substrings can be obtained from local alignments).

These substrings form „anchors“ in the sequences to be aligned.

These methods first align the anchors and subsequently close the gaps

(align the substrings between the anchors).

Anchor-based alignment methods are well suited for aligning very

long sequences.

MUMmer is a very successful implementation of this strategy for aligning

two genome sequences.

Page 37: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 37

Was ist MUMmer?

• A.L. Delcher et al. 1999, 2002 Nucleic Acids Res.

• http://www.tigr.org/tigr-scripts/CMR2/webmum/mumplot

• Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich)

• MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren

• nutzt Suffix-Bäume um Maximal Unique Matches zu finden

• Definition eines Maximal Unique Matches (MUM):

– Eine Subsequenz, die in beiden Sequenzen genau einmal ohne Abweichungen vorkommt und in keine Richtung verlängert werden kann.

• Grundidee: ein MUM ausreichender Länge wird sicher Teil eines globalen Alignments sein.

A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by

Genome A and Genome B. Any extension of the MUM will result in a mismatch.

By definition, an MUM does not occur anywhere else in either genome. Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Page 38: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 38

MUMmer: wichtige Schritte

• Erkenne MUMs (Länge wird vom Benutzer festgelegt)

ACTGATTACGTGAACTGGATCCAACTCTAGGTGAAGTGATCCA

ACTGATTACGTGAACTGGATCCAACTCTAGGTGAAGTGATCCA

ACTGATTACGTGAACTGGATCCA

ACTC--TAGGTGAAGTG-ATCCA

1 10

1 10

20

20

Page 39: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 39

Definition von MUMmers

• Für zwei Strings S1 und S2 und einen Parameter l

• Der Substring u ist eine MUM Sequenz wenn gilt: |u| > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) Für jeden Buchstaben a kommt weder ua noch au sowohl in

S1 als auch in S2 vor (Maximalität)

Page 40: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 40

Wie findet man MUMs?

• Naiver Ansatz

– Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B.

Dies dauert O(nn)

• verwende Suffix-Bäume als Datenstruktur

– ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat

eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz

– durch klevere Benutzung von Pointern gibt es lineare Algorithmen in

Rechenzeit und Speicherplatz wie den Algorithmus von McCreight

Page 41: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 41

Suffix-Bäume

CACATAG$

Suffix-Bäume sind seit über 20

Jahren wohl etabliert.

Einige ihrer Eigenschaften: • ein “Suffix” beginnt an jeder

Position I der Sequenz und reicht

bis zu ihrem Ende. • Eine Sequenz der Länge N hat N

Suffices.• Es gibt N Blätter.• Jeder interne Knoten hat mindest

zwei Kinder.• 2 Kanten aus dem selben Knoten

können nicht mit dem selben

Buchstaben beginnen.• Am Ende wird $ angefügt

Page 42: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 42

Konstruktion eines Suffix-Baums

CACATAG$

CA

T

CA

G$

1

A

Suffixes:

1. CACATAG$

Page 43: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 43

Konstruktion eines Suffix-Baums

CACATAG$

Suffixes:

1. CACATAG$2. ACATAG$

CA

T

CA

G$

A

T

CA

G$

A

12

A

Page 44: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 44

Konstruktion eines Suffix-Baums

CACATAG$

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$

CA

T

CA

G$

A

T

CA

G$

T

G

$

AA

123

A

Page 45: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 45

Konstruktion eines Suffix-Baums

CACATAG$

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$

CA

T

CA

G$

A

T

CA

G$

T

G

$

AA

T G $A

123

4

A

Page 46: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 46

Konstruktion eines Suffix-Baums

CACATAG$

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

123

4

5

A

Page 47: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 47

Konstruktion eines Suffix-Baums

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

123

4

5

6A

CACATAG$

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$6. AG$

Page 48: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 48

Konstruktion eines Suffix-Baums

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

G $

123

4

5

6

7

A

CACATAG$

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$6. AG$7. G$

Page 49: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 49

Konstruktion eines Suffix-Baums

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

G $$

123

4

5

6

78CACATAG$

A

Suffixes:

1. CACATAG$2. ACATAG$3. CATAG$4. ATAG$5. TAG$6. AG$7. G$8. $

Page 50: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 50

Speicherplatz sparen

[3, 6][3, 6]

[5, 4]

[5, 4]

[5, 4]

[7, 2]

[7, 2][8, 1]CACATAG$

[1, 2]

[2, 1]Suffix-Bäume können sehr

groß werden, da ihre

Größe mit der des

Genoms vergleichbar

ist. Es ist daher wichtig,

Speicherplatz

effizient zu

nützen.

Page 51: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 51

Suchen in einem Suffix-Baum

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

G $$

123

4

5

6

78

A

Search Pattern:CATA

Page 52: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 52

Suchen in einem Suffix-Baum

CA

T

CA

G$

A

T

CA

G$

TT

A

G

$G

$

AA

T G $A

G

$

G $$

123

4

5

6

78

A

Search Pattern:ATCG

Page 53: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 53

MUMmer 1.0: Wie findet man MUMs?

• Konstruiere einen Suffix-Baum aus allen Suffices von Genom A

• Füge jedes Suffix von Genom B in diesen Suffix-Baum ein

• Kennzeichne jedes Blatt mit dem Genom, das es enthält

Page 54: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 54

Sortieren der MUMs

• MUMs werden nach ihren Positionen in Genom A sortiert

1 2 3 4 5 6 7

1 3 2 4 6 7 5

Genome A:

Genome B:

1 2 4 6 7

1 2 46 7

Genome A:

Genome B:

Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge.

Das obere Alignment zeigt alle MUMs.

Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an.

Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein.

Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an

Subsequenzen

Page 55: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 55

Es gibt 4 Arten an Gaps in MUM-Alignments

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Diese Beispiele

stammen aus dem

Alignment der beiden

M.tuberculosis

Genome.

Page 56: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 56

Schliessen der Gaps• SNP

– einfache Fälle: Gap aus einer Base zwischen benachbarten MUMs

– wenn neben Repeat-Sequenzen: behandle als Tandem-Repeat

• Variable / Polymorphe Region

– Kleine Region: Alignment mit dynamischer Programmierung

– Große Region: rekursive Anwendung von MUMmer mit reduzierter Länge des minimalen Cut-offs

• Insertionen / Deletionen

– Transposition: out of alignment order

– Einfache Insertion: nicht ins Alignment aufnehmen

• Repeats

– Tandem-Repeats werden durch überlagern von MUMs entdeckt

– Andere Repeats (i.e. Duplikation) werden als Gaps behandeln

Schließe Gaps durch lokale Alignments für die Abschnitte zwischen

den alignierten MUMs (z.B. mit Smith-Waterman).

Page 57: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 57

Beispiel: Alignment zweier Mikroorganismen

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Das Genom von M.genitalium ist nur etwa 2/3 so

lang wie das von M.pneumoniae.

Obere Abbildung: FASTA-Alignment von

M.genitalium und M.pneumoniae.

Mitte: Alignment mit 25mers

Unten: Alignment mit MUMs. 5 Translokationen.

Ein Punkt bedeutet jeweils einen Treffer zwischen

den Genomen.

FASTA-Plot: ähnliche Gene

25-mer-Plot: 25-Basen-Sequenz, die in beiden

Sequenzen genau einmal vorkommt.

MUM-Plot: MUM-Treffer.

Page 58: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 58

Example: alignment human:mouse

Delcher et al. Nucleic Acids Res 27, 2369 (1999)

Alignment of even more distant

species: human and mouse.

Here: alignment of a 222 930 bp

subsequence of human

chromosome 12p13, accession

no. U47924, to a 227 538 bp

subsequence of mouse

chromosome 6, accession no.

AC002397. Each point in the plot

corresponds to an MUM of

[ge]15 bp.

Page 59: 5. Vorlesung WS 2005/06Softwarewerkzeuge1 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs

5. Vorlesung WS 2005/06

Softwarewerkzeuge 59

Zusammenfassung

• Die Anwendung der Suffix-Bäume war ein Durchbruch für die

Alignierung ganzer Genome

• MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und

den Speicherplatz

– die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt

eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg)

– es wird nun möglich, mehr als zwei Genome zu alignieren

(implementiert in MGA)