AlgoBio WS 16/17 Protein-DNA Interaktionen

ChiP-Seq Datenanalyse

Annalisa Marsico 6.02.2017

Protein-DNA Interaktionen

• Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren.

Transkriptionsfaktoren (TF) beeinflussen die Expression eines Gens.

• ChIP-Seq (ChIP + Sequenzierung) ist eine Technik, um Bindungsstellen

von TFs auf der DNA zu detektieren (aber nicht nur!).

Protein-DNA Interaktionen

• DNA-bindende Proteine haben eine DNA-bindende Domäne,

die eine "Affinität" für einzelne oder doppelsträngige DNA und für ein bestimmtes

"Motiv“ hat.

Chromatin Umwelt

• Nicht nur ein DNA-Motiv, sondern auch der Chromatin-Zustand beeinflusst die TF-Bindung und die Genregulation

Um Genregulation und genregulatorische Netzwerke zu verstehen, wollen wir alle Stellen im Genom kennen, an die Transkriptionsfaktoren unter verschiedenen Bedingungen binden.

Schritte eines ChIP-Seq-Experiments

Ziel: Anreichern für DNA-Fragmente, die an ein spezifisches Protein (TF) gebunden sind

Unterschied zu RNA-seq

ChIP-Seq • Geführt von einem ChIP • Angereichert für DNA-Regionen, die an einen TF gebunden sind (Antikörper) • DNA Sequenzierung • Reads bedecken Bindungsstellen an den Gen-Promotoren • Hauptziel: Genomweit Peaks finden (welche Gene werden durch eine bestimmten TF reguliert?)

RNA-Seq • Kein ChIP • Angereichert für eine bestimmte RNA-Klasse (z. B. PolyA) • RNA Sequenzierung • Reads bedecken RNA-Transkripte (z. B. verschiedene Isoformen) • Hauptziel: Genexpression (wie viele Kopien eines Gens in einem bestimmten Gewebe?)

Dynamische Ansicht: Spezifische Messungen für einen Zelltyp

Schritte der ChiP-seq-Analyse

• Genom Alignment (z. B. Bowtie-Software, schneller Mapper) • Erlaubt eine kleine Anzahl von Fehlpaarungen aufgrund von Sequenzierungsfehlern, SNPs etc.

• „Peak Calling“ • Identifizierung von Reads-angereicherten Regionen • Signifikanz der Peaks • Differentialpeaks?

• Downstream Analyse • Motivfindung in Peaks

Peak Detektion

Scannen der genomischen DNA und suchen nach angereicherten Regionen mit einem Fenster-Ansatz Strand-spezifische Muster können beobachtet und verwendet werden, um die Peaks zu lokalisieren (1) Erweitern die Reads auf die geschätzte Fragmentlänge (2) Verschieben Reads auf die Mitte der beiden Gipfel (d/2)

Peak Detektion

In anderen Ansätzen wird Bi-Modalität verwendet, bevor Peaks aufgerufen werden,

um unwahrscheinliche Peaks zu filtern. Die Verteilung auf die beiden Stränge muss

einander ähneln und der Abstand zwischen den Peaks muss in der Nähe der

erwarteten Fragmentgröße liegen.

Warum „Bi-Modalität“?

Warum entspricht die Trennung zwischen den Peaks (d) der durchschnittlichen sequenzierten Fragmentlänge?

Die blaue Box zeigt die Region des Fragments, das tatsächlich sequenziert wird (oft 36bp). Das gesamte Fragment ist länger, wobei die genaue Größe von dem experimentellen Fragmentierungsprotokoll abhängt. Normalerweise liegt das Protein (POI) in der Mitte des Fragments , so dass der durchschnittliche Abstand zwischen den Reads der durchschnittlichen Fragmentlänge entspricht.

Handhabung des Hintergrunds

Wie wird der Reads Abstand (oder read-shift ) d bestimmt? Er ist entweder benutzerdefiniert oder abgeschätzt durch hochwertige Peaks, d.h. diejenigen mit sehr großer Anreicherung im Verhältnis zum Hintergrund.

Pepke et al., Nature Methods 2009

Was ist der Hintergrund? 'Noise' Verteilung von Reads. Er ist mit einer Poisson-Verteilung modelliert.

Für etwas, das als Peak bezeichnet wird, definiert man eine Minimumanreicherung relativ zum Hintergrund

Oder eine Signifikanz (p-Wert). Was ist die Wahrscheinlichkeit N Reads zufällig zu beobachten?

Signifikanz der Peaks

• Jeder Peak hat einen zugehörigen p-Wert

• Korrigieren für mehrere Tests • E.g. FDR-korrigierte p-Werte (BH Korrektur)

• Oder einen empirischen FDR definieren

Die Notwendigkeit der Kontrollen

Auerbach et al., PNAS 2009

Model-based Analysis of ChIP-Seq data (MACS)

Es ist einer der am häufigsten verwendeten Peak-Finder. MACS führt eine fortgeschrittene Art der Modellierung der Fragmentgröße ein. ChIP-DNA-Fragmente werden gleichermaßen wahrscheinlich von beiden Enden sequenziert. Die „read density“ um eine echte Bindungsstelle sollte ein bimodales Anreicherungsmuster aufweisen

Reads werden häufig in Richtung der 3'-Richtung verschoben / ausgestreckt, um die genaue Protein-DNA-Interaktionsstelle besser darzustellen. Die Größe der Verschiebung ist dem Experimentator jedoch oft unbekannt.

MACS: shift Größe

Sobald d geschätzt worden ist, werden alle Reads um d/2 zu ihrem 3'-Ende, in Richtung zur Mitte des Gesamtpeaks verschoben. Ein statistischer Test wird dann verwendet, um signifikante Peaks zu bestimmen. Wie? (An der Tafel)

ChIP-Seq: Hintergrund bias

Lokale Eigenschaften des Genoms können zu einer Bias in der Anzahl der mapped Reads führen. • Chromatin Zustand (e.g. Euchromatin-Fragmente einfacher als

Heterochromatin)

• GC Inhalt

• ChIP-Seq-Experimente enthalten oft eine Kontrolle

MACS: Peak Calling

Aufgrund dieses Bias verwendet MACS anstelle eines einheitlichen 𝜆𝐵𝐺 das aus dem gesamten Genom geschätzt wird, einen dynamischen Parameter, 𝜆𝑙𝑜𝑐𝑎𝑙 , der für jeden Kandidatenpeak definiert ist:

𝜆𝑙𝑜𝑐𝑎𝑙 = max(𝜆𝐵𝐺 , 𝜆1𝑘 , 𝜆5𝑘 , 𝜆10𝑘)

𝜆𝐵𝐺 wird über das gesamte Genom berechnet, und 𝜆1𝑘𝑏 , 𝜆5𝑘𝑏 , 𝜆10𝑘𝑏 werden aus den 1 kb, 5 kb or 10 kb Fenstern berechnet, das an der Peak-Stelle in der Kontrollprobe zentriert.

MACS: Peak Calling

• Kandidatenpeaks mit p-Werten unterhalb eines benutzerdefinierten cutoff (default 10-5) werden als signifikant (Poisson-Verteilung) bezeichnet.

• Das Verhältnis zwischen dem ChIP-Seq-Tag-Zählwert und 𝜆𝑙𝑜𝑐𝑎𝑙 wird als die

Faltenanreicherung angegeben.

Downstream Analyse

Der Satz von Peaks und deren Lage bilden die Grundlage für die biologische Interpretation der Aktion des untersuchenden Transkriptionsfaktors.

TAT1-Motiv aus FASTA-Sequenzen der Peaks, e.g. mit der RSAT Software.

Eine weitere funktionelle Analyse: GO-Anreicherung von Genen mit signifikanten Peaks (Chi-Quadrat-Test)

Referenzen

• Metazoan: emerging characteristics and insights into transcription. Lenhard et al., Nature Review Genetics 2012 • ChIP-seq advantages and challenges of a maturing technology. Peter J Park, Nature Review Genetics, 2009

• Computation for ChIP-seq and RNA-seq studies. Pepke et al., Nature Methods 2009

• Model-based Analysis of ChIP-Seq (MACS). Zhang et al.. Genome Biology 2010

AlgoBio WS 16/17 Protein-DNA Interaktionen · Protein-DNA Interaktionen • Häufig binden sich...

Documents

DNA-Analytik - Welcome to CPI - Chemistry & Physics … · TTGACA16NTATANNNN AAA GGG GCT...TGA....CNCNCNN! Promotor! Transkriptionsstart! Terminator! Ein Gen =! ein Protein! ... Vorlesung

D Memoria Sygnis 2015 - Aleman - 4basebio Investors€¦ · Protein-Protein-Interaktionen. Die dieser . 7 Geschäftsbericht 2015 | Höhepunkte des Jahres 2015 Vereinbarung zugrunde

Seminar DNA, ChIP-Chip und Protein- · PDF filefakultÄt fÜr informations-und kognitionswissenschaften wilhelm-schickard-institut fÜr informatik arbeitsbereich rechnerarchitektur

02 biologische grundlagen - · PDF fileFunktion der DNA n DNA: Träger von Erbinformationen ... n Nur RNA oder weiter zum Protein – Alle direkt daran beteiligten Sequenzen n 5‘

Seminar DNA, ChIP-Chip und Protein-Microarrays · ChIP-on-Chip steht für die Kombination aus Chromatin-Immuno-Präzipitation und Mi- croarrays. ChIP ist ein Verfahren mit dem DNA-Sequenzen

A role for DNA-PKcs in G checkpoint response and DNA end ...IRIF Ionizing radiation-induced foci KAP-1 KRAB-associated protein 1 KARP-1 KU80 Autoantigen Related Protein-1 kDa Kilodalton

Exercises to Introduction to Bioinformatics Assignment 5 ... · PDF file• Neben Protein-protein Interaktionen innerhalb einer Spezies gibt es auch spezies-übergreifende Interaktionen,

1652 WS0910 Molekularbiologie1 Kolonie-PCR & Agarosegel ... · Protein Expression Genomische DNA Escherichia coli Vektormolekül (Plasmid) PCR Protein Reinigung

Modulbeschreibungen für die Master-Studiengänge (Stand ...€¦ · nen, Untersuchung von Protein-Protein Interaktionen, Co-Immunopräzipita-tion, Insertionsmutagenese in Eukaryoten,

6. DNA ‐ Bakteriengenetik · 6. DNA ‐Bakteriengenetik Konzepte: DNA enthält Gene DNA Struktur DNA Replikation Gentransfer in Bakterien Bakteriophagen

Einzelmolekül-Kraftspektroskopie an PhoB-DNA-Komplexen · ein DNA-Protein-Komplex ausgebildet, so wird der Cantilever beim Zurückziehen so lange zunehmend ausgelenkt, bis der Komplex

Der genetische Fingerabdruck - The Protein Chemistry Group · radioaktiv markerte Oligonukleotide Röntgenfilm Autoradiographie Agarose-Gel mit gebundener Sonde DNA-Fingerprinting

Entwicklung und Testung neuer DNA- und Protein- basierter ...opus.uni-hohenheim.de/volltexte/2015/1108/pdf/Dissertation_Koehler... · Entwicklung und Testung neuer DNA- und Protein-basierter

10. Vorlesung WS 2015/16Softwarewerkzeuge1 V10 Protein-Protein-Interaktionsnetzwerke Review (V7): Arten von PP-Interaktionen: Homo-Oligomere vs. Hetero-Oligomere

ãTexte, die Geschichte machten - Goethe-Universitätuser.uni-frankfurt.de/~dingerma/Podcast/Ehrlich_Koehler1.pdf · Protein Mittwoch, 15. Dezember 2010. DNA schwere Kette leichte

Genexpressions- und Protein-DNA-Interaktions-Studien des ... · Dissertation zur Erlangung des Doktorgrades der Fakultät für Chemie und Pharmazie der Ludwig-Maximilians-Universität

Einfluss DNA-bindender Proteine auf die ...elib.uni-stuttgart.de/bitstream/11682/1736/1/Diplomarbeit_Gunnar.pdf · Von diesem Protein ist u.a bekannt, daß es einen Effekt auf die

RNA- und DNA-Strukturen - uni- · PDF fileBeispiele für Protein-DNA Komplexe • Leucin Zipper, PDB:2WT7 . Beispiele für Protein-DNA Komplexe ... Primärsequenz für die Funktion

1. BEZEICHNUNG DES ARZNEIMITTELS 2. QUALITATIVE UND ...Transkription aus den entsprechenden DNA-Vorlagen hergestellt wird und das virale Spike (S)- Protein von SARS-CoV-2 kodiert

Interaktionen machen Marken. Oder wie die Digitalisierung Interaktionen zum Kern der Markenführung macht