Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-1 Genom- und...

Preview:

Citation preview

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-1Genom- und Proteomanalyse

Genom- und Genom- und ProteomanalyseProteomanalyse

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-2Genom- und Proteomanalyse

Begriffe (1)Begriffe (1)

Genom (Hans Winkler, 1920):- Gesamtheit der vererbbaren

Informationen einer Zelle- Speichermedium DNA- Kodiert die Ausprägungen

der spezifischen Eigenschaften eines Organismus

Genomics:- Erforschung des Genoms

Organismus Basenpaare

Escherichia coli 4,7*106

Saccharomyces cerevisiae

1,2*107

Drosophila melanogaster

1,3*108

Homo sapiens sapiens 3*109

Arabidopsis thaliana 1,2*108

Hordeum vulgare 4,8*109

Triticum aestivum 1,6*1010

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-3Genom- und Proteomanalyse

Begriffe (2)Begriffe (2)

Proteom (Marc Wilkins, 1994):- Gesamtheit aller zu einem bestimmten Zeitpunkt

exprimierten Proteine eines Organismus

Proteomics:- Erforschung des Proteoms

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-4Genom- und Proteomanalyse

GenomanalyseGenomanalyse

Genomanalyse: Ermittlung von funktionellen Bereichen (Genen) von Organismen

Ziel: Zuordnung von Funktionen zu genetischen Elementen

Einsatz der Bioinformatik zur Identifikation und Charakterisierung genetischer Elemente- z.B. Erkennung von Promotoren,

Transkriptionsfaktorbindungsstellen (TFBS) etc.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-5Genom- und Proteomanalyse

Sequenzierung kompletter GenomeSequenzierung kompletter Genome

1995: 1. vollst. sequenziertes Bakteriengenom Haemophilus influenza

neue Ära: alle Gene und regulatorische Bereiche 1998: erster Mehrzeller Caenorhabditis elegans Problem Größe der kodierenden Bereiche bei Eykaryoten:

- Mensch und Maus ca. 1,4% des Gesamtgenoms Mensch und Maus:

- 5% der Genome hoch konserviert- aber mehr als 80% orthologe Gene bzw. Proteine

Einschub (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html):

Homologous sequences. Orthologs and Paralogs are two typesof homologous sequences. Orthology describes genes in different species that derive from a common ancestor. Orthologous genesmay or may not have the same function. Paralogy describeshomologous genes within a single species that diverged by gene duplication.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-6Genom- und Proteomanalyse

Sequenzierung kompletter GenomeSequenzierung kompletter Genome

1995: 1. vollst. sequenziertes Bakteriengenom Haemophilus influenza

neue Ära: alle Gene und regulatorische Bereiche 1998: erster Mehrzeller Caenorhabditis elegans Problem Größe der kodierenden Bereiche bei Eykaryoten:

- Mensch und Maus ca. 1,4% des Gesamtgenoms Mensch und Maus:

- 5% der Genome hoch konserviert- aber mehr als 80% orthologe Gene bzw. Proteine

Einschub (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html):

Homologous sequences. Orthologs and Paralogs are two typesof homologous sequences. Orthology describes genes in different species that derive from a common ancestor. Orthologous genesmay or may not have the same function. Paralogy describeshomologous genes within a single species that diverged by gene duplication.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-7Genom- und Proteomanalyse

Genomcharakterisierung mit STS Genomcharakterisierung mit STS

STS - Sequence Tagged Sites: Orientierungspunkte z.B. im menschlichen Genom

kurze DNA-Sequenzen mit Länge von 200 – 500 Basenpaaren STS kommt nur einmal im Genom vor! Ort und Basissequenz bekannt Marker für Kartierung von Chromosomen bzw. Genom Generierung von STS durch PCR DNA-Klone können durch DB-Suche auf Existenz von passenden

STS durchsucht werden und anhand dieser Information auf Chromosomen bzw. in Genomen positioniert werden.

-> präzise physikalische Karte seit 1994 eigene DB am NCBI: dbSTS

- Name, Sequenz für Amplifikation, Größe des PCR-Produkts, Sequenz, …

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-8Genom- und Proteomanalyse

EST = Expressed Sequence TagsEST = Expressed Sequence Tags

„Endeckung“ neuer Gene durch ESTs wird 1991 erkannt cDNA-Clone stammen von exprimierten Genen ab -> Name Generierung von ESTs durch Sequenzierung der cDNA von

beiden Enden viele Projekte zur EST-Sequenzierung -> Hochdurchsatz aber auch Kritik:

- schlechte Qualität durch single Run und automatische Generierung:Substitutionen und Insertionen/Deletionen -> Frameshifts (Verschiebung von Basentripletts; Kodierung anderer Aminosäuren)

- schlechte Qualität in internationalen Nukleotidsequenz-DBs- keine regulatorischen Elemente

NCBI: dbEST und Unigene TIGR: Gene Indicies

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-9Genom- und Proteomanalyse

EST - SequenzierungsprojekteEST - Sequenzierungsprojekte

©P.M

. Selz

er,

R.J.

Marh

öfe

r, A

. R

ohw

er:

Angew

andte

B

ioin

form

ati

k –

Ein

e E

infü

hru

ng.

Berl

in e

t al: S

pri

nger

Verl

ag,

20

04

.

Zellen, Gewebe, Organismus

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-10Genom- und Proteomanalyse

QualitätsmerkmaleQualitätsmerkmale

Anwendung folgender Kriterien beim Trimming:- Mindestlänge der ESTs- Anzahl von Ns im Gegensatz zu

eindeutig identifizierten Nukleotiden (A/T/G/C)

- Quality Scores des SequenzierautomatenMaß für Sequenzqualität jedes einzelnen Nukleotids

- Kontamination mit Vektor- oder Bakterien-DNA

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-11Genom- und Proteomanalyse

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-12Genom- und Proteomanalyse

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-13Genom- und Proteomanalyse

ZwischenergebnisseZwischenergebnisse

Sammlung von ESTs mit- unterschiedlicher Länge und- zufälliger Auswahl von cDNA-Sequenzen

aber auch ESTs von gleichen Transkripten besonders von hoch exprimierten Genen

Existenz von Redundanz Reduzierung durch Assemblierung und Alignments

aus ähnlichen ESTs Ergebnis sind Konsensussequenzen bei großen EST-Projekten vorher Clustern

- Zusammenfassung in Gruppen von EST mit identischen Nukleotiden in einem Bereich

- danach stringenteres Assemblieren und Alignen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-14Genom- und Proteomanalyse

ESTs, Contigs und ESTs, Contigs und KonsensussequenzenKonsensussequenzen

©P.M

. Selz

er,

R.J.

Marh

öfe

r, A

. R

ohw

er:

Angew

andte

B

ioin

form

ati

k –

Ein

e E

infü

hru

ng.

Berl

in e

t al: S

pri

nger

Verl

ag,

20

04

.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-15Genom- und Proteomanalyse

Beispiel für Komplett-Software StackPACK™ Beispiel für Komplett-Software StackPACK™ http://www.egenetics.com/stackpack.htmlhttp://www.egenetics.com/stackpack.html

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-16Genom- und Proteomanalyse

StackPACK™: Anwendung in CR-ESTStackPACK™: Anwendung in CR-EST

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-17Genom- und Proteomanalyse

StackPACK™ - Ein ProblemfallStackPACK™ - Ein Problemfall

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-18Genom- und Proteomanalyse

ESTs und die Identifizierung unbekannter ESTs und die Identifizierung unbekannter GeneGene

Annotations- und Sequenzsuchen gegen DBs BLASTX mit allen 6 Leserahmen: Achtung! Berücksichtigung von:

- Scores, E-Values, Identität, …- Beispiel: siehe Übung zu Sequenzvergleichen

weiterhin Motiv-Suche (Interpro): Unterscheidung der Sequenz aufgrund definierter Eigenschaften

zusätzliche Methode: ab-initio-Verfahren:- suchen nach Signalen in Sequenz:

• Translationsstart und -stop, • Exons/Introns, • Poly-Adenylierungssignal• 5‘ und 3‘ UTR• …

- Analysierung der Zusammensetzung der Sequenz• ORFs• G/C-Gehalt

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-19Genom- und Proteomanalyse

Coding and Non-CodingCoding and Non-Coding

©P.M

. Selz

er,

R.J.

Marh

öfe

r, A

. R

ohw

er:

Angew

andte

B

ioin

form

ati

k –

Ein

e E

infü

hru

ng.

Berl

in e

t al: S

pri

nger

Verl

ag,

20

04

.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-20Genom- und Proteomanalyse

Alternatives SpleißenAlternatives Spleißen

©P.M

. Selz

er,

R.J.

Marh

öfe

r, A

. R

ohw

er:

Angew

andte

B

ioin

form

ati

k –

Ein

e E

infü

hru

ng.

Berl

in e

t al: S

pri

nger

Verl

ag,

20

04

.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-21Genom- und Proteomanalyse

Identifizierung neuer Mitglieder von Identifizierung neuer Mitglieder von ProteinfamilienProteinfamilien

© P.M. Selzer, R.J. Marhöfer, A. Rohwer: Angewandte Bioinformatik – Eine Einführung. Berlin et al: Springer Verlag, 2004.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-22Genom- und Proteomanalyse

Hyperlinks zwischen DatenbankenHyperlinks zwischen Datenbanken

© M

ath

ias

Lange,

Gate

rsle

ben 2

00

5

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-23Genom- und Proteomanalyse

DBOra: Eine integrierte Datenbank DBOra: Eine integrierte Datenbank zur Annotationzur Annotation

integrierte relationale Datenbank Protein – Pathway – Literatur – Krankheits –

Beziehungen Import basiert auf BioDataServer GUI: http://pgrc.ipk-gatersleben.de/DBOraWeb/

Suchmöglichkeiten:• Text (Wortstamm, phonetisch, fuzzy, ...)

• AA (lokales BLASTP)

• NA (lokales BLASTX)

Navigation verwendet Schlüssel-Fremdschlüssel-Beziehungen

Erreichbarkeit ist vorberechnet

© M

ath

ias

Lange,

Gate

rsle

ben 2

00

5

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-24Genom- und Proteomanalyse

© M

ath

ias

Lange,

Gate

rsle

ben 2

00

5

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-25Genom- und Proteomanalyse

DBOra: Technische ParameterDBOra: Technische Parameter

Datenbank-Schema:- 81 Tabellen- 85 Fremdschlüssel

Datenbank-Import:- SwissProt, TrEMBL, BRENDA, KEGG, OMIM- ~ 35 Millionen Einträge- ~ 6 GByte Daten

Index:- 381 Indizes- 5 GByte Textindizes- 836.013 AA-Sequenzen für BLAST-Vergleiche

© M

ath

ias

Lange,

Gate

rsle

ben 2

00

5

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-26Genom- und Proteomanalyse

DBOra: Datenbank-Schema (I)DBOra: Datenbank-Schema (I)

© M

ath

ias

Lange,

Gate

rsle

ben 2

00

5

• Protein-Eigenschaften

• Literatur-Referenzen

• Krankheiten

• Enzymatische Funktionen

• Datenbank-Querverweise

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-27Genom- und Proteomanalyse

DBOra: Datenbank-Schema (II)DBOra: Datenbank-Schema (II)

© M

ath

ias

Lange,

Gate

rsle

ben 2

00

5

EnzymatischeFunktionen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-28Genom- und Proteomanalyse

DBOra: Prozess der automatischen DBOra: Prozess der automatischen EST-AnnotationEST-Annotation

EST Blast Hits

DBOra Search

retrieval of allpossible data linksusing precomputed

„Reverence Spanning Graphs“

KEGG EC-No.

Retrieve KEGG EC Numbers

Mapping to KEGG Metabolic Pathways

KEGG MetabolicPathways

Assign Data to

DBO

ra Tables

DDBJ

Genbank

SWISS-PROT

EMBL

PIR

1

2

3

4

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-29Genom- und Proteomanalyse

DBOra: DBOra: Input CR-EST BLASTX Hit Description Input CR-EST BLASTX Hit Description

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-30Genom- und Proteomanalyse

DBOra: DBOra: Result KEGG Pathway MappingResult KEGG Pathway Mapping

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-31Genom- und Proteomanalyse

DBOra: Ergebnis der automatischen DBOra: Ergebnis der automatischen EST-AnnotationEST-Annotation

© M

ath

ias

Lange,

Gate

rsle

ben

20

05

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-32Genom- und Proteomanalyse

Annotationen in CR-ESTAnnotationen in CR-EST

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-33Genom- und Proteomanalyse

ProteomanalyseProteomanalyse

Messung von „mRNA“ für Aussagen zu Proteinen nicht ausreichend zum Verstehen von komplexen biologischen Systemen

Beispiel: Stoffwechselwege werden durch Proteine und nicht durch Gene (des Genoms) oder mRNA (des Transkriptoms) gesteuert!

auch Hochdurchsatzverfahren zur Proteom-Analyse:- klassische oder quantitative Proteomics:

• Identifizierung und Quantifizierung der Proteine

- funktionelle Proteomics:• Funktionen der Proteine finden

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-34Genom- und Proteomanalyse

Klassische ProteomicsKlassische Proteomics

Ähnlichkeit zu Expression Profiling -> Protein Profiling exprimierte Proteine repräsentieren molekularen Fingerabdruck

einer Zelle Vergleich mehrerer „Fingerabdrücke“ -> Identifizierung

differentiell exprimierter Proteine (aber auch Gene) Protein Profiling erkennt:

- Proteine mit zellulären Funktionen- Messung quantitativer Veränderungen in Proteinzusammensetzung- postranslationale Veränderungen (Phosphorylierungen und

Glykosylierungen)- Proteinzusammensetzung von Zellkompartimenten

Protein Profiling erkennt nicht:- unlösliche Proteine- Transmembranproteine- schwach exprimierte Proteine

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-35Genom- und Proteomanalyse

2D-Gelelektrophorese & 2D-Gelelektrophorese & MassenspektroskopieMassenspektroskopie

Kombination der beiden ist gängiges Verfahren zum Protein Profiling

2D-Gelelektrophorese:- Proteine eines Zellextrakts in Polyacrylamidgel (Trennmatrix) mit

geignetem Puffer ladungsabhängig in elektrischem Feld auftrennen- Nutzung von 2 Eigenschaften:

• Ladung• Masse

- Bsp: Protein Cytochrom enthält viele basische Aminosäuren und ist bei neutralem pH-Wert positiv geladen

- Veränderung des pH-Wertes der Umgebung -> Änderung der Nettoladung des Proteins

- isolektrischer Punkt pI: negative und positive Ladungen eines Proteins sind gegenseitig aufgehoben

- wenn pH dem pI entspricht -> keine Wanderung des Proteins im elektrischen Feld

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-36Genom- und Proteomanalyse

2D-Gelelektrophorese2D-Gelelektrophorese jedes Protein besitzt charakteristischem pI -> Auftrennung in pH-Gradienten mit Hilfe des elektrischen Feldes -> 1.

Dimension 2. Dimension: Auftrennung nach Molekulargewicht:

- Peptide mit geringerem Molekulargewicht wandern schneller hoch-auflösende 2D-Gele: bis zu 10.000 verschiedene Proteine nach Auftrennung Anwendung spezieller Färbeverfahren zur

Sichtbarmachung:- Silberfärbung- Fluoreszensfarbstoffe

Digitalisierung der Gele und Auswertung mit bioinformatischen Methoden (z.B. mit Melanie von Expasy):- Spotdetection- Vergleich mehrer Gele – Identifizierung gleicher Spots und Erkennung

unterschiedlicher Intensitäten- Normalisierung- statistische Auswertung

Ergebnis: Liste mit differentiell exprimierten Proteinen (Unterscheidung nach pI und Molekulargewicht)

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-37Genom- und Proteomanalyse

Beispiel eines 2D-Gel-BildesBeispiel eines 2D-Gel-Bildes

©P.M

. Selz

er,

R.J.

Marh

öfe

r, A

. R

ohw

er:

Angew

andte

B

ioin

form

ati

k –

Ein

e E

infü

hru

ng.

Berl

in e

t al: S

pri

nger

Verl

ag,

20

04

.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-38Genom- und Proteomanalyse

MassenspektroskopieMassenspektroskopie 2D-Gelanalyse nicht ausreichend Identifizierung eines unbekannten Proteins durch Bestimmung von

Teilen der Aminosäuren-Sequenz Vergleich dieser Sequenz mit Protein-DB (aber auch DNA-DB) Anwendung bei der massenspektroskopischen Analyse von Peptiden

durch Matrix-assisted Laser Desorption/Ionisation – Time of Flight (MALDI-TOF)

sensitive Technik -> Proteinmengen im Pikomol-Bereich (10-12) ausreichend

Vorgehensweise:1. Spots aus 2D-Gel ausschneiden2. Inkubation mit Proteasen (z.B. „Schneiden“ mit Trypsin)3. Ergebnis sind spezifische Peptidmuster4. Isolierung dieser aus Gel 5. Analyse mittels Massenspektroskopie6. jedes Peptid wird durch spezifisches Massenspektrum repräsentiert

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-39Genom- und Proteomanalyse

MALDI-TOF von BrukerMALDI-TOF von Bruker

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-40Genom- und Proteomanalyse

Identifizierung durch Vergleich von Identifizierung durch Vergleich von experimentell ermittelten und experimentell ermittelten und theoretischen Massenspektrentheoretischen Massenspektren

©P.M

. Selz

er,

R.J.

Marh

öfe

r, A

. R

ohw

er:

Angew

andte

B

ioin

form

ati

k –

Ein

e E

infü

hru

ng.

Berl

in e

t al: S

pri

nger

Verl

ag,

20

04

.

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-41Genom- und Proteomanalyse

Weiterentwicklung der Weiterentwicklung der MassenspektroskopieMassenspektroskopie

Nachteil bei MALDI-TOF:- zur eindeutigen Identifizierung eines Proteins sind

Messungen mehrerer Massenspektren notwendig

Neuentwicklungen:- Tandem-Massenspektroskopie:

• direkte Bestimmung eines Teils der Aminosäure-Sequenz

• partielle Sequenz reicht für eindeutige Identifizierung in Protein-DB aus

- Elektrospray-Ionisations-Quadruploe-TOF-Spektroskopie:• sensitive und akkurate Analysen von posttranslationalen

Modifikationen

Vorlesung Einführung in die Bioinformatik - U. Scholz & M. Lange Folie #4-42Genom- und Proteomanalyse

Funktionelle ProteomicsFunktionelle Proteomics

z.B. Suche nach Protein-Protein-Interaktionen

durch solche Interaktionen Vermittlung vieler zellulärer Prozesse

Beispiele:- Yeast Two-Hybrid System- Protein-Arrays:

a) Sandwich Assaysb) Antigen Capture Assayc) direktes Assay

Recommended