32
Die wichtigsten Bioinformatikdatenbanken SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Die wichtigsten Bioinformatikdatenbanken

SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Page 2: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Übersicht

• Nucleotidsequenzen: GenBank, EMBL• Proteindatenbank SwissProt• Proteinstrukturen: Brookhavens PDB• Proteinklassifizierung: Scop, CATH, FSSP• Pattern, Profile: PROSITE und Pfam

Page 3: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

SwissProt• „annotierte“ Proteinsequenz-Datenbank

• www.expasy.ch

• Einträge besitzten verschiedene Linientypen, z.B:

• viele zusätzliche Informationen: Funktion, posttranslationaleModifikationen, aktive Zentren, ...

Kommentar CC -!- FUNCTION: THIS ENZYME HAS BOTH RNASE ANDDNASE ACTIVITY

Eigenschaft FT ACT_SITE 142 142Keyword KW FAD, NADHBeschreibung DE AMINO-ACID PERMEASE

Page 4: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

SwissProt• Informationen manuell aus Erstbeschreibungspublikationen, regelmäßig aus Reviews und unter Beteiligung externer Experten

• hoher Grad der Integration mit anderen Datenbanken:

• Database Reference Zeile (DR) verweist auf andere DB

• unterschiedliche Qualität der Informationen durch Markierung der Zeilen (putative, probable, by similarity):

DE PROBABLE 5'-NUCEOTIDASE PRECURSOR

DE PUTATIVE AMINO-ACID PERMEASE

• „cut-off-point“ vom Annotator bestimmt

Page 5: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

TrEMBL• manueller Annotierungsprozeß von Menge der neuen Sequenzen überfordert

• Qualität der SwissProt Annotierungen soll bestehen bleiben

• TrEMBL als Ergänzung zu SwissProt:

• computer-annotierte Einträge

• Einträge sind Translationen der CDS von EMBL

• Regelsysteme zur automatischen Annotierung verwendet

Page 6: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

C4.5-Data-Mining-AlgorithmusC4.5-Algorithmus

Page 7: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Die Proteinordnung• enorme Menge macht Klassifizierung sinnvoll

• über Sequenz- und/oder Strukturähnlichkeit

• Domänen werden getrennt klassifiziert

• zu beachten:

• große Sequenzähnlichkeit heißt auch gleicher Fold

• ohne große Sequenzähnlichkeit kann auch ähnliche 3D-Struktur vorliegen

• Domänen mit ähnlicher 3D-Struktur haben häufig ähnliche Funktion

Page 8: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Klassifizierungs-DB

• SCOP: manuell

• CATH: halbautomatisch

• FSSP: automatisch

Page 9: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

SCOP (structural classification of proteins)

• manuelle hierarchische Einteilung:

• Class: alpha, beta, alpha+beta, alpha/beta, multidomain

• Fold: Anordnung der Sekundärstrukturen und Loops

• Superfamily: gemeinsame strukturelle/funktionelle Eigenschaften

• Family: ähnliche biochemische Funktionen, >50% Sequenzidentität

Page 10: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

CATH(classification by class, architecture, topology and homolgy):

• halbautomatische hierarchische Einteilung entsprechend der Bezeichnung

• Vorgehen bei Einteilung:• Aufteilung in Domänen:

• bei Sequenzhomologie >> Übernahme der Grenzen

• sonst 3 Vorhersageprogramme

• bei Übereinstimmung >> übernommen

• sonst >> manuelle Zuweisung

Page 11: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

CATH• homologe Superfamilien:

• > 35% Sequenzidentität

• > 20% Sequenzidentität und SSAP > 80

• SSAP > 70 und kolokalisiertes, ähnliches aktives Zentrum

• Topology:

• SSAP >70 (kein Hinweis auf ähnliche Funktion)

• Architecture:

• Sekundärstrukturanordnung (z.B. barrel), manuell

• Class:

• fast wie bei SCOP (automatisch)

CATHCATHCATHCATH

Page 12: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

CATH - schnellere Zuordnung• strukturelle Templates:

• multiple strukturelle Alignments erzeugt (SSAP und CORA)

• konservierte Reste als Profile identifiziert

• spiegelt Core und aktives Zentrum wieder >> sensitiv

• für Folds und Superfamilies zur schnellen Zuordnung

• Consensus-Contact-Maps

• im multiplen Alignment (s.o.) werden konservierte AS-Wechselwirkungen identifiziert >> in Matrix (Map)

• Vergleich der Maps verschiedener Proteine >> Homologe??

Page 13: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Contact-map

konservierter Kontakt

msa

Page 14: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

CATH - schnelle Zuordnung• PSI-Blast:

• Blast, der im Verlauf der Suche Profile aus den multiplen Alignments der Hits generiert und mit diesen weiter sucht

• ermöglicht entferntere Homologe zu finden

• bei Sequenzidentität <35% angewendet:

• falls Treffer in einer Superfamilie liegen

• und SSAP>70 wird Protein in diese Familie aufgenommen

Page 15: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

CATH-Übersicht

Page 16: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

CATH Dictionary of Homologous Superfamilies(DHS)

• Datenbank mit validierten multiplen Alignments für viele CATH-Superfamilien

• versehen mit zusätzlichen Informationen (Sekundärstruktur, Pattern, aktive Zentren)

• Ermöglicht Visualisierung und Untersuchung der strukturellen und funktionellen Eigenschaften der Superfamilien

Page 17: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Erstellung von DHS

Page 18: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Ein Beispiel

Page 19: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

FSSP und DaliDD

• FSSP (fold classification based on structure-structurealignments of proteins) und Dali Domain Dictionary

• Klassifizierungsdatenbank ohne hierarchischen Aufbau

• führt „Alle-gegen-Alle“ Strukturvergleich der PDB-Proteine durch

• Vorgehen• Auswahl der repräsentativen Proteinketten aus PDB (<25 % Sequenzidentität)

• für DaliDD >> Zerlegung in Domänen(FSSP speichert komplette Proteinketten)

Page 20: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

FSSP/Dali - Vorgehen• „Alle-gegen-Alle“ Strukturvergleich mit dem Programm Dali

• Clustering nach Ähnlichkeitsscore von Dali und Darstellung als Baumstruktur:

Page 21: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

FSSP/Dali-Vorgehen• Definition der Faltungsklassen durch „Abschneiden“ des Baumes

Page 22: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Vergleich FSSP gegen Restbesser

Fold

Homology

Z=4.0 Z=6.0 Z=8.0 besser

Page 23: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

PROSITE• Datenbank biologisch signifikanter Profile und Pattern

• so gestaltet, daß schnelle Zuordnung von Protein zu Familie und von Domänen mit diesen Mustern vorgenommen werden kann

• Pattern ist Aminosäurenmuster, welches z.B. aktives Zentrum charakterisiert (z.B. LKSXXS)

• Profile bestehen aus Matrix, die Austauschscores und Gapkosten für Aminosäuren enthält >> Erkennung von Strukturen mit geringerer Sequenzhomologie (z.B. SH2-Domäne)

• Dokumentation zu den Mustern vorhanden

• Zugriff über Internet oder spezielle Programme (ASCII-Datei)

Page 24: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Pfam(Protein Family Database)

• große Sammlung von multiplen Alignments und HMM von Proteinfamilien

• Sequenzen sind in über 3000 Proteinfamilien unterteilt

• jeweils repräsentiert durch

• Seed-Alignment: von manuell gewählten, repräsentativen Mitgliedern der Familie

• Full-Alignment: über aus Seed-Alignment generierte HMMsgefunden

Page 25: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Pfam• mit zusätzlichen Informationen versehen (z.B. Literaturreferenzen, aktive Zentren, Funktionen)

• versucht die Pfam-Familiengrenzen mit Strukturen in Übereinstimmung zu bringen (aus SCOP entnommen)

• Protein-Protein-Interaktionsdaten aufgenommen:

• Proteinkomplexe in PDB ausgewertet

• Komponenten der Komplexe über Blast mit Pfam-Sequenzen verbunden

Page 26: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Komplex aus Thrombin und pankreatischer Trypsin Inhibitor

Page 27: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Pfam - Analysemöglichkeiten

• multiple Alignments mit zusätzlichen Informationen

•Darstellung der Domänenstruktur

• Suche nach Proteinen, die eine bestimmte Domänenstruktur aufweisen

Page 28: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Zusammenfassung• große Anzahl an Datenbanken für biologische Informationen

• redundant und komplementär >> bewußt machen, welche Informationen gespeichert sind

• frei im Internet zugänglich

• maximale Integration angestrebt

• Menge an Informationen macht automatisierte Verfahren zur Klassifizierung und Annotation erforderlich

• Zuverlässigkeit der gespeicherten Daten sollte bedacht werden („putative“)

Page 29: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

WebName Inhalt AdresseProtein Data Bank (PDB) Atomkoordinaten der

Strukturen, Modelle, Viewerwww.rcsb.org/pdb

Swiss Institute ofBioinformatics

Swiss-Prot und vieleAnalysetools

www.expasy.ch

Strucural Classification ofProteins (SCOP)

SCOP-DB der strukturellenBeziehungen der bekanntenProteinstrukturen, klassifiziertnach "superfamily", "family"und "fold"

scop.mrc-lmp.cam.ac.uk/scop

CATH-DB Hierarchische Domänen-Klassifikation nach "Class","architecture", "fold family"und "superfamily"

www.biochem.ucl.ac.uk/bsm

FSSP/DALI Proteinklassifizierung überStrukturvergleiche

www.embl-ebi.ac.uk/dali

PROSITE Pattern und Motive www.expasy.ch/prositePfam Multiple Proteinalignments

und HMM-Profilewww.sanger.ac.uk/Software/Pfam

Page 30: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Literatur zu SwissProtA. Bairoch and R. Appweiler.The swiss-prot protein sequence database and ist supplement trembl in 2000.Nucleic Acids Res, 28(1):45-8, 2000.

V. L. Junker, R. Apweiler, and A. Bairoch.Representation of functional information in the swiss-protdata bankBioinformatics, 15(12):1066-7, 1999.

E. Kretschmann, W. Fleischmann, and R. Apweiler.Automatic rule generation for protein annotation with thec4.5 data mining algorithm aplied on swiss-prot.Bioinformatics, 17(10):920-6, 2001.

Page 31: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Literatur zu SCOP, CATH, FSSPF. M. Pearl, D. Lee, J. E. Bray, I. Sillitoe, A. E. Todd, A. P. Harrison, J. M. Thornton, and C. A. Orengo.Assigning genomic sequences to cath.Nucleic Acids Res, 28(1):277-82, 2000.

J. E. Bray, A. E. Todd, F. M. Pearl, J. M. Thornton, and C. A. Orengo.The cath dictionary of homologous superfamilies (dhs): a consensus approach for identifyingdistant structural homologues.Protein Eng, 13(3):153-65, 2000.

L. Holm and C. Sander.The fssp database: fold classification based on structure-stucture alignments of proteins.Nucleic Acids Res, 9(11):1093-105, 1999.

L. Holm and C. Sander.Touring protein fold space with dali/fssp.Nucleic Acids Res, 26(1):316-9, 1998.

C. Hadley and D.T. Jones.A systematic comparison of protein structure classifications: Scop, Cath and FSSP.Structure Fold Des, 7(9):1099-112, 1999.

Page 32: Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Literatur Prosite und Pfam

L. Falquet, M. Pagni, P. Bucher, N. Hulo, C.J. Sigrist, K. Hoffmann, and A. Bairoch.The prosite database, ist status 2002.Nucleic Acids Res, 30(1):235-8, 2002.

A. Bateman, E. Birney, L. Cerruti, R. Durbin, L. Etwiller, S. R. Eddy, S. Griffith-Jones, K. L. Howe, M. Marshall, and E. L. Sonnhammer.The pfam protein families database.Nucleic Acids Res, 30(1):276-80, 2002.