Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,

Die wichtigsten Bioinformatikdatenbanken

SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Übersicht

• Nucleotidsequenzen: GenBank, EMBL• Proteindatenbank SwissProt• Proteinstrukturen: Brookhavens PDB• Proteinklassifizierung: Scop, CATH, FSSP• Pattern, Profile: PROSITE und Pfam

SwissProt• „annotierte“ Proteinsequenz-Datenbank

• www.expasy.ch

• Einträge besitzten verschiedene Linientypen, z.B:

• viele zusätzliche Informationen: Funktion, posttranslationaleModifikationen, aktive Zentren, ...

Kommentar CC -!- FUNCTION: THIS ENZYME HAS BOTH RNASE ANDDNASE ACTIVITY

Eigenschaft FT ACT_SITE 142 142Keyword KW FAD, NADHBeschreibung DE AMINO-ACID PERMEASE

SwissProt• Informationen manuell aus Erstbeschreibungspublikationen, regelmäßig aus Reviews und unter Beteiligung externer Experten

• hoher Grad der Integration mit anderen Datenbanken:

• Database Reference Zeile (DR) verweist auf andere DB

• unterschiedliche Qualität der Informationen durch Markierung der Zeilen (putative, probable, by similarity):

DE PROBABLE 5'-NUCEOTIDASE PRECURSOR

DE PUTATIVE AMINO-ACID PERMEASE

• „cut-off-point“ vom Annotator bestimmt

TrEMBL• manueller Annotierungsprozeß von Menge der neuen Sequenzen überfordert

• Qualität der SwissProt Annotierungen soll bestehen bleiben

• TrEMBL als Ergänzung zu SwissProt:

• computer-annotierte Einträge

• Einträge sind Translationen der CDS von EMBL

• Regelsysteme zur automatischen Annotierung verwendet

C4.5-Data-Mining-AlgorithmusC4.5-Algorithmus

Die Proteinordnung• enorme Menge macht Klassifizierung sinnvoll

• über Sequenz- und/oder Strukturähnlichkeit

• Domänen werden getrennt klassifiziert

• zu beachten:

• große Sequenzähnlichkeit heißt auch gleicher Fold

• ohne große Sequenzähnlichkeit kann auch ähnliche 3D-Struktur vorliegen

• Domänen mit ähnlicher 3D-Struktur haben häufig ähnliche Funktion

Klassifizierungs-DB

• SCOP: manuell

• CATH: halbautomatisch

• FSSP: automatisch

SCOP (structural classification of proteins)

• manuelle hierarchische Einteilung:

• Class: alpha, beta, alpha+beta, alpha/beta, multidomain

• Fold: Anordnung der Sekundärstrukturen und Loops

• Superfamily: gemeinsame strukturelle/funktionelle Eigenschaften

• Family: ähnliche biochemische Funktionen, >50% Sequenzidentität

CATH(classification by class, architecture, topology and homolgy):

• halbautomatische hierarchische Einteilung entsprechend der Bezeichnung

• Vorgehen bei Einteilung:• Aufteilung in Domänen:

• bei Sequenzhomologie >> Übernahme der Grenzen

• sonst 3 Vorhersageprogramme

• bei Übereinstimmung >> übernommen

• sonst >> manuelle Zuweisung

CATH• homologe Superfamilien:

• > 35% Sequenzidentität

• > 20% Sequenzidentität und SSAP > 80

• SSAP > 70 und kolokalisiertes, ähnliches aktives Zentrum

• Topology:

• SSAP >70 (kein Hinweis auf ähnliche Funktion)

• Architecture:

• Sekundärstrukturanordnung (z.B. barrel), manuell

• Class:

• fast wie bei SCOP (automatisch)

CATHCATHCATHCATH

CATH - schnellere Zuordnung• strukturelle Templates:

• multiple strukturelle Alignments erzeugt (SSAP und CORA)

• konservierte Reste als Profile identifiziert

• spiegelt Core und aktives Zentrum wieder >> sensitiv

• für Folds und Superfamilies zur schnellen Zuordnung

• Consensus-Contact-Maps

• im multiplen Alignment (s.o.) werden konservierte AS-Wechselwirkungen identifiziert >> in Matrix (Map)

• Vergleich der Maps verschiedener Proteine >> Homologe??

Contact-map

konservierter Kontakt

msa

CATH - schnelle Zuordnung• PSI-Blast:

• Blast, der im Verlauf der Suche Profile aus den multiplen Alignments der Hits generiert und mit diesen weiter sucht

• ermöglicht entferntere Homologe zu finden

• bei Sequenzidentität <35% angewendet:

• falls Treffer in einer Superfamilie liegen

• und SSAP>70 wird Protein in diese Familie aufgenommen

CATH-Übersicht

CATH Dictionary of Homologous Superfamilies(DHS)

• Datenbank mit validierten multiplen Alignments für viele CATH-Superfamilien

• versehen mit zusätzlichen Informationen (Sekundärstruktur, Pattern, aktive Zentren)

• Ermöglicht Visualisierung und Untersuchung der strukturellen und funktionellen Eigenschaften der Superfamilien

Erstellung von DHS

Ein Beispiel

FSSP und DaliDD

• FSSP (fold classification based on structure-structurealignments of proteins) und Dali Domain Dictionary

• Klassifizierungsdatenbank ohne hierarchischen Aufbau

• führt „Alle-gegen-Alle“ Strukturvergleich der PDB-Proteine durch

• Vorgehen• Auswahl der repräsentativen Proteinketten aus PDB (<25 % Sequenzidentität)

• für DaliDD >> Zerlegung in Domänen(FSSP speichert komplette Proteinketten)

FSSP/Dali - Vorgehen• „Alle-gegen-Alle“ Strukturvergleich mit dem Programm Dali

• Clustering nach Ähnlichkeitsscore von Dali und Darstellung als Baumstruktur:

FSSP/Dali-Vorgehen• Definition der Faltungsklassen durch „Abschneiden“ des Baumes

Vergleich FSSP gegen Restbesser

Fold

Homology

Z=4.0 Z=6.0 Z=8.0 besser

PROSITE• Datenbank biologisch signifikanter Profile und Pattern

• so gestaltet, daß schnelle Zuordnung von Protein zu Familie und von Domänen mit diesen Mustern vorgenommen werden kann

• Pattern ist Aminosäurenmuster, welches z.B. aktives Zentrum charakterisiert (z.B. LKSXXS)

• Profile bestehen aus Matrix, die Austauschscores und Gapkosten für Aminosäuren enthält >> Erkennung von Strukturen mit geringerer Sequenzhomologie (z.B. SH2-Domäne)

• Dokumentation zu den Mustern vorhanden

• Zugriff über Internet oder spezielle Programme (ASCII-Datei)

Pfam(Protein Family Database)

• große Sammlung von multiplen Alignments und HMM von Proteinfamilien

• Sequenzen sind in über 3000 Proteinfamilien unterteilt

• jeweils repräsentiert durch

• Seed-Alignment: von manuell gewählten, repräsentativen Mitgliedern der Familie

• Full-Alignment: über aus Seed-Alignment generierte HMMsgefunden

Pfam• mit zusätzlichen Informationen versehen (z.B. Literaturreferenzen, aktive Zentren, Funktionen)

• versucht die Pfam-Familiengrenzen mit Strukturen in Übereinstimmung zu bringen (aus SCOP entnommen)

• Protein-Protein-Interaktionsdaten aufgenommen:

• Proteinkomplexe in PDB ausgewertet

• Komponenten der Komplexe über Blast mit Pfam-Sequenzen verbunden

Komplex aus Thrombin und pankreatischer Trypsin Inhibitor

Pfam - Analysemöglichkeiten

• multiple Alignments mit zusätzlichen Informationen

•Darstellung der Domänenstruktur

• Suche nach Proteinen, die eine bestimmte Domänenstruktur aufweisen

Zusammenfassung• große Anzahl an Datenbanken für biologische Informationen

• redundant und komplementär >> bewußt machen, welche Informationen gespeichert sind

• frei im Internet zugänglich

• maximale Integration angestrebt

• Menge an Informationen macht automatisierte Verfahren zur Klassifizierung und Annotation erforderlich

• Zuverlässigkeit der gespeicherten Daten sollte bedacht werden („putative“)

WebName Inhalt AdresseProtein Data Bank (PDB) Atomkoordinaten der

Strukturen, Modelle, Viewerwww.rcsb.org/pdb

Swiss Institute ofBioinformatics

Swiss-Prot und vieleAnalysetools

www.expasy.ch

Strucural Classification ofProteins (SCOP)

SCOP-DB der strukturellenBeziehungen der bekanntenProteinstrukturen, klassifiziertnach "superfamily", "family"und "fold"

scop.mrc-lmp.cam.ac.uk/scop

CATH-DB Hierarchische Domänen-Klassifikation nach "Class","architecture", "fold family"und "superfamily"

www.biochem.ucl.ac.uk/bsm

FSSP/DALI Proteinklassifizierung überStrukturvergleiche

www.embl-ebi.ac.uk/dali

PROSITE Pattern und Motive www.expasy.ch/prositePfam Multiple Proteinalignments

und HMM-Profilewww.sanger.ac.uk/Software/Pfam

Literatur zu SwissProtA. Bairoch and R. Appweiler.The swiss-prot protein sequence database and ist supplement trembl in 2000.Nucleic Acids Res, 28(1):45-8, 2000.

V. L. Junker, R. Apweiler, and A. Bairoch.Representation of functional information in the swiss-protdata bankBioinformatics, 15(12):1066-7, 1999.

E. Kretschmann, W. Fleischmann, and R. Apweiler.Automatic rule generation for protein annotation with thec4.5 data mining algorithm aplied on swiss-prot.Bioinformatics, 17(10):920-6, 2001.

Literatur zu SCOP, CATH, FSSPF. M. Pearl, D. Lee, J. E. Bray, I. Sillitoe, A. E. Todd, A. P. Harrison, J. M. Thornton, and C. A. Orengo.Assigning genomic sequences to cath.Nucleic Acids Res, 28(1):277-82, 2000.

J. E. Bray, A. E. Todd, F. M. Pearl, J. M. Thornton, and C. A. Orengo.The cath dictionary of homologous superfamilies (dhs): a consensus approach for identifyingdistant structural homologues.Protein Eng, 13(3):153-65, 2000.

L. Holm and C. Sander.The fssp database: fold classification based on structure-stucture alignments of proteins.Nucleic Acids Res, 9(11):1093-105, 1999.

L. Holm and C. Sander.Touring protein fold space with dali/fssp.Nucleic Acids Res, 26(1):316-9, 1998.

C. Hadley and D.T. Jones.A systematic comparison of protein structure classifications: Scop, Cath and FSSP.Structure Fold Des, 7(9):1099-112, 1999.

Literatur Prosite und Pfam

L. Falquet, M. Pagni, P. Bucher, N. Hulo, C.J. Sigrist, K. Hoffmann, and A. Bairoch.The prosite database, ist status 2002.Nucleic Acids Res, 30(1):235-8, 2002.

A. Bateman, E. Birney, L. Cerruti, R. Durbin, L. Etwiller, S. R. Eddy, S. Griffith-Jones, K. L. Howe, M. Marshall, and E. L. Sonnhammer.The pfam protein families database.Nucleic Acids Res, 30(1):276-80, 2002.

Documents

Die wichtigsten Bioinformatikdatenbanken - TUM · 2002. 11. 20. · The fssp database: fold classification based on structure-stucture alignments of proteins. Nucleic Acids Res, 9(11):1093-105,