Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Die wichtigsten Bioinformatikdatenbanken
SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam
Übersicht
• Nucleotidsequenzen: GenBank, EMBL• Proteindatenbank SwissProt• Proteinstrukturen: Brookhavens PDB• Proteinklassifizierung: Scop, CATH, FSSP• Pattern, Profile: PROSITE und Pfam
SwissProt• „annotierte“ Proteinsequenz-Datenbank
• www.expasy.ch
• Einträge besitzten verschiedene Linientypen, z.B:
• viele zusätzliche Informationen: Funktion, posttranslationaleModifikationen, aktive Zentren, ...
Kommentar CC -!- FUNCTION: THIS ENZYME HAS BOTH RNASE ANDDNASE ACTIVITY
Eigenschaft FT ACT_SITE 142 142Keyword KW FAD, NADHBeschreibung DE AMINO-ACID PERMEASE
SwissProt• Informationen manuell aus Erstbeschreibungspublikationen, regelmäßig aus Reviews und unter Beteiligung externer Experten
• hoher Grad der Integration mit anderen Datenbanken:
• Database Reference Zeile (DR) verweist auf andere DB
• unterschiedliche Qualität der Informationen durch Markierung der Zeilen (putative, probable, by similarity):
DE PROBABLE 5'-NUCEOTIDASE PRECURSOR
DE PUTATIVE AMINO-ACID PERMEASE
• „cut-off-point“ vom Annotator bestimmt
TrEMBL• manueller Annotierungsprozeß von Menge der neuen Sequenzen überfordert
• Qualität der SwissProt Annotierungen soll bestehen bleiben
• TrEMBL als Ergänzung zu SwissProt:
• computer-annotierte Einträge
• Einträge sind Translationen der CDS von EMBL
• Regelsysteme zur automatischen Annotierung verwendet
C4.5-Data-Mining-AlgorithmusC4.5-Algorithmus
Die Proteinordnung• enorme Menge macht Klassifizierung sinnvoll
• über Sequenz- und/oder Strukturähnlichkeit
• Domänen werden getrennt klassifiziert
• zu beachten:
• große Sequenzähnlichkeit heißt auch gleicher Fold
• ohne große Sequenzähnlichkeit kann auch ähnliche 3D-Struktur vorliegen
• Domänen mit ähnlicher 3D-Struktur haben häufig ähnliche Funktion
Klassifizierungs-DB
• SCOP: manuell
• CATH: halbautomatisch
• FSSP: automatisch
SCOP (structural classification of proteins)
• manuelle hierarchische Einteilung:
• Class: alpha, beta, alpha+beta, alpha/beta, multidomain
• Fold: Anordnung der Sekundärstrukturen und Loops
• Superfamily: gemeinsame strukturelle/funktionelle Eigenschaften
• Family: ähnliche biochemische Funktionen, >50% Sequenzidentität
CATH(classification by class, architecture, topology and homolgy):
• halbautomatische hierarchische Einteilung entsprechend der Bezeichnung
• Vorgehen bei Einteilung:• Aufteilung in Domänen:
• bei Sequenzhomologie >> Übernahme der Grenzen
• sonst 3 Vorhersageprogramme
• bei Übereinstimmung >> übernommen
• sonst >> manuelle Zuweisung
CATH• homologe Superfamilien:
• > 35% Sequenzidentität
• > 20% Sequenzidentität und SSAP > 80
• SSAP > 70 und kolokalisiertes, ähnliches aktives Zentrum
• Topology:
• SSAP >70 (kein Hinweis auf ähnliche Funktion)
• Architecture:
• Sekundärstrukturanordnung (z.B. barrel), manuell
• Class:
• fast wie bei SCOP (automatisch)
CATHCATHCATHCATH
CATH - schnellere Zuordnung• strukturelle Templates:
• multiple strukturelle Alignments erzeugt (SSAP und CORA)
• konservierte Reste als Profile identifiziert
• spiegelt Core und aktives Zentrum wieder >> sensitiv
• für Folds und Superfamilies zur schnellen Zuordnung
• Consensus-Contact-Maps
• im multiplen Alignment (s.o.) werden konservierte AS-Wechselwirkungen identifiziert >> in Matrix (Map)
• Vergleich der Maps verschiedener Proteine >> Homologe??
Contact-map
konservierter Kontakt
msa
CATH - schnelle Zuordnung• PSI-Blast:
• Blast, der im Verlauf der Suche Profile aus den multiplen Alignments der Hits generiert und mit diesen weiter sucht
• ermöglicht entferntere Homologe zu finden
• bei Sequenzidentität <35% angewendet:
• falls Treffer in einer Superfamilie liegen
• und SSAP>70 wird Protein in diese Familie aufgenommen
CATH-Übersicht
CATH Dictionary of Homologous Superfamilies(DHS)
• Datenbank mit validierten multiplen Alignments für viele CATH-Superfamilien
• versehen mit zusätzlichen Informationen (Sekundärstruktur, Pattern, aktive Zentren)
• Ermöglicht Visualisierung und Untersuchung der strukturellen und funktionellen Eigenschaften der Superfamilien
Erstellung von DHS
Ein Beispiel
FSSP und DaliDD
• FSSP (fold classification based on structure-structurealignments of proteins) und Dali Domain Dictionary
• Klassifizierungsdatenbank ohne hierarchischen Aufbau
• führt „Alle-gegen-Alle“ Strukturvergleich der PDB-Proteine durch
• Vorgehen• Auswahl der repräsentativen Proteinketten aus PDB (<25 % Sequenzidentität)
• für DaliDD >> Zerlegung in Domänen(FSSP speichert komplette Proteinketten)
FSSP/Dali - Vorgehen• „Alle-gegen-Alle“ Strukturvergleich mit dem Programm Dali
• Clustering nach Ähnlichkeitsscore von Dali und Darstellung als Baumstruktur:
FSSP/Dali-Vorgehen• Definition der Faltungsklassen durch „Abschneiden“ des Baumes
Vergleich FSSP gegen Restbesser
Fold
Homology
Z=4.0 Z=6.0 Z=8.0 besser
PROSITE• Datenbank biologisch signifikanter Profile und Pattern
• so gestaltet, daß schnelle Zuordnung von Protein zu Familie und von Domänen mit diesen Mustern vorgenommen werden kann
• Pattern ist Aminosäurenmuster, welches z.B. aktives Zentrum charakterisiert (z.B. LKSXXS)
• Profile bestehen aus Matrix, die Austauschscores und Gapkosten für Aminosäuren enthält >> Erkennung von Strukturen mit geringerer Sequenzhomologie (z.B. SH2-Domäne)
• Dokumentation zu den Mustern vorhanden
• Zugriff über Internet oder spezielle Programme (ASCII-Datei)
Pfam(Protein Family Database)
• große Sammlung von multiplen Alignments und HMM von Proteinfamilien
• Sequenzen sind in über 3000 Proteinfamilien unterteilt
• jeweils repräsentiert durch
• Seed-Alignment: von manuell gewählten, repräsentativen Mitgliedern der Familie
• Full-Alignment: über aus Seed-Alignment generierte HMMsgefunden
Pfam• mit zusätzlichen Informationen versehen (z.B. Literaturreferenzen, aktive Zentren, Funktionen)
• versucht die Pfam-Familiengrenzen mit Strukturen in Übereinstimmung zu bringen (aus SCOP entnommen)
• Protein-Protein-Interaktionsdaten aufgenommen:
• Proteinkomplexe in PDB ausgewertet
• Komponenten der Komplexe über Blast mit Pfam-Sequenzen verbunden
Komplex aus Thrombin und pankreatischer Trypsin Inhibitor
Pfam - Analysemöglichkeiten
• multiple Alignments mit zusätzlichen Informationen
•Darstellung der Domänenstruktur
• Suche nach Proteinen, die eine bestimmte Domänenstruktur aufweisen
Zusammenfassung• große Anzahl an Datenbanken für biologische Informationen
• redundant und komplementär >> bewußt machen, welche Informationen gespeichert sind
• frei im Internet zugänglich
• maximale Integration angestrebt
• Menge an Informationen macht automatisierte Verfahren zur Klassifizierung und Annotation erforderlich
• Zuverlässigkeit der gespeicherten Daten sollte bedacht werden („putative“)
WebName Inhalt AdresseProtein Data Bank (PDB) Atomkoordinaten der
Strukturen, Modelle, Viewerwww.rcsb.org/pdb
Swiss Institute ofBioinformatics
Swiss-Prot und vieleAnalysetools
www.expasy.ch
Strucural Classification ofProteins (SCOP)
SCOP-DB der strukturellenBeziehungen der bekanntenProteinstrukturen, klassifiziertnach "superfamily", "family"und "fold"
scop.mrc-lmp.cam.ac.uk/scop
CATH-DB Hierarchische Domänen-Klassifikation nach "Class","architecture", "fold family"und "superfamily"
www.biochem.ucl.ac.uk/bsm
FSSP/DALI Proteinklassifizierung überStrukturvergleiche
www.embl-ebi.ac.uk/dali
PROSITE Pattern und Motive www.expasy.ch/prositePfam Multiple Proteinalignments
und HMM-Profilewww.sanger.ac.uk/Software/Pfam
Literatur zu SwissProtA. Bairoch and R. Appweiler.The swiss-prot protein sequence database and ist supplement trembl in 2000.Nucleic Acids Res, 28(1):45-8, 2000.
V. L. Junker, R. Apweiler, and A. Bairoch.Representation of functional information in the swiss-protdata bankBioinformatics, 15(12):1066-7, 1999.
E. Kretschmann, W. Fleischmann, and R. Apweiler.Automatic rule generation for protein annotation with thec4.5 data mining algorithm aplied on swiss-prot.Bioinformatics, 17(10):920-6, 2001.
Literatur zu SCOP, CATH, FSSPF. M. Pearl, D. Lee, J. E. Bray, I. Sillitoe, A. E. Todd, A. P. Harrison, J. M. Thornton, and C. A. Orengo.Assigning genomic sequences to cath.Nucleic Acids Res, 28(1):277-82, 2000.
J. E. Bray, A. E. Todd, F. M. Pearl, J. M. Thornton, and C. A. Orengo.The cath dictionary of homologous superfamilies (dhs): a consensus approach for identifyingdistant structural homologues.Protein Eng, 13(3):153-65, 2000.
L. Holm and C. Sander.The fssp database: fold classification based on structure-stucture alignments of proteins.Nucleic Acids Res, 9(11):1093-105, 1999.
L. Holm and C. Sander.Touring protein fold space with dali/fssp.Nucleic Acids Res, 26(1):316-9, 1998.
C. Hadley and D.T. Jones.A systematic comparison of protein structure classifications: Scop, Cath and FSSP.Structure Fold Des, 7(9):1099-112, 1999.
Literatur Prosite und Pfam
L. Falquet, M. Pagni, P. Bucher, N. Hulo, C.J. Sigrist, K. Hoffmann, and A. Bairoch.The prosite database, ist status 2002.Nucleic Acids Res, 30(1):235-8, 2002.
A. Bateman, E. Birney, L. Cerruti, R. Durbin, L. Etwiller, S. R. Eddy, S. Griffith-Jones, K. L. Howe, M. Marshall, and E. L. Sonnhammer.The pfam protein families database.Nucleic Acids Res, 30(1):276-80, 2002.