PhD Schneider R 1991

I N A U G U R A L - D I S S E R T A T I O N

zur

Erlangung der Doktorwürde

der

Naturwissenschaftlich-Mathematischen Gesamtfakultät

der

Ruprecht - Karls - Universität

Heidelberg

vorgelegt von

Diplom-Biologe Reinhard Schneider

aus Kehl am Rhein

Tag der mündlichen Prüfung:

Sequenz und Sequenz-Struktur Vergleiche und derenAnwendung für die Struktur- und Funktionsvorhersage

von Proteinen

Gutachter: Prof. Dr. Kenneth C. Holmes

Priv. Doz. Dr. Christian Sander

Zusammenfassung der Inaugural-Dissertation

Name: Reinhard SchneiderTitel: Sequenz und Sequenz-Struktur Vergleiche und deren Anwendung für die Struktur- und

Funktionsvorhersage von ProteinenBetreuer: Prof. Dr. K. C. Holmes (MPI für medizinische Forschung, Heidelberg)

Durch die sogenannten Genomprojekte wird es in den nächsten Jahren zu einer enormen Vergrößerung derbiologischen Sequenzdatenbanken kommen. Eine unabdingbare Voraussetzung zur Nutzung dieses Rohmaterialsstellt dabei die Analyse dieser Sequenzdaten mit Hilfe rechnergestützter Methoden dar. Eines derHauptanwendungsgebiete von Rechnern für die Funktions- und Strukturvorhersage von Proteinen werden dabeiselektive Datenbanksuche nach biologisch signifikanten Ähnlichkeiten sein.Zur Signifikanzabschätzung eines Proteinsequenzvergleiches (Alignment) wurde ein empirisch abgeleiteterHomologieschwellenwert definiert. Wichtigstes Merkmal ist dabei eine starke Abhängigkeit von der Länge desbetreffenden Alignments. Diese Signifikanzabschätzung ermöglicht sowohl den Ausschluß von nicht verwandtenProteinen, wie auch die Detektion von schwachen Sequenzverwandtschaften. Aufgrund der Allgemeingültigkeitdes Homologieschwellenwertes kann er als einfacher und effizienter zusätzlicher Filter für andere Methoden, wiez.B. schnelle Datenbanksuchen, verwendet werden.Es wurde ein neuer Algorithmus für den multiplen Sequenzvergleich entwickelt, der eine relativ geringerechnerische Komplexität besitzt. Das Hauptmerkmal dieses Algorithmus besteht in der Ableitung vonsogenannten positionsabhängigen Konservierungsgewichten, die als zusätzliche Parameter im dynamischenProgrammieralgorithmus verwendet werden und zu einer deutlich gesteigerten Sensitivität bei Datenbanksuchenführt. Die programmiertechnische Auslegung des Algorithmus erlaubt die zukünftige Erweiterung auf denVergleich einer Sequenz gegen ein Sequenzprofil bzw. den Vergleich zweier Sequenzprofile.Um auch zukünftig sensitive Datenbanksuchen in einer vertretbaren Rechenzeit durchführen zu können,, wurdedas Programm auf parallele Rechner portiert. Die Ergebnisse zeigen, daß mit den heute verfügbaren massivparallelen Rechnern ein beinahe interaktives Arbeiten möglich ist. Aufbauend auf dieser Arbeit wird derzeit imRahmen eines europäischen Projektes die Implementierung der Profilmethoden auf Parallelrechner der neuestenGeneration durchgeführt und der Nutzen für das industrielle "Protein design" bestimmt.Mit Hilfe des Homologieschwellenwertes konnte eine Datenbank für homologie-abgeleitete Proteinstrukturen(HSSP) entwickelt werden. Diese Datenbank wird der Öffentlichkeit auf verschiedenen Wegen zugänglichgemacht und hat sich als ein gewisser Standard etabliert. Die Datenbank findet dabei Verwendung imautomatisierten dreidimensionalen Modellbau von Proteinstrukturen, sowie als Hilfsmittel und Datengrundlagefür ein weitgestecktes Feld von statistischen und anderen theoretischen Arbeiten. Die Verwendung derDatenbank hat einen entscheidenden Beitrag bei der Entwicklung des derzeit besten Programms zur Vorhersageder Sekundärstruktur von Proteinen geleistet. Diese Vorhersagemethode basiert auf einem neuronalen Netzwerk,das die Informationen eines multiplen Sequenzvergleichs ausnutzt. Zur Berechnung der multiplenSequenzalignments und der dazu notwendigen Datenbanksuche wird das in dieser Arbeit entwickelte Programmverwendet. Die Methode wurde in Form eines Vorhersagedienstes, der über internationale Datenleitungenverfügbar ist, der Öffentlichkeit zugänglich gemacht.Einen neuen Ansatz für die Vorhersage von Proteinstruktur bei fehlender Sequenzverwandtschaft zu einer bereitsbekannten Struktur stellt die Methode für das Sequenz-Strukturalignment ("threading") dar. Dazu wird einedreidimensionale Struktur in Form von interatomaren Kontakten beschrieben und mit Hilfe vonPräferenzparametern die Tauglichkeit einer Sequenz in eine Struktur bewertet. Die Ergebnisse zeigen, daßsowohl eine Verbesserung der abstrahierten Beschreibung für eine dreidimensionale Proteinstruktur, wie auch einverbesserter Alignmentalgorithmus notwendig ist. Ein in der Praxis vielversprechender Ansatz ist dieVerwendung von Methoden, die einerseits eine abstrahierte 3D-Beschreibung zulassen und zusätzlich einengewissen Grad an Sequenzinformation, etwa in Form eines Sequenzprofils mit einbeziehen.Am Beispiel eines kompletten Chromosoms aus Hefe wurde eine komplexe funktionelle Genomanalysedurchgeführt. Hierbei konnten eine Reihe von biologisch interessanten Sequenzverwandtschaften aufgedecktwerden, waren jedoch mit einem hohen Arbeitsaufwand verbunden. Dabei stellte sich die ungenügendeIntegration der vorhanden Methoden und heterogenen Datenbanken als Hauptproblem heraus. Die dabeigesammelten Erfahrungen fließen derzeit in die Entwicklung eines integrierten Softwarepackets ein, mit dessenHilfe es möglich sein wird, den Arbeitsaufwand, der zur Analyse von großen Datenmengen notwendig ist,drastisch zu reduzieren.

Danksagung

Herrn Prof. K. Holmes und Herrn Prof. A. Lesk danke ich für die Übernahme derReferentenschaft im Rahmen des EMBL Doktoranten-Programms und für die Betreuung, dieich während dieser Zeit erfahren habe.

Mein besonderer Dank gebührt Herrn Dr. C. Sander für die freundschaftliche und kollegialeAufnahme in seiner Arbeitsgruppe, sowie für seine ständige Diskussionsbereitschaft. Ohneseine Unterstützung und die Möglichkeiten, die sich mir in seiner Arbeitsgruppe boten, wärediese Arbeit nicht möglich gewesen.

Christos Ouzounis, Michael Scharf danke ich für endlose Diskussionen über biologischeProbleme und die alltäglichen Mysterien im Umgang mit Computern.

Burkhard Rost für die freundschaftliche Zusammenarbeit und die arbeitsintensiven"Kaffeepausen", sowie für die Arbeitsteilung beim "baby-sitten" des PHD-Vorhersagedienstes.

Peer Bork, Georg Casari, Alfonso Valencia und Gerrit Vriend für die problemloseZusammenarbeit während dieser Jahre und für viele stimulierende Diskussionen. Ulrike Göbelfür die endlose Unterstützung bei der Suche, einen Weg durch den Dschungel derDateiformate zu finden.

Allen anderen Mitgliedern der Arbeitsgruppe danke ich für die konstruktive Kritik und diezahllosen Verbesserungsvorschläge.

Der Computergruppe am EMBL für die Aufrechterhaltung einer stabilen Arbeitsumgebungund der mannigfaltigen Hilfestellung.

Den Institutionen, Firmen und Personen, die mir den Zugang zu "wirklichen" Computernerlaubten, und mir somit die Möglichkeit gaben, mich auf der faszinierenden Spielwiese derparallelen Rechner zu bewegen.

Meinen Eltern für die liebevolle Unterstützung, die meinen Weg in die Wissenschaft erstmöglich machte.

Sabine für das Verständnis, die endlose Geduld und liebevolle Zuneigung, die ich während derAnfertigung dieser Arbeit erfahren habe.

Und nicht zuletzt Anna, die mich durch Vorlesen von Pinocchio-Büchern und die konstruktiveBeschäftigung mit Legobausteinen immer wieder in die "wahre" Welt zurückbrachte.

Inhaltsverzeichnis

Zusammenfassung I

Danksagung II

Publikationsliste III

1. Einführung ...................................................................................................................................................12. Material und Methoden..............................................................................................................................4

2.1. Hard- und Software ............................................................................................................................42.1.1. Hardware.................................................................................................................................42.1.2. Software..................................................................................................................................4

2.1.2.1. Auswertung und Visualisierung.............................................................................42.1.2.2. Datenbanksuchprogramme.....................................................................................42.1.2.3. Datenbanken ...........................................................................................................4

2.2. Algorithmen für Zeichenkettenvergleiche (Alignment) ...................................................................52.2.1. Protein- oder DNA-Sequenzvergleiche ? ..............................................................................52.2.2. Schnelle Suchverfahren..........................................................................................................52.2.3.Sequenzvergleich mit Hilfe der dynamischen Programmierung.............................................7

2.2.3.1. Austauschmatrizes ..................................................................................................72.2.3.2. Paarweiser Sequenzvergleich.................................................................................72.2.3.3. Multipler Sequenzvergleich ...................................................................................11

2.2.4. Sequenz-Struktur Alignment ("threading")...........................................................................113. Ergebnisse.....................................................................................................................................................13

3.1. Definition einer Signifikanzschwelle für Protein Sequenzvergleiche ............................................133.1.1. Definition des Problems.........................................................................................................133.1.2. Methode ..................................................................................................................................16

3.1.2.1. Kalibrierung der Struktursignifikanz in Abhängigkeit der Sequenzähnlichkeit ..163.1.2.2. Ähnlichkeitsmaße für Sequenz- und Strukturübereinstimmung...........................16

3.1.3. Ergebnis ..................................................................................................................................163.1.3.1. 3D-Streudiagramm .................................................................................................163.1.3.2. Definition des Homologieschwellenwerts.............................................................183.1.3.3. Detektion fehlerhafter Strukturen ..........................................................................253.1.3.4. Genauigkeit des Homologieschwellenwerts..........................................................263.1.3.5. Genauigkeit homologie-abgeleiteter Strukturen....................................................26

3.2. Anwendung der Signifikanzschwelle als Filter für Datenbanksuchen.............................................273.2.1. Problembeschreibung.............................................................................................................273.2.2. Methode ..................................................................................................................................273.2.3. Ergebnisse...............................................................................................................................27

3.2.3.1. Eliminierung falscher Treffer.................................................................................273.2.3.2. Detektion entfernter Verwandtschaften.................................................................29

3.3. Multipler Sequenzvergleich mit Hilfe von Konservierungsgewichten ............................................323.3.1. Erweiterung des dynamischen Programmieralgorithmus .....................................................323.3.2. Ergebnisse...............................................................................................................................38

3.3.2.1 Rechenaufwand.......................................................................................................383.3.2.2 Detektion entfernt verwandter Sequenzen.............................................................38

3.4. Einsatz von massiv parallelen Rechnern ...........................................................................................433.4.1. Wachstum der Datenbanken und Rechenzeitbedarf .............................................................433.4.2. Parallelrechner........................................................................................................................453.4.3. Leistung von Parallelrechnern ...............................................................................................483.4.4. Parallelisierung der Datenbanksuche.....................................................................................50

3.4.4.1. Aufteilen der Datenbank ........................................................................................503.4.4.2. Aufspaltung der Prozesse in Arbeitsgruppen ........................................................523.4.4.3. Initiation der Prozessoren und Verteilung der Arbeit ...........................................543.4.4.4. Einsammeln der Daten und Terminierung der Prozesse .......................................563.4.4.5. Portabilität durch generischen Unterprogramme für "message passing" .............56

3.4.5. Ergebnisse...............................................................................................................................573.4.5.1. Laufzeit und Geschwindigkeitszuwachs................................................................57

3.4.5.2. Effizienz..................................................................................................................573.4.5.3. Lastverteilung .........................................................................................................613.4.5.4. Übergang von Rechenzeit-gebundener zur Ein/Ausgabe-gebundener

Ausführungszeit......................................................................................................633.4.5.5. Möglichkeiten zur weiteren Leistungssteigerung..................................................64

3.4.6. Zusammenfassung ..................................................................................................................643.5. Datenbank für Proteinfamilien HSSP Datenbank .............................................................................65

3.5.1. Methode ..................................................................................................................................653.5.1.1. Schematischer Ablaufplan zur Erstellung einer HSSP-Datei ...............................653.5.1.2. Definition der positionsabhängigen Variabilität ...................................................65

3.5.1.2.1. Wichtungsfaktor für Sequenzpaare ....................................................663.5.1.2.2. Entropie der Variabilität .....................................................................67

3.5.2. Ergebnis ..................................................................................................................................673.5.2.1. Aufbau einer HSSP-Datei ......................................................................................673.5.2.2. Graphische Darstellung der positionsabhängigen Variabilität .............................733.5.2.3. Größe der HSSP-Datenbank ..................................................................................753.5.2.4. Quervernetzung mit anderen Datenbanken ...........................................................753.5.2.5. Automatischer Modellbau ......................................................................................763.5.2.6. Verfügbarkeit der HSSP-Datenbank......................................................................76

3.6. Präferenzparameter für Sekundärstruktur als Hilfsmittel zum Protein Design................................773.6.1. Definition und Beispiele für Sequenz-Struktur Präferenzparameter....................................78

3.7. Ein automatischer weltweiter Dienst für die Vorhersage von Sekundärstruktur vonProteinsequenzen................................................................................................................................823.7.1. Problembeschreibung.............................................................................................................823.7.2. Wie gut sind Methoden zur Vorhersage von Sekundärstruktur ?.........................................823.7.3. Die PHD-Methode..................................................................................................................843.7.4. Der PHD-Vorhersagedienst ...................................................................................................853.7.5. Erfahrungen mit dem PHD-Vorhersagedienst ......................................................................88

3.8. Sequenz-Struktur Alignment ("threading") .......................................................................................903.8.1. Generierung und Bewertung von hypothetischen Strukturen...............................................90

3.8.1.1. Bestimmung der freien Energie einer drei-dimensionalen Struktur ist dieschwierigste Bewertung. ........................................................................................90

3.8.1.2. Die eindimensionale Beschreibung der Sekundärstruktur und Präferenzen fürSekundärstruktur ist die einfachste Bewertung. ....................................................90

3.8.1.3. Beschreibung der Proteinstruktur in Form von Kontakten zwischen Resten.......903.8.1.4. Generierung von hypothetischen Strukturen mit Hilfe der Strukturdatenbank....913.8.1.5. Die zweidimensionale Bewertung mit Rest-Rest-Kontakten. ..............................913.8.1.6. Die eindimensionale Bewertung durch Kontakte eines Restes mit seiner

Umgebung...............................................................................................................913.8.2. Methode ..................................................................................................................................94

3.8.2.1. Kontaktvektoren eines Restes mit seiner Umgebung............................................943.8.2.2. Kontaktpräferenzen für Aminosäurereste mit deren Umgebung..........................973.8.2.3. Bewertung der Sequenz-Strukturtauglichkeit........................................................1013.8.2.4. Algorithmus für das Sequenz-Strukturalignment..................................................1033.8.2.5. Parameter für das Alignment .................................................................................1033.8.2.6. Kerngewichte..........................................................................................................1033.8.2.7. Nicht realistische Lückenparameter und fehlende "jack-knife" Tests..................1043.8.2.8. Entfernung der Sequenzinformation aus Kontaktprofilen ....................................104

3.8.3. Ergebnis ..................................................................................................................................1053.8.3.1. Schiebetest: Kann die korrekte Position einer Sequenz in ihrer eigenen

Struktur gefunden werden ? ...................................................................................1053.8.3.2. Selbstalignment.......................................................................................................1083.8.3.3. Eine Sequenz auf der Suche nach einer Struktur...................................................1103.8.3.4. Eine Sequenz auf der Suche nach strukturellen Faltungseinheiten ......................1123.8.3.5. Eine Struktur auf der Suche nach einer Sequenz...................................................1133.8.3.6. Verbesserung durch Kerngewichte ........................................................................113

3.8.4. Diskussion...............................................................................................................................1173.8.4.1. Strukturvorhersage durch Sequenz-Sequenzalignment.........................................1173.8.4.2. Meßmethoden für die Sequenz-Strukturtauglichkeit ............................................1173.8.4.3. Die verschiedenen Ansätze für das Sequenz-Strukturalignment..........................117

3.8.4.4. Alignmentqualität in der Grauzone........................................................................1183.8.4.5. Asymmetrie der Sequenz-Struktur- und Struktur-Sequenz-Datenbanksuche......1183.8.4.6. Mögliche Verbesserung der Parameter..................................................................1193.8.4.7. Zukünftige Verbesserungen ...................................................................................119

3.9. Funktionelle Genomanalyse am Beispiel des Hefechromosoms III.................................................1203.9.1. Methoden ................................................................................................................................120

3.9.1.1. Rohdaten .................................................................................................................1203.9.1.2. Datenbanksuchen und Verifizierung......................................................................1203.9.1.3. Zeitlicher Arbeits- und Rechenaufwand................................................................122

3.9.2. Ergebnisse...............................................................................................................................1233.9.2.1. Sequenzverwandtschaften in der "Grauzone" und deren Interpretation...............1263.9.2.2. Funktionelle und strukturelle Einteilung der Proteine des Hefechromosoms III 130

3.9.2.2.1. Strukturelle Klassen............................................................................1303.9.2.2.2. Funktionelle Klassen ..........................................................................130

3.9.3. Diskussion...............................................................................................................................1323.9.3.1. Derzeitige Methoden in der rechnergestützten Sequenzanalyse...........................132

3.9.3.1.1. Welche Methode ist die Beste ?.........................................................1323.9.3.1.2. Hauptschwierigkeiten.........................................................................132

3.9.3.2. Zukünftige Erfordernisse........................................................................................1333.9.3.3. Abschätzung der Anzahl unbekannter Proteine in Hefe .......................................133

3.9.3.3.1. Wahrscheinlichkeit für die richtige Vorhersage der Funktionund Struktur ........................................................................................133

3.9.3.3.2. Wie viele Proteintypen gibt es in Hefe ? ...........................................1333.9.3.4. Extrapolation auf das menschliche Genom ...........................................................1343.9.3.5. Informationslücke für die Proteinfunktion ............................................................134

4. Diskussion.....................................................................................................................................................1355. Abkürzungen und Begriffe.........................................................................................................................1386. Literaturliste ................................................................................................................................................139

1

1. Einführung

Genomische Sequenzen beinhalten die grundlegenden Instruktionen für biologische Systeme.In den nächsten Jahren (bis etwa zum Jahr 2010) wird ein großer Teil dieser Information ausverschiedenen Organismen (Hefe, Drosophila, Arabidopsis, Caenorhabditis elegans,Mycoplasma), einschließlich des Menschen, entschlüsselt werden. Diese sogenanntenGenomprojekte werden einen enormen Einfluß auf das Verstehen von biologischen Systemenhaben und weitreichende Einflüsse auf medizinische, landwirtschaftliche, chemische sowieUmwelt-Biotechnologie haben. Eine unabdingbare Voraussetzung zur Nutzung diesesRohmaterials stellt dabei die Analyse der Sequenzdaten dar. Hierbei sind auch heute schonComputer im großen Rahmen als Hilfsmittel im Einsatz, werden jedoch in den nächstenJahren eine weitaus größere Rolle spielen, da die Genomprojekte zu einer 1000-fachenVergrößerung der DNA- und Proteinsequenzdatenbanken führen werden. Dieser enormeZuwachs wird das schon heute bestehende Mißverhältnis zwischen Quantität derSequenzdaten und deren Interpretation noch verstärken.

Eine Hauptanwendung von Rechnern bei der Analyse dieser biologischen Daten werdenselektive Datenbanksuchen nach biologisch signifikanten Ähnlichkeiten sein. Eineerfolgreiche Suche nach Sequenzverwandtschaften kann dabei zu einer enormen Verringerungdes experimentellen Aufwands zur Charakterisierung eines Gens oder Genproduktes(Proteins) führen.Mit dem Aufkommen neuer und schneller Klonierungs- und Sequenziermethoden ist oft dererste Hinweis auf die Funktion und Struktur eines Genproduktes durch das Sequenziergel unddie anschließende Datenbanksuche bestimmt, während früher eine zeitaufwendigebiochemische Aufreinigung und experimentelle Charakterisierung nötig war.Die Identifizierung einer Homologie zwischen einem neu sequenzierten Protein und einer gutcharakterisierten Proteinsequenz in einer Datenbank mittels Sequenzvergleich kann als eineder besten Methoden zur Funktionsvorhersage von biologischen Sequenzen angesehenwerden, da bei ausreichender Ähnlichkeit ein Informationstransfer erfolgen kann. Hierdurchwurden teilweise sehr interessante biologische Verwandtschaften aufgedeckt, die eine vorhernicht vorhandene Einsicht in biologische Prozesse erlaubten. Es konnte z.B. gezeigt werden,daß der platelet-derived growth factor (PDGF) mit dem v-sis Onkogen und der epidermalgrowth factor (EGF) mit dem v-erb Onkogen verwandt ist (Doolittle et al., 1983, Downwardet al., 1984). Diese Entdeckungen hatten einen direkten Einfluß auf weiterführende Arbeitenzum Verständnis der KrebsentstehungWenn eine Verwandtschaft zu einem Protein mit bereits bekannter dreidimensionaler Strukturvorliegt kann, unter Umgehung der sehr aufwendigen experimentellen Arbeitsschritte wieAufreinigen, Kristallisation und nachfolgende Strukturaufklärung mittelsRöntgenkristallographie oder NMR-Spektroskopie, mit wenig Aufwand ein experimentellnachprüfbares 3D-Modell erstellt werden. Diese sogenannte homologie-basierendeProteinstrukturvorhersage ("homology based prediction") ist derzeit die erfolgreichste, wennauch indirekte, Methode zur Strukturvorhersage von Proteinen .

Derzeit sind etwa 250 verschiedene Proteine in ihrer dreidimensionalen atomaren Strukturaufgeklärt (abgelegt in der Brookhaven Protein Data Bank, PDB) (Abola et al., 1987),während etwa 35000 Proteinsequenzen (SwissProt Proteinsequenzdatenbank) (Bairoch &Boeckmann, 1992) bekannt sind. Diese Lücke wird sich durch die Genomprojekte in den

2

nächsten Jahren dramatisch vergrößern. Eine wesentliche Vorbedingung zur Entwicklung vonneuen Wirkstoffen, als auch für die spezifische Entwicklung von Proteinen mit kommerziellenEigenschaften ("Protein Design"), ist die dreidimensionale Raumstruktur.

Sequenzvergleiche mehrerer, unter Umständen weit entfernt, verwandter Sequenzen(multiples Alignment), können zur Identifizierung konservierter Positionen oder Regionenbenutzt werden. Diese Bereiche haben im allgemeinen eine essentielle Bedeutung für dieFunktion oder die Struktur einer Proteinfamilie und sind damit direkte Kandidaten füreventuelle Mutationsexperimete ("site-directed mutagenesis").Solche konservierten Sequenzbereiche oder Muster können wiederum alsDatenbanksuchmuster verwendet werden, um sehr schwache Sequenzverwandtschaften zuidentifizieren. Mehr als 500 solcher Sequenzmotive sind derzeit bekannt und in einerspezialisierten Datenbank gespeichert (Prosite) (Bairoch, 1992). Ein Beispiel für den Nutzensolcher Motivsuchen ist die Identifizierung mehrerer bis dahin in ihrer Struktur und Funktionunbekannter Proteine zur Cro-ähnlichen DNA-bindenden Proteinfamilie (Dodd & Egan,1987). Diese Familie besitzt ein Helix-Turn-Helix Motiv, das für die DNA-Bindungverantwortlich ist. Basierend auf 3 bekannten Cro Strukturen wurde ein Motiv abgeleitet undzur Datenbanksuche verwendet.

Sequenzvergleiche und insbesondere multiple Sequenzvergleiche können weiterhin alsHilfsmittel zur verbesserten Sekundärstrukturvorhersage direkt aus der Sequenz dienen(Kapitel 3.7), oder sie können in Zusammenhang mit zusätzlichen Daten zur Abschätzung derZahl unterschiedlicher Proteinfaltungstypen (Chothia, 1992) dienen.

In Abb. 1 sind die Hauptanwendungsgebiete und derzeit limitierenden Faktoren von Sequenzund Sequenz-Strukturvergleichen zur Struktur- und Funktionsvorhersage von Proteinen inAbhängigkeit der Sequenzähnlichkeit gezeigt. Es wird deutlich, daß besonders in Bereichgeringer Sequenzähnlichkeiten ein Bedarf für verbesserte Methoden besteht. Dabei werdenMethoden angewandt, die unter Zuhilfenahme von zusätzlicher Information aus multiplenSequenzvergleichen oder der dreidimensionalen Struktur eine verfeinerte Suche nachStruktur- bzw. Funktionsverwandtschaften erlauben. Hierbei bestehen die Probleme zumeinem in der Qualität des Alignments und zum anderen bei sehr schwachen Ähnlichkeiten inder Detektion einer Verwandtschaft. Ein generelles Problem ist dabei die Geschwindigkeit mitder Vergleiche und Datenbanksuchen durchgeführt werden können. Insbesondere im Hinblickauf die Quantität der anfallenden Daten aus Genomprojekten wird der Bedarf für sehr schnelleMethoden immer dringender.

In dieser Arbeit wurden einige dieser Aspekte näher untersucht. Die Hauptschwerpunkteliegen dabei auf dem Gebiet des sensitiven paarweisen und multiplen Sequenzvergleichs(Alignment) von Proteinsequenzen mit einigen ausgesuchten Anwendungen. Die Arbeit folgtfolgendem Aufbau:

• 2.2. allgemeine Definition von Alignmentalgorithmen für Sequenz- und Sequenz-Strukturvergleiche in der Biologie

• 3.1. Ableitung einer Signifikanzschwelle für Sequenzvergleiche• 3.2. Anwendung der Signifikanzschwelle auf schnelle Datenbanksuchalgorithmen• 3.3. Vorstellung eines neuen multiplen Alignmentalgorithmus• 3.4. Einsatz von massiv parallelen Höchstleistungsrechnern für Sequenzvergleiche

3

• 3.5. Beschreibung und direkte Verwendung einer neuen Datenbank für Proteinfamilien• 3.6. Ableiten von Präferenzparametern als Hilfsmittel für das Protein Design• 3.7. Verbesserung von Sekundärstrukturvorhersagemethoden durch Verwendung

evolutionärer Information und ein automatische Vorhersagedienst• 3.8. Erweiterung der Alignmentmethode auf das Sequenz-Strukturalignment und deren

Anwendung auf die Proteinstrukturvorhersage ("threading")• 3.9. Analyse der Proteinsequenzen eines kompletten Chromosoms als Beispiel für eine

komplexe Dateninterpretation (funktionelle Genomanalyse)

4

.

prozentualeSequenz-identität

"tw

iligh

t zon

e"

Methode

multiplesAlignment

Profil- /MusterAlignment

Sequenz-StrukturAlignment("threading")

Sekundär-struktur-Vorhersage

derzeitlimitierenderFaktor

Geschwindigkeit

Alignment-qualität

Detekion vonSequenz- undStruktur-verwandschaft

100

75

50

25

0

15

paarweisesAlignment

Abb. 1: Anwendungsgebiete und Hauptschwierigkeiten von Methoden zur Struktur- und Funktionsvorhersagevon Proteinen in Abhängigkeit von der Sequenzidentität.

5

2. Material und Methoden

2.1. Hard- und Software

Die im Rahmen dieser Doktorarbeit benutzte Hard- und Software sind größtenteils Bestandteilder am EMBL-Heidelberg verfügbaren Ausstattung. Die für die Anwendung von massivparallelen Rechnern verwendeten Maschinen wurden von den jeweiligen Institutionenbereitgestellt und hauptsächlich über internationale Datenleitungen genutzt.Im Einzelnen wurden folgende Geräte und Programme benutzt:

2.1.1. Hardware

• Digital Equipment Coorporation, Maynard, Massachusetts, USA VAX-Cluster: VAX6040, VAX 9000, DECstation 3100

• SUN-workstations, Silicon-Graphics-workstations, DEC-Alpha-workstations• Alliant FX2800 mit 16 i860 Prozessoren, Institut für Höchstleistungsrechnen an der

Gesellschaft für Mathematik und Datenverarbeitung (GMD), Bonn• Parsytec GC mit 128 T800 Prozessoren, Institut für wissenschaftliches Rechnen,

Universität Heidelberg• Parsytec GCel mit 1024 T805 Prozessoren, Paderborn Center for Parallel Computing,

Universität Paderborn• Intel Touchstone Delta mit 528 i860 Prozessoren, California Institute of Technology

(CalTech), Pasadena, Califonia, USA

2.1.2. Software

Programmiersprachen und Interprozessorkommunikations-Bibliotheken ("message passing-libraries"):

• FORTRAN 77 (Gehrke, 1987)• PERL (Wall & Schwartz, 1990)• PVM: "parallel virtual machine" (Sunderam, 1990, Beguelin et al., 1991)• P4 (Butler & Lusk, 1992)• Express (Parasoft Corporation, 1990)• PARIX (Parsytec, 1992)

2.1.2.1. Auswertung und Visualisierung:

• WHATIF (Vriend, 1990)• Mathematica (Wolfram, 1991)• KaleidaGraph (Software, 1993)

2.1.2.2. Datenbanksuchprogramme:

• Fasta (Pearson & Lipman, 1988)• Blast, Basic Local Alignment Search Tool" (Altschul et al., 1990)• GCG-Programpacket "genetic computer group" (Devereux et al., 1984)• MaxHom (diese Arbeit)

6

2.1.2.3. Datenbanken:

• PDB: "Protein Data Bank", 3D-Koordinaten von Proteinen (Abola et al., 1988)• DSSP: "Dictionary of secondary structure of proteins", Sekundärstrukturdatenbank für

Proteine (Kabsch & Sander, 1983)• SwissProt: Proteinsequenzdatenbank (Bairoch & Boeckmann, 1992)• EMBL-Datenbank: DNA-Sequenzdatenbank (Higgins et al., 1992)• Prosite: Musterdatenbank für Proteinfamilien (Bairoch, 1992)• Myco: DNA-Sequenzdatenbank für Mycoplasma (Gillevet, persönliche Mitteilung)• HSSP: "Homology derived Secondary Structure of Proteins", multiple Sequenzalignments

für Proteinfamilien (Sander & Schneider, 1991, Sander & Schneider, 1993)

2.2. Algorithmen für Zeichenkettenvergleiche (Alignment)

Algorithmen zum Sequenz- oder allgemein zum Zeichenkettenvergleich sind seit langem einForschungsgebiet in den Informationswissenschaften, und können als relativ ausgereiftbetrachtet werden. Es gibt hierbei teils relativ spezialisierte Algorithmen, die auf nur wenigeTeilprobleme angewandt werden können. Die Anwendungsgebiete fürZeichenkettenvergleiche umspannen dabei ein weites Spektrum, das von Gebieten wieMustersuchen in Bibliotheken, über den Vergleich von Vogelstimmen bis zurSpracherkennung reicht (Sankoff & Kruskal, 1983).

Grundsätzlich können die Algorithmen, die auf biologische Daten angewandt werden, in zweigroße Gruppen eingeteilt werden:

• schnelle Suchverfahren basierend auf hashing/k-Tupel Vorprozessierung.• Matrix-alignment Methoden basierend auf der dynamischen Programmierung

Erstere werden hauptsächlich zum kompletten Durchsuchen ganzer Datenbanken benutzt undsind auf heutigen Arbeitsplatzrechnern ("workstations") in relativ kurzer Zeit durchzuführen(im Bereich von Minuten). Algorithmen der zweiten Kategorie werden aufgrund ihres weitausgrößeren Rechenzeitbedarfs meist auf paarweise Vergleiche oder in Abwandlungen für dasmultiple Sequenzalignment weniger Sequenzen (<100) beschränkt. Für das Durchsuchenganzer Datenbanken bieten sich heute Parallelrechner an (siehe Kapitel 3.4.)

2.2.1. Protein- oder DNA-Sequenzvergleiche ?

Die größten Datenbanken für biologische Sequenzen sind DNA-Datenbanken, wie etwaGenBank oder die EMBL Datenbank. Trotzdem wurden die biologisch interessanterenSequenzverwandtschaften meistens auf der Ebene der Proteinsequenzen aufgedeckt.Dies kann auf folgende Gründe zurückgeführt werden:• Beim Vergleich von DNA-Sequenzen können nur vier Symbole (A, G, T, C) verglichen

werden können, während bei Proteinsequenzen 20 verschiedene (Aminosäuren) Symboleauftreten.

• Beim Vergleich von DNA-Sequenzen können nur Identitäten von Nukleotiden in dieBerechnung des Alignments eingehen, während beim ProteinsequenzvergleichÄhnlichkeiten von Aminosäuren in Betracht gezogen werden können. Hierfür können

7

verschiedene Austauschmatrizes benutzt werden, die etwa aus dem beobachtetenMutationsverhalten in Proteinfamilien abgeleitet werden können bzw. bestimmte physiko-chemische Ähnlichkeiten von Aminosäuren in Bezug setzen.

Diese Gründe haben deshalb ein weit besseres "Signal-Rausch-Verhältnis" beimProteinsequenzvergleich zur Folge. In dieser Arbeit werden nur Proteinsequenzvergleichebetrachtet, wobei aber die beschriebenen Algorithmen zum Sequenzvergleich ohneÄnderungen auch auf DNA-Sequenzen angewandt werden können.

2.2.2. Schnelle Suchverfahren

Es existieren eine Reihe von schnellen Suchverfahren, die insbesondere für das Durchsuchenganzer Datenbanken benutzt werden. Das älteste und auch heute noch weitverbreiteteProgramm FASTA geht auf eine Arbeit von Dumas und Ninio (Dumas & Ninio, 1982) zurückund wurde in mehreren Stufen weiterentwickelt (Wilbur & Lipman, 1983, Lipman & Pearson,1985, Pearson & Lipman, 1988). Die Grundidee ist dabei, daß in einem ersten Schritt lediglichkurze identische Sequenzstücke gefunden werden und in mehreren nachfolgenden Schrittenversucht wird, diese Stücke miteinander zu kombinieren oder mit Lücken aufzufüllen. Dabeiist der erste Schritt der Hauptgrund für die schnellen Ausführungszeiten diesesSuchalgorithmus, da dieser die Anzahl der notwendigen Vergleichsoperationen drastischreduziert. Hierbei wird die sogenannte "direkte Adressierung" oder "k-TupelVorprozessierung" angewandt. Ein k-Tupel besteht aus einem Wort dessen Länge vomBenutzer definiert wird; in der Regel ist diese Wortlänge für Proteinvergleiche 1 oder 2. Fürdiese Wortlänge wird eine Tabelle aller beobachteten k-Tupel und deren Position in derSuchsequenz erstellt. Für Proteinsequenzvergleiche mit einer Wortlänge von 2 bedeutet dieseine Tabelle mit allen möglichen Paaren aus zwei Aminosäuren. Beim Durchsuchen derDatenbank wird für jeden Datenbankeintrag lediglich ein "look up" der dort beobachtetenWörter in der Tabelle notwendig. Wenn ein identisches k-Tupel gefunden wurde, addiert maneinen bestimmten Betrag (abhängig von der verwendeten Austauschmatrix) zum Wert derDiagonale, in der die Übereinstimmung gefunden wurde. In einem zweiten Schritt werden die10 besten Regionen mit den meisten Übereinstimmungen mit Hilfe einer Austauschmatrix, dieauch konservative Ersetzungen von Aminosäuren erlaubt, neu berechnet. Jede Region isthierbei ein partielles Alignment ohne Lücken. Nachfolgend wird versucht, ob nicht-überlappende Regionen mit Werten, größer als ein festgelegter Schwellenwert, ausverschiedenen Diagonalen miteinander verbunden werden können. Dazu wird eineGesamtsumme aus den verbundenen Regionen gebildet und eine Bestrafung für dieentstehenden Lücken vom Betrag abgezogen. Als letzter Schritt wird ein dynamischerProgrammieralgorithmus in einem engen Fenster (ein Band von 32 Resten um die besteRegion) angewandt, der eine Optimierung der Insertionen und Deletionen durchführt.Wenn bei dieser Art von Algorithmen eine Wortlänge von 1 benutzt wird und das Fenster, indem der dynamische Algorithmus angewandt wird, so groß ist, daß praktisch alle Diagonalenuntersucht werden, ist das Ergebnis und die Laufzeit praktisch mit einem Algorithmusvergleichbar, der nur die dynamische Programmierung benutzt. Um einen deutlichenGeschwindigkeitsgewinn zu erreichen, wird deshalb eine Wortlänge von 2 oder 4 und eineFensterbreite von 32 Resten benutzt. Dies führt in der Regel zu einer Approximation desmathematisch optimalen Alignments und kann bei schwachen Sequenzverwandtschaften dazuführen, daß eine Verwandtschaft nicht angezeigt wird, oder das resultierende Alignment nichtder "biologischen" Wirklichkeit entspricht.

8

Eine neuere Entwicklung stellt das Programm BLAST dar (Altschul et al., 1990), dessenVorgehensweise darin besteht, nur solche Sequenzstücke zu untersuchen, die eine hoheWahrscheinlichkeit haben, ein Teil eines signifikanten Alignments zu sein. Der Algorithmuskann prinzipiell in drei Stufen aufgeteilt werden:a) Erstellen einer WortlisteFür die Suchsequenz wird eine Liste von Wörtern (Sequenzstücken) erstellt, die einengrößeren als ein vorher festgelegter Schwellenwertes erhalten würden, wenn sie mit einemWort in der Datenbank identisch sind ("high scoring words"). Der Schwellenwert ist dabei vonder jeweils verwendeten Austauschmatrix abhängig. In der Praxis wird eine Wortlänge von 4verwendet, was bei einem typischen Protein mit der Länge von 250 Resten zu einer Liste mitetwa 12500 Wörtern führt (50 Wörter für jeden Rest der Suchsequenz).b) Durchsuchen der Datenbank mit der erstellten Wortliste nach identischen Wörtern. Beidieser Suche kann der Vergleich eines Wortes jeweils abgebrochen werden, wenn keineMöglichkeit besteht, einen bestimmten Schwellenwert zu erreichen.c) Die gefundenen identischen Wörter werden zu Segmenten ("maximal segment pair; MSP")erweitert, indem solange benachbarte Reste hinzugenommen werden, bis der Gesamtwertetwas geringer ist als der beste Wert eines kürzeren Stückes.Kernpunkt dieses Algorithmus ist eine statistische Signifikanzabschätzung der bestenSegmentwerte ("MSP's") mit Hilfe eines Modells für Zufallssequenzen (Karlin & Altschul,1990, Karlin et al., 1990).

9

2.2.3. Sequenzvergleich mit Hilfe der dynamischen Programmierung

2.2.3.1. Austauschmatrizes

Im allgemeinen werden drei Arten von Austauschmatrizes unterschieden:• PAM-Matrix: Der Begriff PAM leitet sich aus einem umsortierten Akronym für:

"Accepted Point Mutations" (Dayhoff, 1978) ab, und wird häufig auch als "percentaccepted mutations" oder "point accepted mutations per 100 residues" interpretiert. Hierinsind die reinen Zählraten für beobachtete Austausche von Aminosäurepaarenangegebenen.

• Mutations-Wahrscheinlichkeits-Matrix (Mutationsmatrix): Hierbei beschreibt jederEintrag Mi,j die Wahrscheinlichkeit ("in 1 PAM-Einheiten von Evolution"), daßAminosäure "j" in die Aminosäure "i" mutiert. Wenn die Werte für diese Matrix mit einemWert potenziert wird, erhält man eine Mutationsmatrix für z.B. 250 PAM-Einheiten.

• "Log-odds Matrix": Diese Matrix gibt jeweils den Logarithmus für den Quotienten vonWahrscheinlichkeiten (Austauschwahrscheinlichkeit für Aminosäuren) an. Diese Matrizeswerden in der dynamischen Programmierung benutzt. Der Algorithmus maximiertdemnach die Summe der logarithmischen bedingten Wahrscheinlichkeiten, wasgleichbedeutend mit der Maximierung des Produkts dieser Wahrscheinlichkeiten ist. DasResultat ist deshalb das am wahrscheinlichste Alignment.

2.2.3.2. Paarweiser Sequenzvergleich

Um eine mathematisch optimale Lösung des Sequenzvergleichs zu erhalten, bieten sich diesogenannten dynamischen Programmiertechniken an. Diese Art der Programmierung wurdezuerst von Needleman und Wunsch (Needleman & Wunsch, 1970) auf biologischeProblemstellungen angewandt. Die dynamische Programmierung wird dabei zum Vergleichzweier Zeichenketten mit Hilfe einer Kostenmatrix und einer Funktion für das Einfügen vonLücken benutzt. Dabei gibt es folgende Varianten:

• Das optimale Alignment muß an den beiden Enden der jeweiligen Zeichenketten beginnenbzw. enden.

• Das optimale Alignment wird nur an einem Ende verankert, wobei die optimaleEndposition gesucht wird.

• Das optimale Alignment kann jede Teilzeichenkette sein.• Es wird ein festgesetzter Lückenbestrafungswert für jede "gelöschte" Aminosäure benutzt.• Es wird eine lineare Funktion für das Einfügen von Lücken benutzt.• Die Kostenmatrix oder Austauschmatrix kann aus positiven wie negativen Werten

aufgebaut sein.• Die Kostenfunktion kann minimiert anstatt maximiert werden.• Es kann jedes Alignment gefunden werden, das den optimalen Wert hat.• Es kann eine konkave Funktion für die Bestrafung von Lücken verwendet werden.

Hierdurch steigt allerdings die Komplexität des Algorithmus an.

Die Berechnung eines optimalen Alignments geschieht dabei in zwei Schritten:a) Zuerst wird eine zweidimensionale Suchmatrix berechnet, wobei eine Sequenz vertikal unddie zweite Sequenz horizontal angeordnet wird; die Aminosäuresymbole bilden jeweils die

10

Spalten und Reihen der Matrix. Jeder Schnittpunkt einer Reihe mit einer Spalte stellt dabeieinen Vergleich der beiden entsprechenden Aminosäuresymbole dar. Die Matrix wird von deroberen linken zur unteren rechten Matrixzelle berechnet, wobei zu jeder Zelle [i, j] derentsprechende Wert des Aminosäurepaarvergleichs zum maximalen Wert der vorherigenReihe (i-1) bzw. Spalte (j-1) addiert wird. Dabei werden entsprechende Werte für das Öffneneiner Lücke bzw. Verlängern einer Lücke jeweils subtrahiert. Diese Vorgehensweise führtdazu, daß die Zelle [i, j] immer den bestmöglichen Wert aller möglichen Alignments derbeiden Teilsequenzen bis zu dieser Zelle enthält.Im originalen "Needleman-Wunsch" Algorithmus wurde ein fester längenunabhängiger Wertfür das Einfügen einer Lücke verwendet. Eine Weiterentwicklung bildet die längenabhängigeBewertung von Lücken wie sie von Sellers (Sellers, 1974) eingeführt wurde. Dabei wird fürjede neu hinzugefügte Lückenposition ein festgelegter Wert subtrahiert.In den meisten heute implementierten Alignmentprogrammen wird eine Lückenbewertung inder folgenden Form benutzt:

g(k) = g0 + ge ∗ k

g0 Bestrafungswert für das Öffnen einer Lücke ("gap open penalty")ge Bestrafungswert für das Verlängern einer Lücke (gap elongation penalty")k Länge der eingefügten Lücke

In der Praxis werden Werte für das Verlängern einer Lücke benutzt, die etwa 10- bis 30-malkleiner als die für das Öffnen einer Lücke sind. Dabei ist die Wahl beider Werte jedoch starkvon der verwendeten Austauschmatrix abhängig.

b) Nachdem die gesamte Matrix berechnet ist, wird der maximale Wert aus der unterstenReihe und rechten Spalte bestimmt. Diese Zelle gibt dann den Endpunkt des optimalenAlignments an. In einer sogenannten "traceback" Prozedur wird das optimale Alignment durchein schrittweises Zurückverfolgen in der Matrix rekonstruiert.

Es konnte gezeigt werden (Gotoh, 1982), daß der ursprüngliche Algorithmus, der einerechnerische Komplexität von O(N3) besitzt, auf O(N2) reduziert werden kann (N= Länge derSequenz).Durch die Berechnung der zweidimensionalen Matrix und den erforderlichen "traceback" fürdie Konstruktion des Alignments ergibt sich sowohl für die rechnerische wie für dieSpeicheranforderung eine Komplexität von N2, wenn von zwei Sequenzen mit jeweils NResten ausgegangen wird. Dies bedeutet in der Praxis sowohl einen relativ großenrechnerischen Aufwand wie auch einen entsprechend großen Hauptspeicherbedarf. Aufbauendauf einer Arbeit von Hirschberg (Hirschberg, 1975) konnten Myers und Miller (Myers &Miller, 1988) zeigen, daß dieser Typ von Algorithmus mit einem linearen Speicherbedarfauskommen kann, wobei allerdings ein etwas höherer Rechenaufwand notwendig ist.

Bei Methoden, die dynamische Programmierung benutzen, muß zwischen globalen undlokalen Alignmentmethoden unterschieden werden. Im ursprünglichen "Needleman-Wunsch"Algorithmus erstreckt sich das resultierende Alignment aus einem Sequenzvergleich immerüber die Gesamtlänge der längsten Sequenz. Dies kann bei Sequenzvergleichen zu Problemenführen, wenn nur Teile oder kurze Regionen zwischen den Sequenzen ähnlich sind, da auchnicht ähnliche Anfangs- und Endregionen bewertet werden. Für dieses Problem wurde vonSmith und Waterman (Smith & Waterman, 1981) eine Abwandlung eingeführt, die auf derMaximierung von Ähnlichkeiten basiert und als Resultat ein lokales Alignment liefert. Zudiesem Zweck muß eine Austauschmatrix verwendet werden, die auch negative Werte enthält.

11

In der iterativen Alignmentprozedur wird dabei geprüft ob der maximale Alignmentwertkleiner oder gleich Null ist, was zu einer Terminierung des Alignments führt.

12

Allgemein ausgedrückt lautet die Formulierung für einen lokalen Alignmentalgorithmus nachGotoh (Gotoh, 1982) wie folgt:

H I,J( ) = max

maxk≥1 H I,J − k( ) − g k( ),

H I − 1, J − 1( ) + sim R1I, R2J( ), maxk≥1 H I − 1, J( ) − g k( ), 0

H(I,J) maximaler Wert des Sequenzvergleichs an der Position (I,J)k Länge einer Lückeg(k) längenabhängiger (k) Bestrafungswert einer Lückesim(R1I,R2J) Ähnlichkeitswert für ein AminosäurepaarR1I Aminosäure an der Position I in Sequenz 1R2J Aminosäure an der Position J in Sequenz 2

Hierbei werden die optimalen Werte für Alignments, die Lücken enthalten, während derRekursion des Algorithmus in temporären Hilfsfelder gespeichert.

H I,J( ) = max E I,J( ) , H I − 1,J −1( ) + sim R1I ,R2J( ) , F I, J( ) , 0 [ ]mitE I,J( ) = max H I,J −1( ) + g0 , E I,J - 1( ) + ge [ ]F I,J( ) = max H I − 1, J( ) + g0 , F I- 1,J( ) + ge [ ]

wobei:g0 Bestrafungswert für das Öffnen einer Lückege Bestrafungswert für das Verlängern einer Lücke

Eine schematische Darstellung des Alignmentalgorithmus ist in Abb. 2 gezeigt. In jeder Zelleder zweidimensionale Matrix muß demnach das Maximum aus 6 Werten bestimmt werden:Ein Wert für die Fortführung eines Alignment in diagonaler Richtung, jeweils 2 Werte für dasÖffnen einer Lücke (horizontal und vertikal), jeweils 2 Werte für das Verlängern einer Lücke(horizontal und vertikal) und ein Vergleich des Maximums gegen Null.

13

K RNVLSID

I

N

K

V

L

R

N

R

H(I,J)

H(I-1,J)

E(I,J-1) E(I,J)H(I,J-1)

H(I-1,J-1)

F(I-1,J)

F(I,J)

J

I

I-1

J-1

F(I-1,J-1)

E(I-1,J-1) E(I-1,J)

F(I,J-1)

Abb. 2 Schematische Darstellung des dynamischen Programmieralgorithmus. Im oberen Teil ist eine Darstellungder zweidimensionalen Vergleichsmatrix, im unteren ist eine Vergrößerung und detaillierte Beschreibung einesIterationsschrittes gezeigt. In jede Berechnung des Alignments müssen jeweils 6 Werte miteinander verglichenwerden (eine Vergleichsoperation ist jeweils durch eines Pfeil gekennzeichnet). In dieser Abbildung sind nur 5Vergleiche angedeutet, der sechste ist jeweils der Vergleich gegen null. Der beste Wert eines Alignments bis zueiner Matrixzelle (i,j) wird jeweils in dem Feld H(I,J) gespeichert. Die besten Werte für Alignments, in dieentweder horizontale oder vertikale Lücken eingefügt werden müssen, werden in den temporären HilfsfeldernE(I,J) bzw. F(I,J) gespeichert.

14

2.2.3.3. Multipler Sequenzvergleich

Die Anwendung der Matrixmethoden für den paarweisen Vergleich auf den simultandurchgeführten Vergleich von vielen Sequenzen ist in der Praxis nicht durchführbar, weil dieseine Matrix mit der Dimension der zu vergleichenden Sequenzen notwendig machen würde.Es konnte gezeigt werden, daß ein optimaler multipler Sequenzvergleich für drei Sequenzendurchgeführt werden kann (Murata et al., 1985, Murata, 1990), für eine größere Anzahl vonSequenzen ergäben sich jedoch sowohl Rechen- wie auch Speicherplatzanforderungen dieweit über das heutiger Rechner hinaus gehen. Deshalb wurden eine Reihe von Methodenentwickelt, die eine möglichst gute Annäherung an optimale multiple Sequenzvergleiche zuerreichen versuchen (Barton & Sternberg, 1987, Feng & Doolittle, 1987, Taylor, 1987,Corpet, 1988, Higgins & Sharp, 1988, Vingron & Argos, 1989, Higgins et al., 1992). Dabei istdie gängige Methode, daß zuerst alle möglichen Paarvergleiche durchgeführt werden, undaufgrund dieses Ergebnisses eine Sortierung in Gruppen (Baumstrukturen) sehr ähnlicherSequenzen durchgeführt wird. Jede Gruppe wird danach mit anderen Gruppen in absteigenderÄhnlichkeit verglichen. Nach jedem Vergleich werden die entsprechenden Sequenzen zu einerGruppe zusammengefaßt, bis alle Gruppen verglichen wurden. Bei dieser Vorgehensweisetreten zwei grundsätzliche Probleme auf:

a) Die Reihenfolge in der die Sequenzen zu Gruppen zusammengefaßt werden. Hierfür sindeine Reihe von Standardprozeduren verfügbar, wie etwa die UPGMA-Methode ("UnweightedPair-Group Method using Arithmetric Averages") (Sneath et al., 1975). Ausgehend von einern x n Matrix von paarweisen Ähnlichkeiten wird hierbei ein hierarchischer Baum errechnet, sodaß ähnliche Sequenzen benachbart in einem binären Baum angeordnet werden. Die Tabelleder paarweisen Vergleiche wird dabei meist aus Rechenzeitgründen mit Hilfe des schnellenVergleichsalgorithmus nach Wilbur und Pearson errechnet (Wilbur & Lipman, 1983).

b) Eine Prozedur, mit der eine Gruppe aus Sequenzen, die bereits als Alignment vorliegen, miteinem zweiten Gruppenalignment verglichen werden kann. Zu diesem Zweck werdenGruppen aus Sequenzen in Form einer generalisierten Sequenz oder eines Profils dargestelltund mit Hilfe eines Algorithmus nach Gribskov verglichen (Gribskov et al., 1987).

Die Probleme des paarweisen Vergleichs treten beim multiplen Sequenzvergleichgewissermaßen amplifiziert auf. Dies gilt insbesondere, wenn die Sequenzähnlichkeitenrelativ gering sind. Trotz der damit verbundenen Schwierigkeiten können glaubhafteAlignments berechnet werden und in Proteinfamilien können, die teilweise sehr entferntverwandte Sequenzen enthalten, zur Identifizierung von strukturell bzw. funktionellen Restenund Positionen beitragen. In Bereichen, in denen das resultierende multiple Alignment sehrviele Lücken aufweist, kann davon ausgegangen werden, daß es sich hier um variablePositionen handelt, die keinem besonderen evolutionären Selektionsdruck unterliegen.

2.2.4. Sequenz-Struktur Alignment ("threading")

Einen Versuch zur dreidimensionalen Strukturvorhersage von Proteinen stellen diesogenannten "threading" oder "inverted structure prediction" Methoden dar. Ausgangspunktdieser Methoden ist die Beobachtung, daß es mittlerweile Dutzende Beispiele für sehrähnliche 3D-Strukturen mit teilweiser unterschiedlicher Funktion gibt, deren

15

Proteinsequenzen aber keine detektierbare Sequenzverwandtschaft aufweisen. Dies legt nahe,daß die dreidimensionale Struktur eines Proteins weniger durch die genaueAminosäuresequenz als vielmehr durch generelle physiko-chemische Eigenschaften derSequenz bestimmt wird. Das Ziel dieser Methoden ist es, eine abstrahierte Beschreibung einerdreidimensionalen Proteinstruktur zu finden und mit Hilfe dieser Beschreibung eine beliebigeProteinsequenz zu fragen, wie gut sie in die gegebene Struktur hineinpassen würde. DieBeschreibung der dreidimensionalen Struktur erfolgt dabei meist durch eine Klassifizierungder Umgebung eines Aminosäurerestes in Form seiner Kontaktpartner und der jeweiligenStärke des Kontaktes.Mit Hilfe dieser Methoden, die momentan von vielen Arbeitsgruppen entwickelt undverbessert werden, erhofft man sich die Identifizierung von sehr schwach verwandtenProteinsequenzen, die zum gleichen Strukturtyp gehören. Sie stellen somit ein Hilfsmittel zurProteinstruktur- und Funktionsvorhersage im Bereich der "twilight zone" dar.

16

3. Ergebnisse

3.1. Definition einer Signifikanzschwelle für Protein Sequenzvergleiche

3.1.1. Definition des Problems

Beim Alignment zweier Proteinsequenzen wird implizit angenommen (oder zumindest dieHypothese aufgestellt), daß die entsprechenden Aminosäurereste eine ähnliche Funktion in derdreidimensionalen Struktur haben. Ein (im mathematischen Sinne) optimales Alignment kannjedoch große Abweichungen vom biologisch optimalen Alignment haben, wenn sekundär undtertiäre Strukturkriterien zugrundegelegt werden (Barton & Sternberg, 1987, Barton &Sternberg, 1987). Es ist deshalb wichtig, eine klare und wenn möglich einfache Abschätzungfür die Signifikanz eines Alignments zu haben.

Ausgehend von der Primärstruktur gibt es derzeit zwei Hauptmethoden für die Vorhersagevon Proteinstruktur:• Homologie-Methoden sind derzeit die erfolgreichsten und basieren auf der Detektion einer

deutlichen Sequenzähnlichkeit zu einem Protein mit bekannter dreidimensionale Struktur,die sich über weit ausgedehnte Abschnitte erstreckt oder auf einem für eine Proteinfamiliecharakteristischen Sequenzmotiv basiert.

• Statistische Methoden, die zwar weniger erfolgreich aber generelle Methoden darstellen.Sie basieren auf der Ableitung von Strukturpräferenzparametern für Einzelreste oderAminosäurepaaren, kurzen Oligopeptiden oder kurzen Sequenzmustern.

Der Erfolg beider Methoden wird inhärent durch die limitierte Größe der verwendbarenDatenbasis (biologische Datenbanken) begrenzt. Einerseits durch die begrenzte Anzahl anbiologischen Sequenzen, in denen nach Verwandtschaften gesucht werden kann, andererseitsdurch die endliche Anzahl von Beispielen, aus denen man statistische Präferenzen ableitenkann. Zum Beispiel wäre beim Ableiten von Präferenzparametern für Tripletts (8000verschiedene Kombinationen aus 3 Aminosäuren) für die drei Hauptsekundärstrukturtypen(Helix, β-Faltblattstrang und Loops) eine Datenbank mit der Größe von 120000 Resten inbekannten Strukturen von Nöten, um nur einen mittleren Besetzungsgrad von 5 pro Beispielzu erhalten.

Im Vergleich mit diesen Anforderungen ist die derzeitige Größe der dreidimensionalenStrukturdatenbank für Proteine viel zu klein. Sie ist ebenfalls klein im Vergleich mit denProteinsequenzdatenbanken und sehr klein, wenn man die Anzahl der Proteine in einerlebenden Zelle oder gar alle Proteine in lebenden Systemen gegenüberstellt. Anfang desJahres 1994 hatte die 3D-Strukturdatenbank etwa einen Umfang von 250 verschiedenenProtein mit circa 40000 Resten, während die Sequenzdatenbank 36000 Einträge mit über 12Millionen Resten umfaßt.Viele Proteine in den Sequenzdatenbanken sind allerdings verwandt mit den Sequenzen in der3D-Strukturdatenbank. Dieser Umstand kann benutzt werden, um die Lücke zwischen diesenzwei Datenbanken zu verkleinern. So sind derzeit mehr als 100 homologe Sequenzen zurGTPase Domäne des Elongationsfaktors TU oder des p21 ras Onkogen in derProteinsequenzdatenbank (LaCour et al., 1985, Pai et al., 1989) bekannt.

Der Informationstransfer der 3D-Struktur auf ein potentiell homologes Protein ist relativeinfach und gesichert, wenn die Sequenzverwandtschaft relativ hoch ist und sich über große

17

Sequenzabschnitte erstreckt. Die Annahme, daß eine Übereinstimmung in der 3D-Strukturvorhanden ist, kann allerdings sehr schwierig werden, wenn die Sequenzähnlichkeit gering istoder nur über kurze Bereiche besteht. Dies sei an Hand zweier extremer Beispiele gezeigt:

1.) Schwache Sequenzverwandtschaft über lange Bereiche - ähnliche 3D-Struktur

Das p21 ras Onkogen und der Elongationsfaktor TU zeigen nach optimaler 3D-Überlagerungeine identische Topologie und eine sehr ähnliche Gesamtstruktur (2,4 Å mittlere Abweichungin den 138 überlagerten Cα− Kohlenstoffatomen). Die Sequenzähnlichkeit beträgt jedochlediglich 20% (identische Reste). Die optimale Strukturüberlagerung beider Strukturen ist inAbb. 3a gezeigt.

2.) Starke Sequenzähnlichkeit über kurze Bereiche - unähnliche 3D-Struktur

Zwei Oktapeptide aus Subtilisin und einem Immunoglobulin sind sehr unähnlich in ihrer 3D-Struktur (4,7 Å Abweichung in den Cα-Kohlenstoffatomen), besitzen jedoch eineSequenzidentität von 75% (Abb. 3b).Diese beiden Beispiele zeigen eines der beiden Hauptprobleme auf: Je kürzer die Länge einesSequenzverwandtschaft (Alignment) ist, um so größer muß die Sequenzähnlichkeit sein, umeinen Rückschluß auf identische 3D-Strukturen ziehen zu können.Um dieses Problem zu lösen, muß die Längenabhängigkeit der Struktursignifikanz von derSequenzähnlichkeit aufgezeigt werden. Dies kann durch eine empirisch-quantitativeBeschreibung zwischen Sequenzähnlichkeit, Strukturähnlichkeit und Alignmentlänge mitHilfe der vorhanden 3D-Strukturdatenbank geschehen. Die resultierende Definition eineslängenabhängigen Homologieschwellenwertes kann danach als zuverlässiges Kriteriumverwendet werden, um ähnliche globuläre Strukturen oder Domänen und Fragmente zuidentifizieren. In vorausgehenden Arbeiten haben Chothia und Lesk (Chothia & Lesk, 1986)die Abhängigkeit zwischen Sequenzähnlichkeit und 3D-Struktur anhand von Kernbereichenglobulärer Proteine quantifiziert. Eine Definition dieser Signifikanzschwelle ("twilight zone"),die auf Erfahrungswerten basierte, wurde von R. Doolittle beschrieben (Doolittle, 1986).

18

a)

b)

Abb. 3. Der Einfluß der Sequenzähnlichkeit auf die Strukturähnlichkeit hängt sehr stark von der Länge deszugrundeliegenden Alignments ab (Stereo Darstellung).a) Ein Beispiel für schwache Sequenzähnlichkeit über lange Sequenzabschnitte mit sehr ähnlicher Struktur stelltdas Proteinpaar ras p21 Onkogen und der Elongationsfaktor EF-TU dar. Diese beiden Strukturen haben einemittlere Abweichung von nur 2,4 Å in ihren Cα-Kohlenstoffatome aber lediglich eine Sequenzidentität von 20%(Alignmentlänge 138 Reste).

19

b) Als extremes Beispiel für starke Sequenzähnlichkeit bei kurzer Alignmentlänge und gleichzeitiger sehrunähnlicher Struktur ist eine Überlagerung zweier Oligopeptide aus Subtilisin und einem Immunoglobulin (PDB-Datensätze: 2SBT und 3FAB) gezeigt. Die Sequenzabschnitte (TGSSSTVG, Position 159-166 in Subtilisin undTGSSSNIG, Position 23-30 im Immunoglobulin) haben eine Sequenzidentität von 75% (6 von 8 Resten), zeigenjedoch eine mittlere Abweichung von 4,7 Å in den entsprechenden Ca-Kohlenstoffatomen. Die Übereinstimmungin der Sekundärstruktur ist ebenfalls sehr gering: LTTSLLLL / ELLTTSST (T= Turn mitWasserstoffbrückenbindungen , S= geometrischer Turn, E= β-Faltblattstrang, L= Schleifenregion).

3.1.2. Methode

3.1.2.1. Kalibrierung der Struktursignifikanz in Abhängigkeit der Sequenzähnlichkeit

Die empirische Ableitung des Homologieschwellenwertes wurde anhand von über 100000Sequenzvergleichen zwischen Sequenzen der 3D-Strukturdatenbank der zum Zeitpunkt derArbeit aktuellsten Ausgabe der Datenbank (PDB Protein Datenbank, Frühjahr 1989)vorgenommen. Jede Proteinsequenz der 3D-Strukturdatenbank wurde gegen alle anderenSequenzen in dieser Datenbank verglichen. Zu diesem Zweck wurde ein dynamischerSequenzalignment-Algorithmus nach Smith-Waterman (Smith & Waterman, 1981)verwendet. Lokale Übereinstimmung zwischen Aminosäuren wurde mit der 20 x 20Austauschmatrix nach McLachlan (McLachlan, 1971) bewertet. Diese Matrix wurde auf denBereich zwischen 1,0 (maximaler Wert für eine Übereinstimmung) und einem Minimalwert(negativer Wert zwischen -0,7 und -0,3) für Nichtübereinstimmungen skaliert. Die maximalerlaubte Ausdehnung einer Lücke war auf 10 Positionen beschränkt. Der "Bestrafungswert"für das Öffnen einer Lücke betrug 3,0, und der Wert für das Verlängern einer Lücke war 0,1Einheiten. Das Alignment terminiert, wenn der kummulative Wert kleiner oder gleich 0,0 wird(siehe Kapitel 2.2.3).

3.1.2.2. Ähnlichkeitsmaße für Sequenz- und Strukturübereinstimmung

Für jedes Alignment wurden folgenden Angaben gespeichert: Sequenzähnlichkeit,Strukturähnlichkeit und Länge des Alignments. Sequenzähnlichkeit wurde als der Prozentsatzidentischer Aminosäuren gemessen, Strukturähnlichkeit eines Alignments wurde sowohl alsmittlere quadratische Abweichung (rmsd) äquivalenter Cα-Kohlenstoffatome imdreidimensionalen Raum nach optimaler Überlagerung (Kabsch, 1978), als auch alsProzentsatz identischer Sekundärstruktursymbole nach der DSSP-Definition von Kabsch undSander (Kabsch & Sander, 1983) gemessen. Die Alignmentlänge wurde als die Anzahl derAminosäuren, die sich im Überlappungsbereich eines Alignments befinden, vermerkt, wobeiLückenpositionen nicht mitgezählt wurden. Die (einfachste) Definition fürSequenzübereinstimmung wurde hier gewählt, um einen Referenzwert beim Vergleichunterschiedlicher Alignmentmethoden zu haben. Es ist allerdings zu bedenken, daß zumErrechnen des Alignments ein feineres Maß für Ähnlichkeit ("similarity") unbedingt nötig ist.

3.1.3. Ergebnis

3.1.3.1. 3D-Streudiagramm

Die dreidimensionale Darstellung der Daten ist in Abbildung 4 (a) und (b) gezeigt. Hierbeistellt jeder Datenpunkt ein Alignment mit den drei Maßeinheiten, Sequenzähnlichkeit,Strukturähnlichkeit und Länge des Alignments dar.

20

Einer der bemerkenswertesten Eigenschaften der dreidimensionalen Darstellung (Abb. 4 und7) ist das Sättigungssverhalten der Strukturähnlichkeit mit steigender Sequenzähnlichkeit beigegebener Alignmentlänge. Die weite Streuung der Datenpunkte für Strukturähnlichkeit beischwacher Sequenzähnlichkeit verengt sich asymptotisch zu einem schmalen Band, dessenBreite unabhängig von der Alignmentlänge wird. Das bedeutet, daß es auch für starkeSequenzähnlichkeiten eine Bandbreite von ungefähr 30% vom optimalen Wert (100%) für dieÜbereinstimmung in Sekundärstruktursymbolen gibt und etwa eine Bandbreite von 2,5 Å fürdie Tertiärstruktur. Eine vollständige Übereinstimmung in der Sequenz bedeutet demnachnicht unbedingt eine identische Sekundärstruktur oder Tertiärstruktur. Dieser Umstand kannauf im Detail unterschiedliche Kristallstrukturen zurückgeführt werden. Aufgrundverschiedener Kristallpackung, Substrat -oder Kofaktor-Interaktionen kann es besonders inSchleifenregionen oder Domänenkontaktregionen zu geringfügigen Abweichungen kommen.Ein weiterer Grund für diese Beobachtung ist die automatische Prozedur, die für dieZuweisung der Sekundärstruktur benutzt wurde (Kabsch & Sander, 1983). Diese Methodeberuht auf der Analyse der Wasserstoffbrücken und ist damit relativ empfindlich in Bezug aufAbweichungen und Fehler (besonders bei niedrig aufgelösten Strukturen, 2,8 - 3,0 Å) in den3D-Koordinaten.

21

a)

b)

Abb. 4. Dreidimensionale Streudiagramme (Stereo Ansicht).a) Die Ableitung des längenabhängigen Homologieschwellenwert erfolgte anhand dieses Diagramms derAbhängigkeit von Sequenzidentität ("sequence identity", 0-100%), Sekundärstrukturidentität ("secondarystructure identity", 0-100%) und Alignmentlänge ("length of alignment", 0-150 Aminosäurereste) für paarweiseSequenzvergleiche. Jeder Datenpunkt repräsentiert ein Alignment zweier Proteine oder Proteinfragmente deren3D-Strukturen bekannt sind. Rote Datenpunkte markieren Sequenzpaare deren Sekundärstrukturen sehrunähnlich sind ("schlechte Paare"), während blaue Datenpunkte Paare zeigen, die eine gute Übereinstimmung derSekundärstruktur zeigen ("gute Paare"). Die Farben gelb und grün zeigen Paare, deren Sekundärstrukturidentitätzwischen diesen beiden Extremen liegt. Das blaue Rechteck der "guten Paare" erstreckt sich praktisch über dengesamten Bereich von Sequenzidentität und Alignmentlänge, wobei die geringe Datendichte im oberen Bereich

22

dieses Rechtecks einen Artefakt der Datenbank darstellt (wenige Proteinpaare mit bekannter 3D-Struktur undeiner Sequenzidentität von 50-90%). Das Fehlen von roten und gelben Datenpunkten im oberen linken undvorderen Bereich, zeigt, daß keine Paare mit hoher Sequenzidentität und gleichzeitiger geringerSekundärstrukturübereinstimmung existieren. Sequenzidentische Oligopeptide mit unähnlicher Struktur sind rotePunkte im hinteren oberen Bereich, während homologe Paare mit einer Alignmentlänge von etwa 150 Restenblaue Punkte im vorderen linken Bereich sind. Sequenzähnlichkeit eines Alignments ist durch den Prozentsatz anidentischen Aminosäureresten definiert. Sekundärstrukturähnlichkeit ist die prozentuale Übereinstimmung derDSSP-Symbole (Kabsch & Sander, 1983). Die Alignmentlänge ergibt sich aus dem verwendeten Algorithmus fürdas Sequenzalignment (siehe Methode).b) Abhängigkeit von Sequenzidentität ("sequence identity", 0-100%), 3D-Strukturähnlichkeit ("rms deviation ofCα-atoms in Å", 0-100%) und Alignmentlänge ("length of alignment", 0-150 Aminosäurereste) für paarweiseSequenzvergleiche. Rote Datenpunkte markieren Sequenzpaare deren 3D-Strukturen sehr unähnlich sind, d.h.nach optimaler Überlagerung eine große mittlere Abweichung der Distanz zwischen äquivalenten Cα-Kohlenstoffatomen haben ("schlechte Paare"). Die blauen Datenpunkte zeigen Sequenzpaare, die eine ähnliche3D-Struktur haben ("gute Paare"). Rote Punkte, die im Bereich relativ hoher Sequenzidentität und langerAlignments liegen, konnten als fehlerhafte Datensätze der Strukturdatenbank identifiziert werden (siehe Text).

Wenn man diese, im asymptotischen Verhalten manifestierte inhärente Plastizität vonglobulären Proteinstrukturen zugrundelegt, können die zwei Sequenzen eines Alignments alsim wesentlichen strukturidentisch oder struktur-homolog betrachtet werden, wenn ihreSekundärstruktur nicht mehr als 30% oder ihre mittlere Abweichung nicht größer als 2,5Å(Cα-Kohlenstoffatome) in der Tertiärstruktur beträgt. Durch Analyse dieser Daten könnenFeststellungen wie "2 Proteine sind strukturell homolog" oder "2 Proteine sind in ihrerSequenz so ähnlich, daß sie als struktur-homolog angesehen werden können", quantifiziertwerden.

3.1.3.2. Definition des Homologieschwellenwerts

Diese Definition für Struktur-Homologie kann nun dazu dienen, einenHomologieschwellenwert für Sequenzähnlichkeit abzuleiten, der beim Überschreiten eineStrukturähnlichkeit impliziert. Zu diesem Zweck wurde mit Hilfe des dreidimensionalenStreudiagramms bzw. durch Histogramme (zweidimensionale Schnitte durch dieseDiagramme) (Abb. 6) für jede Alignmentlänge ein Schwellenwert definiert, bei dem praktischalle Datenpunkte einem struktur-homologen Alignment entsprechen. Der resultierendeHomologieschwellenwert (Abb. 5, Tabelle 1) ist eine Funktion, die bis zu einer Länge vonetwa 80 Resten sehr stark von der Alignmentlänge abhängt. Für kurze Alignments mit derLänge von 30 Resten ist eine Sequenzidentität von zumindest 43% nötig, um davonauszugehen, daß die beiden zugrundeliegenden Sequenz gleiche Struktur besitzen. Bei langenAlignments ist eine Sequenzidentität von 25% ausreichend. Unterhalb dieseslängenabhängigen Schwellenwertes kann keine Aussage über eine etwaigeStrukturverwandtschaft gemacht werden und stellt somit eine "Unsicherheitsregion" oder"Don't know region" dar (Mischung aus Rechteck- und Kreuzsymbolen in Abb. 5).

23

10

20

30

40

50

60

70

80

90

100

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

secondary structure identity > 70 %secondary structure identity < 70 %homology threshold

% id

entic

al re

sidue

s

length of alignment

Threshold for structural homology

a b c d

Abb. 5: Längenabhängiger Homologieschwellenwert für strukturell signifikante Alignments. Jeder Datenpunktrepräsentiert ein Alignment zwischen zwei Proteinen bekannter Struktur. Die Abbildung ist einezweidimensionale Projektion der Abb. 4a, wobei die Dimension der Sekundärstrukturidentität als binäre Ja/NeinEntscheidung (Kreuz- und Kastensymbole) dargestellt ist. Die Datenpunkte sind eine repräsentative Auswahl derDaten aus Abb. 4a. Der Homologieschwellenwert (eingetragene Kurve) unterteilt das Diagramm in eine Region"sicherer Struktur-Homologie" (obere rechte Hälfte), in der praktisch alle Sequenzpaare eine sehr ähnlicheSekundärstruktur besitzen (Kreuzsymbole, Sekundärstrukturidentität größer als 70%), und eine Region, in derkeine Aussage über eine eventuelle Strukturähnlichkeit getroffen werden kann ( Mixtur aus Kreuz- undKastensymbolen). Die Bereiche, die mit "a, b, c, d" gekennzeichnet sind, korrespondieren mit Abb. 6 a - d, dieeinen vertikalen Schnitt durch diese Abbildung darstellen.

24

Länge des Alignments[ Anzahl der Aminosäuren ]

Homologieschwellenwert[ % Sequenzidentität ]

< 10 -10 79.612 71.914 65.916 61.218 57.220 53.922 51.124 48.726 46.628 44.730 43.035 39.440 36.645 34.250 32.355 30.660 29.165 27.870 26.780 24.8

> 80 24.8

Tabelle 1: Homologieschwellenwert in Abhängigkeit der Alignmentlänge.

Aufgrund der begrenzten Schärfe des Übergangs in die "Unsicherheitsregion" und der relativkleinen zur Verfügung stehenden Auswahl an existierenden Proteinstrukturen, kann folglichauch der Homologieschwellenwert nur eine gute Annäherung sein. Solange keine korrektephysikalische Theorie für die Sequenz-Struktur Beziehungen bekannt ist, müssen empirischabgeleitete Regeln mit zumindest kleinen Abweichungen behaftet bleiben. DieseFehlerbandbreite ist aufgrund des wachsenden statistischen Rauschens bei kurzen Alignmentsgrößer und führt zu einem kleinen Prozentsatz (erfahrungsgemäß etwa 2-3%) zu falschen oderzumindest sehr zweifelhaften struktur-homologen Sequenzverwandtschaften.

25

a)

0

500

1000

1500

2000

2500

3000

3500

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98

alignment length 9-11

secondary structure identity >70%secondary structure identity <70%

frequ

ency

sequence identity in %

b)

0

200

400

600

800

1000

1200

1400

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98alignment length 19-21


frequ

ency


26

c)

0

100

200

300

400

500

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98



frequ

ency


d)

0

2000

4000

6000

8000

10000

12000

14000

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98

secondary structure identity >70%

secondary structure identity <70%

frequ

ency



27

e)

0

500

1000

1500

2000

2500

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98


rms deviation of C-alpha-atoms < 2.5 Årms deviation of C-alpha-atoms > 2.5 Å

frequ

ency


f)

0

200

400

600

800



frequ

ency


28

g)

0

50

100

150

200

250

300

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98



frequ

ency


h)

0

500

1000

1500

2000



frequ

ency


Abb. 6 a - h: Vertikale Schnitte durch die dreidimensionalen Streudiagramme aus Abb. 4a und b fürAlignmentlängen zwischen 9-11, 19-21, 39-41 und 79-150 Resten. In Abb. a - d ist jeweils die beobachteteHäufigkeit ("frequency") von Sequenzpaaren mit ähnlicher (größer als 70%) und Paare mit unähnlicherSekundärstruktur (kleiner 70%) in Abhängigkeit der prozentualen Sequenzidentität ("sequence identity in %")aufgetragen. Abb. e - h zeigen die beobachtete Häufigkeit von Sequenzpaaren mit ähnlicher ("rms deviation < 2,5Å") und Paare mit unähnlicher Tertiärstruktur ("rms deviation > 2,5 Å") in Abhängigkeit der prozentualenSequenzidentität. Der eingetragene Pfeil markiert den für die jeweilige Alignmentlänge definiertenHomologieschwellenwert. Der Homologieschwellenwert wäre perfekt, wenn all Sequenzpaare rechts des Pfeilessehr ähnliche Struktur besäßen (schwarze Balken) ohne gleichzeitiges Auftreten von grauen Balken. Die starke

29

Mischung aus grauen und schwarzen Balken links des Pfeiles zeigt, daß der Schwellenwert, der auf derSequenzidentität eines Alignments beruht, hier nicht als Indikator für Strukturhomologie verwendet werden kann.Die jeweilige Festlegung des Schwellenwertes ist dabei der Versuch den Bereich der Sequenzidentität in eine"Unsicherheitszone" ("Don't know region") und eine Region, die eine Strukturähnlichkeit impliziert, einzuteilen.Der jeweilige Übergang zwischen ähnlichen und unähnlichen Strukturen ist in den Abb. a - d(Sekundärstrukturidentität) sehr viel schärfer als in den Abb. e - h (Tertiärstrukturähnlichkeit). Für die Definitiondes Homologieschwellenwertes wurde deshalb die Sekundärstrukturidentität benutzt.

Abb. 7. Identität der Sekundärstruktur in Abhängigkeit der Sequenzidentität für Alignments der Länge 80 bis 150Reste. Das Diagramm zeigt einen Schnitt durch das dreidimensionale Streudiagramm aus Abb. 4a. DieFarbkodierung der Abb. 4a ist übernommen. Hauptmerkmal ist das Sättigungsverhalten der Strukturidentität (beietwa 70%) mit steigender Sequenzidentität.

3.1.3.3. Detektion fehlerhafter Strukturen

Eine interessanter Nebeneffekt dieses Homologieschwellenwertes ist seine Verwendung alseinfache Detektionsmethode für fehlerhafte Datensätze in der Proteinstrukturdatenbank(PDB). Bei der genauen Analyse der Datenpunkte, die anscheinend den definiertenSchwellenwert verletzen (gelbe und rote Datenpunkte in den dreidimensionalenStreudiagrammen, Abb. 4), konnten folgenden Datensätze als falsch oder zumindest mitProblemen behaftet identifiziert werden. Die beiden Paare 4ATC/7ATC und 2ATC/7ATC(Aspartat-Transcarbamoylase) haben eine Sequenzidentität von 100%, aber eine Abweichungvon bis zu 4,6Å bei einer Alignmentlänge von 146 Resten. Dieser Umstand ist auf eineKorrektur des Kettenverlaufes für die regulatorische Untereinheit in den Datensätzen2ATC/4ATC im Datensatz 7ATC zurückzuführen (Ke et al., 1984, Kim et al., 1987). Die

30

falschen Datensätze waren zum damaligen Zeitpunkt nicht aus der Datenbank entfernt wordenoder zumindest als falsch markiert.Einen ähnlichen, aber nicht gelösten Fall, stellen die Datensätze für die multihäm-Cytochrome1CY3 und 2CDV dar. Trotz einer Sequenzidentität von 37% bei einer Länge von 59 Resten,und damit über dem Schwellenwert, zeigen die beiden Strukturen einige signifikanteUnterschiede in der Tertiärstruktur. Da der Datensatz 1CY3 eine vorläufige Struktur ist(Autorenvermerk im Datensatz) und andere Analysemethoden (Holm & Sander, 1992)ebenfalls auf ein stark abweichendes Verhalten hinweisen, besteht die Möglichkeit, daß dieseStruktur ebenfalls falsch ist.Weitere, den Schwellenwert verletzende Datenpunkte, waren Paare aus Immunoglobulinen,von denen einige in relativ geringer Auflösung vorliegen und dementsprechend großeAbweichungen vor allem in der Sekundärstrukturzuweisung aufweisen.

3.1.3.4. Genauigkeit des Homologieschwellenwerts

Der abgeleitete Homologieschwellenwert unterliegt einer Reihe von Limitierungen. Dasgrundsätzliche Problem in der Kalibrierung des Schwellenwertes ist die verwendeteMaßeinheit für Sequenzähnlichkeit. In dieser Arbeit wurde das einfachste Kriterium, dieSequenzidentität, gewählt, die für jedes Alignment einfach zu bestimmen ist. Als eineverfeinerte Maßeinheit für lokale Ähnlichkeit wäre die Aminosäureähnlichkeit ("similarity"),die durch eine 20 mal 20 Austauschmatrix gegeben wird (McLachlan, 1971), vorzuziehen.Zusätzlich kann eine globale Ähnlichkeit aufgrund der Summe der gewichteten lokalenÄhnlichkeiten verwendet werden, bei der konservierte Positionen, ähnlich wie in multiplenSequenzalignments (Vingron & Argos, 1989), ein höheres Gewicht bekommen. Der Vorteildes einfachen Ähnlichkeitsmaßes liegt in der direkten Verwendbarkeit dieses Maßes fürandere Forscher. Der Nachteil besteht in einer ungenaueren Definition des Schwellenwertes,was zu einer größeren Anzahl von Fehlern führt. In weiterführenden Arbeiten ist geplant, dieAbleitung des Schwellenwertes anhand der oben genannten verfeinerten Maßeinheitendurchzuführen.

3.1.3.5. Genauigkeit homologie-abgeleiteter Strukturen

Jedes Alignment, dessen Sequenzidentität über dem jeweiligen Homologieschwellenwertliegt, beinhaltet implizit eine homologie-abgeleitete 3D-Struktur. Dies bedeutet aber nicht,daß, selbst bei hoher Sequenzidentität (wirklicher Homologie), eine 100-prozentigeÜbereinstimmung der dreidimensionale Strukturen besteht. So haben z.B. die beiden alshomolog bekannten Proteine Trypsin und Elastase (Datensätze: 3PTN und 3EST)(Walter etal., 1982, Meyer et al., 1988), eine Sequenzübereinstimmung von 35% bei einerAlignmentlänge von 240 Resten und nur 6 Lücken. Die Übereinstimmung derSekundärstruktursymbole (Kabsch & Sander, 1983) beträgt jedoch lediglich 80%, und dieoptimale dreidimensionale Überlagerung der beiden Strukturen führt zu 180 äquivalenten Ca-Kohlenstoffatome mit einer mittleren Abweichung von 1,4Å.Als ein extremes Beispiel kann eine Schleifenregion aus den beiden Phospholipasen ausKälbern und Schweinen angeführt werden (Dijkstra et al., 1983, Dijkstra et al., 1984). Diesebeiden Proteine haben eine hohe Sequenzübereinstimmung von 88% über eine Länge von 122Resten und sind damit deutlich über dem Schwellenwert. In einer 15 Reste langenSchleifenregion mit einer Sequenzidentität von 80% (KLDSCKVLVDNPYTN /NLDSCKFLVDNPYTE, Position 57-71), ebenfalls oberhalb des Schwellenwertes, haben

31

beide Proteine eine deutlich verschiedene Struktur. Die Sekundärstruktur stimmt nur in 17%überein, und die Abweichung in den dreidimensionale Koordinaten beträgt 3,3 Å für die Cα-Kohlenstoffatome. Dies zeigt deutlich, daß Schleifenregionen, im Gegensatz zuSekundärstruktursegmente oder Kernbereichen des Proteins, eine deutlich größere Flexibilitäthaben.

Generell gilt, daß die Genauigkeit, der aus Sequenzalignments abgeleiteter Strukturen,innerhalb der Bandbreite des dreidimensionalen Streudiagramms liegt. Dies bedeutet, daßbesonders Schleifenregionen und die Enden von Sekundärstruktursegmenten lokaleAbweichungen von der tatsächlichen Struktur haben. Als erwartete Genauigkeit kann etwa diemittlere Bandbreite des Streudiagramms gelten, die 85% Identität inSekundärstruktursymbolen und 1-2 Å für Cα-Kohlenstoffatome in der Tertiärstruktur beträgt.In Laufe dieser Arbeit konnten keine Beispiele für inkorrekt abgeleiteteSekundärstruktursegment gefunden werden.

32

3.2. Anwendung der Signifikanzschwelle als Filter für Datenbanksuchen

3.2.1. Problembeschreibung

Die Datenbanksuche nach verwandten Proteinen ist mittlerweile ein Routinevorgang in vielenbiologischen Laboratorien. Das Ziel ist hierbei Proteine mit gleicher Struktur und/oderFunktion zu finden. Ein allgemein anerkanntes und weit verbreitetes Programm zurDatenbanksuche ist FASTA (Pearson & Lipman, 1988). Dieses Programm generiert nacherfolgter Datenbanksuche eine Liste möglicher homologer Proteine, die nach absteigenderSequenzähnlichkeit sortiert sind. Der Umfang dieser Liste kann vom Benutzer gesteuertwerden. Ein Problem ist allerdings die Frage, was als eine signifikante Ähnlichkeit zwischenzwei Proteinen gilt. Eine Interpretation des Resultats ist nicht immer einfach, weder globaleSequenzähnlichkeit, noch Ähnlichkeit pro Rest sind gute Kriterien für eine statistischeSignifikanzabschätzung. Die statistische Signifikanz hängt stark von der Länge desAlignments ab (siehe Kapitel 3.1) und steigt nicht monoton mit der Gesamtähnlichkeit oderder Ähnlichkeitsdichte. Eine Sortierung nach Gesamtähnlichkeit ist deswegen oft irreführendund ordnet oft weniger signifikante Treffer vor bedeutsameren ein.Die Anwendung eines Homologieschwellenwertes, sei er empirisch abgeleitet oder statistischerrechnet, muß grundsätzlich zwei Kriterien erfüllen:

• Der Schwellenwert muß hoch genug sein, um falsche Treffer aussortieren zu können.

• Die Signifikanzschwelle darf nicht zu hoch sein, um interessante Treffer in derUnsicherheitszone ("twilight zone") zuzulassen und um bis dahin nicht bekannteHomologiebeziehungen zwischen Proteinen aufzuzeigen.

3.2.2. Methode

Mit dem im Kapitel 3.1 abgeleiteten längenabhängigen Homologieschwellenwert (Tabelle 1)kann allerdings eine Um- und Aussortierung einer solchen Liste vorgenommen werden. Dabeiwerden zuerst alle möglichen Treffer aus der Liste eliminiert, die unterhalb des für diejeweilige Länge des Alignments geltenden Schwellenwertes liegen. Die verbleibenden unddamit strukturell signifikanten Alignments werden nach dem Abstand zum Schwellenwertsortiert.

Als Sortierkriterium gilt demnach:

D = SI - 290,15 ∗ L-0, 562( )

D: Distanz (Sequenzidentität) vom HomologieschwellenwertSI: Sequenzidentität des AlignmentsL: Länge des Alignments (ausschließlich Lücken)

Das erstellte Computerprogramm "Filter_Fasta" liest eine Ausgabedatei des FASTAProgramms, und schreibt nach erfolgter Aus- und Umsortierung eine neue Ausgabedatei mitden verbleibenden signifikanten Treffern der Datenbanksuche (Abb. 9)

33

3.2.3. Ergebnisse

3.2.3.1. Eliminierung falscher Treffer

In einer Arbeit von Sternberg und Islam (Sternberg & Islam, 1990) wurde eine statistischabgeleitete Signifikanzabschätzung für Sequenzalignments verwendet. Diese auf einer Arbeitvon Collins (Collins et al., 1988) basierende Signifikanzbewertung beruht auf der statistischenAnalyse der errechneten Werte für alle Alignments einer Datenbanksuche. Jedes Alignmentbesitzt einen Wert ("alignment score"), der sich aus der Summe der paarweisenAminosäureähnlichkeiten errechnet. Dabei werden die niedrigsten 97% aller Alignmentwerteals Hintergrundsverteilung (Zufallsverteilung) betrachtet. Aus dieser Verteilung kann dieerwartete Häufigkeit für Treffer, die einen höheren Wert haben, errechnet werden. In derArbeit von Sternberg und Islam wurde eine repräsentative Auswahl von 143 Proteinsequenzenverwendet, deren dreidimensionale Struktur bekannt ist. Jede Sequenz wurde dabei gegen alleanderen Sequenzen in dieser Auswahlliste verglichen und der jeweilige Erwartungswert fürden errechneten Alignmentwert bestimmt. Zusätzlich wurde die Übereinstimmung desresultierenden Alignments eines jeweiligen Proteinsequenzpaares, die Übereinstimmung inder Sekundärstruktur sowie der Ähnlichkeit der Tertiärstrukturen bestimmt. Alle Alignments,deren Wert über einer erwarteten Zufallswahrscheinlichkeit von 0,01% lagen, wurden alssignifikant betrachtet.Die beiden Autoren fanden in Ihrer Untersuchung 69 Alignments von nicht homologenProteinen, die mit dieser Methode als signifikant betrachtet werden können, aber sehr geringeÜbereinstimmungen in der Sekundär- und Tertiärstruktur zeigen (Tabelle 2 in (Sternberg &Islam, 1990)). Jedes dieser Alignments stellt somit einen falschen Treffer dar, der in derErgebnisdatei einer Datenbanksuche nicht aufgelistet sein sollte.Abb. 8 zeigt eine Auftragung der 69 Datenwerte (jeweils Sequenzidentität und Länge desAlignments) in das in dieser Arbeit abgeleitete längenabhängige Signifikanzdiagram.

34

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100 120 140 160

% se

quen

ce id

entit

y

alignment length

structural homology

"don't know region"

1GD1 - 4DFR1PP2 - 3WGA

Abb. 8: Vorteil des längenabhängigen Homologieschwellenwertes gegenüber statistischen Signifikanz-abschätzungen. Die eingetragenen Datenpunkte markieren jeweils ein Alignment, das als biologisch falsch, aberstatistisch signifikant, identifiziert wurde (nach Tabelle 2, Sternberg, Islam, Protein Engineering, Vol. 4, No 2,125 ff, 1990). Die jeweiligen Sekundär- und Tertiärstrukturen der Sequenzpaare sind sehr unterschiedlich. ZurErläuterung der beiden markierten Sequenzpaare (1GD1-4DFR / 1PP2-3WGA) siehe Text.

Es wird deutlich, daß bis auf zwei Ausnahmen alle Alignments, die mit der statistischenSignifikanzabschätzung als wahre Treffer betrachtet werden, unterhalb der empirischabgeleiteten Schwelle liegen und damit nach einer Datenbanksuche automatisch aussortiertwerden würden. Für die beiden Ausnahmen (die Sequenzpaare 1GD1/4DFR und1PP2/3WGA) konnte sowohl mit dem in dieser Arbeit verwendeten Programm als auch mitStandardprogrammen kein Alignment reproduziert werden, das eine über derHomologieschwelle liegende Sequenzidentität erreicht. Es muß davon ausgegangen werden,daß die angegebenen Alignments für diese Paare ein Resultat bestimmter Alignmentparametersind und wahrscheinlich keine "stabilen" Alignments darstellen.Diese Beispiele zeigen deutlich, daß der in dieser Arbeit abgeleitete Homologieschwellenwerthoch genug ist, um falsche Treffer in Datenbanksuchen zu eliminieren.

3.2.3.2. Detektion entfernter Verwandtschaften

35

Als zweites Kriterium für die Signifikanzabschätzung eines Sequenzvergleichs, neben demAusschluß von falschen Treffern, muß gelten, daß sie eine Detektion von schwachenSequenzverwandtschaften erlaubt. Weiterhin ist aus rein praktischen Gründen zu fordern, daßdem Benutzer eines Datenbanksuchprogramms im Ergebnisreport zuerst alle wahren Treffer(homologe Protein), gefolgt von zweifelhaften, aber möglicherweise biologisch interessanten,und wenn möglich keine falschen Treffer, gezeigt werden.In der Abbildung 9 ist ein Ausschnitt einer Ergebnisdatei einer Datenbanksuche mitanschließender Umsortierung nach dem oben beschriebenen Distanzkriterium gezeigt. AlsSuchsequenz wurde hier die Primärstruktur des Repressorproteins CI aus dem BakteriophagenBP434 verwendet. Die 3D-Struktur dieser Sequenz ist bekannt (PDB-Schlüssel: 1R69).NachAuflistung der stark homologen Proteine, deren Rangfolge sich nur geringfügig ändert, wirdein Protein mit dem ursprünglichen Rang 169 auf die Position 11 einsortiert. Hierbei handeltes sich um ein Protein aus dem Enterobakterium serratia marcescens, dessen biologischeFunktion unbekannt war. Eine detaillierte Untersuchung dieser Sequenzverwandtschaft durchGrandori und Sander (Grandori & Sander, 1991) führte zu dem Schluß, daß dieses Protein zurProteinfamilie der Helix-Turn-Helix Klasse gehört und mit hoher Wahrscheinlichkeit einnegativer Regulator der Endonuklease Expression ist.

36

********************************* FASTA-FILTER***************************

This file is a filtered FASTA file. Alignments below the thresholdare

filtered out, the remaining hits are sorted according to the given criterion.

1R69, 63 amino acids versus SwissProt (27) library

NOTATION: RANK: original rank in the FASTA output DIST: distance from original HSSP-curve OPT: FASTA "opt" score %IDE: sequence identity in % LEN: length of alignment

number of hits: 12 threshold was: formula+2 sorted according to: distance from HSSP-curve.

DIST =%IDE − 290.15*LEN−0.562( )====================================================================

======No RANK DIST. OPT %IDE LEN PROTEIN 1 1 71.7 281 100.0 63 P16117|RPC1_BP434 REPRESSOR PROTEIN CI 2 2 24.1 162 52.4 63 P03036|RCRO_BP434 REGULATORY PROTEIN

CRO 3 5 5.3 90 33.9 62 P03035|RPC2_BPP22 REPRESSOR PROTEIN C2 4 8 5.3 83 33.9 62 P22753|SINR_BACLI SINR PROTEIN 5 22 5.0 64 33.3 63 P23789|XRE_BACSU PUTATIVE PBSX

REPRESSOR 6 6 4.6 88 35.8 53 P15238|RPC_BP163 REPRESSOR PROTEIN C 7 9 3.8 71 36.0 50 P03034|RPC1_LAMBD REPRESSOR PROTEIN CI 8 4 3.7 94 32.3 62 P14819|RPC1_BPPH8 REPRESSOR PROTEIN CI 9 7 3.7 83 32.3 62 P06533|SINR_BACSU SINR PROTEIN10 21 3.4 64 35.3 51 P23873|HIPA_ECOLI HIPA PROT

===> 11 169 2.6 51 31.7 60 P14307|YSMA_SERMA HYPOTHETICAL 9.5 KDPROTEIN

12 3 2.0 103 30.6 62 P15017|DNU4_RHORU PROBABLE DNA-BINDINGPROTEIN

==========================================================================

1. (1) P16117|RPC1_BP434 REPRESSOR PROTEIN CI (FRAGMENT 100.0% identity in 63 aa overlap, threshold is: 28.3%

10 20 30 40 50 601r69

SISSRVKSKRIQLGLNQAELAQKVGTTQQSIEQLENGKTKRPRFLPELASALGVSVDWLLNGT

X:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::XP16117

SISSRVKSKRIQLGLNQAELAQKVGTTQQSIEQLENGKTKRPRFLPELASALGVSVDWLLNGT 10 20 30 40 50 60

==========================================================================

11. (169) P14307|YSMA_SERMA HYPOTHETICAL 9.5 KD PROTEIN 31.7% identity in 60 aa overlap, threshold is: 29.1%

10 20 30 40 5060

1r69 SISSRVKSKRIQLGLNQAELAQKVGTTQQSIEQLE-NGKTKRPRFLPELASALGVSVDWLLN

....:.: : .:.:..::. : . :. .: .... . :X ::.::..:::X.

P14307ILAENVRSYRNINNLSQEQLAEISGLHRTYIGSVERKERNVTLSTLIILAKALNTSVPKLLT

20 30 40 50 60 70

37

Abb. 9: Beispiel einer Ergebnisdatei des Programms FILTER_FASTA.Die Datenbanksuche mit dem Programm FASTA erfolgte mit der Sequenz des Repressorproteins ausdem Phagen 434 (PDB-Schlüssel: 1R69) gegen die Proteindatenbank SwissProt. Es wurde eineUmsortierung der Datenbanktreffer nach der Distanz zum längenabhängigenHomologieschwellenwert vorgenommen. Der originale Rang in der Sortierfolge des ProgrammsFASTA ist als "Rang" gezeigt. Das Alignment mit der Nummer 11 (Rang 169) stellt eine bis dahinunbekannte Sequenzverwandtschaft dar. Nähere Erläuterung siehe Text. Die Alignments für dieProteine mit den Nummer 2-10 und 12 sind nicht gezeigt.

In Abb. 10 sind weitere Beispiele für die erfolgreiche Umsortierung mittels deslängenabhängigen Homologieschwellenwertes gezeigt. Es wurden Datenbanksuchen mitProteinsequenzen durchgeführt, die eine bekannte Kalzium-Bindungsstelle bzw. einsogenanntes Fibronektin Sequenzmotiv (fn3-Modul) besitzen. Es sind jeweils dieentsprechende Suchsequenz, der positive Treffer (homologes Protein), dessen original Rangim Ergebnisreport des FASTA Programms, sowie dessen Rang nach erfolgter Umsortierungangegeben. In der Praxis würde ein Benutzer wahrscheinlich alle diese biologischzutreffenden Sequenzverwandtschaften in einer etwaigen näheren Analyse unberücksichtigtlassen, da sie teilweise erst nach hunderten falschen und unsinnigen Treffern aufgelistet sind.

Protein mit bekannter Kalzium-Bindungsstelle

Suchsequenz Datenbanktreffer original FASTA Rang Filter_Fasta RangLPS1 Protein(lps1_lytpi, 317 Reste)

Parvalbumin beta (prvb_boaco )Leukotoxin (lkta_pasha )

1271244

543

Diacylglycerolkinase(kdgl_pig, 734 Reste)

Troponin C (human,-rabbit,-mouse,- chick, -astacus, sea squirt)

487, 498, 485,437,302,624

3,4,5,6,8,9

Calbindin(cabv_bovin, 260 Reste)

L-Plastin (plsl_human)Parvalbumin (prva_rajcl)

15912

1016

Proteine mit Fibronektin-Sequenzmotiven (fn3)-Modul

Suchsequenz Datenbanktreffer original FASTA Rang Filter_Fasta RangProtein tyrosinephosphatase(S12052, 1523 Reste)

neural cell adhesion molecule(nca1-, nca2-,nca3_human)fibronectin precursor (finc_human)

363,345,323

361

5,6,7

8Insulin receptor-relatedreceptor(B36502, 1268 Reste)

Erythropoietin receptor precursorneural cell adhesion molecule(nca1_xenla, nca2_rat,nca2_human,nca3_human,nca1_human,nca1_chick)

500

419,162,396,359,384,233

12

16,17,18,20,21,23

Granulocyte colony-stimulating factorprecursor(A34898, 837 Reste)

Sevenless Protein (7les_drovi)Insulin receptor-related receptor(irr_human))

115437

617

Abb. 10: Ergebnis der Umsortierung nach der Distanz zum längenabhängigen Homologieschwellenwertes. Essind jeweils der Name der Suchsequenz und deren Proteindatenbankschlüssel, der positive Datenbanktreffer,dessen originaler Rang im Ergebnisreport des Programms FASTA, und der Rang nach erfolgter Umsortierungangegeben.

38

Diese Beispiele zeigen, daß besonders für kurze Sequenzverwandtschaften in einemLängenbereich kürzer als 80 Reste, in dem viele biologisch wichtige Sequenzmotive liegen,der längenabhängige Homologieschwellenwert zu einer deutlichen Verbesserung derSensitivität führt.

39

3.3. Multipler Sequenzvergleich mit Hilfe von Konservierungsgewichten

Die zwei Hauptanforderungen, die an einen Algorithmus zum multiplen Sequenzalignmentgestellt werden müssen, ist die Berechnung eines möglichst optimalen Alignments beigleichzeitig möglichst geringem Rechenaufwand. In der Theorie, wie auch in der Praxis,schließen sich diese beiden Anforderungen gegenseitig aus, und es ist deshalb erforderlicheinen Kompromiß zu finden, der möglichst optimal ist. Besonders die Rechenzeiten, die beimmultiplen Sequenzalignment mehrerer Hunderter oder Tausender Sequenzen erforderlich sind,machen einen schnellen Algorithmus notwendig.

3.3.1. Erweiterung des dynamischen Programmieralgorithmus durch positionsabhängige Wichtungsfaktoren

Im folgenden wird ein neu entwickelter Algorithmus zum multiplen Sequenzvergleichvorgestellt. Die grundlegende Idee ist dabei eine Erweiterung des dynamischenProgrammieralgorithmus durch eine positionsabhängige Gewichtung der Ähnlichkeitsmatrixfür Aminosäuren. Die allgemein verwendeten Austauschmatrizes spiegeln im Grunde eineAustauschwahrscheinlichkeit von Aminosäuren wider, wie sie in bekannten Proteinfamilienoder Proteinstrukturfamilien beobachtet werden kann. Dabei wird allerdings statistisch überalle verwendeten Proteinfamilien und Positionen gemittelt. Dies führt zu einer zwangsläufigund auch bezweckten Verwischung der speziellen Information in einer Proteinfamilie. DieseAustauschmatrizes geben somit eine gemittelte Wahrscheinlichkeit im "Universum" derbekannten Proteinsequenzen wider. Das Resultat eines multiplen Sequenzalignments ist es, diepositionsabhängige Information einer Proteinfamilie zu erfassen. Dies kann entweder in Formeiner Konsensus-Sequenz oder einer Maßzahl für Konservierung geschehen. In denherkömmlichen Methoden wird diese Information meist nach erfolgtem Alignment berechnetund geht nicht auf direktem Weg in das Alignment mit ein.Die hier beschriebene Methode nutzt diese für eine Proteinfamilie spezifische Informationschon zum Aufbau eines multiplen Sequenzalignments aus. Dazu wird für jede Position imAlignment ein sogenanntes Konservierungsgewicht berechnet.Die positionsabhängigen Konservierungsgewichte (cw(i)) sind dabei wie folgt definiert:

cw(i) =

wk,l * sim(i )k,lk,l = 1

Nali∑

wk,lk,l = 1

Nali∑

,

mit wk,l = 1 − 1100

* %Identitätk, l

cw(i): Konservierungsgewicht an der Position i.Nali: Anzahl der Alignments.k,l: Index der Sequenzen in multiplen Alignment.wk,l: Wichtungsfaktor eines Sequenzpaares zur Korrektur der Ungleich-

verteilung im "Sequenzraum".sim(i)k,l: Ähnlichkeitswert des Aminosäurepaares der Sequenzen k und l, an der

Position (i).

40

%Identität k,l: prozentuale Ähnlichkeit der beiden Sequenzen k und l im Überlappungs-bereich des multiplen Alignment.

Die Konservierungsgewichte werden jeweils so normiert, daß das arithmetische Mittel allerWerte in einer Proteinfamilie den Wert 1,0 ergibt. In die Berechnung derKonservierungsgewichte fließen dabei nur solche Alignments ein, die oberhalb des in Kapitel3.1 abgeleiteten Homologieschwellenwertes liegen, wobei zusätzlich ein Sicherheitsbereichvon 5% benutzt wird. Auf diese Weise wird ein Verwischen der positionsabhängigenFamilieninformation durch potentiell nicht homologe Sequenzen vermieden. DieseKonservierungsgewichte werden zur Gewichtung der Ähnlichkeitswerte von Aminosäuren imrekursiven Berechnung eines paarweisen Alignments benutzt. Dabei wird ebenfalls eine denKonservierungsgewichten entsprechende Anpassung der Lückenparameter vorgenommen. DieFormulierung des dynamischen Programmieralgorithmus wird dabei wie folgt verändert(vergleiche Kapitel 2.2):

H I,J( ) = max E I,J( ) , H I − 1,J −1( ) + cw(I) * sim R1I ,R2J( ) , F I, J( ) , 0 [ ]Bei der Berechnung eines multiplen Sequenzalignment werden diese Gewichte, die zu Beginnder Prozedur alle einen Wert von 1,0 haben, nach jedem paarweisen Alignment neu berechnetund für den jeweils nachfolgenden paarweisen Vergleich benutzt.Im Falle der HSSP-Datenbank (siehe Kapitel 3.5) gibt es jeweils eine Sequenz, derendreidimensionale Struktur bekannt ist. Diese Sequenz besitzt somit einen höherenInformationsgehalt und wird als Referenzsequenz benutzt. In Abb. 11 ist eine schematischeDarstellung des Algorithmus gezeigt, wenn bereits von einer nach Ähnlichkeit zurReferenzsequenz sortierten Liste ausgegangen wird. Da es nach jedem Alignment, das denHomologieschwellenwert überschreitet, zu veränderten Konservierungsgewichten kommt,würde dies zu einer Inkonsistenz der paarweisen Alignments führen. Aus diesem Grund wirdnach Abarbeiten der gesamten Liste und Fixieren der Konservierungsgewichte ein zweiterLauf gestartet, in dem dann alle paarweisen Alignments mit denselbenKonservierungsgewichten, und damit auf eine konsistente Art und Weise, verglichen werden.

Es ergibt sich somit ein drei-stufiger Algorithmus, der aus den folgenden Schritten besteht:

• paarweises Alignment der potentiell homologen Sequenzen, unter Verwendung der Konservierungsgewichte aus den vorhergehenden Alignments.

• Fixieren der Konservierungsgewichte und Normalisierung auf 1,0.• Wiederholung aller paarweisen Alignments.

41

Abb. 11 Schematische Darstellung des erweiterten dynamischen Programmieralgorithmus mitKonservierungsgewichten.

In Abb. 12 ist die Entwicklung der positionsabhängigen Konservierungsgewichte im Laufe derAlignmentprozedur gezeigt. Es wird deutlich, daß nach etwa 10-15 paarweisen Alignmentsein relativ stabiles Verhalten der Konservierungsgewichte erreicht ist. Positionen mit einemhohen Konservierungsgewicht zeigen dabei konservierte, solche mit niedrigem eine variablePosition dar. Ein wichtiger Nebeneffekt dieser Prozedur ist die relative Unempfindlichkeitgegenüber der Ordnung der Ausgangsliste. Wenn eine Proteinfamilie etwa 15-20 Sequenzenenthält, kann die Ordnung einer Liste umgekehrt werden, d.h. die entfernt verwandtenSequenzen werden zuerst in der Prozedur bearbeitet, ohne daß es zu großen Veränderungen inden numerischen Werten der endgültigen Konservierungsgewichten kommt (Daten nichtgezeigt).

42

Abb. 12. Evolution der Konservierungsgewichte. Aufgetragen sind die positionsabhängigen (Sequenzposition,"position") Veränderungen der Konservierungsgewichte ("weights") während der Alignmentprozedur für dasProtein Crambin und dessen homologe Sequenzen. Zu Beginn des Algorithmus ("alignment number" = 0) hatjede Sequenzposition eine Gewicht von 1,0. Nach einem paarweisen Alignment werden die Gewichte neuberechnet und für das nachfolgenden paarweise Alignment verwendet. In diesem Beispiel ist etwa nach 10-15paarweisen Alignments ein stabiles Verhalten der Gewichte zu erkennen. Position mit Gewichten nahe 1,0 sinddabei in der Proteinfamilie konserviert, während Position mit niedrigen Werten für das Konservierungsgewichtstark variable Sequenzpositionen markieren.

Mit Hilfe dieses Algorithmus werden praktisch Positionen, die in einer Proteinfamilie einebesondere funktionelle oder strukturelle Aufgabe besitzen, in der Alignmentprozedurverankert, indem auf diese Bereiche ein besonderer Augenmerk gerichtet wird.

Als neue Maßzahl für eine Sequenzähnlichkeit wurde die sogenannte gewichtete Ähnlichkeit("weighted similarity") eingeführt. Dieses Maß errechnet sich aus der verwendetenAustauschmatrix für Aminosäuren (z.b. PAM 250) und den berechnetenKonservierungsgewichten. Hierbei wird jeweils eine zur Testsequenz identische Sequenz alsmaximaler Bezugspunkt benutzt.

43

wsim =

cw(p) * sim(p)t,lp = i

j∑

cw(p) * sim(p)t, tp = i

j∑

wsim: gewichtete Ähnlichkeit eines Alignments ("weighted similarity")p: Sequenzposition im Alignmenti: Startposition eines Alignments in Bezug auf die Testsequenzj: Endposition eines Alignments in Bezug auf die Testsequenzcw(p): Konservierungsgewicht an der Position p.t,l: Index der Sequenzen. Die Testsequenz ist als t, die Vergleichssequenz als l

bezeichnetsim(p)t,l : Ähnlichkeitswert des Aminosäurepaares an der Position p in den Sequenzen t und lsim(p)t,t : Ähnlichkeitswert des Aminosäurepaares an der Position p in der Testsequenz t mit

sich selbst

Auf diese Weise kann zwischen Sequenzen unterschieden werden, die zwar eine gleicheSequenzidentität zu einer Testsequenz besitzen, wobei aber nur eine die für diese Familiespezifische Signatur zeigt. Wenn z.B. zwei Sequenzen eine Sequenzidentität von 25% auf eineLänge von 100 Alignmentpositionen zur Testsequenz haben, die gewichteten Ähnlichkeitenaber 35% und 14% betragen, kann davon ausgegangen werden, daß die erste Sequenz zudieser Proteinfamilie gezählt werden kann, während die zweite Sequenz eine nicht verwandteSequenz darstellt. Die zweite Sequenz hätte zwar die gleiche Anzahl an identischenAminosäurepaaren, diese befinden sind jedoch in der Mehrzahl an Positionen, die in der zurBetracht stehenden Proteinfamilie eine im Mittel hohe Variabilität zeigen.

Programmiertechnisch wurde der Algorithmus in Form eines Profils implementiert. Dabeiwerden alle Werte, die in den rekursiven Berechnungsschritt des dynamischenProgrammieralgorithmus eingehen, als positionsabhängige Werte bzw. Felder behandelt.Dadurch ergibt sich ein sehr flexibler und anpassungsfähiger Algorithmus, in den nicht nurInformationen einfließen können, die aus Sequenzen abgeleitet wurden, sondern wie inKapitel 3.8 gezeigt, auch Strukturinformation einbezogen werden können. Durch Erweiterungdieses Konzeptes auf die Vergleichsequenz wird die Möglichkeit für einen neuartigenAlignmentalgorithmus für den Vergleich zweier Profile eröffnet. Eine schematischeDarstellung der maximal möglichen Konfiguration des in dieser Arbeit entwickeltenAlignmentprogramms ist in Abb. 13 gezeigt. Auf die Anwendung des Programms für denProfil-Sequenz- und den Profil-Profilvergleich wird in dieser Arbeit nicht eingegangen.

44

schematic representation of the alignment procedure

profilesequence 2

profilesequence 1

gap elongationpenalty

gap openpenalty

conservation weights

position dependentexchange metric

Abb. 13: Schematische Darstellung des Alignmentalgorithmus. Es ist jeweils das Sequenzprofil für beide zuvergleichende Sequenzen bzw. Sequenzprofile gezeigt. Ein Sequenzprofil setzt sich aus der Austauschmatrix("position dependent exchange metric", es sind jeweils nur einige Positionen angedeutet), den Bestrafungswertenfür das Öffnen bzw. Verlängern einer Lücke, sowie den Konservierungsgewichten zusammen. Jeder dieserWerte kann, muß aber nicht positionsabhängig sein. In der einfachsten Variante des Programms kollabiert einSequenzprofil zu einer reinen Sequenzinformation, während das andere lediglich eine positionsunabhängigeAustauschmatrix besitzt (z.B. Dayhoff-Matrix). Alle anderen Werte, wie Lückenparameter undKonservierungsgewichte, sind in diesem Fall konstant. In dieser Form können sowohl einfache paarweiseSequenzvergleiche, Profilvergleiche gegen eine Sequenz oder Profil-Profilvergleiche durchgeführt werden. Dieeigentliche Alignmentmatrix ist als Quadrat im Vordergrund gezeigt. Die Pfeile deuten die Berechnung einerAnti-Diagonalen an. Jeweils eine dieser Anti-Diagonalen kann auf einem entsprechenden Rechner vektorisiertabgearbeitet werden (siehe Kapitel 3.4).

45

3.3.2. Ergebnisse

3.3.2.1 Rechenaufwand

Der oben beschriebene Algorithmus stellt eine schnelle Methode für den multiplenSequenzvergleich dar. Dies gilt besonders wenn, wie im Falle der HSSP-Datenbank (sieheKapitel 3.5), bei der die dreidimensionale Struktur der Testsequenz bekannt ist, eine Sequenzals Referenzsequenz benutzt werden kann. Hierbei reicht es aus, (2 * (M-1)) Alignments zuberechnen, wobei M die Anzahl der potentiell homologen Sequenzen ist. Wenn eineVorsortierung der potentiell homologen Sequenzen benutzt wird, sind insgesamt (3 * (M-1))Alignments erforderlich. Der zusätzliche Aufwand, um die Konservierungsgewichte zuberechnen, ist dabei nicht sehr rechenintensiv. Andere gebräuchliche Methoden für denmultiplen Sequenzvergleich errechnen in der Regel in einem ersten Schritt (M(M-1) / 2)paarweise Alignments. Da diese bereits bei 100 Sequenzen zu einer Zahl von 4950 paarweisenAlignments führt, werden hierfür nicht mehr dynamische Programmieralgorithmen sondernschnelle approximierende Verfahren verwendet. An diesen ersten Schritt fügt sich eine"Cluster"-Prozedur an, die von einem paarweisen Gruppenalignment abgeschlossen wird.Besonders beim Vergleich von Hunderten oder Tausenden von Sequenzen ergibt sich somitein deutlicher Vorteil dieser hier vorgestellten Methode in Bezug auf die Einsparung anRechenzeit.

3.3.2.2 Detektion entfernt verwandter Sequenzen

Das in Praxis wohl wichtigste Kriterium an einen multiplen Sequenzvergleich ist die Güte derresultierenden Alignments, und inwieweit bei Datenbanksuchen auch entfernt verwandteSequenzen gefunden werden. Anhand der in Abb. 14 gezeigten Beispiele wird die erhöhteSensitivität des entwickelten Algorithmus gezeigt. Es wurden jeweils die Sequenz vonMyoglobin und die Sequenz des p21-ras-Onkogens mit Hilfe des dynamischenProgrammieralgorithmus gegen die gesamte Proteinsequenzdatenbank (SwissProt) verglichen.Hierbei wurde in einem ersten Suchlauf lediglich die Sequenzinformation der Suchsequenzbenutzt, und in einem zweiten Lauf wurden zusätzlich die aus dem multiplenSequenzalignment der jeweiligen Proteinfamilie berechneten Konservierungsgewichteverwendet. Nach der Datenbanksuche wurden die 2000 besten Treffer in zwei Gruppeneingeteilt (1) zur Suchsequenz homologe Sequenzen und (2) nicht homologe Sequenzen.Danach wurden die prozentualen Sequenzidentitäten der entsprechenden Alignments gegendie prozentualen Ähnlichkeiten (Abb. 14 a und c; "similarity") bzw. gewichtetenÄhnlichkeiten aufgetragen (Abb. 14 b und d; "weighted similarity"). Beim Vergleich derDiagramme wird deutlich, daß die Bewertung mit der gewichteten Ähnlichkeit eine weitausbessere Trennung zwischen homologen und nicht-homologen Sequenzen ergibt. Als Kriteriumkann der Abstand der jeweils an die Datenpunkte angepaßten Geraden herangezogen werden.Der längenabhängige Homologieschwellenwert (Kapitel 3.1) ist als vertikale Gerade bei 25%Sequenzidentität eingetragen. Aufgrund der Unschärfe dieses Schwellenwertes gibt es einekleine Anzahl von nicht homologen Sequenzen die oberhalb dieser Grenze liegen. Wenn mandie gleiche Anzahl an falschen Treffern für ein Sortierkriterium erlaubt , das auf derÄhnlichkeit bzw. gewichteter Ähnlichkeit basiert, ergeben sich die horizontalen Linien (etwa21% in (a) und (b) bzw. 19%-18% in (c) und (d)). Wie von einer verfeinerten Meßmethode zuerwarten ist, kann man den Bereich glaubhafter Sequenzverwandtschaften in den Bereich der"twilight zone" ausdehnen (etwa 4 Prozentpunkte beim Myoglobin und 7% für das p21-RasOnkogen). Hierbei ist interessant, daß der daraus resultierende Schwellenwert für Ähnlichkeitund gewichtete Ähnlichkeit in etwa gleich ist. Der Hauptvorteil der Bewertung nach

46

gewichteter Ähnlichkeit ergibt sich aus der Anzahl der homologen Sequenzen, die aus demQuadranten 3 in den Quadranten 4 wechseln. In Quadrant 3 befinden sich alle Sequenzen diemit jedem der hier betrachteten Sortierkriterien als nicht homologe Sequenzen beurteiltwerden, und im Quadranten 4 nur solche die aufgrund des (gewichteten) Ähnlichkeitsmaßesals homologe Sequenzen betrachtet werden. Durch die gewichtete Ähnlichkeit werden sehrviele homologe Proteine aus bzw. unterhalb der "twilight zone" als signifikanteSequenzverwandtschaften eingestuft.

Bei der Bewertung der Selektivität bzw. Sensitivität eines Datenbanksuchprogramms ergibtsich das generelle Problem der Einteilung in homologe und nicht homologe Sequenzen. Umdiese Einteilung vornehmen zu können, ist bereits eine Information über eine bestehende bzw.nicht vorhandene Sequenzverwandtschaft notwendig. Man ist demnach bei Einteilung aufbereits vorhandenes Wissen angewiesen. In den meisten Fällen kann dies einfach aufgrund desProteinnamens bzw. der Funktionsbeschreibung des Proteins im Datenbankeintrag erfolgen.Da besonders schwache Sequenzverwandtschaften von Interesse sind, kann dies jedoch dazuführen, daß einige der als nicht-homolog gekennzeichneten Sequenzen in Wirklichkeit sehrweit entfernte Verwandte sind, dies aber noch nicht bekannt ist.Ein Beispiel hierfür sind die fünf Sequenzen die in Abb. 14 (c) und (d) mit Kreisen besondershervorgehoben sind. Diese Proteine wurden als nicht-homologe Sequenzen des p21-RasOnkogens eingeteilt, da kein Hinweis auf eine etwaige Sequenzverwandtschaft bestand.Nachdem das Diagramm der gewichteten Ähnlichkeit gegen die Sequenzidentität erstelltwurde, sind diese Alignments im Quadranten 2 zu finden. Sowohl die Sequenzidentität alsauch die gewichtete Ähnlichkeit machen demnach entweder eine Sequenzverwandtschaftdeutlich oder diese Datenpunkte stellen krasse statistische Außenseiter dar. Aufgrund dessenwurden die Proteine die diesen Datenpunkten entsprechen einer näheren Betrachtungunterzogen.

Es handelt sich dabei um folgende fünf Proteine:• mss1_yeast

Dieses Protein ist eine mitochondriale GTPase, die bei der Expression einer Untereinheit(COX1) der Cytochrome c Oxidase beteiligt ist (Decoster et al., 1993).

• thdf_ecoli, thdf_pepsu, thdf_bacsu (thiophen and furan oxidation protein)Diese Proteine sind sehr homolog mit dem mss1-Protein (60% Sequenzidentität), undwurden in einem mutierten E.coli Stamm gefunden, der in der Lage ist Furane undThiophene zu oxidieren (Alam & Clark, 1991).

• cc10_yeast (cell division control protein 10)Dieses Protein spielt eine Rolle im Zellzyklus der Hefe und ist als GTP / ATP bindendesProtein bekannt (Steensma & Van der Aart, 1991).

Alle Proteine zeigen das typische Sequenzmuster für GTPasen. Für keines dieser Proteinekonnte bisher ein direkter Wirkungsmechanismus nachgewiesen werden. DieSequenzverwandtschaft des MSS1 Proteins und der thdf-Proteine zum p21-Ras Onkogenbeschränkt sich nur auf den C-terminalen Bereich. Es kann davon ausgegangen werden, daß essich hierbei um modular aufgebaute Proteine handelt. Der N-terminale Bereich zeigt keineSequenzverwandtschaft zu bereits bekannten Proteinen.Eine detaillierte Untersuchung dieser Sequenzverwandtschaften und deren biologischeBedeutung ist in Vorbereitung.

47

Der Datenpunkt, der in Abb. 14 (c) und (d) mit einem Rechteck markiert ist, handelt es sichum ein wahrscheinlich nicht-homologes Protein. In Abb. (c) wird dieses Protein alssignifikante Sequenzverwandtschaft eingestuft, aber mit der Bewertung nach gewichteterÄhnlichkeit wird es als deutlich nicht-homologes Protein eingeordnet (Abb. 14 d).

Aus diesen Ergebnissen wird deutlich, daß die gewichtete Ähnlichkeit und die damitverbundenen Konservierungsgewichte zu einer deutlich besseren Selektivität und Sensitivitätdes Algorithmus führen. Es wäre wünschenswert einen längenabhängigenHomologieschwellenwert aufgrund der gewichteten Ähnlichkeit abzuleiten. Da dieKonservierungsgewichte jedoch jeweils nur für eine Proteinfamilie gelten, und stark von derjeweiligen Anzahl und Verteilung dieser Sequenzen im "Sequenzraum" abhängen, müßte eineNormierung durchgeführt werden. Es ist geplant einen allgemeinen längenabhängigenHomologieschwellenwert mit Hilfe der gewichteten Ähnlichkeit oder zumindest unterBerücksichtigung dieses Wertes abzuleiten.

48

a)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.05 0.1 0.15 0.2 0.25 0.3 0.35

homologous proteins

non-homologous proteins

simila

rity

in %

identity in %

Myoglobin (4MBN)1

43

2

b)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.05 0.1 0.15 0.2 0.25 0.3 0.35

homologous proteinsnon-homologous proteins

wei

ghte

d sim

ilarit

y in

%

identity in %

Myoglobin (4MBN) 1

43

2

49

c)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.05 0.1 0.15 0.2 0.25 0.3 0.35

homologous proteinsnon-homologous proteins

simila

rity

in %

identity in %

1

43

2p21-ras protein (5P21)

d)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.1 0.15 0.2 0.25 0.3 0.35

homologous proteinsnon-homologous protein

wei

ghte

d sim

ilarit

y in

%

identity in %

p21-ras protein (5P21)1

43

2

Abb. 14 a - d. Vorteil der gewichteten Ähnlichkeit ("weighted similarity") gegenüber der einfachen Ähnlichkeit("similarity"). Es sind jeweils die prozentualen Ähnlichkeiten gegen die prozentualen Übereinstimmungen("identity in %") eines Alignments aufgetragen. Eindeutige Homologien (Identität > 35%, Ähnlichkeit > 50%)sind nicht gezeigt. Jeder Datenpunkt (x- bzw. Rechteck) stellt ein Alignment zwischen einer Suchsequenz(Myoglobin in (a) und (b), bzw. P21-Ras-Onkogen in (c) und (d)) und einer Sequenz der SwissProt Datenbankdar. Es sind jeweils nur die 2000 besten Alignments der entsprechenden Datenbanksuche gezeigt, wobei

50

Alignments die kürzer als 80 Reste waren, ausgeschlossen wurden. Die Alignments wurden in zwei Gruppeneingeteilt: Die erste enthält alle zur Suchsequenz homologen Proteine (Rechtecksymbole), und die zweite, die dernicht verwandten Proteine (x-Symbole). Die Einteilung in homolog bzw. nicht-homolog erfolgte dabei mit Hilfedes Proteinnamens bzw. der Funktionsbeschreibung des Proteins aus dem jeweiligen Datenbankeintrags in derSwissProt Datenbank. In (a) und (c) wurde der Suchalgorithmus ohne Konservierungsgewichte, in (b) und (d) mitKonservierungsgewichten benutzt. Jedes Diagramm ist durch zwei Linien in vier Rechtecke unterteilt, die mitden Ziffern 1 -4 markiert sind. Eine senkrechte Linie bei 25% Identität markiert jeweils den in dieser Arbeitabgeleiteten Homologieschwellenwert für Alignments länger als 80 Reste. Die Anzahl der nicht-homologenPaare (x-Symbole, die rechts dieser Schranke liegen sind das Kriterium für die Plazierung der horizontalen Linie.Diese Schwelle wurde dabei an eine Position gesetzt, bei der sich die gleiche Anzahl an nicht-homologen Paarenoberhalb dieser Linie befinden. Bei einer Sortierung der Alignments nach absteigender Identität würden allePaare, die im Quadranten 2 und 4 liegen als signifikant angesehen werden. Bei entsprechender Sortierung nachÄhnlichkeit bzw. gewichteter Ähnlichkeit würden alle Paare in den Quadranten 1 und 2 als potentiell homologeProteine angesehen werden. Im Quadranten 2 befinden sich demnach alle Paare, die mit beiden Sortierkriterienals signifikant angesehen, im Quadranten 3 alle Paare, die unabhängig von den gezeigten Sortierkriterien alsnicht-homolog gekennzeichnet werden würden. Zusätzlich ist für jede Datengruppe (x- bzw. Rechtecksymbole)eine Geradenanpassung gezeigt.In (c) und (d) sind jeweils fünf Datenpunkte mit Kreisen und ein Datenpunkt durch ein Rechteck besondersmarkiert. Die Kreissymbole markieren Alignments, die in der ursprünglichen Unterteilung in homologe bzw.nicht-homologe Proteine als nicht-homolog gekennzeichnet wurden. Wenn im Suchalgorithmus dieentsprechenden Konservierungsgewichte benutzt werden (d), stellen diese Alignments jedoch entweder krasseAußenseiter dar bzw. legen die Annahme nahe, daß die ursprüngliche Zuweisung als "nicht-homolog" falsch war(nähere Erläuterung im Text). Das Alignment, das mit einem Rechteck markiert ist, würde sowohl mit Sortierungnach Identität, wie auch mit Sortierung nach einfacher Ähnlichkeit als falscher Treffer aufgelistet (c) werden.Wenn Konservierungsgewichte benutzt werden (d), wird dieses Sequenzpaar als äußerst insignifikant eingestuft.

51

3.4. Einsatz von massiv parallelen Rechnern

3.4.1. Wachstum der Datenbanken und Rechenzeitbedarf

Sequenzvergleiche und Datenbanksuchen sind heute Standardwerkzeuge zur Analyse vongenomischen Daten. Mit dem enormen Zuwachs an Rohdaten (DNA- und Proteinsequenzen),insbesondere durch die Genomprojekte, werden jedoch Datenbanksuchen immerrechenzeitintensiver und können im Falle einer Analyse eines ganzen Chromosoms mithunderten Sequenzen zum "Flaschenhals" in der Analyse werden (siehe Kapitel 3.9). In Abb.15 ist der Größenzuwachs der DNA- und Proteinsequenzdatenbanken in den letzten Jahrengezeigt. Selbst wenn der Zuwachs der Daten kleiner sein wird als eine Extrapolation dieserDaten vermuten läßt, kann davon ausgegangen werden, daß es zu einer 1000-fachenVergrößerung der Sequenzdatenbanken kommen wird.

0

2 107

4 107

6 107

8 107

1 108

1.2 108

1.4 108

1.6 108

0

5 106

1 107

1.5 107

2 107

Aug/20/1981

Mar/22/1983

Oct/20/1984

May/22/1986

Dec/22/1987

Jul/23/1989

Feb/21/1991

Sep/22/1992

Apr/24/1994

Nucleotides

amino acidsNuc

leot

ides am

ino acids

Growth of nucleic acid andprotein sequence databases

Abb. 15: Wachstum der DNA/RNA und Proteinsequenzdatenbanken. Aufgetragen sind jeweils die Anzahl derNukleotide bzw. Aminosäurereste in der EMBL und SwissProt Datenbank in Abhängigkeit der Zeit. DieProteinsequenzdatenbank ist etwa um den Faktor 10 kleiner, da ein nur ein Teil der DNA-Sequenzen inProteinsequenzen übersetzt wird.

Eine Abschätzung der Rechenzeiten für einige Standardanwendungen (insbesondereDatenbanksuchen) ist in Abb. 16 gegeben. In dieser Abschätzung wird eine konstanteBearbeitungszeit von 12 Stunden zugrundegelegt. Es wird deutlich, daß in naher Zukunftselbst mit der Hilfe von schnellen heuristischen Suchverfahren ein enormer Rechenzeitbedarfherrscht.

52

Abb. 16 Effektive Leistungsanforderungen für derzeitige und zukünftige Anwendungen in der Bioinformatik.Hierbei wird eine konstante Laufzeit von 12 Stunden auf einem Rechner mit einem Prozessor angenommen unddie erforderlichen Rechenleistungen in Gleitkomma-Operationen (Flops = "floating point operations per second")abgeschätzt. Die Abschätzungen beruhen auf Algorithmen die heute zur Verfügung stehen. Eine Datenbanksuchemit einer Sequenz gegen alle Sequenzen im menschlichen Genom erfordert etwa eine Rechenleistung von 1Gigaflop, während der komplette Abgleich des Genoms gegen sich selbst (ohne heuristische Vereinfachungen)bereits eine Leistung von 1000 Teraflops erfordern würde. Molekular-dynamische Berechnungen eines kleinesProteins in Wasser (500 Atome, Zeitintervall 100 Picosekunden) können mit einer Rechenleistung von einigenGigaflops bearbeitet werden. Die realistische Simulation eines Proteins, die lang genug wären um biologischwichtige Vorgänge im Bereich von Millisekunden, würden mit heutigen Algorithmen eine Leistung von 10000Teraflops erfordern. Eine volle Simulation der Proteinfaltung mit einem Leistungsbedarf von 1017 Teraflops istbei heutiger Rechnertechnologie weit außerhalb des Möglichen.

Um biologisch sinnvolle Resultate zu erzielen ist es aber nicht nur wichtig, daß dieDatenbanksuche in möglichst kurzer Zeit durchgeführt werden kann. Weitaus wichtiger ist dieDetektion von schwachen Sequenzverwandtschaften in der Unsicherheitszone ("twilight

53

zone"). Hierfür sind sensitive und genaue Algorithmen zur Suche erforderlich, die jedocheinen weitaus höheren Rechenzeitbedarf besitzen.

3.4.2. Parallelrechner

Die Rechengeschwindigkeit von Computern hat in den letzten Jahrzehnten stetigzugenommen, und man kann davon ausgehen, daß dieser Trend auch noch die nächsten Jahreanhalten wird. Dieser Zuwachs an Geschwindigkeit wurde vor allem durch neueProzessortechnologien wie RISC ("reduced instruction set") und durch höhere interneTaktraten erzielt. Es ist jedoch abzusehen, daß es eine physikalisch begrenzteRechengeschwindigkeit für Computer gibt, da man bei immer kleiner werdenden Strukturenund einer höheren Packungsdichte der einzelnen Bausteine quanten-mechanische Störeinflüssenicht umgehen kann. Heutige Hochleistungsprozessoren werden demnach sicherlich in dennächsten Jahren bis zur physikalisch Leistungsgrenze weiterentwickelt, werden jedoch darüberhinaus keinen weiteren Geschwindigkeitszuwachs zulassen.

SIMD : s ingle i nstruction multiple data

MIMD : multiple i nstruction multiple data

verteilter Speicher"distibuted memory"

gemeinsamer Speicher"shared memory"

= Speicherzugriff

= Speicher

= RISC-Prozessor oder Tranputer = Interprozessor- kommunikation

= "einfache" Prozessoren

54

Abb. 17: Grob schematische Darstellung der Unterschiede zwischen Parallelrechnern. Zur Zeit werdenhauptsächlich zwei Rechnerklassen eingesetzt: SIMD ("single instruction multiple data") und MIMD-Rechner("multiple instruction multiple data"). Bei der SIMD-Rechnerklasse handelt es sich um Maschinen, auf denenein feinkörniger Parallelisimus auf Instruktionsebene mit nur einem Kontrollfluß möglich ist. MIMD-Rechnerhaben mehrere Kontollflüsse, die nur lose gekoppelt sind. Es werden zwei Hauptklassen unterschieden, solchemit verteiltem und solche mit gemeinsamen Speicher.

Einen Ausweg aus diesem Dilemma kann die Verwendung von sogenannten Parallelrechnernbringen. Bei dieser Art von Rechnern werden mehrere zentrale Recheneinheiten ("CPU:central processing unit") zusammengeschaltet und können mehr oder weniger unabhängig aneinem Teil des zu berechnenden Problems arbeiten. Es gibt grundsätzliche Unterschiede beiden heutigen Parallelrechnern, die vor allem den Speicherzugriff und die Granularität desParallelisimus betreffen (Flynn, 1972, Johnson, 1988). Eine grobe Unterteilung ist in Abb. 17gegeben. Demnach unterscheidet man vor allem zwischen sogenannten SIMD und MIMDRechnern.

Bei SIMD Rechnern handelt es sich um eine synchrone Parallelität mit nur einemKontrollfluß, d.h. ein bestimmter Prozessor arbeitet die Anweisungen des Programms ab,während alle anderen Prozessoren diese Befehle synchron ausführen. Bei den Prozessoren, diedie jeweiligen Befehle abarbeiten werden hauptsächlich einfache, aber dafür tausende vonProzessoren eingesetzt. Die Granularität des Parallelismus ist dabei relativ gering, d.h. es wirdjeweils eine Anweisung, wie etwa eine Multiplikation für tausende von Daten ausgeführt. BeiMIMD-Rechnern (asynchrone Parallelität) muß zwischen solchen mit gemeinsamen (enggekoppelt, SMMD= "shared memory multiple data") und verteiltem Speicher (lose gekoppelt,DMMD= "distributed memory multiple data") unterschieden werden. Die Granularität desParallelismus, der auf diesen Maschinen bearbeitet werden kann, ist sehr viel höher als beiSIMD-Rechnern und hängt im wesentlichen von der zugrundeliegenden Problemstellung ab.Jeder Prozessor hat hierbei einen eigenen Kontrollfluß. Der Vorteil eines gemeinsamenSpeichers liegt in der einfacheren Programmierung dieser Rechner, da Speicherverwaltungund Synchronisation der Prozessoren zum Großteil von der Systemsoftware übernommenwerden. Der größte Nachteil dieses Rechnertyps liegt in der Anzahl von Prozessoren, diemaximal zusammengeschaltet werden können, um eine Kohärenz des Speichers zugewährleisten. Bei heutigen SMMD-Rechnern wird eine Zahl von 32 Prozessoren alsvernünftiges oberes Maß angesehen. Rechner der MIMD-Klasse mit verteiltem Speicher(DMMD) umgehen dieses Problem, indem sie die Sicherstellung der Aktualität undLokalisation der Daten als Aufgabe des Programmierers ansehen. Dies geschieht durchexplizietes Versenden von Daten und Nachrichten zwischen Prozessoren bzw. Prozessen("message passing"). Für diese Interprozessorkommunikation stehen spezielle Bibliothekenbereit. Dieses Konzept führt in der Regel zu einer etwas schwierigeren Programmierung dieserRechner, hat aber den großen Vorteil, daß Hunderte oder Tausende solcher schnellenProzessoren zusammengeschaltet werden können. Ein weiterer Vorteil diesesRechnerkonzepts ist, daß die verwendeten Prozessoren nicht Teil eines speziellenParallelrechners sein müssen, sondern "normale" Arbeitsplatzrechner sein können("workstation cluster").Die Grundvoraussetzung jeder Parallelverarbeitung sind voneinander unabhängigeRechenschritte. Es dürfen dabei keine Datenabhängigkeiten für die Rechenoperationen desparallel auszuführenden Teils bestehen. In Abb. 18 ist eine schematische Darstellung derDatenabhängigkeiten des sensitiven Sequenzalignment-Algorithmus und den grundsätzlichenMöglichkeiten zur Parallelisierung bzw. Vektorisierung gegeben. Der dynamischeProgrammiera lgor i thmus , der den meis ten sens i t iven paarweisenSequenzvergleichsalgorithmen zugrundeliegt, kann vektorisiert werden, indem jeweils eine

55

sogenannte Anti-Diagonale der zu berechnenden Matrix simultan bearbeitet wird (Lander etal., 1988, Levesque & Williamson, 1989, Jones et al., 1990). Für das Durchsuchen ganzerDatenbanken kann diese Grundidee ausgedehnt werden und mit einigem Aufwand aufsogenannten SIMD-Rechnern wie der Connection machine 2 der Firma Thinking Machinesoder den Rechnern der Firma MasPar implementiert werden (Jones et al., 1990, BLITZ,1993). Dabei ist die Grundidee die zugrundeliegende Rechenoperation auf einer dieser Anti-Diagonalen nicht für ein Sequenzpaar, sondern für viele Sequenzen in der Datenbank simultanzu berechnen (Lander et al., 1988). Auf MIMD-Rechnern bietet sich an, daß jeder zuberechnende Paarvergleich auf einem anderen Prozessor bearbeitet wird. Hierbei sindpraktisch keine Änderungen in der Logik des Algorithmus notwendig.

56

CPU 1

A HFEDDA

A

HGEDCD

G

AAD_DEFGH_ADCDE_GH

Find optimal trace bydynamic programming

classical mode

datadependency

j

i

parallel or vectorized mode

databasesequences

1

n

2 CPU 2

multi-CPU mode

CPU n

Align two biological sequences Search a large database

search sequences

Abb. 18. Parallelisierung des sensitiven Algorithmus für Sequenzvergleiche.Oben links: schematische Darstellung eines paarweisen Sequenzvergleichs.Mitte links: Serielle Berechnung der Vergleichsmatrix durch reihenweises Bearbeiten.Unten links: Analyse der Datenabhängigkeiten beim Errechnen der Vergleichsmatrix. Es bestehen

Abhängigkeiten nach "oben", "links" und nach "schräg oben". Die Berechnung einer Anti-Diagonale kann jedoch vektorisiert bzw. parallelisiert werden. Die dadurch erreichteGranularität des Parallelismus ist relativ gering.

Oben rechts: Beim Vergleich einer Sequenz gegen eine Datenbank mit tausenden Sequenzen kann jederPaarvergleich auf einem separaten Prozessor berechnet werden. Die Granularität ist hierbei großund erfordert eine relativ geringe Interprozessorkommunikation. Die Berechnung kann sowohlauf eng gekoppelten, wie auf lose gekoppelten Multi-Prozessorrechnern erfolgen.

Es konnte gezeigt werden, daß eine parallele Implementierung sowohl von schnellenDatenbanksuchmethoden, wie auch der dynamische Programmierung möglich ist, und einengroßen Geschwindigkeitzuwachs bringen kann (Barton, 1991, Vogt & Argos, 1992). Mit demAufkommen von MIMD-Rechnern mit hunderten oder gar tausenden Prozessoren ergibt sich

57

die Frage, ob sich solche Rechner für die sensitive Datenbanksuche einsetzen lassen. DieHoffnung ist, daß diese Rechner in der Lage sind, die enormen Rechenanforderungen, die mitder Zunahme an Sequenzdaten verbunden sind, zu bewältigen.Im Rahmen dieser Arbeit wurde der im Kapitel 3.3 beschriebene sensitive Suchalgorithmusauf einer Reihe von verschieden Parallelrechnern implementiert und der jeweiligeGeschwindigkeitszuwachs im Durchsuchen von Sequenzdatenbanken gemessen. Es wurdensowohl heterogene Rechnernetze bestehend aus normalen Arbeitsplatzrechnern sowie hochspezialisierte massiv-parallele Rechner verwendet. Eine detaillierte Aufstellung derverwendeten Maschinen ist in Tabelle. 2 gegeben.

Rechnertypdie verwendete"message passing"Bibliothek ist inKlammern angegeben

Prozessor-typ

AnzahlProzessore

n

Haupt-speicher

Höchstleistungin Flops

(Gleitkomma-Operationen)

Besonderheiten

4 * SPARC-Station 10

SGI 4D/480 VGX(PVM)

SPARC

R3000

je 1

8

32 MByte

256 MByte

4 MFlops

128 MFlops

wurden alsheterogene

Rechnernetzeeingesetzt

Alliant FX2800(PVM)

i860 16 256 MByte 640 MFlops gemeinsamerSpeicher

Parsytec GCel(PARIX)

T805Transpute

r

1024 4 GByte 4,4 GFlops Prototyp für T9000Transputer bzw.

PowerPc Prozessor-systeme

Intel Touchstone Delta(INTEL NX)

i860 XP 528 8,78 GByte 31 GFlops Prototyp der IntelParagon XP/S Serie,besitzt ein paralleles

Plattensystem

Tabelle 2: Aufstellung, der in dieser Arbeit verwendeten Parallelrechner. Die Arbeitsplatzrechner der Firma SUNund SGI wurden als sogenanntes heterogenes "workstation cluster" eingesetzt. Die Rechner Alliant FX2800 undSGI 4D/480 besitzen einen gemeinsamen Speicher, wurden aber in einem Modus mit verteiltem Speicherbenutzt. Die Höchstleistung gibt die theoretische erreichbare Spitzenleistung unter optimalen Bedingungen an,die in der Praxis praktisch nicht erreicht wird.

3.4.3. Leistung von Parallelrechnern

Bei Leistungsmessungen an einem Parallelrechner unterscheidet man zwischen demParallelitätsgewinn (Speed-up), dem Skalierungsgewinn (Scale-up) und der Effizienz(Efficiency). Der "Speed-up" gibt an, um wieviel mal schneller das gleiche Problem auf NProzessoren, im Vergleich mit nur einem Prozessor, ausgeführt wird. Der "Scale-up" ist einMaß dafür, um wieviel größer ein Problem sein kann, das auf N Prozessoren in der gleichenZeit wie auf einem Prozessor bearbeitet wird. Die Effizienz ist ein Maß für den erreichten"Speed-up" relativ zum maximalen "Speed-up", gibt demnach an, wie gut zusätzlicheProzessoren genutzt werden.

58

Die als Amdahl's Gesetz (Amdahl, 1967, Gustafson, 1988) bekannte Leistungsbetrachtungvon Parallelrechnern teilt ein Programm in einen sequentiellen und einen parallelisierbarenTeil ein, wobei die Problemgröße als konstant betrachtet wird. Hierbei ergibt sich für dieAusführungsgeschwindigkeit auf einem Parallelrechner mit N Prozessoren folgendeAbhängigkeit:

NT = f∗ 1T + 1 − f( )∗ 1TN

mit:N: Anzahl der eingesetzten ProzessorenTN: Ausführungszeit eines Programms bei N ProzessorenT1: Ausführungszeit eines Programms mit einem Prozessorf: Prozentualer Anteil des Programms, der nicht parallelisiert werden kann

(sequentieller Teil)

Demnach beträgt der Geschwindigkeitszuwachs ("Speed-up") bei N Prozessoren:

NS = 1TNT=

N1 + f∗ N −1( )

Da der sequentielle Anteil nur Werte zwischen 0 und 1 annehmen kann, ergibt sich daher, daßder "Speed-up" theoretisch nicht größer als die Anzahl der verwendeten Prozessoren seinkann.

Die Effizienz ist als das Verhältnis von erreichtem "Speed-up" relativ zum maximalen "Speed-up" bei N Prozessoren definiert:

N =E = NSN

Es ergibt sich ein Wertebereich zwischen 1/N bis 1. Die Effizienz wird dabei meist inProzentzahlen angegeben. Bei einer Effizienz von 0,8 würde 80% des maximal möglichen"Speed-up" erreicht werden.

Aufgrund der Abhängigkeit des "Speed-up" vom prozentualen Anteil des sequentiellen Teilseines Programms, ergeben sich teilweise drastische Abweichungen vom intuitiv erwartetenGeschwindigkeitszuwachs eines Programms. Bei der Verwendung von 1000 Prozessoren, beieinem sequentiellen Programmanteil von 1%, ergibt sich ein maximaler "Speed-up" vonlediglich 91 und eine Effizienz von 9,1%.

Da sich der jeweilige prozentuale Anteil des sequentiellen Teils eines Programms mitveränderter Problemgröße ändern kann, wird in der Praxis oft der sogenannte "Scale-up"angegeben. Dabei wird ein Problem der Größe n auf k Prozessoren bearbeitet und derSkalierungsgewinn gegenüber einem kleineren Problem der Größe m (m<n) auf einemProzessor bestimmt, d.h. die Ausführungszeit des kleinen Problems auf einem Prozessor istgleich der Ausführungszeit für das große Problem mit k Prozessoren. Dann beträgt derSkalierungsfaktor:

kSC =nm

59

Die Ausführungszeit ist hierbei von einem weiteren nicht näher definierten Parameter, der"Problemgröße", abhängig. Diese ist normalerweise durch die Anzahl der Daten definiert, diein unterschiedlich großen Programmvarianten desselben Algorithmus bearbeitet werden. ImFalle einer Datenbanksuche ist diese Problemgröße durch die Länge der Suchsequenzgegeben.

3.4.4. Parallelisierung der Datenbanksuche

Bei der Implementierung des Programms sollte folgende Bedingungen erfüllt werden:

• das bereits existierende Programm in der Programmiersprache FORTRAN 77, mit einigengebräuchlichen Erweiterungen wie der DO WHILE - ENDDO Anweisung, solltemöglichst ohne große Änderungen übernommen werden.

• das Programm sollte möglichst portabel sein und auf einem weiten Spektrum vonverschiedenen Rechnertypen lauffähig sein. Dabei waren als Zielrechner, sowohl einzelneArbeitsplatzrechner, schwach gekoppelte Rechnernetze die über lokale (Ethernet) oderauch weitspannende Rechnernetze (Internet) verbunden sind, bis zu modernen massivparallelen Rechnern, vorgesehen.

• Es sollten alle Erweiterungen des entwickelten Algorithmus, wie multiples Alignment undProfilsuchen, in die Parallelisierung mit einbezogen werden. Als erste Stufe wurde dasDurchsuchen von ganzen Datenbanken mit Hilfe des paarweisen Sequenzvergleichsimplementiert.

Die zugrundeliegende Idee für eine Datenbanksuche auf parallelen Rechnern liegt in derVerteilung der durchzuführenden Paarvergleiche auf die zur Verfügung stehendenProzessoren. Dabei wird die Datenbank in kleinere Portionen aufgeteilt und jedem Prozessor("node") ein Teil zugewiesen. Jeder Prozessor kann danach eigenständig alle Paarvergleichedieses Teils der Datenbank durchführen. Der Vorteil dieser groben Granularität derParallelisierung ist ein relativ geringer Änderungsaufwand für das serielle Programm, sowieeine relativ geringe Interprozessorkommunikation.

3.4.4.1. Aufteilen der Datenbank

In Abb. 19 sind die Hauptvarianten gezeigt, wie eine Aufteilung der Datenbanksuche aufverschiedene Prozessoren erfolgen kann. In der ersten Variante (A) liest derVerwaltungsprozessor ("Host") jede zu bearbeitende Sequenz aus der Datenbankdatei undversendet sie an einen freien Arbeitsprozessor ("idle node processors"). Der Nachteil dieserMethode, die in anderen Arbeiten benutzt wird (Vogt & Argos, 1992), ist das auf einemRechner vorgegebene Verhältnis von Ausführungszeit (eigentliche Rechenzeit) und Ein- bzw.Ausgabeanforderungen durch andere Prozesse. Wenn nur ein Prozeß für das Lesen undeventuelle Schreiben der Resultate verantwortlich ist, würde dies bei Verwendung mehrererhunderter oder tausender Prozessoren zu einem Engpaß führen, der schon bei relativ kleinenProzessorzahlen (einige Dutzend) keine weitere Leistungssteigerung mehr zulassen würde.

60

Eine relativ einfach zu implementierende Variante (B) teilt jedem Prozeß einen festgelegtenTeil (abhängig von der Anzahl der Prozesse) der Datenbank zu. Dies führt jedoch aufgrundder sehr unterschiedlichen Längenverteilung der Sequenzen in der Datenbank zu einem sehrunterschiedlichen Auslastungsgrad der Prozesse ("load balancing"). Dies kann unterUmständen durch ein Vorsortieren der Datenbank nach der Sequenzlänge umgangen werden,wobei diese aber jeweils nur für eine bestimmte Anzahl an Prozessen optimal wäre.In Abb. 19 C ist die wahrscheinlich sinnvollste Aufteilung gezeigt, wobei ein Host-Prozessordie Größe der Datenbank bestimmt und danach lediglich Arbeitsanweisungen an freieArbeitsprozesse weitergibt. Abhängig von der Größe der Datenbank und der Anzahl derverfügbaren Prozessoren würden Anweisungen wie "bearbeite die Sequenzen zwischen demEintrag 301 bis 400" an den Arbeitsprozeß verschickt werden. Diese Vorgehensweise konntejedoch nicht implementiert werden, da dies ein paralleles Einlesen (simultaner Zugriffmehrerer Prozesse auf dieselbe physikalisch gespeicherte Datei) notwendig macht. DieseOption wird zur Zeit noch nicht von allen Parallelrechnern unterstützt bzw. arbeitete in derPraxis nicht fehlerfrei.

61

Abb. 19: Aufteilen einer Datenbank auf mehrere Prozessoren. Gezeigt sind vier verschiedene Varianten. In A istnur ein Prozessor für das Lesen der Datenbankeinträge verantwortlich. Dieser sendet jeden Eintrag an einenfreien Arbeitsprozeß und empfängt das Ergebnis eines Paarvergleichs. Abb. B zeigt eine einfaches Aufteilen derDatenbank in Abhängigkeit der vorhandenen Prozesse, was jedoch zu einer sehr inhomogenen Arbeitsverteilungauf die Arbeitsprozesse führen kann. In Abb. C ist die wahrscheinlich sinnvollste Aufteilung gezeigt. Hierbeisendet ein Prozeß lediglich eine Arbeitsanweisung an einen freien Arbeitsprozess. Dieser liest danach selbständigden ihm zugewiesenen Teil der Datenbank ein und bearbeitet alle Paarvergleiche. In der Praxis führt dieseVorgehensweise jedoch zu Problemen, da dies ein paralleles Lesen einer einzigen Datei erfordert, was aufeinigen Maschinen nicht unterstützt bzw. nicht fehlerfrei funktioniert. In dieser Arbeit wurde daher die in Abb. Dgezeigte Variante implementiert, bei der die Datenbank vorher in viele kleinere Dateien aufgespalten wird unddanach die gleiche Logik wie in Abb. C angewandt wird.

62

Um dieses Problem zu umgehen, wurde die in Abb. 19 D skizzierte Methode entwickelt.Hierbei wird die Datenbank zuerst in viele kleinere physikalisch getrennte Dateienaufgespalten und jeder Prozeß arbeitet unabhängig von anderen Prozessen an einembestimmten Teil der Datenbank, womit eine sehr grobe Parallelität erreicht wird.Um den Datenumfang der einzelnen Dateien möglichst gering zu halten, werden nur die fürden Sequenzvergleich relevanten Daten, wie Identifizierungsschlüssel, eine kurzeProteinbeschreibung und die eigentliche Proteinsequenz, extrahiert. Diese Daten werden in einunformatiertes (binäres) Dateiformat geschrieben. Dieser Vorgang muß für jede Datenbankund für jede neue Version einmal geschehen, dauert aber in der Regel wenige MinutenRechenzeit. Eine Datenbank mit 30000 Einträgen kann so z.B. in 300 binäre Dateienaufgespaltet werden, wobei dann in jeder Datei 100 Sequenzen mit jeweils 2 Einträge (einerfür die Angaben über die Proteinsequenz, und der zweite mit der entsprechenden Sequenz)gespeichert sind. Gleichzeitig wird durch diese grobkörnige Aufteilung eine relative geringeInterprozessorkommunikation notwendig. Als großer Nachteil bleibt allerdings der bei dieserAnwendung bekannte Engpaß der Ein- und Ausgabe bestehen.

3.4.4.2. Aufspaltung der Prozesse in Arbeitsgruppen

Ein weiteres Problem, das bei einem benutzten Rechnertyp (Parsytec GCel) auftrat, aber auchauf anderen Rechnern besteht, ist die Restriktion auf maximal 64 geöffnete Dateien für dieGesamtheit aller Prozesse. Da bereits 3 Dateizeiger (Standardeingabe, Standardausgabe undStandardfehler) vom System belegt werden, sind lediglich 61 freie Dateizeiger für dieeigentliche Anwendung verfügbar. Da in der oben beschriebenen Methode jeder Prozeß eineEin- und eine Ausgabedatei hat, könnten nur 30 Prozessoren benutzt werden. Um dieseRestriktion zu umgehen, wurde die in Abb. 20 skizzierte Methode entwickelt. Dabei werdeneine Anzahl von Arbeitsprozessoren zu Arbeitsgruppen zusammengefaßt, wobei in jederGruppe ein Prozessor für die Ein- und ein Prozessor für die Ausgabe ("Input / Output node")reserviert werden. Der Host-Prozessor sendet hierbei einen Zeiger für eine zu bearbeitendeDatei an einen freien Einleseprozeß. Dieser Prozeß liest jeweils eine Sequenz aus der Dateiund sendet sie an einen freien Arbeitsprozeß in seiner Arbeitsgruppe. Nach Berechnung desAlignments wird das Ergebnis an den Ausgabeprozeß dieser Gruppe geschickt, der dasResultat in eine Datei schreibt. Die Größe der Arbeitsgruppen wird jeweils dynamisch an dieAnzahl der verwendeten Prozessoren angepaßt. Bei der Verwendung von 1024 Prozessorenergibt sich etwa eine Aufspaltung in 20 Arbeitsgruppen mit jeweils 50 Prozessoren.

63

Abb. 20: Aufteilung eines massiv parallelen Rechners in Arbeitsgruppen, wenn die Gesamtzahl der simultangeöffneten Dateien beschränkt ist. Gezeigt ist der Vorrechner ("front end"), der das Plattensystem beherbergt,und der eigentliche Parallelrechner als grauer Kasten. Die Prozessoren des Parallelrechners werden inArbeitsgruppen unterteilt, in denen je ein Prozessor für das Lesen der Datenbank und ein Prozessor für dasSchreiben der Resultate verantwortlich ist ("output / input node"). Alle anderen Prozessoren ("worker") in einerArbeitsgruppe führen die eigentlichen Paarvergleiche zwischen der Suchsequenz und den Datenbanksequenzendurch. Arbeitsprozesse besitzen keine Verbindung zum Ein-/Ausgabesystem des Rechners. DerVerwaltungsprozessor ("host processor") ist verantwortlich für die Synchronisation und Arbeitsverteilung. DieGröße und Anzahl der Arbeitsgruppen wird dynamisch an die zur Verfügung stehende Zahl der Prozessorenangepaßt.

64

3.4.4.3. Initiation der Prozessoren und Verteilung der Arbeit

Der Host-Prozessor liest alle relevanten Eingaben des Benutzers, wie die Suchsequenz, dieAlignmentparameter und den gewünschten Homologieschwellenwert (Abb. 21). Dieangeforderte Anzahl von Arbeitsprozessen wird danach initiiert. Nach dem Senden derSuchsequenz und aller notwendigen Parameter an alle Arbeitsprozesse, wartet der Host-Prozessor auf ein "Fertig-Signal" eines der Arbeitsprozesse. Daraufhin sendet der Host-Prozessor einen Dateizeiger ("file pointer") an den Arbeitsprozessor, der anschließend dieentsprechende Datei öffnet und ohne weitere Kommunikation unabhängig von anderenProzessen bearbeitet. Jeder Arbeitsprozeß berechnet alle paarweisen Sequenzvergleichezwischen der Suchsequenz und den Proteinsequenzen in der ihm zugewiesenen Datei. Dabeiwerden die Alignments, die oberhalb der spezifizierten Homologieschwelle liegen, in einelokale binäre Zwischendatei geschrieben. Alle Daten, die für die endgültige Sortierungnotwendig sind, wie der Alignmentwert und der Dateizeiger für die Datei, in den dasAlignment gespeichert wurde, werden im lokalen Speicher des Arbeitsprozessors gehalten.Sobald ein Arbeitsprozeß ein "Fertig-Signal" an den Host-Prozessor sendet, empfängt er vondiesem einen neuen Dateizeiger, bis alle Teile der Datenbank bearbeitet sind. Im obengenannten Beispiel mit 300 kleinen Dateien sind für die eigentliche Datenbanksuche lediglich300 Anweisungen zur Interprozessorkommunikation notwendig. Jeder dieserKommunikationsbefehle besteht hierbei aus dem Versenden und Empfangen einer Integerzahlfür den Dateizeiger. Da die Anzahl der Dateien durch die Anzahl der Sequenzeinträgen ineiner Datei bestimmt wird, kann man diese der auf einem jeweiligen Parallelrechnerverfügbaren Anzahl von Prozessoren anpassen. Hierbei sollte die Zahl der Dateien deutlichgrößer als die Anzahl der Prozessoren sein, wodurch man einen sehr einfachen, wenn auchgroben, Weg zur optimalen Arbeitsauslastung der Prozessoren erreicht ("load balancing").

65

start host processand activate node processes,get user user input: search sequence,alignment parameters....

node process start

send search sequence and alignmentparameters to all node processes

receive idle signal from worker

send one filepointer to idle node

receive search sequence andalignment parameters

send idle signal to host

receive database filepointer or" no more alignments to do"

databasepointerreceived ? open database file

read one sequence fromdatabase file and do thesequence comparison;store result in local binaryfile, and keep sort pointerin local memory

all sequencesprocessed ?

moredatabasefiles ?

send "no more alignments to do"to idle node process

receive sort pointer from nodeand sort hits

heterogenousenvironment ?

send sort pointers to host

read alignments fromfiles generated by thenodes processes

send requests foralignment and receivedata from node

send stop signal to node andwrite final output

STOP

receive request, read from localfile and send data to host

wait for STOP signal

STOP

heterogenousenvironment ?No Yes

Yes

Yes

Yes

Yes

No

No

No

No

Abb. 21: Logisches Ablaufdiagramm der Datenbanksuche auf parallelen Rechnern. Es ist jeweils die notwendigeInterprozessorkommunikation zwischen Verwaltungs- und Arbeitsprozessen, sowie die resultierende Aktiongezeigt. Eine detaillierte Erklärung ist im Text gegeben.

66

3.4.4.4. Einsammeln der Daten und Terminierung der Prozesse

Nachdem die gesamte Datenbank bearbeitet wurde, sendet jeder Arbeitsprozeß die Daten, diefür die globale Sortierung der Treffer notwendig sind, an den Host-Prozeß. Nach Sortierungder einzelnen Ergebnisse liest der Host-Prozeß ohne weitere Kommunikation mit denArbeitsprozessen die besten Treffer aus den entsprechenden Ergebnisdateien derArbeitsprozesse. Eine Variante dieser Prozedur wurde für Situationen entwickelt, in denen dieArbeitsprozesse auf Rechnern laufen, die entweder nicht dem gleichen Dateisystem oder nichtvom selben Maschinentyp sind, und damit unterschiedliche binäre Dateiformate besitzenkönnen. Dies wird möglich, da einige der "message passing" Bibliotheken, wie z.B. PVM(Sunderam, 1990), eine Kommunikation zwischen unterschiedlichen Maschinen und überweite Netzwerke erlauben. In dieser Variante fordert der Host-Prozeß die Daten einesAlignments vom Arbeitsprozeß an, der das jeweilige Alignment bearbeitet hat. Derentsprechende Arbeitsprozeß liest die Daten aus "seiner" lokalen Datei und sendet sie an denHost-Prozeß. Nachdem alle Treffer eingesammelt worden sind, sendet der Host-Prozeß einStopsignal an alle Arbeitsprozesse und schreibt das endgültige Ergebnis in eine Datei.

3.4.4.5. Portabilität durch generischen Unterprogramme für "message passing"

Um das Programm portabel und unabhängig von unterschiedlichen "message passing"Bibliotheken zu machen, wurde eine generische Bibliothek von Unterprogrammen entwickelt.Diese Programmbibliothek erlaubt eine Interprozessorkommunikation der Art "warte auf eineNachricht" oder "sende/empfange Daten von einem anderen Prozeß". Das Hauptprogrammruft dabei nur generische Routinen wie "mp_send_int4" oder "mp_receive_int4" auf. Für jedesverwendete "message passing" Modell wurde eine eigene Bibliothek geschrieben, welche diegenerischen Aufrufe in das jeweilige Format übersetzt. Welches Programmiermodell zumEinsatz kommt, wird dabei während der Übersetzungsphase ("compilation") des Programmsentschieden. Auf diesem Weg wurden Adaptierungen für folgende Modelle entwickelt: PVM2.4, P4, Express 3.2, PARIX und für die INTEL iPSC/860 FORTRAN NX-Bibliothek(Parasoft Corporation, 1990, Sunderam, 1990, Intel Corporation, 1991, Parsytec, 1992).Als Beispiel für die Verwendung der generischen Unterprogrammaufrufe ist im Folgenden dieVersendung eines Feldes mit 100 Integervariablen (4-byte Zahlen) an einen anderen Prozeß(Node_ID) gezeigt. Das Programm ruft dabei das folgende Unterprogramm auf:

Ndata=100call mp_send_int4 ( Message_ID, Node_ID, Integer_Array, Ndata )

Abhängig von der verwendeten Zielmaschine und dem gewünschten "message passing"Modell wird der Aufruf "mp_send_int4" durch die folgenden Aufrufe ersetzt:

PVM 2.4: call fputnint ( Integer_Array, Ndata, Info)call fsnd ( "Receiver_Process_Name", Node_ID, Message_ID, Info )

P4: Nbyte=Ndata*4call p4sendx (Message_ID, Node_ID, Integer_Array, Nbyte, p4int, Info )

Express 3.2: Nbyte=Ndata*4Info = kxwrite ( Integer_Array, Nbyte, Node_ID, Message_ID )

Parix 1.0: Nbyte=Ndata*4

67

Info= send ( Message_ID, Node_ID, Integer_Array, Nbyte )

iPSC/860: Nbyte=Ndata*4call csend( Message_ID, Integer_Array, Nbyte, Node_ID, 0 )

Hierbei verlangen die meisten Modelle eine Angabe über die Anzahl der Bytes, die versendetwerden, während PVM (in der Version 2.4) die Anzahl der Daten des betreffenden Typsverlangt. Der Rückgabewert ("Info") kann in den meisten Systemen zur Detektion von Fehlernverwendet werden. Das Programm benötigt lediglich die grundlegendenKommunikationsbefehle und kann daher relativ einfach und schnell auf andere Systemeangepaßt werden.

3.4.5. Ergebnisse

3.4.5.1. Laufzeit und Geschwindigkeitszuwachs

Die Leistung von Parallelrechnern kann auf verschiedenen Wegen gemessen werden. Daseinfachste Kriterium ist die Geschwindigkeit mit der ein Programm ausgeführt wird, d.h. wielange dauert es um eine Datenbanksuche zu beenden ? In Abb. 22 a und b sind die Laufzeiten("run time") und der daraus resultierende Geschwindigkeitszuwachs ("Speed-up") einerDatenbanksuche mit der Sequenz des Myoglobins mit 156 Aminosäureresten gezeigt. DieMessung der Laufzeit schließt die Initialisierung des Rechners, die eigentlicheDatenbanksuche, sowie die Sortierung der Ergebnisse und das Schreiben der Ausgabedateiein. Die Laufzeit kann von einigen Stunden bei serieller Bearbeitung auf Arbeitsplatzrechnernauf einige Minuten reduziert werden. Der Geschwindigkeitszuwachs auf einem SGI-Rechnerbei Verwendung von 8 Prozessoren beträgt 6,4 (die Laufzeit reduzierte sich von 117,5Minuten auf 18,3 Minuten). Die kürzesten Laufzeiten für diese Datenbanksuche wurden aufdem Intel Touchstone Rechner erreicht und betrugen 60 Sekunden (225 Prozessoren,Geschwindigkeitszuwachs: 118), bzw. 249 Sekunden (512 Prozessoren,Geschwindigkeitszuwachs: 276). Bei der Verwendung höherer Prozessorzahlen kann keineweitere Laufzeitverringerung erzielt werden; es kommt wieder zu einem geringen Anstieg derAusführungszeit. Dieser letzte Umstand ist auf den steigenden Verwaltungsaufwand, wieInitialisierung und Versenden der Suchsequenz an alle Arbeitsprozesse, bei großenProzessorenzahlen zurückzuführen. Ein ähnliches Laufzeitverhalten ist für kürzere Sequenzenzu sehen. In Abb. 22 (d) und (e) sind Laufzeit und Geschwindigkeitszuwachs für die Sequenzdes Crambins mit 46 Aminosäureresten gezeigt. Die Ausführungszeiten sind aufgrund der sehrviel kleineren Problemgröße wie erwartet sehr viel kürzer. Beim Vergleich derGeschwindigkeitszunahme ist allerdings zu erkennen, daß das Sättigungsverhalten schon beikleineren Prozessorenzahlen einsetzt. Aufgrund des schlechteren Verhältnisses voneigentlichem Sequenzvergleich (Rechenzeit) und Ein- und Ausgabeoperationen kommt es hierzu einem starken Abweichen vom theoretisch erreichbaren Geschwindigkeitszuwachs.

3.4.5.2. Effizienz

In Abb. 22 (c) und (f) ist die erreichte Effizienz für die beiden Datenbanksuchen (Myoglobinund Crambin) angegeben. Für Myoglobin ergibt sich außer für den Rechner Alliant FX2800mit 8 Prozessoren, bei der Verwendung von weniger als 64 Prozessoren, eine Effizienz, diebesser als 0,8 ist. Mit steigender Prozessorzahl nimmt die Effizienz stetig ab, bis zu 0,18 aufdem Parsytec Rechner mit 1024 Prozessoren, bzw. 0,34 für den Intel Touchstone Rechner. Für

68

das Beispiel Crambin ist der Effizienzverlust stärker, was wiederum auf die kleinereProblemgröße und dem damit verbundenen größeren Anteil des sequentiellen Teils desProgramms zurückzuführen ist.

69

a)

0

2000

4000

6000

8000

10000

12000

14000

1 10 100 1000

Parsytec GCelIntel Touchstone Delta

SGI 480Alliant FX2800/16

8 SGI + 4 SPARC4 SPARC

run

time

in se

cond

s

number of processors

Myoglobin (4MBN), 1024 processors

b)

1

10

100

1000

1 10 100 1000

GCel speed upDelta speed upSGI speed upFX2800 speed upideal speedup

spee

d up


Myoglobin (4MBN). 1024 processors

70

c)

0

0.2

0.4

0.6

0.8

1

1 10 100 1000

GCel efficiencyDelta efficiencySGI efficiencyFX2800 efficiency

effic

ienc

y



d)

0

1000

2000

3000

4000

5000

1 10 100 1000


SGI 4D/480Alliant FX2800

run

time

in se

cond

s


Crambin (1CRN), 512 processors

71

e)

1

10

100

1 10 100

Parsytec GCel Intel Touchstone Delta


ideal speed up

spee

d up



f)

0

0.2

0.4

0.6

0.8

1

1 10 100



effic

ienc

y



Abb. 22 a - f. Laufzeit ("run time"), Geschwindigkeitszuwachs ("speed up") und Effizienz ("efficiency")derparallelen Datenbanksuche für die Proteine Myoglobin und Crambin. Die maximale Anzahl an Prozessorenbetrug 1024 für das Myoglobins und 512 für das Crambin.

72

3.4.5.3. Lastverteilung

Ein wichtiges Merkmal für den Erfolg einer Parallelisierung eines Programms ist die erreichteLastverteilung ("load balancing") auf die Arbeitsprozesse. Das Ziel ist dabei eine möglichsthomogene Arbeitsverteilung auf die Arbeitsprozessoren, damit die Laufzeit des Gesamtprozeßnur unwesentlich länger ist als der jeweils langsamste Einzelprozeß. In Abb. 23 a - d istjeweils die Anzahl an bearbeiteten Sequenzvergleichen bei unterschiedlichenProzessorenzahlen für die Suche mit der Sequenz des Myoglobin bzw. des Crambins aufeinem Parsytec GCel Rechner gezeigt. Bei Verwendung einer relativ kleinen Anzahl vonProzessoren (etwa 128) erreicht man eine sehr homogene Verteilung auf die Arbeitsprozesse.Dies wird jedoch mit steigender Prozessorzahl (512 und 1024 Prozessoren) immer schlechter.Wenn die Problemgröße relativ klein ist, wie im Falle des Crambins mit nur 46 Aminosäuren,tritt eine starke Ungleichverteilung schon bei kleineren Prozessorzahlen auf (d). DieseInhomogenität der Arbeitsauslastung, die im Falle von Crambin dazu führt, daß einigeProzessoren keine Sequenzvergleiche durchführen, ist auf die begrenzte Kapazität des Ein-Ausgabesystems zurückzuführen. Dabei sind Rechenzeiten für die jeweils zu bearbeitendenpaarweisen Sequenzvergleiche im Vergleich zur notwendigen Einlesegeschwindigkeit relativkurz. Dies führt dazu, daß ein Arbeitsprozeß bereits eine neue Sequenz vom Einleseprozeßanfordert, obwohl noch nicht alle Prozesse in der jeweiligen Arbeitsgruppe eineVergleichssequenz erhalten haben. Je kleiner dabei die Problemgröße ist, umso früher, d.h. beikleineren Prozessorzahlen, tritt dieser Effekt auf. Dies zeigt sehr deutlich die Notwendigkeitfür sehr schnelle Ein-Ausgabesysteme bei dieser Art der Anwendung. Bei heutigen massiv-parallelen Rechnern ist dies zum Großteil noch nicht gegeben und befindet sich noch in derEntwicklungsphase, und es ist in der Praxis deshalb sinnvoll die Anzahl der angefordertenProzessoren an die Problemgröße anzupassen.

a)

100

150

200

250

300

0 10 20 30 40 50 60 70 80 90 100 110 120

num

ber o

f seq

uenc

es p

roce

ssed

processor number


73

b)

0

10

20

30

40

50

60

70

80

0 60 120 180 240 300 360 420 480

num

ber o

f seq

uenc

es p

roce

ssed

processor number


c)

0

10

20

30

40

50

60

0 100 200 300 400 500 600 700 800 900 1000

num

ber o

f seq

uenc

es p

roce

ssed

processor number


74

d)

0

50

100

150

200

0 60 120 180 240 300 360 420 480

num

ber o

f seq

uenc

es p

roce

ssed

processor number


Abb. 23 a - d: Arbeitsauslastung der Prozessoren. Gezeigt sind jeweils die Anzahl der paarweisen Alignments("number of sequences processed"), die jeweils von einem bestimmten Prozessor bearbeitet wurden. Es sind dieErgebnisse für die Suche des Myoglobins (156 Aminosäurereste) bei Verwendung von 128, 512 und 1024Prozessoren und für die Suche mit der Sequenz des Crambins (46 Aminosäurereste) bei Verwendung von 512Prozessoren gezeigt. Die Datenbanksuchen wurden auf dem Parsytec GCel Rechner durchgeführt, auf demProzessoren jeweils in Arbeitsgruppen zusammengefaßt sind. Es ist deutlich zu erkennen, daß es bei hohenProzessorzahlen zu einer inhomogenen Arbeitsauslastung zwischen den Prozessoren kommt. Im Falle vonCrambin können die paarweisen Alignments aufgrund des kleinen Rechenaufwandes relativ schnell bearbeitetwerden. Dies führt dazu, daß beim Abfragen des Arbeitszustandes, Prozessoren bereits ein "Fertigsignal" sendenkönnen, obwohl noch nicht alle Prozessoren in der jeweiligen Arbeitsgruppe eine Sequenz zum Bearbeitenerhalten haben.

3.4.5.4. Übergang von Rechenzeit-gebundener zur Ein/Ausgabe-gebundenerAusführungszeit

Wie bereits von anderen gezeigt (Miller et al., 1991, Miller et al., 1992), ist die starkeAbnahme im Geschwindigkeitszuwachs in Datenbanksuchen bei der Verwendung größererProzessorzahlen auf den immer stärker werdenden Anteil von Ein/Ausgabe-Operationenzurückzuführen. Je schneller dabei der benutzte Prozessor ist, desto schneller muß der Zugriffauf die Plattenspeicher sein, um die Arbeitsprozesse mit neuen Vergleichssequenzen zuversorgen. Da die hier benutzte Parsytec Maschine den im Vergleich zu den anderen Rechnernlangsamsten Prozessor (Transputer T805) besitzt, tritt der starke Abfall in der Effizienz hiererst bei großen Prozessorzahlen auf (> 256). Die Fluktuation der Effizienz auf dem IntelRechner ist wahrscheinlich auf eine gleichzeitige starke Plattennutzung durch andere Benutzerzu erklären.

75

Es ist damit klar zu sehen, daß die sich die Ausführungszeit von einer rechenzeit-gebundenemin eine Ein/Ausgabe-gebundene Abhängigkeit ändert. Je nach Problemgröße kann eineoptimale Anzahl an Prozessoren benutzt werden, so daß eine Ausführungszeit im Bereichweniger Minuten erreicht werden kann.

3.4.5.5. Möglichkeiten zur weiteren Leistungssteigerung

In dieser Arbeit wurden keine system-spezifischen Optimierungen, wie etwa die Ausnutzungdes parallelen Plattensystems des Intel Rechners oder nicht blockierende Schreib- undLesezugriffe benutzt, so daß davon ausgegangen werden kann, daß eine weitereLeistungssteigerung erreicht werden kann.Da damit zu rechnen ist, daß in naher Zukunft zumindest die spezialisierten Parallelrechnerüber ein zuverlässiges paralleles Ein/Ausgabesystem verfügen werden, besteht dieMöglichkeit, den Vorprozessierungsschritt zum Aufspalten der Datenbank zu umgehen. Dabeikönnte die Originaldatei der Sequenzdatenbank verwendet werden, und es wäre lediglich dasVersenden eines Dateipositionszeigers an freie Arbeitsprozesse notwendig.Wenn viele Sequenzen gegen eine Datenbank durchsucht werden, wie dies für eine neueVersion der HSSP-Datenbank notwendig ist (siehe Kapitel 3.5), kann der Flaschenhals derEin/Ausgabe durch andere Varianten umgangen werden. Hierbei ist zum Beispiel einesogenannte "warm start-Strategie" möglich, bei der die Teile einer Datenbank, die von einemArbeitsprozeß bearbeitet werden, in dessen lokalem Speicher verbleiben. Diese Teile müßtendemnach nur beim ersten Datenbankvergleich geladen werden und könnten danach ohneweiteres Einlesen vom Plattenspeicher, für den nächsten Vergleich verwendet werden. Dieswürde allerdings einen größeren lokalen Speicher für jeden Prozessor notwendig machen. Inder in dieser Arbeit benutzten Maschinen, mit teilweise nur 4 MByte an lokalem Speicher, wardies nicht möglich. Mit dem Aufkommen neuerer Rechnersysteme ist allerdings damit zurechnen, daß diese Strategie zu einer deutlichen Leistungssteigerung führen wird.

3.4.6. Zusammenfassung

Das in dieser Arbeit parallelisierte Programm ist durch die Verwendung der generischenUnterprogrammbibliothek für das "message passing" sehr portabel und wurde auf einer Reiheverschiedener Rechnersysteme angepaßt und getestet. Dabei reicht das Spektrum von"normalen" Arbeitsplatzrechnern über heteroge Netzwerke aus Arbeitsplatzrechnern bis zumassiv parallelen Höchstleistungsrechnern. Die Anzahl der verwendeten Prozessoren kanndabei der jeweiligen Problemgröße angepaßt werden. Durch den Einsatz von tausenden vonProzessoren kann eine Laufzeit im Bereich weniger Minuten auch für große Probleme (langeSequenzen) gewährleistet werden. Diese Laufzeiten sind damit mit den bisher schnellstenProgrammen auf SIMD-Rechnern vergleichbar. Der im Kapitel 3.3 beschriebene Algorithmuszum multiplen Sequenzvergleich und die Möglichkeit der Profilsuche wird derzeit ebenfallsauf Parallelrechner angepaßt und bietet damit die Möglichkeit, die derzeit sensitivstenDatenbanksuchmethoden in einer interaktiven Arbeitsweise einzusetzen.Das Programm wird für die Produktion der HSSP-Datenbank (siehe Kapitel 3.5) eingesetztwerden, wodurch sich der Rechenzeitbedarf, ausgehend von den oben beschriebenenErgebnissen, von derzeit circa 4 Wochen auf 1-2 Tage, bei der Verwendung von 128Prozessoren, reduzieren wird.

76

Die derzeit verfügbaren parallelen Höchstleistungsrechner sind noch in einer mehr oderweniger ausgeprägten Prototypphase, was sowohl Handhabung und Programmierung zu einemteilweisen zeitaufwendigen Prozeß werden läßt. Dieser Umstand wird sich in den nächstenJahren mit Sicherheit ändern, so daß auch mit Aufkommen neuer Sprachen wie Fortran 90,High Performance Fortran (HPF) und einer Standardisierung für das "message passing" (MPI-Standard, "message passing interface") , Parallelrechner eine immer größere Rolle in derAnalyse von Sequenzdaten spielen werden. Mit dem Aufkommen vonHochgeschwindigkeitsnetzen mit Übertragungsraten von mehreren GigaBits pro Sekundewerden sich wahrscheinlich einige spezialisierte Rechenzentren bilden, die die enormenRechenleistungen für den Endbenutzer zur Verfügung stellen werden. Damit wird es möglichwerden, daß jeder Benutzer die besten und sensitivsten Suchprogramme einsetzten kann.

77

3.5. Datenbank für Proteinfamilien HSSP Datenbank

3.5.1. Methode

Nach Festlegung des längenabhängigen Homologieschwellenwertes kann ein Verschmelzender Proteinsequenzdatenbank mit der 3D-Stukturdatenbank erfolgen, indem in einervollständigen Suche für jedes Protein mit bekannter Struktur alle sequenzähnlichen Proteineoder Fragmente aus der Proteinsequenzdatenbank herausgefiltert werden und in einerspeziellen Datenbank für homologie-abgeleitete Strukturen abgelegt werden (HSSP,"homology-derived (secondary) structures of proteins").

Dabei wird jede Sequenz, deren 3D-Struktur bekannt ist, das heißt jeder Eintrag in derProteinstrukturdatenbank (PDB), gegen die gesamte Proteindatenbank (SwissProt) verglichen.Alle Alignments, die über dem empirisch festgelegten Homologieschwellenwert liegen unddamit eine homologe Struktur besitzen, werden in einer Ausgabedatei zu einem multiplenProteinsequenzalignment zusammengefaßt.

Da zur Zeit noch keine massiv-parallele Maschine für Produktionszwecke bereitsteht (sieheKapitel 3.4), wird zur Reduktion der Rechenzeit eine Vorselektion der verwandten Sequenzenvorgenommen. Dies geschieht durch eine schnelle Datenbanksuche mit Hilfe des ProgrammsFASTA (Pearson & Lipman, 1988), auf dessen Ausgabedatei ein herabgesetzterHomologieschwellenwert angewandt wird. Diese Aussortierung möglicher Treffer geschiehtmit dem Programm FILTER_FASTA (siehe Kapitel 3.2). Die daraus resultierende Listemöglicher verwandter Sequenzen wird gegen das betreffende Testprotein (bekannte 3D-Struktur) mit Hilfe des hierarchischen Cluster-Alignment-Algorithmus (siehe Kapitel 3.3)verglichen. Nach Anwendung des originalen Homologieschwellenwertes wird eineAusgabedatei (HSSP-Datei) in Form eines multiplen Sequenzalignment geschrieben (Abb.24).

3.5.1.1. Schematischer Ablaufplan zur Erstellung einer HSSP-Datei

• schnelle Datenbanksuche mit der Suchsequenz (PDB-Protein) durch das ProgrammFASTA (Pearson & Lipman, 1988)

• Aussortieren aller potentiellen Treffer mit herabgesetzter Signifikanzschwelle• Erstellen eines multiplen Sequenzvergleichs mit Hilfe des hierarchischen Cluster-

Alignment-Algorithmus zwischen Testsequenz und Liste möglicher Treffer• Aussortierung aller Sequenzen, die unterhalb des Homologieschwellenwertes liegen• Ausgabe des multiplen Sequenzvergleichs in eine Datei mit definiertem Format

Diese Schritte werden für jede Sequenz der PDB-Datenbank vorgenommen. Mit der Freigabeeiner neuen Version der PDB-Datenbank oder der Proteinsequenzdatenbank (SwissProt)werden entsprechend die HSSP-Dateien aktualisiert.

Es ist geplant, die Vorselektion potentieller Treffer mit Hilfe von schnellen(approximierenden) Datenbanksuchprogrammen zu überspringen, sobald ausreichendRechenkapazität für Produktionszwecke auf parallelen Rechnern zur Verfügung steht.

78

3.5.1.2. Definition der positionsabhängigen Variabilität

Die in der Praxis wohl wichtigste Information, die aus einem multiplen Sequenzalignmentabgeleitet werden kann, ist, welche Positionen (Aminosäuren) in einer Sequenz einem starkenSelektionsdruck (funktionell und/oder strukturell) unterliegen. Dies kann durch visuelleInspektion der aktuellen Aminosäuresymbole in einem Alignment geschehen, was beiProteinfamilien mit hunderten oder gar tausenden Mitgliedern aber sehr zeitaufwendig undschwierig ist.Um eine schnelle Identifizierung sowohl konservierter wie stark mutierender Positionen ineiner Proteinfamilie zu erlauben, wurde eine Maßeinheit für dieses Mutationsverhaltensentwickelt.Dabei wird die Dayhoff Austauschmatrix, wie sie im GCG-Programmpacket (Devereux et al.,1984) verwendet wird, zu Hilfe genommen, und für jede Position eine gewichtete Ähnlichkeitaller Aminosäurepaare berechnet. Die Konservierung ist dabei wie folgt definiert:

cons i( ) =wkl∗sim R ik , Ril( )k,l

Npairs∑

wklk ,l

Npairs∑

cons(i): Konservierungswert an der Position i in einem Alignment.Npairs: Anzahl aller möglichen Sequenzpaare (Npairs = (N(N-1) /2).k,l: Indizes für Sequenzen im Alignment.wkl: Wichtungsfaktor für eine Sequenzpaar.sim(Rik,Ril): Austauschwert für das Aminosäurepaar (Rik,Ril) an der Stelle i

in den Sequenzen k und l.

Die Variabilität an einer Position i (var(i)) wird relativ zur maximal möglichen Ähnlichkeitder Aminosäuren (sim(max)= 1.0) definiert:

var(i) = sim(max) - cons(i)

3.5.1.2.1. Wichtungsfaktor für Sequenzpaare

Bei der Definition der Variabilität wird jedes Sequenzpaar mit der Distanz dieser Sequenzenim "Sequenzraum" gewichtet. Dieses Gewicht ist als der Anteil der Nichtübereinstimmungenvon Aminosäuren eines Alignments mit der Länge L definiert:

wkl = 1 −1L

δ Rik, Ri l( )i

L∑ ,

mit δ(Rik, Ril) = 1, wenn Rik = Ril, undδ(Rik, Ril) =0 , wenn Rik ≠ Ril ist

Die Wichtungsfaktoren für Sequenzpaare sind hierbei ein Weg um die Ungleichverteilung inder vorhandenen Datenbank zu korrigieren. Je ähnlicher die Sequenzen k und l sind, destokleiner sollte der Einfluß des Sequenzpaares kl auf den Durchschnitt der Proteinfamilie sein.Sehr unterschiedliche Sequenzpaare sollten ein großes Gewicht bekommen. Das

79

zugrundeliegende evolutionäre Modell für die Sequenzvariabilität nimmt dabei an, daß dieAnzahl der Mutationen, die zwischen zwei Sequenzen stattgefunden haben, proportional zurDistanz dieses Sequenzpaares ist. Die Distanz ist dabei als Anzahl der akzeptiertenPunktmutationen, ohne Berücksichtigung von Rückmutationen, definiert. Ein Nachteil dieserDefinition von Gewichten für Sequenzpaare ist allerdings, daß es unter Umständen dazukommen kann, daß eine Anhäufung von sehr ähnlichen Sequenzen zum bestimmenden Faktorin der Berechnung aller Sequenzpaare wird, obwohl die sehr ähnlichen Sequenzpaareinnerhalb der Anhäufung heruntergewichtet werden.

80

3.5.1.2.2. Entropie der Variabilität

Eine zweite Variante für die Definition der positionsabhängigen Variabilität basiert auf demKonzept der Entropie bzw. dem Informationsgehalt. Ausgehend von einer Häufigkeit fRi derAminosäure vom Typ R an der Position i gibt die Entropie S(i) ein Maß für dieGleichverteilung dieses Aminosäuretyps an.

S i( ) = − fRiR

20∑ ∗ln fRi

Es wird dabei über alle zwanzig Aminosäuretypen summiert. Wenn alle Aminosäuretypen diegleiche Häufigkeit an einer Position i haben, ergibt sich für die Entropie:

S i( ) = − 1 / 20 ∗ ln 1 / 20 = ln20R

20∑ .

Der Wertebereich der Entropie ist somit zwischen 0 ≤ s(i) ≤ ln 20 festgelegt. KleineEntropiewerte zeigen dabei eine starke Konservierung an, während große Werte eine großeVariabilität an der Position i anzeigen.Zusätzlich zur Variabilität var(i) und Entropie S(i) wird in einer HSSP-Datei ein auf 1.0normierter Entropiewert relent(i) angegeben, der wie folgt definiert ist:

relent(i) = S(i) / ln20.

3.5.2. Ergebnis

3.5.2.1. Aufbau einer HSSP-Datei

Jede HSSP-Datei, deren Namen durch den PDB-Schlüssel gegeben ist (z.B. 1PPT.HSSP fürdas Pankreas Hormon mit dem PDB-Schlüssel 1PPT), ist als sogenannte ASCII- oderTextdatei ("American Standard Code for Information Interchange") gespeichert. DieBeschränkung auf diesen einfachen Zeichensatz hat den Vorteil, daß Dateien auf sehrunkomplizierte Art und Weise über Rechnernetzwerke verteilt werden können, und derEndbenutzer keine spezielle Software benötigt, um diese Daten lesen zu können.

Eine Datei besteht aus 5 Informationsblöcken (Abb. 24), von denen lediglich der erste Block("Header") obligatorisch ist. Die Größe und Inhalt der weiteren Blöcke hängt von der Zahl dergefundenen homologen Sequenzen ab. Eine detaillierte Erklärung der verwendeten Symboleund Abkürzungen sind in der Legende zur Abb. 24 gegeben.

• Der Dateikopf ("Header-block") beinhaltet Informationen über die verwendeteSuchsequenz (bekannte 3D-Struktur), Versionsnummer der durchsuchten Datenbanken,Angaben über Parameter, die für die Errechnung des multiplen Sequenzvergleichs benutztwurden, und eine Erklärung der Kürzel und Abkürzungen in den nachfolgenden Blöcken.

81

• Die Liste der homologen Sequenzen ("Proteins-block"): In diesem Block sind Angabenüber das homologe Protein, sowie spezifische Angaben über das Alignment zwischen derSequenz mit bekannter Struktur und dem betreffenden Protein gespeichert.

• Im sogenannten "Alignments-block" ist das errechnete multiple Sequenzalignment invertikaler Form gespeichert. Da die 3D-Struktur der Suchsequenz und damit auch dessenSekundärstruktur bekannt ist, sind diese Zusatzinformationen, die der DSSP-Datenbank(Kabsch & Sander, 1983) entnommen sind, mit aufgenommen. Für jede Position ist einMaß der Variabilität an dieser Position gegeben, an die sich die Auflistung der Alignmentsanschließt.

• Im nachfolgenden Block ("Sequence Profile and Entropy") sind die positionsabhängigenHäufigkeiten für jeden Aminosäuretyp und weitere Maßeinheiten für die Mutabilität jederAlignmentposition gegeben.

• Der letzte und optionale Informationsblock listet alle Insertionen der Vergleichsproteineauf. Im Falle, daß im gesamten multiplen Sequenzalignment keine Insertionen in denVergleichsproteinen auftraten, fehlt dieser Block. Es wird grundsätzlich zwischenInsertionen in der Testsequenz (= Deletion in der Vergleichsequenz) und Insertionen in derVergleichssequenz (= Deletion in der Testsequenz) unterschieden. Eine Deletion in derVergleichsequenz wird durch das Symbol "." im Alignment gekennzeichnet. Da einEinfügen aller Insertionen der Vergleichssequenzen zu einem Aufblähen desAlignmentblocks führen würde, werden diese Sequenzstücke separat mit ihren jeweiligenPositionsangaben aufgelistet.

a)

HSSP HOMOLOGY DERIVED SECONDARY STRUCTURE OF PROTEINS , VERSION 1.0 1991PDBID 3adkDATE file generated on 6-Oct-93SEQBASE RELEASE 26.0 OF EMBL/SWISS-PROT WITH 31808 SEQUENCESPARAMETER SMIN: -0.5 SMAX: 1.0PARAMETER gap-open: 3.0 gap-elongation: 0.1PARAMETER conservation weightsPARAMETER no insertions/deletions in secondary structure allowedPARAMETER alignments sorted according to:DISTANCETHRESHOLD according to t(L)=(290.15 * L ** -0.562) + 5REFERENCE Sander C., Schneider R. : Proteins, 9:56-68 (1991).CONTACT e-mail (INTERNET) [email protected] or Sander@EMBL-

HeidelbergAVAILABLE Free academic use. Commercial users must apply for license.AVAILABLE No inclusion in other databanks without permission.HEADER TRANSFERASE(PHOSPHOTRANSFERASE)COMPND ADENYLATE KINASE (E.C.2.7.4.3)SOURCE PORCINE (SUS $SCROFA) MUSCLEAUTHOR G.E.SCHULZSEQLENGTH 194NCHAIN 1 chain(s) in 3adk data setNALIGN 24

b)

## PROTEINS : EMBL/SWISSPROT identifier and alignment statisticsNR. ID STRID %IDE %WSIM IFIR ILAS JFIR JLAS LALI NGAP LGAP LSEQ2 ACCNUM PROTEIN 1 kad1_pig 3ADK 1.00 1.00 1 194 1 194 194 0 0 194 P00571 ADENYLATE KINASE ISOENZYME1 2 kad1_bovin 0.95 0.97 1 194 1 194 194 0 0 194 P00570 ADENYLATE KINASE ISOENZYME1 3 kad1_human 0.95 0.97 1 194 1 194 194 0 0 194 P00568 ADENYLATE KINASE ISOENZYME1 4 kad1_rabit 0.94 0.96 1 194 1 194 194 0 0 194 P00569 ADENYLATE KINASE ISOENZYME1 5 kad1_chick 0.86 0.91 2 193 3 194 192 0 0 194 P05081 ADENYLATE KINASE ISOENZYME1

82

6 kad_cypca 0.75 0.83 2 194 1 193 193 0 0 193 P12115 ADENYLATE KINASE (EC2.7.4.3) 7 kad_schma 0.51 0.63 2 194 3 195 193 0 0 197 P25824 ADENYLATE KINASE (EC2.7.4.3) 8 umpk_yeast 0.46 0.56 7 190 15 200 184 2 2 204 P15700 URIDYLATE KINASE (EC2.7.4.-) 9 kcy_dicdi 0.42 0.54 4 194 2 193 189 2 5 194 P20425 CYTIDYLATE KINASE (EC2.7.4.1)10 kad_bacsu 0.39 0.49 11 194 3 216 183 2 32 217 P16304 ADENYLATE KINASE (EC2.7.4.3)11 kad_bacst 0.38 0.47 11 194 3 216 183 3 32 217 P27142 ADENYLATE KINASE (EC2.7.4.3)R12 kad_ecoli 1AKE 0.37 0.46 11 191 3 214 180 3 33 214 P05082 ADENYLATE KINASE (EC2.7.4.3)13 kad2_rat 0.36 0.42 2 192 8 228 190 3 32 238 P29410 ADENYLATE KINASE ISOENZYME214 kad_parde 0.35 0.46 11 194 4 216 181 3 35 217 P10772 ADENYLATE KINASE (EC2.7.4.3)15 kad2_bovin 0.34 0.42 3 192 11 230 189 2 32 240 P08166 ADENYLATE KINASE ISOENZYME216 kad_haein 0.32 0.43 11 191 3 214 180 3 33 214 P24323 ADENYLATE KINASE (EC2.7.4.3)17 kad2_yeast 0.32 0.38 3 178 9 218 176 4 34 225 P26364 ADENYLATE KINASE 2 (EC2.7.4.3)18 kad1_yeast 0.32 0.43 7 192 5 221 186 2 31 222 P07170 ADENYLATE KINASE CYTOSOLIC19 kad_mycca 0.32 0.38 11 192 3 213 179 4 35 213 P10251 ADENYLATE KINASE (EC2.7.4.3)20 kcy_human 0.61 0.72 7 34 2 29 28 0 0 29 P30085 POSSIBLE CYTIDYLATE KINASE21 kad_lacla 0.31 0.43 11 191 3 215 181 1 32 215 P27143 ADENYLATE KINASE (EC2.7.4.3)22 kad3_bovin 1AK3 0.31 0.40 13 192 11 213 177 3 29 226 P08760 GTP:AMP PHOSPHOTRANSFERASE23 kad3_human 0.30 0.37 1 192 1 219 189 5 39 223 P27144 GTP:AMP PHOSPHOTRANSFERASE24 kad3_rat 0.31 0.38 13 192 11 213 177 4 29 226 P29411 GTP:AMP PHOSPHOTRANSFERASE

83

c)

## ALIGNMENTS 1 - 24 SeqNo PDBNo AA STRUCTURE BP1 BP2 ACC NOCC VAR

....:....1....:....2....: 1 1 M > 0 0 75 5 0 MMMM

M 2 2 E H > + 0 0 143 9 29 EEEETAD E

A 3 3 E H > S+ 0 0 133 11 44 EEEEEDQ P P T

S 4 4 K H 4 S+ 0 0 99 12 30 KKKKKKK E E E H

K 5 5 L H >< S+ 0 0 2 12 38 LLLLLIL K H S L

L 6 6 K H 3< S+ 0 0 104 12 52 KKKKKKA S P P L

L 7 7 K T 3< S+ 0 0 181 15 27 KKKKHDKQK E K KE K

R 8 8 S S < S- 0 0 20 15 37 SATAHAAVP G G PS P

A 9 9 K - 0 0 15 14 49 KKKKKKKSN I V LI L

. 10 10 I E -a 90 0A 0 14 42 IIIIIIVVV R R RR V

. 11 11 I E -ab 91 114A 0 21 23 IIIIIVIIVLLIAIAILMIVL

. 12 12 F E -ab 92 115A 0 22 26 FFFFFFFFFVVIVIVILVMFL

V 13 13 V E +ab 93 116A 3 24 17

VVVVVVVVVLLLLLLLLLLVIIII 14 14 V E + b 0 117A 0 24 16

VVVVVVLLLMMLLLLLLILLMMLM 15 15 G E - b 0 118A 6 24 0

GGGGGGGGGGGGGGGGGGGGGGGG 16 16 G > - 0 0 0 24 37

GGGGGGGGGLLAPPPAAPAGLAPA 17 17 P T 3 S+ 0 0 23 24 0

PPPPPPPPPPPPPPPPPPPPPPPP 18 18 G T 3 S+ 0 0 2 24 0

GGGGGGGGGGGGGGGGGGGGGGGG 19 19 S S < S- 0 0 3 24 24

SSSSSSSASAAAAAAASACAASSS 20 20 G S > S+ 0 0 8 24 0

GGGGGGGGGGGGGGGGGGGGGGGG 21 21 K H > + 0 0 33 24 0

KKKKKKKKKKKKKKKKKKKKKKKK 22 22 G H > S+ 0 0 32 24 0

GGGGGGGGGGGGGGGGGGGGGGGG 23 23 T H > S+ 0 0 70 24 0

TTTTTTTTTTTTTTTTTTTTTTTT 24 24 Q H >X S+ 0 0 7 24 15

QQQQQQQQQQQQQQQQQQQQQVVG 25 25 C H 3X S+ 0 0 0 23 31

CCCCCCCCCGAAAAAATAAXASCS 26 26 E H 3X S+ 0 0 144 24 34

EEEEEEEEAEEQPRPQSPEAESQS 27 27 K H <X S+ 0 0 56 24 36

KKKKKKKKNRKFKRKFRNQRFRRR 28 28 I H X>S+ 0 0 4 24 13

IIIIIILLIIIILLLILLLIIIII 29 29 V H <5S+ 0 0 54 24 30

VVVVVVVVVVVMAIAMLQVVVTAT 30 30 Q H <5S+ 0 0 177 24 35

QQQHHEQKREAEEDKNKENEKKQK 31 31 K H <5S+ 0 0 122 24 34

KKKKKKKDDDAKNENKQRKKNHNH

84

32 32 Y T <5S- 0 0 41 24 16YYYYYYFYFYYYFRFFIFLIYFFF 33 33 G < + 0 0 41 24 30

GGGGGGHSGGGGCGCGPHNGGEGE 34 34 Y - 0 0 11 24 38

YYYYYYFFWIIIVLVIqAFYVLLL 35 35 T E -c 90 0A 28 23 48 TTTTTTNVVPPPCVCPsAI

NKQK 36 36 H E -c 91 0A 49 23 14 HHHHHHHHHHHQHQHQSHQ

HHHH 37 37 L E -c 92 0A 15 23 13 LLLLLLLLLIIILLLIILV

ILLL 38 38 S E >> -c 93 0A 24 23 10 SSSSSSSSSSSSASASSAS

SSSS 39 39 T H 3> S+ 0 0 35 23 23 TTTTTSSAATTTTTTTSTT

TSSS 40 40 G H 3> S+ 0 0 38 23 0 GGGGGGGGGGGGGGGGGGG

GGGG 41 41 D H <> S+ 0 0 86 23 4 DDDDDDDDDDDDDDDDDDD

DDHD 42 42 L H X S+ 0 0 29 23 8 LLLLLLLLLMMMMMMMIML

MLFL 43 43 L H X S+ 0 0 36 23 4 LLLLLLLLLFFLLLLFLLM

FLLL 44 44 R H X S+ 0 0 160 23 0 RRRRRRRRRRRRRRRRRRR

RRRR 45 45 A H X S+ 0 0 54 23 29 AASAAAAAQAAAAEAAQSK

ADEQ 46 46 E H >X>S+ 0 0 31 23 35 EEEEEEEEEAAAMAMAEQE

ANNN 47 47 V H 3<5S+ 0 0 42 23 29 VVVVVVVQQMMVVRVIIII

MMIM 48 48 S H 3<5S+ 0 0 101 23 44 SSSSSAQGQKKKASAKKAS

KLKL 49 49 S H <<5S- 0 0 83 23 36 SSSSSSSRSEESSSSASKL

NRAQ 50 50 G T <5 + 0 0 46 23 17 GGGGGGGaGEGGGGGGEGN

EGSG

85

d)

## SEQUENCE PROFILE AND ENTROPYSeqNo PDBNo V L I M F W Y G A P S T C H R K Q E N D NOCC NDEL NINS ENTROPY RELENTWEIGHT 1 1 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0.000 01.50 2 2 0 0 0 0 0 0 0 0 22 0 0 11 0 0 0 0 0 56 0 11 9 0 0 1.149 520.90 3 3 0 0 0 0 0 0 0 0 0 18 9 9 0 0 0 0 9 45 0 9 11 0 0 1.540 640.85 4 4 0 0 0 0 0 0 0 0 0 0 0 0 0 8 0 67 0 25 0 0 12 0 0 0.824 331.16 5 5 0 67 8 0 0 0 0 0 0 0 8 0 0 8 0 8 0 0 0 0 12 0 0 1.099 441.09 6 6 0 17 0 0 0 0 0 0 8 17 8 0 0 0 0 50 0 0 0 0 12 0 0 1.358 550.64 7 7 0 0 0 0 0 0 0 0 0 0 0 0 0 7 7 60 7 13 0 7 15 0 0 1.297 481.04 8 8 7 0 0 0 0 0 0 13 33 20 13 7 0 7 0 0 0 0 0 0 15 0 0 1.767 650.82 9 9 7 14 14 0 0 0 0 0 0 0 7 0 0 0 0 50 0 0 7 0 14 1 0 1.468 560.87 10 10 29 0 43 0 0 0 0 0 0 0 0 0 0 0 29 0 0 0 0 0 14 1 0 1.079 411.02 11 11 14 19 52 5 0 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0 21 1 0 1.301 431.15 12 12 27 9 14 5 45 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 22 0 0 1.343 451.02 13 13 42 42 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 1.028 341.19 14 14 25 50 4 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 1.152 381.19 15 15 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 0.000 01.50 16 16 0 13 0 0 0 0 0 42 25 21 0 0 0 0 0 0 0 0 0 0 24 0 0 1.298 430.79 17 17 0 0 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 24 0 0 0.000 01.50 18 18 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 0.000 01.50 19 19 0 0 0 0 0 0 0 0 46 0 50 0 4 0 0 0 0 0 0 0 24 0 0 0.837 281.05 20 20 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 0.000 01.50 21 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 100 0 0 0 0 24 0 0 0.000 01.50 22 22 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 0.000 01.50 23 23 0 0 0 0 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 24 0 0 0.000 01.50 24 24 8 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 88 0 0 0 24 0 0 0.456 151.29 25 25 0 0 0 0 0 0 0 4 39 0 9 4 43 0 0 0 0 0 0 0 23 0 0 1.214 410.95 26 26 0 0 0 0 0 0 0 0 8 13 13 0 0 0 4 0 13 50 0 0 24 0 0 1.466 490.95 27 27 0 0 0 0 13 0 0 0 0 0 0 0 0 0 29 46 4 0 8 0 24 0 0 1.316 440.87 28 28 0 33 67 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 0 0 0.637 211.27 29 29 58 4 4 8 0 0 0 0 13 0 0 8 0 0 0 0 4 0 0 0 24 0 0 1.386 461.13 30 30 0 0 0 0 0 0 0 0 4 0 0 0 0 8 4 25 21 25 8 4 24 0 0 1.831 610.85 31 31 0 0 0 0 0 0 0 0 4 0 0 0 0 8 4 46 4 4 17 13 24 0 0 1.653 550.84 32 32 0 4 8 0 38 0 46 0 0 0 0 0 0 0 4 0 0 0 0 0 24 0 0 1.197 401.17 33 33 0 0 0 0 0 0 0 63 0 4 4 0 8 8 0 0 0 8 4 0 24 0 0 1.312 441.05 34 34 13 17 17 0 13 4 29 0 4 0 0 0 0 0 0 0 4 0 0 0 24 0 1 1.874 630.90 35 35 13 0 4 0 0 0 0 0 4 17 4 26 9 0 0 9 4 0 9 0 23 0 1 2.103 700.62 36 36 0 0 0 0 0 0 0 0 0 0 4 0 0 78 0 0 17 0 0 0 23 0 0 0.632 211.29 37 37 4 70 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 23 0 0 0.739 251.27 38 38 0 0 0 0 0 0 0 0 13 0 87 0 0 0 0 0 0 0 0 0 23 0 0 0.387 131.39 39 39 0 0 0 0 0 0 0 0 9 0 26 65 0 0 0 0 0 0 0 0 23 0 0 0.842 281.08 40 40 0 0 0 0 0 0 0 100 0 0 0 0 0 0 0 0 0 0 0 0 23 0 0 0.000 01.50

86

87

e)

## INSERTION LIST AliNo IPOS JPOS Len Sequence 8 50 59 1 aGs 8 88 98 1 kHk 9 111 108 3 dFVDt 10 111 103 31 eYGKPIDYVINIEVDKDVLMERLTGRRICSVCg 11 112 104 4 iGRKLd 11 137 133 27 nCGATYHLIFHPPAKPGVCDKCGGELYQr 12 137 129 27 pSGRVYHVKFNPPKVEGKDDVTGEELTTr 12 166 185 5 kEAEAGn 13 110 116 14 dKRKEKLDSVIEFSIq 13 121 141 17 gRLIHPKSGRSYHEEFNPp 14 111 102 6 eMDQRIDa 14 121 118 26 aALVSRISGRFTHGNCGEVYGDVTKPTk 15 121 129 31 eFSIPDSLLIRRITGRLIHPQSGRSYHEEFNPp 16 137 129 27 aSGRSYHIVYNPPKVEGKDDVTGEDLIIr 16 166 185 5 aEAKAGn 17 34 41 1 qLs 17 83 91 2 lGWl 17 112 122 4 hDASLn 17 137 151 27 pSGRVYNLQYNPPKVPGLDDITGEPLTKr 18 112 111 6 qGTPLEKa 18 121 126 25 eLLVARITGRLIHPASGRSYHKIFNPp 19 109 99 4 lDLYNk 19 137 131 27 lCKASFNLETRKPKQEGLCDFDNTKLVKr 19 177 198 1 nLs 21 111 104 32 eLGIKLDAVVNIVVNPNILVDRLSGRYICRNCGa 22 109 106 26 yQIDTVINLNVPFEVIKQRLTARWIHPg 23 137 132 27 pSGRVYNLDFNPPHVHGIDDVTGEPLVQq 23 177 199 6 eTNKIWPy 24 113 110 10 tVINLNVPFEVi 24 121 128 16 rWIHPASGRVYNIEFNPp//

Abb. 24. Beispiel und Beschreibung einer HSSP-Datei.In einer HSSP-Datei ist jeweils das multiple Sequenzalignment einer Proteinfamilie gespeichert. Die 3D-Strukturdes sogenannten Testproteins ist dabei bekannt. Alle Sequenzen, die aufgrund des längenabhängigenHomologieschwellenwertes als Struktur-homolog angesehen werden können, sind dabei aus derSequenzdatenbank extrahiert und zur Sequenz des Testproteins angeordnet.Die Datei ist in 5 Blöcke unterteilt: Kopf ("Header"), Proteinliste ("Proteins"), Alignments, Sequenzprofil undInsertionsliste. Der Dateikopf ist dabei obligatorisch, während die anderen Blöcke die Sequenz mindestens eineshomologen Proteins voraussetzen. Als Blockidentifizierungszeichen ist die Zeichenfolge "##" verwendet. Eshandelt sich um eine zeilenorientierte Datei mit einer maximalen Zeilenlänge von 132 Zeichen.a) Dateikopf ("Header"):Die erste Zeile einer HSSP-Datei beinhaltet die Versionsnummer und kann als Identifizierungskennzeichen (dieersten 4 Byte ="HSSP") einer Datei benutzt werden. Die nachfolgenden Zeilen beginnen alle mit einemSchlüsselwort und haben folgende Bedeutung:

PDBID Protein Data Bank (PDB) Schlüssel des Testproteins.SEQBASE Proteinsequenzdatenbank aus der die homologen Sequenzen entnommen sindPARAMETER In diesen Zeilen sind die Parameter angegeben, die für die Alignmentprozedur verwendet

wurden. Dabei bedeuten:smin: kleinster Wert für eine Ähnlichkeitsmax: größter Wert für eine Übereinstimmunggap-open: Bestrafungswert für das Öffnen einer Lückegap-elongation: Bestrafungswert für das Verlängern einer Lücke

THRESHOLD Angabe über den verwendeten HomologieschwellenwertREFERENCE Literaturhinweis auf die Originalveröffentlichung.CONTACT/AVAILABLE Kontaktadressen und Angaben über Nutzungsrechte

88

HEADER Name des TestproteinsCOMPND Beschreibung des TestproteinsSOURCE Spezies/Gattung/Gewebe aus dem das Protein extrahiert wurde.AUTHOR Autor der Veröffentlichung in der die 3D-Struktur beschrieben ist.SEQLENGTH Länge des Testproteins in Aminosäureresten.NCHAIN Anzahl der Proteinketten im PDB-Datensatz.NALIGN Anzahl der in der Datei aufgeführten Alignments.

b) Proteinliste: Angaben über Paarvergleiche (ein Paar bezieht sich jeweils auf das Paar Testprotein undSequenz eines der Protein aus der Proteinsequenzdatenbank.

ID EMBL/SwissProt Schlüssel der homologen SequenzSTRID Im Falle, daß die 3D-Struktur eines homologen Proteins ebenfalls bekannt ist, ist hier der

entsprechende PDB-Schlüssel angegeben. Diese Angabe beruht auf dem Kreuzverweis inder SwissProt-Datei.

%IDE Prozentuale Sequenzidentität des AlignmentIFIR/ILAS Erste und letzte Position des Alignments im TestproteinJFIR/JLAS Erste und letzte Position des Alignment in der homologen SequenzLALI Länge des Alignments (ausschließlich Insertion und Deletionen)NGAP Anzahl der Lücken im AlignmentLGAP Gesamtlänge aller im Alignment enthaltenen LückenLSEQ2 Gesamtlänge der homologen ProteinsequenzACCNUM primärer Datenbankschlüssel der homologen ProteinsequenzPROTEIN Beschreibung der homologen Proteinsequenz

c) Alignment-Block. In diesem Block ist das multiple Sequenzalignment gespeichert, sowie Angaben über dieSekundärstruktur des Testproteins aus der entsprechenden DSSP-Datei. Im Beispiel sind nur die ersten 50Position gezeigt.

SeqNo Sequentielle Numerierung der RestePDBNo Numerierung in der PDB-DateiAA Aminosäure im Einbuchstaben-SchlüsselSTRUCTURE Zusammenfassung der Sekundärstrukturinformation, Wasserstoffbrückenbindungsmusterfür Helices und Turns, geometrischer Knick, Chiralität, β-Faltblatt und β-Faltblattstrang- Schlüssel.BP1, BP2 β-Brücken-PartnerVAR Variabilität (siehe Text)....:....1 "Lineal" zur Identifizierung eines Alignments entsprechend der

Numerierung im "Protein-block"

Kleinbuchstaben in der Sequenz des Testproteins markieren Cysteine, die Teil einer SS-Brücke sind. Insertionenund Deletionen in der homologen Proteinsequenz sind wie folgt markiert:

Punkte (...) Markieren eine Insertion in der homologen SequenzKleinbuchstaben Markieren den Beginn und das Ende einer Insertion im Testprotein

(z.B.: AkeV bedeutet AK[Insertion]EV)Es sind jeweils bis zu 70 Alignments in einer Zeile gespeichert. Wenn die Anzahl der Alignments (NALIGN)größer ist, wird der Alignment-Block wiederholt (1..70, 71..140 etc.).

d) Sequenz-Profil-Block. Hier sind die relativen Häufigkeiten der 20 Aminosäuren in jeder Alignmentpositiongegeben (im Beispiel sind nur die ersten 40 Positionen gezeigt). Ein Wert von 100 bedeutet hierbei, daß nur einAminosäuretyp im Alignment auftritt. Asx und Glx sind sowohl in der Amid, wie in der Säureform entsprechendihrer Häufigkeit in der SwissProt Version 12 gezählt (Asx zu Asp: 0,521, Asx zu Asn: 0,439, Glx zu Glu: 0,623,Glx zu Gln: 0,410). Für jede korrespondierende Sequenzposition sind zusätzlich folgende Angaben gespeichert:

NOCC Anzahl der Sequenzen, die an dieser Position Bestandteil des Alignments sind.NDEL Anzahl der Sequenzen, die an dieser Position eine Deletion in Bezug auf die

Testsequenz haben.

89

NINS Anzahl der Sequenzen, die an dieser Position eine Insertion in Bezug auf die Testsequenz haben.

ENTROPY Entropie für die Sequenzvariabilität (siehe Text).RELENT Relative Entropie, (normalisiert im Bereich 0-100).WEIGHT Konservierungsgewicht (siehe Text).

e) Insertions-Liste. Auflistung aller Insertionen der homologen Sequenzen. Es sind jeweils Nummer desAlignments und die Position der Insertion im Testprotein und der homologen Sequenz gespeichert.

AliNo Nummer des Alignments in der Protein-Liste.IPOS Position der Insertion im Testprotein.JPOS Position der Insertion im homologen Protein.Len Gesamtlänge der Insertion.Sequence Expandierter Sequenzabschnitt der Insertion.

3.5.2.2. Graphische Darstellung der positionsabhängigen Variabilität

Sequenzbereiche, die in der evolutionären Entwicklung konserviert bleiben, werden alsBereiche angesehen, auf denen ein besonderer Selektionsdruck liegt. Diesen Bereichen oderSequenzpositionen kann somit eine besondere Rolle für die Funktion bzw.Strukturaufrechterhaltung zugewiesen werden und sind somit besonders interessant fürdetaillierte Studien oder Mutations-Experimente. Eine einfache Identifizierung dieserBereiche ist durch die grafische Darstellung der weiter oben definierten positionsabhängigenVariabilität gegeben. Dabei können die Werte der Variabilität in einer zweidimensionalenDarstellung gegen die Aminosäuresequenz aufgetragen werden (Abb. 25a), und es kann mitHilfe von Computergrafik eine Einfärbung der dreidimensionalen Darstellung einesProteinmoleküls vorgenommen werden (Abb. 25b). In Abb. 25a ist die Variabilität dereinzelnen Positionen im multiplen Sequenzalignment für die Familie des Plastocyaninsgezeigt. Es können anhand dieser Darstellung sehr schnell Bereiche und Positionenidentifiziert werden, die in dieser Familie konserviert sind. Die mit einem Pfeil markiertenAminosäuren (Histidin, Cystein, Histidin, Methionin) sind in dieser Proteinfamilie für dieBindung eines Kupferatoms verantwortlich und sind stark konserviert. Eine entsprechendeDarstellung kann für jede HSSP-Datei in sehr einfacher Weise erstellt werden und kann auchfür Proteinfamilien vorgenommen werden, wenn keine der Sequenzen eine bekanntedreidimensionale Struktur besitzt.In Abb. 25b ist eine Einfärbung nach der Variabilität in einer schematischen Darstellung desdreidimensionalen Modells des Plastocyanins (PDB-Schlüssel: 6PCY) gezeigt. Dabei sind β-Faltblattstränge als Pfeile und das gebundene Kupferatome als Kugel dargestellt. Starkkonservierte Positionen sind rot und wenig konservierte Positionen sind blau eingefärbt. DieseArt der Darstellung kann prinzipiell mit jedem Computergrafik-Programm vorgenommenwerden und wurde z.B. als eine automatische Option in das Programm WHATIF (Vriend,1990) aufgenommen.

90

a)

0

5

10

15

20

25

30

35

40

Var

iabi

lity

Plastocyanin (6PCY)

sequence position

HisMet

His

Cys

b)

Abb. 25. Darstellung der positionsabhängigen Variabilität. Die Werte für die Variabilität wurden aus demmultiplen Sequenzalignments der Plastocyanin Proteinfamilie errechnet. In (a) ist eine grafische Auftragung derVariabilität gegen die Aminosäuresequenz des Plastocyanins gezeigt. Positionen mit einem kleinenVariabilitätswert zeigen konservierte Positionen in dieser Familie an. Die vier mit Pfeilen gekennzeichnetenAminosäuren sind für die Bindung eines Kupferatoms notwendig.

91

In (b) ist eine der Variabilität entsprechende Einfärbung in einer schematischen Darstellung der 3D-Struktur desPlastocyanins gezeigt. Konservierte Positionen sind rot, variable Positionen sind blau gefärbt. Das Kupferatomist als blaue Kugel dargestellt.

3.5.2.3. Größe der HSSP-Datenbank

Die HSSP-Datenbank wird routinemäßig auf den neuesten Stand gebracht, indem für jedeSequenz einer neuen dreidimensionalen Proteinstruktur eine gesamte Datenbanksuche nachhomologen Sequenzen durchgeführt wird. Für eine neue Version der Proteinsequenzdatenbankwerden alle Suchläufe wiederholt. In Tabelle 3 ist das Wachstum der HSSP-Datenbankangegeben. Dabei ist besonders bemerkenswert, daß es zu einer Verdoppelung der Größemitte des Jahres 1993 gekommen ist, was auf eine verstärkte Freigabe von Proteinstrukturendurch die Brookhaven Protein Datenbank zurückzuführen ist. Einhergehend mit dieser reinquantitativen Zunahme an Dateien, ist auch ein deutlicher Zuwachs des Anteils der alshomolog identifizierten Sequenzen in der SwissProt Proteindatenbank von 19,1% auf 26% zuerkennen. Dies bedeutet, daß etwa ein viertel aller in der SwissProt Datenbank gespeichertenSequenzen eine ausreichende Sequenzähnlichkeit zu einem Protein mit bekannter Strukturhaben, um für jede dieser Sequenzen ein dreidimensionales Strukturmodell erstellen zukönnen.

92

HSSPRelease(month /

year)

numberof

HSSPfiles

SwissProtentries

(Releasenumber)

totalnumber

ofalignments

number ofunique

alignments(fraction ofSwissProt)

1.0 (05/91) 488 20024 (17.0) 37715 3065 (15.3%)1.0 (02/92) 621 22654 (20.0) 43266 3498 (15.4%)1.0 (04/92)

*652 23742 (21.0) 45140

629124556 (19.2%)6746 (28.4%)

1.0 (09/92)*

736 25044 (22.0) 4978468368

4825 (19.2%)7080 (28.3%)

1.0 (02/93) 694 28154 (24.0) 54043 5370 (19.1%)1.0 (07/93)

*1361 29955 (25.0) 104837

1439447197 (24.0%)

11035 (36,8%)1.0 (10/93)

*1532 31808 (26.0) 123810

1873577642 (24.0%)12250 (38%)

1.0 (04/94)*

1959 36000 (28.0) 148175227018

9554 (26.5%)17245 (47.9%)

Tabelle 3: Wachstum der HSSP-Datenbank. Gegeben sind jeweils das Datum der Freigabe der Datenbank, dieAnzahl der Dateien, die Anzahl der Sequenzeinträge in der Proteinsequenzdatenbank (SwissProt), dieGesamtanzahl der gespeicherten Alignments in der HSSP-Datenbank, sowie die Anzahl und der Prozentsatz derSequenzen, denen eine Struktur aufgrund ihrer Sequenzähnlichkeit zu bekannten Strukturen zugewiesen werdenkann. Die Zeilen, die mit einem "*" markiert sind, geben die Größe der Datenbank bei Verwendung desoriginalen Homologieschwellenwertes an (25% Sequenzidentität für Alignments länger als 80 Reste). Alleanderen Angaben beziehen sich auf die öffentlich zugängliche Version, bei der ein um 5% höhererSchwellenwert verwendet wird.

3.5.2.4. Quervernetzung mit anderen Datenbanken

Mit der steigenden Zahl an verfügbaren Informationen, die in verschiedenen teils hochspezialisierten Datenbanken gespeichert ist, wird es immer dringender eine automatischeVernetzung der Informationen zu haben. Dabei sollte es dem Benutzer eines Systems möglichsein alle verfügbaren Informationen über ein Protein bzw. eine Proteinfamilie zu erhalten,ohne selbst alle Spezialdatenbanken zu kennen.Es besteht eine Quervernetzung der SwissProt Datenbank mit der Strukturdatenbank (PDB),indem ein Dateizeiger in der SwissProt Datenbank auf die zugehörige Datei der BrookhavenDatenbank zeigt. In Zusammenarbeit mit Amos Bairoch wurde in jeden Datenbankeintrag, fürdessen Sequenz die 3D-Struktur bekannt ist, die Sekundärstrukturzuweisung in Form einer"Feature table" aufgenommen. Diese Information wird aus den jeweiligen HSSP-Dateienextrahiert und in entsprechender Version an die SwissProt Datenbank weitergeleitet. Diesgeschieht jedoch nur wenn beide Sequenzen praktisch identisch und aus dem gleichenOrganismus sind. Es ist geplant, eine Erweiterung dieser Quervernetzung zwischenDatenbanken vorzunehmen, indem eine Homologiebeziehung angezeigt wird. Dabei wird jedeSequenz in der SwissProt Datenbank einen Verweis auf die HSSP-Datenbank erhalten, wenn

93

eine ausreichend hohe Sequenzverwandtschaft zu einem Protein mit bekannter 3D-Strukturbesteht.

3.5.2.5. Automatischer Modellbau

Da für jede Sequenz, die in einer HSSP-Datei aufgeführt ist, definitionsgemäß davonausgegangen werden kann, daß die 3D-Struktur im wesentlichen gleich zu der des jeweiligenTestproteins (PDB-Sequenz) ist, kann für diese Sequenzen ein Modellbau vorgenommenwerden. Diese Option wurde als automatische Prozedur in das Programmpacket WHATIFaufgenommen (Vriend, 1990). Dabei werden die entsprechenden Alignments aus der HSSP-Datei und die Startkoordinaten für den Modellbau aus dem jeweiligen PDB-Proteineingelesen. Entsprechend dem Alignment wird die Sequenz mit unbekannter Struktur in diebekannte Struktur eingepaßt und eine räumliche Plazierungsoptimierung der Seitenkettenvorgenommen. Das Resultat kann als Ausgangspunkt für einen verfeinerten Modellbau alsKoordinatendatei gespeichert werden. Damit ist ein routinemäßiger und zeitsparender Weg fürden automatischen Modellbau von Proteinstrukturen gegeben.

3.5.2.6. Verfügbarkeit der HSSP-Datenbank

Die HSSP-Datenbank ist über verschiedene Wege der Allgemeinheit zugänglich gemachtworden. Es wurden folgende Möglichkeiten des Bezugs eingerichtet:

• "e-mail-server"Benutzer, die lediglich über einen elektronischen Postzugang verfügen, können durch dasVerschicken einer elektronischen Nachricht in der Form "send Proteindata:1ppt.hssp" andas automatische Dienstprogramm "[email protected]" jede HSSP-Dateierhalten.

• "ftp-server"Benutzer, die einen Zugang zum Internet Rechnernetz haben, können sich mit Hilfe des ftp("file transfer protocol") auf einem Rechner am EMBL-Heidelberg ("ftp.embl-heidelberg.de") anmelden und die gewünschten Dateien kopieren.

• "CD-ROM"Zusätzlich wird ein repräsentativer Teil (Hobohm et al., 1992) der HSSP-Datenbank mitder offiziellen Datenbank CD-ROM ("compact disk read only memory") des EMBL anAbonnenten dieses Services versandt.

Der Zugang ist dabei für akademische Benutzer frei von jeglichen Gebühren. KommerzielleBenutzer, wie etwa verschiedene Pharmafirmen, entrichten eine Lizenzgebühr.

94

3.6. Präferenzparameter für Sekundärstruktur als Hilfsmittel zum Protein Design

Das Design von Proteinstrukturen, sei es durch Abändern von natürlichen Proteinen oderdurch ein kompletten Neuentwurf, ist der erste essentielle Schritt zur Entwicklung von neukonstruierten Proteinen. Die Entwürfe, die auf theoretischen und rechnergestützten Methodenbasieren, unterliegen dabei einem Zyklus von sich wiederholenden Schritten desexperimentellen Testens und Verbesserns, nicht unähnlich zu anderen Disziplinen derIngenieurswissenschaften. Der Erfolg des Proteindesigns hängt dabei sehr stark davon ab, wiegut man diesen Zyklus beherrscht, und wie gut man die Prinzipien der Proteinfaltung versteht,wofür sowohl ein Verständnis der zugrundeliegenden Gesetze der Molekularphysik notwendigist, wie auch das Wissen, das aus Struktur- und Sequenzdatenbanken extrahiert werden kann.

Die klassische Beschreibung der 3D-Struktur von Proteinen in Form von α-Helices, β-Faltblattsträngen und Loops kann dabei durch die Unterscheidung von Positionen detaillierteruntersucht werden. Dazu wird jeweils unterschieden, ob eine Aminosäure etwa am Ende, inder Mitte oder am Ende eines Segmentes plaziert ist, und ob sie für das Lösungsmittelzugänglich, oder in das Innere des Proteins gerichtet ist (Abb. 26 a und b). In einerverfeinerten statistischen Analyse können auch Aminosäurepaare oder Tripletts betrachtetwerden (Schneider, 1989).

segment

outside

buried

intermediate

(a)

(b)

1 2 3 4 5 6 7 8 9 10 11 12 13

before begin middle end after

Abb. 26 a - b. Definition der Positionen in einem Sekundärstruktursegment.

95

a) Festlegung der Position innerhalb eines Sekundärstruktursegmentes. Es werden jeweils drei Positionen aufjeder Seite des Segmentes unterschieden ("begin" "end"). Dazwischen liegende Aminosäuren werden in eineKlasse zusammengefaßt ("middle"). Die Positionen werden von 1 - 13 numeriert, wobei Position 4 das N-terminale Ende und die Position 10 das C-terminale Ende eines Segmentes bezeichnet.b) Definition der inneren, mittleren und äußeren Positionen ("buried", "intermediate", "outside"). Hierzu wird diedem Lösungsmittel zugängliche Oberfläche als Unterscheidungsmerkmal benutzt. Aminosäuren mit einer großenWasserzugänglichkeit werden als außen liegend (O: "outside"), solche mit einer mittleren Zugänglichkeit als"intermediate" (I) und alle anderen als "buried" (B) klassifiziert. Die Wasserzugänglichkeit ist dabei als dasprozentuale Verhältnis der tatsächlich gemessenen Oberfläche zur maximal möglichen Oberfläche definiert(Baumann et al., 1989). Die jeweils gewählte Einteilung hängt dabei vom jeweiligen Sekundärstrukturtyp ab undwurde mit Hilfe von Histogrammen der Wasserzugänglichkeit ermittelt (Schneider, 1989). Die benutztenEinteilungen sind wie folgt:

B I Oβ-Faltblattstrang E 0% - buried - 5% - interm. - 15% - outside - 100%loop L 0% - buried - 35% - interm. - 60% - outside - 100%α-Helix H 0% - buried - 25% - interm. - 50% - outside - 100%

Die Einteilung spiegelt die Beobachtung wider, daß die Oberflächen der Wasserzugänglichkeiten für Loops amgrößten sind, gefolgt von Helices und Faltblattsträngen.

3.6.1. Definition und Beispiele für Sequenz-Struktur Präferenzparameter

Die Datenbank der bekannten Strukturen (Abola et al., 1987) kann dazu benutzt werden,empirische Regeln für das Proteindesign abzuleiten. Um solche Regeln ableiten zu können,kann die komplexe 3D-Struktur zuerst in eine einfachere Beschreibung derStrukturcharakteristika reduziert werden. In dieser Arbeit wurde ein Hilfsmittel entwickelt,das im Rahmen des Proteindesign eingesetzt werden kann (Sander et al., 1992).Dazu wurdenstatistische Präferenzparameter für Aminosäuren in spezifischen Strukturzuständen,Positionen in Sekundärstruktursegmenten und deren Zugänglichkeit für das Lösungsmittelermittelt (Abb. 27 a - d). Die Parameter können dabei Fragen wie "Welche Aminosäure hateine Präferenz für eine Lösungsmittel exponierte Position am C-terminalen Ende einer α-Helix?" beantworten.

Die Parameter sind wie folgt definiert: In einem gegebenen Strukturzustand (S) wird derPräferenzparameter für eine Aminosäure (R) aus den Beobachtungen N(R,S) von R in Sberechnet.

pref (R,S) = ld N(R,S) * NN(R) * N(S)

mit:N(R) = N(R,S) , N(S) = N(R,S) , N = N(R,S)

R,S∑

R∑

S∑ .

Es wir jeweils der Logarithmus zur Basis 2 (ld) benutzt, wodurch die resultierenden WertePref(R,S) als Informationsgehalt in bits aufgefaßt werden können. Der Ausdruck in der Klammerist das Verhältnis der beobachten Fälle N(R,S) zur Anzahl der statistisch zu erwartendenBeobachtungen E(R,S) = N(R) * N(S) / N, unter der Annahme eines Zufallsmodells. EinVerhältnis von 2,0 (pref = 1,0) bedeutet dabei, daß die Beobachtung doppelt so häufig gemachtwurde, wie es das statistische Zufallsmodell hätte erwarten lassen. Ein Wert von pref = -1,0 zeigtan, daß die Anzahl der beobachteten Fälle halb so häufig waren wie die Erwartung.

96

Beispiel: N(Pro, Helix, erste Position)= 82, N(Pro) = 2037, N(Helix, erste Position)= 893,N(gesamt)= 52426 ergibt eine Präferenz von pref(Pro, Helix, erste Position) = 1,2.

97

(a) Präferenzparameter für Einzelreste in Sekundärstrukturtypen

S V L I M F W Y G A P S T C H R K Q E N

D E 0.6 0.4 0.6 0.5 0.5 0.1 0.3 -0.5 -0.1 -0.6 -0.1 0.2 0.0 -0.2 -0.1 -0.4 -0.1 -0.4 -0.6-0.7 L -0.4 -0.4 -0.5 -0.5 -0.3 0.0 -0.1 0.3 -0.1 0.4 0.1 0.0 -0.1 0.1 0.1 0.1 0.0 0.0 0.30.2 H 0.0 0.1 0.0 0.2 0.0 -0.2 -0.3 -0.4 0.3 -0.5 -0.2 -0.2 0.2 0.0 -0.1 0.2 0.1 0.3 -0.10.0

(b) Präferenzparameter für Einzelreste in Sekundärstruktur mit Unterscheidung nach innen/außen Positionen

S X V L I M F W Y G A P S T C H R K Q E N

D E B 1.0 0.9 1.2 0.9 0.9 0.4 0.2 -0.2 0.2 -0.9 -0.4 -0.1 0.6 -1.0 -1.4 -2.2 -1.0 -1.7 -1.6-1.8 E I 0.6 0.5 0.7 0.6 0.8 0.3 0.8 -0.4 -0.4 -0.8 -0.3 -0.1 0.0 0.3 -0.1 -0.6 -0.3 -0.7 -0.7-1.1 E O 0.0 -0.2 0.0 0.1 -0.1 -0.3 0.2 -0.8 -0.3 -0.3 0.1 0.3 -1.0 0.1 0.4 0.3 0.3 0.1 -0.1-0.2 L B 0.0 0.0 0.0 -0.1 0.2 0.3 0.3 0.3 -0.1 0.2 0.1 -0.1 0.5 0.2 -0.2 -0.6 -0.2 -0.4 0.00.0 L I -0.5 -0.6 -0.8 -0.7 -0.8 -0.4 -0.3 0.2 -0.2 0.5 0.1 0.2 -0.3 0.0 0.3 0.3 0.1 0.2 0.40.3 L O -1.0 -0.9 -1.2 -0.9 -0.9 -0.1 -0.5 0.5 -0.1 0.6 0.3 0.0 -1.4 0.0 0.2 0.4 0.1 0.3 0.50.4 H B 0.6 0.8 0.7 0.8 0.6 0.5 0.1 -0.5 0.4 -1.2 -0.4 -0.2 0.9 -0.2 -0.8 -0.8 -0.6 -0.6 -0.7-1.0 H I -0.4 -0.4 -0.6 -0.3 -0.6 -0.6 -0.1 -0.5 0.2 -0.4 -0.3 -0.3 -0.6 0.1 0.4 0.6 0.5 0.6 0.10.3 H O -0.8 -1.1 -1.4 -0.7 -1.1 -1.3 -1.1 -0.3 0.3 0.0 0.1 0.0 -1.2 0.1 0.1 0.6 0.4 0.8 0.40.6

(c) positionsabhängige Präferenzparameter für Einzelreste in Sekundärstrukturtypen

β-Faltblatt

S P V L I M F W Y G A P S T C H R K Q E N

D E 1 -0.5 -0.4 -0.5 -1.0 -0.3 -0.1 0.1 0.2 0.0 0.3 0.2 -0.2 -0.6 0.3 0.3 0.1 -0.1 0.0 0.40.3 E 2 -0.6 -0.6 -0.9 -0.5 -0.4 0.1 -0.7 0.6 -0.2 0.4 0.1 -0.2 -0.7 0.1 0.0 0.0 0.2 0.2 0.40.6 E 3 -0.5 -0.4 -0.4 0.1 0.1 0.4 0.2 0.4 -0.3 0.3 0.1 -0.2 -0.3 0.2 0.0 0.1 0.1 -0.2 0.20.1 E 4 0.2 0.1 0.5 0.6 0.4 0.0 0.4 -0.7 -0.2 -0.5 0.0 0.2 0.0 -0.1 0.0 -0.1 0.3 -0.3 -0.7-0.9 E 5 0.9 0.4 0.9 0.7 0.5 0.7 0.2 -0.9 -0.1 -0.9 -0.4 0.1 0.1 -0.5 -0.3 -0.5 -0.4 -0.5 -0.6-1.0 E 6 0.7 0.6 0.6 0.4 0.6 0.2 0.7 -0.8 0.0 -1.1 -0.2 0.1 0.3 0.2 0.3 -0.7 -0.3 -0.7 -1.1-1.6 E 7 0.4 0.3 0.6 0.4 0.2 -0.2 -0.1 -0.1 0.0 -0.7 0.0 0.2 -0.4 -0.2 -0.3 -0.3 0.0 -0.3 -0.5-0.7 E 8 0.7 0.6 0.9 0.0 0.7 -0.7 0.2 -0.2 0.2 -1.0 -0.3 0.3 0.0 -0.6 -0.5 -0.7 -0.5 -0.7 -0.8-0.9 E 9 0.7 0.5 0.7 0.6 0.5 -0.1 0.2 -0.9 -0.1 -0.8 -0.2 0.0 -0.3 -0.2 0.0 -0.4 -0.1 -0.5 -0.7-0.9 E 10 0.3 0.6 0.5 0.2 0.2 0.0 0.2 -0.4 -0.5 0.0 -0.1 0.0 0.0 -0.2 0.0 -0.4 -0.4 -0.3 -0.30.0 E 11 0.0 -0.2 -0.3 -0.7 -0.3 0.0 -0.1 0.3 0.0 0.2 0.2 0.2 -0.2 0.1 -0.1 -0.3 -0.4 -0.1 0.30.1 E 12 -0.7 -0.7 -0.6 -0.9 -0.5 0.1 -0.3 0.5 -0.1 0.5 0.3 0.2 -0.8 -0.1 0.1 0.1 0.0 0.1 0.10.3 E 13 -0.4 -0.6 -0.5 -0.5 -0.2 0.2 0.2 0.2 -0.2 0.3 0.1 0.0 -0.1 0.2 0.1 0.1 -0.1 0.2 0.00.4

Loop

98


D L 1 0.4 0.4 0.5 0.1 0.3 0.3 0.1 -0.3 0.1 -0.4 -0.2 0.0 -0.2 0.0 -0.1 -0.2 -0.3 -0.2 -0.5-0.6 L 2 0.4 0.2 0.4 0.5 0.2 -0.3 0.0 -0.7 0.0 -1.0 -0.1 0.0 0.4 -0.2 0.0 0.0 0.1 0.0 -0.3-0.5 L 3 0.1 0.4 0.2 0.0 0.2 -0.1 0.3 -0.3 -0.1 -0.7 -0.1 -0.1 0.3 0.0 -0.1 -0.1 0.0 -0.2 -0.1-0.1 L 4 -0.1 -0.1 -0.4 -0.1 -0.1 -0.1 -0.1 0.5 0.0 -0.2 0.1 0.0 0.1 0.1 0.0 -0.2 -0.3 -0.1 0.30.0 L 5 -0.5 -0.5 -0.5 -0.9 -0.4 -0.2 -0.3 0.5 0.0 0.6 0.1 0.1 -1.4 0.0 0.2 0.2 0.2 0.0 0.10.2 L 6 -0.5 -0.3 -0.6 -0.4 -0.6 0.2 0.0 0.3 -0.2 0.4 -0.1 0.0 -0.2 0.1 0.3 0.3 0.0 0.1 0.20.3 L 7 -0.3 -0.4 -0.3 -0.6 -0.4 0.1 0.1 0.1 -0.1 0.4 0.0 0.0 0.2 -0.1 0.2 0.0 0.1 0.0 0.10.2 L 8 -0.4 -0.3 -0.5 -1.5 -0.3 -0.4 -0.1 0.1 -0.2 0.5 0.1 -0.4 0.0 0.3 0.4 0.2 0.0 0.1 0.40.4 L 9 -0.4 -0.3 -0.4 -0.3 -0.3 0.3 -0.4 0.4 -0.2 0.4 0.0 -0.1 -0.1 0.0 0.1 0.1 0.0 0.0 0.20.4 L 10 -0.9 -0.5 -0.7 -0.3 -0.1 0.0 -0.1 0.3 -0.4 0.4 0.4 0.1 -0.1 0.2 -0.1 0.1 0.0 -0.1 0.50.3 L 11 0.1 0.0 0.2 0.4 0.2 0.0 0.2 -0.5 0.0 0.4 0.0 0.1 0.0 -0.2 -0.1 0.0 0.2 -0.1 -0.6-0.5 L 12 0.4 -0.1 0.3 0.2 0.0 0.2 -0.2 -0.4 0.1 -0.2 -0.1 0.0 0.1 -0.3 -0.3 -0.2 -0.1 0.3 -0.20.1 L 13 0.4 0.3 0.3 0.3 0.4 0.1 0.4 -0.5 0.0 -0.8 -0.1 -0.1 0.2 0.0 -0.2 -0.4 -0.1 0.0 -0.2-0.1

Helix


D H 1 0.0 -0.2 -0.1 0.0 0.1 -1.5 0.1 0.3 0.1 0.0 -0.1 -0.1 0.3 -0.1 -0.1 0.3 -0.1 -0.2 0.0-0.3 H 2 0.2 0.4 0.3 0.3 0.1 -0.4 -0.2 -0.1 0.2 0.2 0.0 0.2 -0.1 -0.2 -0.2 -0.2 -0.4 -0.7 -0.4-0.1 H 3 -1.7 -0.8 -1.7 -0.9 -0.9 -1.4 -0.7 0.2 -0.3 0.7 0.7 0.4 0.4 0.2 -0.2 -0.2 -0.4 -0.1 0.70.7 H 4 0.0 0.0 -0.1 -0.3 -0.2 0.1 -0.2 -0.3 0.2 1.2 0.0 -0.1 0.0 -0.5 -0.4 0.1 -0.2 0.2 -0.4-0.1 H 5 -0.6 -1.3 -1.0 -0.5 -0.8 -0.1 -1.0 0.1 0.4 0.1 0.1 0.0 0.3 -0.1 -0.4 0.0 0.1 0.8 0.20.7 H 6 0.0 -0.3 -0.4 0.4 -0.1 -0.5 0.0 -1.2 -0.1 -0.3 -0.4 -0.2 -0.7 0.0 -0.7 -0.2 0.6 1.0 0.10.8 H 7 0.2 0.4 0.3 0.5 0.1 -0.2 -0.4 -0.5 0.5 -1.8 -0.4 -0.2 0.3 -0.1 0.0 0.2 0.0 0.2 -0.2-0.4 H 8 0.2 0.6 0.5 0.5 0.0 0.2 -0.8 -0.6 0.3 -1.9 -0.5 -0.3 -0.8 0.4 0.2 0.4 -0.1 0.0 -0.2-0.5 H 9 0.1 0.3 0.2 0.6 0.1 -0.6 -0.4 -0.8 0.2 -1.0 -0.2 -0.2 0.0 0.0 -0.1 0.4 0.3 0.2 0.0-0.4 H 10 -0.3 0.1 -0.6 -0.2 0.1 -0.1 0.5 -0.3 0.3 -2.2 -0.2 -0.3 0.6 0.2 0.1 0.3 0.3 0.0 0.2-0.1 H 11 -0.4 0.2 -0.4 0.2 0.3 -0.2 0.2 0.6 -0.2 -0.9 0.0 -0.3 0.4 0.1 0.1 0.0 -0.1 -0.2 0.4-0.1 H 12 -0.6 -0.3 -0.5 -0.5 -0.3 -1.1 -0.3 0.6 0.1 0.5 0.0 -0.1 -0.4 0.0 -0.1 0.4 0.1 -0.3 0.30.0 H 13 -0.1 -0.1 -0.5 0.0 -0.6 -0.2 -0.3 0.0 -0.2 0.5 -0.2 0.1 0.0 0.1 0.0 0.4 0.1 0.0 0.20.2

99

(d) positionsabhängige Präferenzparameter für Einzelreste in Sekundärstrukturtypen mit Unterscheidung nachinnen/außen Positionen

Faltblattstrang

S X P V L I M F W Y G A P S T C H R K Q E N

DE B 1 0.2 0.7 0.5 0.0 0.8 1.0 0.2 -0.1 0.3 -2.2 0.3 -0.5 1.4 0.1 -0.2 -2.3 -0.4 -1.5 -0.7 -1.5E B 2 0.5 0.2 0.3 0.8 0.8 0.3 -0.8 0.8 0.2 0.0 -0.1 -0.6 0.1 -2.0 -1.4 -1.5 -3.6 -1.4 0.40.4E B 3 0.0 0.6 0.5 0.8 0.5 1.8 0.4 0.1 -0.3 0.7 0.1 -0.3 0.4 -0.1 -1.9 -1.8 -0.8 -1.4 -1.0 -0.5E B 4 0.2 0.5 1.2 1.0 0.9 0.5 0.3 -0.2 -0.1 -0.4 0.0 -0.1 0.9 -0.9 -1.4 -1.3 0.1 -1.3 -1.4 -2.2E B 5 1.3 0.9 1.3 1.1 0.9 0.9 0.1 -0.8 0.2 -1.8 -0.9 -0.4 0.7 -0.6 -1.8 -1.9 -1.1 -1.7 -1.7 -2.4E B 6 1.1 1.0 0.9 0.7 1.0 0.4 0.7 -0.3 0.4 -1.2 -0.5 -0.5 0.5 -0.6 -0.7 -2.4 -1.4 -2.6 -2.0 -2.5E B 7 1.0 0.9 1.1 0.7 0.8 0.3 0.0 0.2 0.2 -1.9 -0.4 0.2 0.4 -0.9 -1.3 -2.5 -0.8 -1.6 -2.4 -2.4E B 8 1.1 1.0 1.3 0.1 0.8 -1.0 -0.2 0.0 0.4 -0.7 -0.9 0.2 -0.2 -0.8 -1.1 -3.1 -1.8 -1.4 -1.4 -1.6E B 9 1.2 0.9 1.1 0.9 0.7 0.4 0.2 -0.5 0.3 -0.7 -0.4 0.1 0.4 -2.0 -1.8 -2.8 -1.0 -2.1 -1.5 -2.0E B 0 0.9 1.1 1.1 0.7 0.5 0.1 0.0 -0.2 -0.4 -0.4 -0.3 -0.1 0.9 -1.6 -1.2 -1.9 -1.5 -1.4 -1.2 -0.5E B 1 0.7 0.6 0.5 0.0 0.5 1.1 0.2 0.8 0.3 -1.0 0.1 0.2 0.8 -0.5 -1.7 -2.4 -2.1 -1.6 -2.1 -0.9E B 2 0.3 -0.2 -0.4 -0.9 0.2 -1.5 -0.9 1.1 0.5 0.1 0.4 0.3 0.1 -1.1 -0.9 -0.4 -1.3 -1.5 -0.7 -0.1E B 3 0.5 0.2 0.8 0.1 1.0 1.7 0.8 0.2 0.0 -0.1 -0.8 0.1 1.1 -0.7 -1.6 -2.0 -1.3 -1.2 -1.5 -0.3E I 1 0.0 0.6 0.6 -0.4 0.2 0.0 0.4 -0.3 0.0 -0.1 0.2 -0.7 0.4 0.6 -0.1 -0.8 -0.3 -0.8 -0.3 -0.5E I 2 0.4 0.4 0.5 -1.1 0.1 0.0 0.4 0.6 0.3 -1.5 -0.1 0.0 1.1 -1.3 -1.2 -0.8 0.3 -2.0 -0.5 -0.2E I 3 -0.1 0.1 -0.3 0.2 0.6 0.8 0.7 0.4 -0.1 -0.7 -0.3 -0.4 0.0 0.7 -0.4 -0.5 0.3 -0.6 -0.1 -0.5E I 4 0.4 0.5 0.5 0.6 0.9 0.3 1.0 -0.5 -0.4 -0.1 -0.6 0.0 -0.1 0.4 -0.1 -0.8 -0.2 -0.7 -1.7 -0.7E I 5 0.7 0.3 0.4 0.7 1.0 0.6 0.5 -0.6 -0.5 -0.3 -0.2 -0.4 0.8 -0.6 -0.1 -0.8 -0.2 -0.8 -0.1 -1.0E I 6 0.3 0.2 0.6 0.9 0.1 0.0 0.8 -1.2 -0.9 -1.5 -0.3 0.4 0.8 0.8 0.9 0.0 -0.4 -0.5 -1.3 -3.6E I 7 0.3 0.3 0.3 0.3 0.3 -0.2 -0.1 -0.5 -0.4 -0.4 0.3 0.2 -0.7 -0.2 -0.6 -0.6 0.5 0.1 -0.5 -0.9E I 8 0.4 0.4 0.4 0.0 1.4 1.1 0.7 -0.1 -0.2 -1.9 -0.7 -0.5 0.7 0.6 -0.2 -0.6 -0.7 -1.5 -0.2 -0.9E I 9 0.9 0.8 1.0 0.9 0.9 -1.1 1.0 -1.3 -0.2 -2.5 -0.6 -0.3 -0.9 0.1 0.0 -0.7 -1.1 -1.1 -0.5 -1.5E I 0 0.2 0.6 0.7 0.3 0.6 0.9 0.8 0.2 -0.4 -0.8 -0.4 -0.5 0.0 0.3 -0.5 -0.7 -0.4 -0.4 -0.7 -0.7E I 1 0.4 0.2 0.2 -0.1 0.2 0.7 0.8 0.2 0.1 0.3 -0.1 -0.1 1.1 0.1 -0.6 -1.7 -1.6 -0.7 -0.4 -0.3E I 2 -0.4 -0.8 0.3 -1.3 -0.5 -0.9 0.4 0.2 0.3 0.7 -0.5 0.2 0.3 0.6 0.0 -0.3 0.1 -0.2 -0.40.0E I 3 -0.1 0.3 0.4 -0.8 0.4 -0.1 0.7 -0.4 -0.4 0.0 -0.3 -0.3 0.5 0.6 -0.3 -0.5 0.0 0.0 -0.20.1E O 1 -0.7 -0.8 -1.0 -1.3 -0.7 -0.3 -0.1 0.3 -0.1 0.4 0.2 -0.2 -1.4 0.2 0.3 0.2 0.0 0.1 0.50.4E O 2 -0.9 -0.8 -1.2 -0.8 -0.7 0.1 -0.8 0.6 -0.3 0.4 0.1 -0.2 -1.1 0.3 0.1 0.1 0.3 0.4 0.40.6E O 3 -0.8 -0.9 -0.7 -0.2 -0.2 -0.6 0.0 0.4 -0.4 0.3 0.1 -0.1 -0.7 0.2 0.2 0.3 0.1 0.0 0.40.2E O 4 0.1 -0.4 -0.1 0.4 -0.2 -0.4 0.2 -1.0 -0.2 -0.7 0.1 0.4 -0.8 0.0 0.3 0.4 0.5 0.1 -0.4 -0.7E O 5 0.3 -0.2 0.2 0.1 -0.4 0.2 0.2 -1.2 -0.4 -0.5 -0.1 0.6 -1.6 -0.3 0.4 0.2 -0.1 0.2 -0.1 -0.3E O 6 0.0 0.0 -0.2 -0.9 0.1 0.0 0.7 -1.3 -0.3 -0.8 0.0 0.3 -0.4 0.4 0.7 0.0 0.5 0.1 -0.3 -0.6E O 7 -0.4 -0.5 0.0 0.0 -0.6 -0.5 -0.2 -0.3 -0.2 -0.2 0.1 0.2 -1.7 0.1 0.3 0.4 0.3 0.2 0.2 -0.1E O 8 0.1 -0.1 0.3 -0.1 0.1 -0.9 0.3 -0.4 -0.2 -0.9 0.1 0.5 0.1 -0.7 -0.1 0.2 0.2 -0.1 -0.4 -0.4E O 9 -0.1 -0.1 -0.1 0.0 0.0 -0.3 -0.2 -1.2 -0.5 -0.5 0.1 0.0 -0.9 0.4 0.7 0.4 0.5 0.3 -0.3 -0.3E O 0 -0.1 0.1 -0.1 -0.2 -0.2 -0.8 0.0 -0.8 -0.6 0.3 0.0 0.1 -0.9 0.1 0.4 0.2 0.0 0.1 0.00.3E O 1 -0.4 -0.8 -0.8 -1.3 -0.9 -0.8 -0.6 0.2 -0.2 0.4 0.3 0.2 -1.5 0.2 0.2 0.1 -0.1 0.2 0.70.3E O 2 -0.9 -0.7 -0.8 -0.9 -0.6 0.2 -0.4 0.5 -0.2 0.5 0.3 0.2 -1.1 -0.1 0.1 0.1 0.0 0.2 0.10.4E O 3 -0.6 -0.9 -1.0 -0.5 -0.5 -0.1 0.0 0.2 -0.2 0.4 0.2 0.1 -0.4 0.2 0.2 0.2 0.0 0.3 0.10.4

100

Loop


DL B 1 0.8 0.7 0.9 0.5 0.7 0.5 0.2 -0.4 0.1 -0.9 -0.6 0.0 0.0 0.1 -0.5 -0.9 -0.6 -1.0 -1.1 -1.2L B 2 0.8 0.7 0.9 0.8 0.7 -0.2 0.3 -0.7 -0.1 -1.9 -0.4 -0.1 0.8 -0.4 -0.4 -0.9 -0.4 -0.9 -0.9 -1.2L B 3 0.4 0.8 0.6 0.2 0.5 0.4 0.5 -0.1 -0.1 -0.7 -0.2 -0.2 0.8 -0.2 -0.6 -0.9 -0.6 -0.8 -0.7 -0.5L B 4 0.1 0.3 -0.1 0.1 0.2 0.3 0.4 0.4 -0.1 -0.4 0.1 0.0 0.6 0.1 -0.3 -1.0 -0.8 -0.5 -0.2 -0.2L B 5 0.1 0.0 0.1 -0.7 0.1 -0.9 0.4 0.4 0.1 0.3 -0.1 0.0 -1.4 0.3 -0.3 -0.5 0.0 -0.4 -0.50.1L B 6 -0.3 0.1 -0.1 0.3 0.4 0.2 0.3 -0.1 -0.6 0.0 -0.2 -0.3 0.4 0.4 0.2 -0.3 0.0 -0.1 0.00.3L B 7 0.0 -0.1 0.1 -0.4 0.0 0.4 0.2 0.3 -0.1 0.1 -0.1 -0.1 0.7 0.1 0.0 -0.6 -0.1 -0.3 -0.10.0L B 8 -0.2 0.1 0.0 -1.4 0.2 -0.2 0.4 -0.2 -0.2 0.5 0.0 -0.7 0.9 0.0 0.3 -0.4 0.1 -0.2 0.2 -0.1L B 9 0.2 0.3 0.5 0.2 0.2 0.6 -0.3 0.3 -0.1 0.2 -0.2 -0.1 0.6 -0.5 -0.5 -0.7 -0.8 -0.5 -0.10.1L B 0 -0.6 -0.2 -0.3 0.0 0.2 0.4 0.2 0.2 -0.3 0.4 0.3 -0.1 0.2 0.3 -0.4 -0.3 0.0 -0.5 0.20.0L B 1 0.2 0.3 0.6 0.5 0.5 0.2 0.4 -0.4 0.0 0.1 -0.1 0.0 0.2 -0.1 -0.4 -0.4 0.0 -0.5 -1.0 -1.0L B 2 0.9 0.5 0.9 0.7 0.6 0.5 0.3 -0.4 0.0 -1.0 -0.4 -0.1 0.8 -0.4 -0.8 -1.3 -0.7 -0.8 -1.0 -0.9L B 3 0.6 0.5 0.6 0.6 0.6 0.4 0.5 -0.5 0.0 -1.3 -0.3 -0.2 0.5 0.0 -0.4 -0.9 -0.4 -0.6 -0.7 -0.6L I 1 -0.5 -0.3 -0.4 -0.9 -0.4 0.0 0.0 -0.2 -0.1 -0.3 0.2 0.1 -1.0 -0.3 0.4 0.5 0.2 0.4 0.10.0L I 2 -0.1 -0.7 -0.7 0.1 -0.7 0.1 -0.1 -1.5 -0.1 -0.8 0.2 0.2 0.0 0.2 0.6 0.6 0.5 0.4 -0.1 -0.5L I 3 -0.5 -0.2 -0.8 -0.1 -0.6 -1.5 0.0 -0.5 -0.2 -0.6 -0.2 0.1 -0.9 0.4 0.4 0.5 0.4 0.3 0.30.2L I 4 -0.4 -0.6 -0.6 -0.6 -0.7 -0.7 -0.8 0.2 -0.1 0.1 0.1 0.1 -1.1 0.0 0.4 0.5 -0.1 0.1 0.50.1L I 5 -1.0 -0.5 -0.9 -0.8 -0.9 0.1 -0.6 0.4 -0.3 0.7 0.1 0.1 -0.7 -0.4 0.4 0.4 0.3 0.2 0.10.3L I 6 -0.5 -0.4 -0.8 -0.7 -2.1 0.2 -0.5 0.3 -0.1 0.6 -0.4 0.2 -0.3 -0.2 0.5 0.5 0.1 0.1 0.20.2L I 7 -0.2 -0.5 -0.5 -0.6 -0.8 -0.9 0.0 -0.1 -0.2 0.4 0.0 0.1 0.1 -0.1 0.3 0.2 0.2 0.2 0.20.1L I 8 -0.2 -0.5 -0.8 -1.5 -0.3 -0.2 -0.9 0.0 -0.2 0.0 0.1 -0.2 -1.4 0.5 0.6 0.2 -0.2 0.1 0.40.6L I 9 -0.6 -0.6 -1.1 -0.4 -0.5 0.1 -0.3 0.4 -0.4 0.2 0.0 -0.2 0.2 0.0 0.4 0.3 0.4 0.2 0.20.3L I 0 -1.3 -1.1 -1.6 -1.1 -0.9 -0.6 -0.4 0.1 -0.6 0.6 0.4 0.4 -0.5 0.0 0.0 0.4 -0.1 0.1 0.70.7L I 1 -0.1 -0.4 -0.6 0.2 -0.1 -0.2 -0.1 -0.9 0.0 0.2 0.2 0.2 0.1 -0.5 0.3 0.4 0.3 0.3 -0.3 -0.4L I 2 -0.4 -0.9 -0.3 -0.7 -0.9 0.1 -0.8 -0.6 0.0 0.0 0.1 0.1 -1.4 -0.1 0.3 0.5 0.4 0.6 0.20.3L I 3 -0.5 -0.5 -1.1 -0.9 -0.6 -1.5 0.0 -0.8 -0.3 -0.4 0.0 0.2 -1.6 0.0 0.1 0.4 0.5 0.9 0.50.5L O 1 -0.6 -1.3 -0.9 -2.2 -1.9 -1.7 -1.8 -0.1 0.2 0.5 0.2 -0.1 -0.8 -0.4 0.2 0.4 0.2 1.1 0.40.4L O 2 -0.7 -0.7 -1.7 0.0 -0.8 -1.6 -1.4 -0.2 0.2 -0.1 0.2 -0.2 -1.7 -0.1 0.0 0.6 0.4 0.7 0.50.4L O 3 -0.7 -0.7 -1.2 -1.1 -0.6 -1.0 -0.4 -0.8 0.2 -0.8 0.1 -0.1 -1.5 -0.5 0.5 0.7 0.5 0.5 0.60.4L O 4 -0.9 -0.9 -1.5 -0.3 -0.9 -1.6 -1.5 0.7 0.2 -0.2 0.2 -0.2 -0.8 0.1 0.0 0.2 0.3 0.3 0.80.3L O 5 -1.1 -1.1 -1.1 -1.1 -0.9 0.0 -1.0 0.6 0.0 0.7 0.2 0.0 -2.2 -0.2 0.2 0.5 0.2 0.2 0.40.3L O 6 -0.8 -0.9 -1.0 -1.1 -1.0 0.1 0.1 0.5 -0.1 0.4 0.3 0.0 -0.8 -0.1 -0.1 0.5 -0.2 0.2 0.30.3L O 7 -0.8 -0.7 -0.9 -0.9 -0.9 0.2 -0.3 0.1 -0.1 0.7 0.2 -0.1 -1.1 -0.3 0.3 0.4 0.1 0.2 0.20.4L O 8 -1.4 -1.1 -1.7 -1.3 -1.5 -1.0 -0.4 0.3 -0.1 0.7 0.0 -0.2 -1.5 0.5 0.1 0.7 0.1 0.2 0.60.6L O 9 -1.2 -1.0 -1.5 -0.9 -0.9 0.0 -0.7 0.4 -0.2 0.6 0.1 -0.1 -2.5 0.4 0.2 0.4 0.2 0.3 0.40.6L O 0 -1.6 -0.9 -1.3 -0.4 -0.6 -1.7 -1.1 0.8 -0.4 0.0 0.5 0.0 -1.1 -0.5 0.2 0.3 0.0 0.3 0.70.4L O 1 -0.5 -0.8 -0.7 -0.3 -1.0 -0.8 -1.1 -0.4 0.1 1.4 0.2 0.1 -1.6 -0.3 -0.2 0.4 0.4 0.5 -0.20.2L O 2 -0.7 -1.4 -1.6 -0.6 -1.3 -0.9 -1.7 -0.3 0.4 0.4 0.0 0.1 -1.2 -0.2 -0.3 0.0 0.2 1.1 0.30.9L O 3 -1.1 -1.8 -1.6 -1.0 -0.9 -1.0 -0.4 0.2 0.3 0.6 0.3 -0.1 -0.8 -0.2 -0.4 0.3 -0.2 0.5 0.50.8

101

Helix


DH B 1 0.5 0.5 0.6 0.6 1.0 -0.2 1.1 0.1 0.1 0.0 -0.3 -0.5 0.8 -0.5 -0.9 -1.0 -1.7 -1.4 -0.7 -1.7H B 2 0.8 0.9 0.9 0.5 0.6 0.2 0.0 -0.3 -0.1 -0.3 -0.2 0.3 0.2 -0.5 -1.3 -1.8 -0.9 -1.2 -1.3 -0.8H B 3 -0.9 -0.4 -0.9 -0.2 -0.2 -0.9 0.0 0.5 0.1 0.4 0.6 -0.3 0.8 0.7 -0.6 -1.0 -1.0 -0.5 0.60.2H B 4 0.4 0.6 0.5 -0.1 0.2 0.8 0.1 -0.2 0.1 0.7 -0.2 0.0 0.5 -0.3 -0.8 -0.4 -0.5 -0.4 -1.1 -1.3H B 5 0.1 -0.4 0.3 0.3 0.3 0.8 0.0 0.3 0.0 -0.7 0.0 0.0 1.9 0.1 -1.3 -0.7 -0.7 -0.3 0.0 -0.6H B 6 0.4 0.1 0.1 0.9 0.3 -0.2 0.1 -0.9 -0.1 -1.0 -0.4 -0.3 0.1 -0.2 -1.0 -1.0 0.1 0.4 -0.20.7H B 7 0.6 0.8 0.8 0.9 0.6 0.3 -0.2 -0.6 0.6 -2.4 -0.6 -0.3 0.7 -0.3 -0.7 -0.7 -0.7 -0.6 -0.9 -1.4H B 8 0.7 1.2 1.0 1.2 0.7 0.8 -0.2 -0.9 0.4 -2.4 -0.8 -0.3 -0.7 -0.1 -0.7 -0.6 -1.2 -1.8 -0.7 -3.0H B 9 0.6 1.0 1.0 1.1 0.7 -0.3 -0.3 -0.7 0.3 -2.1 -0.3 -0.2 1.1 -1.1 -1.0 -1.1 -0.4 -1.0 -0.8 -1.6H B 0 0.3 0.7 0.4 0.2 0.8 1.1 0.8 -0.3 0.5 -1.7 -0.5 -0.7 1.8 0.1 -1.4 -1.2 -0.6 -1.3 -0.6 -1.2H B 1 0.1 0.6 0.0 0.6 0.8 -0.2 0.7 0.5 -0.4 -1.7 -0.2 -0.3 1.1 0.2 -0.3 -1.2 -0.6 -1.1 -0.3 -0.3H B 2 0.0 0.3 0.2 0.3 0.6 -0.4 0.3 0.0 0.2 -0.2 -0.1 -0.1 0.3 -0.4 -0.2 -0.4 -0.2 -0.9 -0.2 -0.2H B 3 0.7 0.7 0.5 0.8 0.4 0.9 0.1 -0.5 -0.3 -0.1 -0.8 -0.4 1.3 0.0 -0.4 -0.5 -0.7 -0.9 -0.4 -0.6H I 1 -0.3 -0.6 -0.6 -0.3 -0.6 -2.6 -0.8 0.1 -0.1 -0.6 -0.1 0.1 0.6 -0.1 0.3 0.7 0.5 0.2 0.20.0H I 2 -0.3 -0.1 -0.6 0.3 -0.7 -0.7 -0.1 -0.1 0.4 0.5 -0.3 -0.1 0.1 0.0 0.5 0.3 -0.1 -0.1 -0.4 -0.1H I 3 -2.2 -1.2 -2.4 -1.6 -1.4 -1.1 -1.0 -0.1 -0.7 0.7 0.7 0.8 0.1 -0.2 -0.1 0.0 0.0 0.1 0.70.8H I 4 -0.1 -0.5 -0.6 -0.4 -0.3 -0.2 -0.3 -0.7 0.2 1.2 0.2 -0.2 0.0 -0.6 -0.2 0.3 -0.1 0.2 -0.10.2H I 5 -0.9 -1.9 -0.7 -0.9 -1.5 0.0 -0.6 0.2 0.4 0.3 0.3 0.0 -0.2 0.1 -0.4 0.2 0.3 0.7 -0.10.5H I 6 -1.0 -0.7 -1.3 -0.3 -0.7 -0.2 -0.1 -2.1 -0.5 0.1 -1.0 -0.2 -1.7 0.2 -0.5 0.3 1.1 1.4 0.30.9H I 7 -0.5 -0.3 -0.6 -0.5 -0.9 -1.5 -0.7 -0.5 0.2 -1.8 -0.5 -0.4 -0.8 -0.2 0.7 0.9 0.6 0.8 0.20.2H I 8 -0.1 0.3 0.0 0.2 -0.8 0.4 -1.0 -0.5 -0.1 -1.4 -0.8 -0.9 -0.3 1.0 0.8 0.7 0.4 0.5 -0.6 -0.3H I 9 0.3 0.1 0.2 0.3 0.2 -0.2 0.4 -1.4 -0.2 -3.6 -0.6 -0.3 -0.6 0.0 0.5 0.6 0.4 0.1 -0.1 -0.3H I 0 -0.6 -0.1 -1.1 0.0 -0.1 -0.7 0.8 -0.3 0.3 -1.8 -0.3 -0.3 -0.6 0.4 0.4 0.4 0.6 -0.1 -0.20.0H I 1 -0.8 -0.2 -0.7 -0.4 -0.3 0.0 0.4 0.5 -0.4 -0.7 -0.1 -0.4 -0.1 -0.1 0.5 0.4 0.5 0.2 0.1 -0.1H I 2 -0.8 -0.3 -0.6 -1.1 -0.6 -1.6 0.0 0.5 -0.1 0.2 0.1 -0.1 0.0 0.3 0.1 0.6 0.0 -0.2 0.4 -0.2H I 3 -0.3 0.0 -0.6 -0.5 -0.9 0.0 -0.2 -0.2 -0.2 0.6 -0.1 0.0 -0.5 0.0 0.1 0.7 -0.1 0.1 0.00.0H O 1 -0.7 -1.2 -1.5 -0.8 -1.3 -2.9 -1.3 0.6 0.1 0.3 0.1 -0.1 -1.3 0.3 0.0 0.8 0.2 0.3 0.40.1H O 2 -1.1 -0.5 -1.3 -0.5 -0.7 -1.6 -1.2 0.1 0.3 0.4 0.3 0.1 -1.0 0.2 0.3 0.6 -0.1 -0.5 0.40.5H O 3 -3.0 -0.9 -2.0 -1.2 -1.6 -1.7 -3.2 -0.5 -0.2 0.9 0.8 0.4 -0.6 -0.2 0.0 0.4 -0.4 0.2 0.81.0H O 4 -0.8 -0.8 -1.1 -0.5 -0.9 -1.3 -0.8 -0.1 0.2 1.5 0.2 -0.3 -1.1 -0.7 -0.3 0.2 0.1 0.6 -0.10.5H O 5 -0.9 -1.6 -2.4 -0.8 -1.4 -0.6 -2.1 -0.1 0.4 0.2 0.1 -0.1 -1.1 -0.3 -0.2 0.1 0.3 1.1 0.31.0H O 6 0.1 -2.5 -0.9 -1.4 -0.4 -1.3 -0.4 -0.7 0.5 0.1 0.0 0.0 -1.8 -0.2 -0.4 -0.1 0.2 1.0 0.40.8H O 7 -0.8 -0.9 -1.1 -0.7 -1.1 -0.9 -1.1 -0.4 0.3 -0.8 0.0 0.1 -0.9 0.4 0.4 0.8 0.5 0.6 0.30.2H O 8 -1.1 -1.2 -0.4 -2.1 -1.5 -2.0 -1.8 -0.4 0.2 -1.5 0.0 0.0 -0.9 0.3 0.5 1.0 0.3 0.7 0.50.6H O 9 -0.7 -0.6 -1.2 0.1 -1.0 -1.0 -1.1 -0.6 0.2 0.0 0.0 -0.2 -1.4 0.4 -0.1 0.8 0.5 0.7 0.30.1H O 0 -0.9 -0.8 -1.9 -0.9 -0.7 -2.2 -0.4 -0.5 0.2 -2.6 0.0 0.0 -1.0 0.0 0.4 0.8 0.6 0.6 0.80.3H O 1 -1.1 -0.6 -1.2 -0.2 -0.6 -0.1 -0.9 0.8 0.0 -0.4 0.1 -0.3 -1.4 -0.1 0.0 0.4 0.0 0.2 0.90.0H O 2 -1.2 -1.1 -1.2 -1.0 -1.0 -1.0 -1.2 0.8 0.0 0.9 0.1 -0.3 -1.5 0.0 -0.1 0.7 0.2 -0.1 0.40.2H O 3 -1.0 -1.0 -1.5 -0.4 -1.6 -2.3 -0.8 0.3 -0.1 0.6 -0.1 0.3 -2.2 0.2 0.0 0.6 0.4 0.3 0.50.5

Abb. 27 a - d. Präferenzparameter für Aminosäuren in unterschiedlichen Strukturzuständen. Die Parameterwurden aus einer Liste von 38 Proteinfamilien abgeleitet. Um die effektive Größe des Datensatzes zu erhöhen,

102

wurden homologe Sequenzen aus den entsprechenden HSSP-Dateien mit in Betracht gezogen. Dabei wurde jedesSequenz-Strukturpaar (R,S) nur einmal an jeder Position gezählt. Die Zählrate der Aminosäuren betrug 52426 inallen Proteinfamilien.a) Präferenzparameter für Sekundärstruktur. Die Sekundärstruktur kann drei Zustände annehmen: S = E, H, L (E:Faltblattstrang, H: Helix, L: Loop). Die Werte sind jeweils als Informationsgehalt in bits angegeben. Beispiel:Valin in einem Faltblattstrang hat eine Präferenz von 0,6 bits, d.h. die Chancen sind 20,6 = 1,52 zu 1 ein Valin ineinem Faltblattstrang zu beobachten.b) Kombinierte Präferenzparameter für Sekundärstruktur und innen/außen. Die Sekundärstruktursymbole sind diegleichen wie in (a). Die drei Klassen für die Wasserzugänglichkeit ("X") sind: O = außen, I = innen, B = nichtwasserzugänglich. Beispiel: pref(Met, H, B) = 0,8, aber pref(Met, H, O) = 0,7 zeigt, daß Methionin bevorzugt innicht wasserzugänglichen Positionen in Helices und nicht an wasserzugänglichen Positionen zu finden ist. DiesePräferenzen sind deutlicher als die in (a) gezeigten: pref(Met,H) = 0,2. Es wird dadurch deutlich, daß eineMittelung zum Verlust von Information führt.c) Präferenzparameter für positionsabhängige Sekundärstrukturtypen. Die Positionen 1 -13 sind, wie in Abb. 26angegeben, definiert.d) Kombinierte Präferenzparameter für Sekundärstrukturtyp, innen/außen, und Segmentposition. Die Positionen10, 11, 12, 13 sind als 0, 1, 2, 3 im unteren Bereich der Tabelle gekennzeichnet. Beispiele: die Präferenz vonPhenylalanin für nicht-wasserzugängliche Positionen steigt vom N-terminalen Ende einer Helix von pref(Phe, H,B, 4) = 0,2 zum C-terminalen Ende auf pref(Phe, H, B, 10) = 0,8 an. Die Präferenz für Prolin inwasserzugänglichen Positionen in einer Helix nimmt von pref(Pro, H, O, 4) = 1,5 am N-terminalen Ende aufpref(Pro, H, O, 10) = -2,6 ab.

103

3.7. Ein automatischer weltweiter Dienst für die Vorhersage von Sekundärstrukturvon Proteinsequenzen

3.7.1. Problembeschreibung

Die Anzahl an bekannten Proteinsequenzen ist etwa 1000-mal größer als die der bekannten3D-Strukturen. Deshalb ist eine theoretische Vorhersage von Proteinstrukturen oder zumindestvon Strukturaspekten, wie der Sekundärstruktur, äußerst wünschenswert. Wenn eine Sequenz,deren 3D-Struktur unbekannt ist, eine ausreichend starke Homologie zu einer bekanntenStruktur hat, kann mit Hilfe des Modellbaus eine hinreichend genaue Vorhersage über dieStruktur gemacht werden (Greer, 1981, Blundell et al., 1987, Taylor & Orengo, 1989, Greer,1990, Overington et al., 1990, Summers & Karplus, 1990, Greer, 1991, Vriend & Sander,1991, Holm & Sander, 1992, Levitt, 1992, Taylor, 1992). Wenn die Sequenz zu den etwa 75%der Sequenzen gehört, die keine Ähnlichkeit zu bereits bekannten Strukturen haben (sieheKapitel 3.5), kann mit Hilfe der "threading" Methoden versucht werden, eine zu dieserSequenz passende Struktur zu finden (siehe Kapitel 3.8 (Eisenberg & McLachlan, 1986,Baumann et al., 1989, Overington et al., 1990, Sippl, 1990, Crippen, 1991, Finkelstein &Reva, 1991, Lüthy et al., 1991, Goldstein et al., 1992, Holm & Sander, 1992, Overington etal., 1992, Sippl & Weitckus, 1992, Ouzounis et al., 1993, Stultz et al., 1993). Wenn auch mitdiesen Methoden kein eindeutiges Ergebnis möglich ist, kann zur Zeit keine Vorhersage der3D-Struktur vorgenommen werden. Um dennoch eine Information über die mögliche Struktureiner Sequenz zu erhalten, bleibt jedoch die Vorhersage auf einem niedrigeren Niveau derStrukturbeschreibung der Sekundärstruktur. Das Gebiet der theoretischen Vorhersage vonSekundärstruktur ist ein seit Jahrzehnten aktuelles Arbeitsfeld. Die Vorhersagegüte, die mitdiesen Methoden erreicht wird, ist dabei deutlich geringer als 100%. Dabei ist allerdings zubedenken, daß eine hundertprozentige Richtigkeit nicht erreicht werden kann und auch nichtnötig ist.

3.7.2. Wie gut sind Methoden zur Vorhersage von Sekundärstruktur ?

Die Richtigkeit einer zufälligen Vorhersage der Sekundärstruktur einer Proteinsequenz beträgtetwa 36%, wenn drei verschiedene Zustände (Helix, Faltblattstrang und Loop) vorhergesagtwerden (Rost et al., 1993). Dieser Prozentsatz bildet demnach die untere Schranke für dieBewertung einer Vorhersage. Die ersten entwickelten Methoden (Robson & Pain, 1971, Chou& Fasman, 1974, Lim, 1974, Robson & Osguthorpe, 1979) sind etwa 14-19% besser als einezufällige Vorhersage (Kabsch & Sander, 1983). Nachfolgende Methoden erreichten eineVorhersagegüte von etwa 60-66% (Ptitsyn & Finkelstein, 1983, Levin et al., 1986, Gibrat etal., 1987, Biou et al., 1988, Levin & Garnier, 1988, Salzberg & Cost, 1992, Zhang & Chou,1992). In jüngster Zeit konnte eine Methode, unter Ausnutzung von evolutionärer Informationaus multiplen Sequenzalignments (HSSP-Dateien, siehe Kapitel 3.5), eine Vorhersagegüte vonüber 70% erreichen (Rost & Sander, 1993). Diese Methode wird im weiteren als PHD-Methode bezeichnet (PHD: "Prediction from HeiDelberg"). Eine Übersicht über dieEntwicklung der Methoden zur Vorhersage von Sekundärstruktur von Proteinen ist in Abb. 28gegeben. Hierbei ergibt sich die Frage, was als oberes Ziel der Vorhersagegüte fürSekundärstruktur anzusehen ist. Diese Frage kann durch den Vergleich von homologenSequenzen, deren 3D-Strukturen bekannt sind, beantwortet werden. Dabei stellt man fest, daßdie Übereinstimmung in der Sekundärstruktur (Helix, Faltblattstrang und Loop), basierend aufeiner Einzelrestbewertung, etwa 88% beträgt (Rost et al., 1994). Demzufolge kann eineautomatische Methode zur Sekundärstrukturvorhersage wahrscheinlich nicht besser als 88-

104

90% sein. Wenn man die Standardabweichung der PHD-Methode (etwa 10%) berücksichtigt,kann man davon ausgehen, daß die Sekundärstruktur eines Proteins bezogen auf Einzelrestemit 72% ± 10% richtig vorhergesagt wird. Hierbei ist allerdings zu bemerken, daß es inmanchen Beispielen zu weit größeren Abweichungen vom statistischen Mittel kommen kann.Als Beispiel seien hier die Phosphatidylinositol 3-OH Kinase (p58_human) (Kohda et al.,1993) und das Antigefrierprotein vom Typ III (anpc_macam) (Sönnichsen et al., 1993)genannt. Beide Strukturen werden mit einer Trefferquote von nur 40% vorhergesagt.

Abb. 28 Normalisierte Vorhersagegüte von Methoden zur Vorhersage von Sekundärstruktur. Die Werte für dieVorhersagegüte bei der Unterscheidung von drei Zuständen (Helix, Faltblatt und Loop) sind auf Werte von 0,0bis 100 % normalisiert. Dabei ist 0,0 die erwartete Genauigkeit mit einer Zufallsmethode, und 100% entsprichtder Güte, die mit Homologie-Methoden erreicht wird (88% absolut). Es sind jeweils Methoden aufgeführt, dieeine Überprüfung ("cross validation") der Ergebnisse durchführen und keine Homologie zwischen denTestproteinen, die größer als 25% Sequenzidentität ist, zulassen. Unterhalb der Methode, ist jeweils die Größedes verwendeten Datensatzes angegeben. Die Methode "reference net" gibt die Güte eines Standard neuronalenNetzwerkes an (Qian & Sejnowski, 1988, Holley & Karplus, 1989), das mit 126 Proteinen getestet wurde. DieSpalte "PHD" steht für die für den Vorhersageservice verwendete Methode, und die Spalte "ETH Zürich" gibt dieErgebnisse der Arbeitsgruppe von Benner et al. wider (Benner, 1989, Benner et al., 1993, Gerloff et al., 1993).Die Methoden, die Informationen aus multiplen Sequenzalignments benutzen, sind mit einem "*" markiert.

Ein wichtiger technischer Aspekt der PHD-Methode ist, daß für jede Position einZuverlässigkeitswert der Vorhersage gegeben wird. Hierbei werden etwa 36% aller Positionenmit einer erwarteten Güte von 88% vorhergesagt (Abb. 29). Das bedeutet, daß etwas mehr als

105

ein Drittel aller Reste mit einer Güte, wie sie durch Homologie-basierenden Modellbauerreicht werden kann, richtig vorhergesagt werden.

70

75

80

85

90

95

100

70

75

80

85

90

95

100

100 80 60 40 20 0

singl

e re

sidue

ove

rall

accu

racy

in % Rel=9

cumulative percentage of residues predicted

Rel=7

Rel=5

Rel=3

Abb. 29. Erwartete Vorhersagegüte. Aufgetragen sind jeweils die prozentuale Güte bei der Vorhersage von dreiZuständen ("single residue overall accuracy in %") und der kummulative Prozentsatz ("cumulative percentage ofresidues predicted") der vorhergesagten Reste mit einem Zuverlässigkeitswert von Rel ≥ n, mit n = 0...9. DerZuverlässigkeitswert ist dabei wie folgt definiert: Rel = 10 * (outmax - outnext), wobei outmax der Wert derhöchsten Ausgabeeinheit des neuronalen Netzes und outmin die Ausgabeeinheit mit dem zweitbesten Wert ist.Hierdurch werden die Ausgabewerte des Netzwerkes auf Zahlen zwischen 0 und 9 skaliert. Ein Wert von 9bedeutet hierbei eine Vorhersage mit einer hohen Zuverlässigkeit. Für ungefähr 22% aller Reste gilt demnach,daß sie einen Rel ≥ 8 haben, und von diesen werden 92% mit der PHD-Methode korrekt vorhergesagt.

3.7.3. Die PHD-Methode

Die PHD-Methode zur Vorhersage von Sekundärstruktur besteht aus zwei Komponenteneinem multiplen Sequenzalignment (HSSP-Datei, siehe Kapitel 3.5), aus dem die Informationüber eine Proteinfamilie aus dem "Profile-block" (siehe Abb. 24) extrahiert wird, und einemnachgeschalteten neuronalen Netzwerk, das die eigentliche Vorhersage berechnet (Sander &Schneider, 1991, Rost & Sander, 1993). Zur Beschreibung des multiplen Sequenzalignment-Algorithmus siehe Kapitel 3.3 in dieser Arbeit.Das Sequenzprofil und die Konservierungsgewichte werden als Eingabe in die erste Stufeeines zwei-stufigen "feed-forward" neuronalen Netzwerkes benutzt (Sequenz-Struktur-Netzwerk). Dabei wird ein Fenster von 13 Aminosäuren schrittweise durch die Sequenzgeschoben. Die Ausgabe des Netzwerkes besteht aus drei reellen Zahlen zwischen 0 und 1, diejeweils die Wahrscheinlichkeit für jeden der drei Sekundärstrukturzustände (Helix,

106

Faltblattstrang, Loop) für den Rest in der Mitte des Fensters angeben. Dabei legt der höchstenumerische Wert den vorhergesagten Sekundärstrukturtyp fest. In einem zweiten Schritt wirddiese Ausgabe an die zweite Stufe des Netzwerkes weitergeleitet (Struktur-Struktur-Netzwerk). Die Architektur dieser zweiten Stufe ist dabei die gleiche, jedoch wird hier eineKorrelation der Sekundärstrukturzustände von benachbarten Resten berücksichtigt. In einemletzten Schritt wird eine Mittelung von Vorhersagen vorgenommen, die mit zwei-stufigenNetzwerken berechnet wurden, wobei diese aber eine jeweils unterschiedlicheTrainingsphasen durchlaufen haben ("jury decision") (Rost & Sander, 1993).

3.7.4. Der PHD-Vorhersagedienst

Die PHD-Methode wurde der Öffentlichkeit mittels elektronischer Post zugänglich gemacht.Dazu muß der Benutzer die Sequenz, deren Sekundärstruktur vorhergesagt werden soll, ineinem festgelegten Dateiformat (Abb. 30) über internationale Datenleitungen an dieComputeraddresse "[email protected]" schicken. Diese Nachricht wirdauf einem VAX/VMS-Rechner empfangen, der eigentliche Sequenzeintrag wird extrahiert,und die Anfrage wird in eine Warteschlange eingereiht. Die Kontrolle wird danach an einenfreien Arbeitsplatzrechner ("Unix-workstations") abgegeben. Nach einer Überprüfung desDateiformats wird eine Datenbanksuche der Sequenz gegen die SwissProt Sequenzdatenbankdurchgeführt. Wenn ausreichend homologe Sequenzen gefunden werden (hierbei wird ein um5% höherer Homologieschwellenwert angesetzt, als der in Tabelle 1 aufgelistete) , wird einmultiples Sequenzalignment erstellt und die resultierende HSSP-Datei als Eingabe für dasVorhersageprogramm benutzt.

Joe Sequencer, Department of Advanced Protein Research,National University, [email protected]# src homology-3 domain (SH3)

KELVLALYDYQEKSPREVTMKKGDILTLLNSTNKDWWKVEVNDRQGFVPAAYVKKLD

Abb. 30. Beispiel einer Datei, wie sie an den PHD-Vorhersagedienst geschickt werden muß, um eine Vorhersageder Sekundärstruktur zu erhalten. Diese Datei muß per elektronischer Post an die Adresse"[email protected]" versendet werden. Die Zeile "#" gibt dabei den Beginn des eigentlichenSequenzeintrags an. Zusätzlich wurde eine Adresse eingerichtet, an die sich ein Benutzer mit speziellen Fragenoder Probleme wenden kann ("[email protected]").

Nach erfolgter Vorhersage werden die Ergebnisdateien (HSSP-Datei und Vorhersageergebnis,Abb. 31) dem VAX/VMS-Rechner übergeben, der dann diese an den Benutzer verschickt.

107

PHD output for your protein: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Abbreviations: --------------

secondary structure : H=helix, E=extended (sheet), blank or L=rest (loop) AA: amino acid sequence PHD: Profile network prediction HeiDelberg Rel: Reliability index of prediction (0-9) detail: prH: 'probability' for assigning helix prE: 'probability' for assigning strand prL: 'probability' for assigning loop note: the 'probabilites' are scaled to the interval 0-9, i.e., prH=5 means, that the signal at the first output node is 0.5-0.6. subset: SUB: a subset of the prediction, for all residues with an expected accuracy > 82% (see tables in header) note: for this subset the following symbols are used: L: is loop (for which above " " is used) ".": means that no prediction is made for this residue, as Rel < 5

....,....1....,....2....,....3....,....4....,....5....,....6 AA |KELVLALYDYQEKSPREVTMKKGDILTLLNSTNKDWWKVEVNDRQGFVPAAYVKKLD| Obs | EEEE E E E EEEEEE EEEEEE EEEEEEHHHEEEE | PHD | EEEEEEE EE EEEEEE EEE EEE EEEE | Rel |946888762246799763121574799971787321124368984221311133169 detail: prH-|000000001221000111011101000001001233332211000011134311100 prE-|037888774211100013453212788874101122455210003554212455420 prL-|862101123456788775434676100014787543111567886334543223478 subset: SUB |L.EEEEEE...LLLLLL....LL.EEEEE.LLL.......LLLL...........LL|

Abb. 31. Beispiel einer Ausgabedatei des PHD-Programms (gekürzt), für das SH3 Protein (src-homologe Region3). Die Vorhersage der Sekundärstruktur ist in 3 Zeilen zusammengefaßt:AA-Zeile: Sequenz der SH3-Domäne.PHD-Zeile: Sekundärstrukturvorhersage in 3 Zuständen (H=Helix, E= Faltblattstrang, Leerzeichen =

Loop).Rel-Zeile: Wert für die Vertrauenswürdigkeit der Vorhersage zwischen 0 und 9Als Vergleich ist die beobachtete Sekundärstruktur nach der Methode von Kabsch und Sander in der Zeile "Obs"angegeben. Der zweite Block ("detail") gibt die Wahrscheinlichkeit für jeden der drei Zustände ("prH, prE, prL")an. Die drei Ausgabeeinheiten für H,E und L des neuronalen Netzwerks können Werte zwischen 0,0 und 1,0annehmen, wobei der höchste Wert die Sekundärstrukturzuweisung in der PHD-Zeile ergibt. In diesem Blocksind die tatsächlichen Ausgabewerte auf einen Bereich zwischen 0 und 9 projiziert wiedergegeben und gebendamit ein Maß für die Wahrscheinlichkeit für jeden der drei Zustände wieder. In der letzten Zeile ist eineZuweisung für Positionen gegeben, deren Vertrauenswert größer als 5 ist. Die erwartete Richtigkeit derVorhersage für diese Positionen ist größer als 82%

108

Ein logischer Ablaufplan des PHD-Vorhersagedienstes ist in Abb.32 gezeigt. Im Falle vonauftretenden Problemen oder speziellen Fragen kann sich der Benutzer an eine speziell dafüreingerichtete Adresse wenden ("[email protected]").

Abb. 32. Logisches Ablaufdiagramm des PHD-Vorhersagedienstes. Die eingehende und ausgehendeelektronische Post wird jeweils von einem Vax/VMS-Rechner verwaltet. Dieser verteilt die anfallenden Anfragendann auf ein Netz aus Arbeitsplatzrechnern, auf denen die rechenzeitintensive Datenbanksuche und Vorhersageausgeführt wird.

109

3.7.5. Erfahrungen mit dem PHD-Vorhersagedienst

Im ersten Jahr seit Bestehen dieses Angebots wurden etwa 12000 Anfragen bearbeitet (Abb.33). Die Zusammensetzung der Benutzer nach Herkunftsland ist in Abb. 34 gezeigt und machtdeutlich, daß auf diesen Dienst praktisch weltweit zugegriffen wird.

200

400

600

800

1000

1200

1400

0

2000

4000

6000

8000

10000

12000

Dec

/8/1

992

Jan/

9/19

93

Feb/

11/1

993

Mar

/15/

1993

Apr

/16/

1993

May

/19/

1993

Jun/

20/1

993

Jul/2

3/19

93

Aug

/24/

1993

Sep/

25/1

993

Oct

/28/

1993

Nov

/29/

1993

Jan/

1/19

94

Feb/

2/19

94

Mar

/6/1

994

req/mon

req_sum

requ

est /

mon

th

accu

mul

ated

requ

ests

PHD-server requests (Dec. 1992 - Apr. 1994)

request / month

accumulated requests

Abb. 33. Statistik der Anfragen an der PHD-Vorhersagedienst für den Zeitraum Dezember 1992 bis April 1994.Insgesamt wurden bisher annähernd 12000 Anfragen (bis zu 1200 pro Monat) bearbeitet.

Es ergaben sich Situationen, die zum einen Informationslücken seitens der Benutzer diesesDienstes offenlegten, und zum anderen die Schwierigkeiten deutlich machten, die bei derVermittlung von teilweise komplexen Sachverhalten auftreten können. Hierfür seinen einigePunkte exemplarisch aufgezeigt:• Einige Benutzer schickten Sequenzen, deren 3D-Struktur bzw. eine zu diesem Protein sehr

homologe bekannt ist und einen 3D-Modellbau ohne weiteres möglich macht. In einigenFällen war die Information über das Vorhandensein einer 3D-Strukur für das betreffendeProtein den Benutzern nicht bekannt. Für diese Fälle wurde die Software desVorhersagedienstes so geändert, daß der Benutzer auf diesen Umstand hingewiesen wird.

• Es wurden Sequenzen von Membranproteinen eingeschickt. Da das Netzwerk nur aufglobuläre Proteine trainiert werden kann, muß die Vorhersagegüte für solche Fälle sehrviel schlechter sein. Für Membranproteine, deren Struktur bekannt ist, beträgt sie etwa56% (Porin, Melittin und das Photoreaktionszentrum).

• Es wurden kurze Sequenzfragmente eingeschickt. Da das Netzwerk jeweils ein Fenster aus13 Aminosäuren zur Vorhersage des mittleren Restes braucht, ist keine Vorhersage fürSequenzen, die kürzer als 13 Aminosäuren ist, möglich.

• Es wurden Sequenzen für den Wildtyp und Punktmutationen eingeschickt und versucht,eine Aussage über den Einfluß von Punktmutationen zu erhalten. Diese Genauigkeit einerVorhersage liegt weit außerhalb der Möglichkeiten einer Sekundärstrukturvorhersage.

110

0

50

100

150

200

250

300

U

SA

U

SA.co

m

U

SA.g

ov

U

SA.o

rg

U

SA.m

il

Cana

da

Arg

entin

a

Braz

il

Cub

a

Mex

iko

Aus

tralia

N

ew_Z

eala

nd

So

uth_

Afr

ica

Ja

pan

Hon

kong

K

orea

Sing

apor

e

Taiw

an

Is

rael

In

dia

Aus

tria

Bel

gium

S

witz

erla

nd C

zech

oslo

vaki

a

G

erm

any

Den

mar

k

E

stoni

a

Spa

in

F

inla

nd

Fran

ce

Gre

ek

K

roat

ia

I

rela

nd

I

cela

nd

Ital

y

Li

thua

nia

N

ethe

rland

s

Nor

way

Po

land

Sw

eden

CIS

Uni

ted_

Kin

gdom

0

50

100

150

200

250

300

num

ber o

f req

uests

per

cou

ntry

country

300500700900

11001300150017001900210023002500

≠

Abb. 34. Anzahl der Anfragen an den PHD-Vorhersagedienst nach Herkunftsländern getrennt. Die Grafikspiegelt in etwa Faktoren, wie die Anzahl der molekular-biologischen Laboratorien, die Aktivitäten in derrechnergestützten Molekularbiologie oder den allgemeinen Zugang zu Rechnernetzwerken, wider.

Es wurden eine Reihe von Verbesserungs- und Erweiterungsvorschlägen seitens der Benutzergemacht, die teilweise in den Vorhersagedienst aufgenommen wurden. So ist es in derderzeitigen Version möglich, ein selbst erstelltes Alignment zu senden. Die Datenbanksuchemit Hilfe des Programms MaxHom (diese Arbeit) wird dabei vollständig umgangen. Eingabefür die Sekundärstrukturvorhersage ist dabei das vom Benutzer zur Verfügung gestellteAlignment. In einer weiteren Variante ist es dem Benutzer möglich, eine Liste von Sequenzenzu schicken, für die dann ein multiples Sequenzalignment und nachfolgend eine Vorhersageberechnet wird. Dadurch wird es möglich, auch solche Sequenzen, die noch nicht in derSwissProt Datenbank enthalten sind, in die Vorhersage einfließen zu lassen.Zukünftige Erweiterungen sind für die Vorhersage der Wasserzugänglichkeit eines Restes,sowie die Einbindung in andere weltweite Informationssysteme wie das WWW ("world wide

111

web") oder Mosaic geplant. Durch letztere wird der indirekte Weg über die elektronischenPost umgangen, und es kann in einer interaktiven Weise gearbeitet werden.

112

3.8. Sequenz-Struktur Alignment ("threading")

3.8.1. Generierung und Bewertung von hypothetischen Strukturen

Die Vorhersage der dreidimensionalen Struktur eines Proteins ausgehend von derAminosäuresequenz ist trotz großer Anstrengungen ein ungelöstes Problem. Das Problemkann wie folgt definiert werden: Generiere und bewerte für eine gegebene Proteinsequenz allemöglichen dreidimensionalen Strukturen und wähle diejenige Struktur aus, die am besten zudieser Sequenz paßt. Im folgenden wird dieser Ansatz als Sequenz-Strukturtauglichkeitstestzur Vorhersage von Proteinstruktur bezeichnet. Die Bewertung von Sequenz-Strukturtauglichkeit erlaubt eine einheitliche Sicht der Proteinstrukturvorhersage.

Bei der Generierung von hypothetischen Strukturen müssen alle sinnvollen Alternativen inBetracht gezogen werden. So z.B. der dreidimensionale Modellbau oder die Aufteilung undUnterscheidung in unterschiedliche Sekundärstrukturtypen. Bei der Bewertung einerhypothetischen Struktur, entweder der Tauglichkeit der Struktur für eine Sequenz oder derTauglichkeit einer Sequenz für eine Struktur, muß dabei zwischen korrekten und falschenStrukturen unterschieden werden können. Der Erfolg dieser Vorgehensweise hängt dabei imwesentlichen von der zugrundeliegenden Beschreibung der Strukturzustände und derBewertungsprozedur des Sequenz-Strukturtauglichkeitstests ab.

3.8.1.1. Bestimmung der freien Energie einer dreidimensionalen Struktur ist die schwierigsteBewertung.

Als extreme und schwierigste Beschreibung könnte ein Koordinatenmodell (einschließlichaller Atome) für alle nur denkbaren Strukturen generiert werden, und die Tauglichkeit dieserStruktur durch die Berechnung der freien Energie für die Entfaltung bestimmt werden.Aufgrund der notwendigen Rechenzeit für diesen kompletten dreidimensionalen Ansatzkönnte jedoch nur ein winziger Bruchteil des Konformationsraumes erfaßt werden, wodurchdiese Vorgehensweise nicht praktikabel ist. Hinzu kommt, daß die notwendigenBerechnungen der freien Energie eines Proteins zur Zeit nicht genau genug bestimmt werdenkönnen (Novotny et al., 1984, Novotny et al., 1988).

3.8.1.2. Die eindimensionale Beschreibung der Sekundärstruktur und Präferenzen für dieSekundärstruktur ist die einfachste Bewertung.

Als ein anderes Extrem für die Beschreibung einer Proteinstruktur kann die Darstellung inForm von Sekundärstruktursymbolen gelten (z.B. Helix, Faltblattstrang). Alle möglichenStrukturen für eine gegebene Sequenz können dabei einfach durch die Auflistung allerKombinationen der Sekundärstrukturzustände für einen Einzelrest dargestellt werden. DieTauglichkeit einer Struktur für eine Sequenz kann dabei mit Hilfe von statistischenPräferenzparametern erfolgen (z.B. Einzelrestpräferenzen für Sekundärstrukturtypen) (Garnieret al., 1978) (siehe Kapitel 3.6). Dieser eindimensionale Ansatz kann zwar in kurzer Zeitbearbeitet werden, kann aber das Vorhersageproblem nicht lösen. Die Beschreibung einerStruktur allein in Form von Sekundärstruktur ist zu einfach und ignoriert wichtigephysikalische Effekt. Darüber hinaus würde selbst eine perfekte Sekundärstrukturvorhersagekeinen Aufschluß über die dreidimensionale Anordnung eines Proteins, die unabdingbar fürdas Verstehen der Funktion ist, erlauben.

113

3.8.1.3. Beschreibung der Proteinstruktur in Form von Kontakten zwischen Resten

Aus diesen Gründen ist eine zwischen den oben beschriebenen Extremen (komplettedreidimensionale atomare Beschreibung und Kodierung in Sekundärstruktursymbole)angesiedelte Beschreibung von Proteinstruktur eine unabdingbare Voraussetzung für einenFortschritt auf dem Gebiet der Strukturvorhersage. Dabei sollte die Beschreibung nicht sokompliziert sein, daß sie nicht mehr praktikabel, und auf der anderen Seite nicht zuvereinfachend ist, so daß wichtige Effekte ignoriert werden. Ausgehend von diesenVoraussetzungen wurde eine Beschreibung der Proteinstruktur in Form von Kontaktenzwischen Atomen (sowohl Protein wie Wasser) entwickelt. Diese Beschreibung folgt denGrundgedanken, die bei der Analyse von Kontakten in parallelen und anti-parallelenFaltblättern entwickelt wurden. Wenn mehr Proteinstrukturen zugänglich werden, sollte einegenauere Unterscheidung der Sekundärstruktursegmente aufgrund der Art desdreidimensionalen Kontakts erfolgen. So kann z.B. zwischen den Positionen vonWasserstoffbrückenbindungen in Faltblättern, zwischen dem Lösungsmittel zugänglichen undabgewandten Seiten von Faltblättern, zwischen Segmenten, die einen Kontakt zu Faltblätternzu solchen die einen Kontakt zu Helices haben, unterschieden werden. Es kann davonausgegangen werden, daß solche Unterscheidungen zu genaueren statistischen Präferenzenführen und als Ausgangspunkt für die Vorhersage von Proteinstruktur dienen können (Lifson& Sander, 1979).

Die Beschreibung einer Proteinstruktur in Form von Kontakten ist dabei einezweidimensionale Reduktion der komplexen dreidimensionalen Struktur, mit dem Ziel diephysikalisch relevanten Effekte mit in Betracht zu ziehen. Das grundlegende Element in dieserBeschreibung ist dabei die Auflistung von Kontakten zwischen den Atomen vonAminosäuren. Die Kontakte können am einfachsten und besten in Form einer Kontaktkarte("contact map") (Abb. 35a,b) dargestellt werden, die in ähnlicher Weise als Abstandskarten("distance plots") in der Distanzgeometrie, bzw. in der Strukturbestimmung mit Hilfe derKernspinresonanz, verwendet werden. Die Größe einer Kontaktkarte ist dabei N(N+1), wobeiN die Anzahl der Reste in einem Protein ist,und die zusätzliche Spalte (N+1) für Kontakte mitdem Lösungsmittel reserviert wird.

3.8.1.4. Generierung von hypothetischen Strukturen mit Hilfe der Strukturdatenbank

Es bleibt dabei die Frage wie man, gegeben sei eine Beschreibung der Proteinstruktur in Formvon Kontakten, das Problem der Generierung aller möglichen Strukturen und derenBewertung für einen Sequenz-Strukturtauglichkeitstest erhält. Das Universum aller möglichenProteinstrukturen, selbst mit der vereinfachten Kontaktbeschreibung, ist dabei astronomischgroß. Ein einfacher praktischer und auch nützlicher Weg, diesen enormen Grad anKomplexität zu umgehen, ist das Verwenden des sehr viel kleineren "Universums", wie es inForm der Datenbank für dreidimensionale Proteinstrukturen (Protein Data Bank, PDB)(Bernstein et al., 1977) vorliegt. Für eine gegebene Sequenz werden dabei alternativeStrukturen einfach durch das Alignment dieser Sequenz mit jeder dieser Proteinstrukturengeneriert.

3.8.1.5. Die zweidimensionale Bewertung mit Rest-Rest-Kontakten.

Wenn Proteinstrukturen als zweidimensionale Kontaktkarten dargestellt werden, wird dieBewertung von alternativen Sequenzalignment in jeder dieser Strukturen zu einemzweidimensionalen Alignmentproblem. Dabei kann das Problem des Auffindens des

114

optimalen Alignments mit dem besten Wert (unter der Annahme der Additivität derTauglichkeitswerte) durch einen zweistufigen dynamischen Programmieralgorithmus gelöstwerden (Taylor & Orengo, 1989). In dieser Art des Alignmentproblems können z.B. diefolgenden statistischen Präferenzparameter verwendet werden, die jeweils einen gemitteltenWert für die Interaktionen der 20 verschiedenen Aminosäuretypen angeben: Rest-RestKontaktpräferenzen, Pseudo-Energien oder Potentiale der mittleren Kräfte (typischerweise einSatz aus einer oder mehrerer Tabellen der Dimension 20x20 (Tanaka & Scheraga, 1975,Crippen, 1977, Warme & Morgan, 1978, Lifson & Sander, 1980, Galaktionov & Rodionov,1981, Miyazawa & Jernigan, 1985, Scharf, 1989, Sippl, 1990, Sander & Vriend, 1991, Sanderet al., 1992). Lediglich einer dieser Ansätze (Sippl, 1990) wurde mit einem vollenzweidimensionalen Alignmentalgorithmus untersucht (Jones et al., 1992). In dieser Arbeitwurde eine eindimensionale Reduktion des Problems benutzt (Abb. 35).

3.8.1.6. Die eindimensionale Bewertung durch Kontakte eines Restes mit seiner Umgebung.

Die zweidimensionale Kontaktbeschreibung kann dadurch vereinfacht werden, indem dieKontakte beschrieben werden, die ein Einzelrest mit seiner Umgebung macht. Dies kann z.B.durch Mitteln über den Aminosäuretyp des Kontaktpartners geschehen. Die zweidimensionaleKontaktkarte die Paarkontakte der Form Ala - Val, Ala - Ile, Ala - Wasser auflistet, kann indie Form Ala - Protein und Ala - Wasser kollabiert werden. In dieser Weise kann eine Strukturals eine Abfolge von positionsabhängigen Strukturkontakt-Vektoren dargestellt werden (Abb.35, Abb. 36d). Die Größe ist dabei NK, wobei K die Anzahl der verschiedenenKontaktwechselwirkungstypen ist (K-1 für Typen zwischen Proteinatomen und ein Typ fürProtein-Wasserkontakte) und N die Anzahl der Aminosäuren im Protein ist.Diese eindimensionale Beschreibung der Proteinstruktur in Form von Kontakten hat denpraktischen Vorteil, daß das Sequenz-Strukturalignment mit der Standardmethode desdynamischen Programmieralgorithmus für Sequenzvergleiche durchgeführt werden kann(Levenshtein, 1966, Smith & Waterman, 1981). Der korrespondierendeTauglichkeitsparameter drückt dabei die Präferenz (Informationsgehalt, mittleresKräftepotential) eine Einzelrestes für einen bestimmten Kontakttyp aus.Im folgenden wird der Ansatz des Sequenz-Strukturtauglichkeitstests in dieserApproximierung angewandt. Dieser Ansatz ist dabei vergleichbar mit unabhängig voneinanderentwickelten Methoden anderer Gruppen (Bashford et al., 1987, Bowie et al., 1990, Hendlichet al., 1990, Sali & Blundell, 1990, Sali et al., 1990, Godzik et al., 1992, Godzik & Skolnick,1992, Goldstein et al., 1992, Jones et al., 1992, Lüthy et al., 1992, Sippl & Weitckus, 1992).

115

Abb. 35. Schematische Darstellung der grundlegenden Prozedur für das Sequenz-Strukturalignment.

116

a) Ausgehend von einer dreidimensionalen Struktur wird eine zweidimensionale Kontaktkarte ("Contacts") derAminosäurereste erstellt. Die Stärke der Rest-Rest- und Rest-Wasserkontakte ist dabei als Grauschattierunggezeigt. Kontakte mit Wasser sind in der rechten Spalte (W) gezeigt.b) Umsetzung der Kontaktkarte in ein Kontaktwechselwirkungs-Profil. Für jeden Rest (jede Reihe in derKontaktkarte) werden die Kontakte mit allen anderen Resten für jeden der Wechselwirkungstypen (in diesemBeispiel 5: HETXW) aufsummiert. Der resultierende Satz aus 5 Wechselwirkungstypen mit der jeweiligen Stärkewird als Kontaktwechselwirkungsvektor bezeichnet und beschreibt die lokale Strukturumgebung eines Restes.Ein Satz aus Kontaktwechselwirkungsvektoren, einen für jeden Rest, ist somit eine vereinfachte Darstellungeiner Proteinstruktur ("Interface" = Wechselwirkungskontakt-Profil). Die Beschreibung ist insoweiteindimensional, da jeder Kontaktwechselwirkungsvektor die lokale Umgebung unabhängig vom Typ deskontaktierenden Restes beschreibt. Die Präferenzen für einen Aminosäuretyp in den möglichen Kontakttypen("Preferences") werden aus den Wechselwirkungskontakt-Profilen der bekannten Strukturen in der Datenbankerrechnet, wobei das Protein, dessen Sequenz in das Alignment eingeht, nicht berücksichtigt wird.c) Erstellung eines Tauglichkeitsprofils aus dem Wechselwirkungskontakt-Profil. Zur Berechnung einesAlignments wird die Tauglichkeit jeder der 20 möglichen Reste an jeder Position in der Struktur durchAufsummieren über die Präferenzen dieses Restes für jeden Wechselwirkungstyp bestimmt. Dabei wird mit derStärke der Wechselwirkung an der Strukturposition gewichtet. Die resultierende Tabelle ("Fitness profile") stelltdanach die Tauglichkeit jedes der 20 Reste für diese Strukturposition dar. Das "Fitness profile" f(R,j) ist dabeimathematisch das Matrixprodukt des Wechselwirkungskontakt-Profils c(j , I) mit der Präferenztabelle p(R,I).Solche Profile können auch für andere Strukturpräferenzen, wie z.B. Sekundärstrukturpräferenzen oder etwa ausmultiplen Sequenzalignments, hergeleitet werden (Gribskov et al., 1987, Gribskov et al., 1990).d) Sequenz-Strukturalignment mit Hilfe des Tauglichkeitsprofils. Das abgeleitete Profil kann als Eingabe in einenAlignmentalgorithmus benutzt werden, der in diesem Fall eine Aminosäuresequenz mit einer Struktur vergleicht.Der lokale Ähnlichkeitswert an einer gegebenen Sequenzposition für das Alignmentproblem ist dabei dieentsprechende Spalte des Tauglichkeitsprofils. Durch einen dynamischen Programmieralgorithmus kann danachein optimales Alignment einer Sequenz in einer Struktur bestimmt werden. Der numerische Alignmentwert gibtdabei an, wie gut eine Sequenz in eine gegebene Struktur paßt. Das resultierende Alignment ist dabei derAusgangspunkt für ein dreidimensionales Modell.

3.8.2. Methode

Der zentrale Ansatz dieser Methode ist das optimale Alignment einer einzelnenAminosäuresequenz mit einer einzelnen Proteinstruktur (Abfolge von Kontaktbeschreibungen,"template structure"). Wenn eine einzelne Sequenz gegen einen Datensatz ausProteinstrukturen verglichen wird, korrespondiert dabei das Alignment mit dem besten Wertmit einer vorhergesagten dreidimensionalen Struktur für diese Sequenz.

3.8.2.1. Kontaktvektoren eines Restes mit seiner Umgebung

Ausgehend von den Koordinaten einer Musterstruktur werden die intermolekularen Kontakteund Wasserkontakte für jeden Rest berechnet, indem über alle Atomkontakte dieses Restessummiert wird (Abb. 36 a und b). Der Zustand des kontaktierenden Partners wird dabeijeweils vermerkt, z.B. der Sekundärstrukturtyp in dem sich der Partner befindet, ob es sich umeinen polaren / nicht-polaren, oder ob es sich um einen Protein oder Wasserkontakt handelt.Die Stärke eines Kontaktes wird wie folgt definiert: Zwei Atome sind in Kontakt, wenn sie sonahe beieinander sind, daß kein Wassermolekül zwischen beide Atome paßt. Dabei wird die inAbb. 36 b gezeigte "linear-square" Potentialfunktion V(r) verwendet. Diese Funktion hatsolange den Wert 1,0 bis die interatomare Distanz (r) gleich der Summe der van der WaalsRadien (3,6Å) ist und nimmt danach linear bis zu einem Wert von 0,0 ab, wenn gerade einWassermolekül zwischen die beiden Atome paßt (r = 3,6 + 2,8 Å).

117

Abb. 36 a - d. Beschreibung einer dreidimensionale Proteinstruktur durch eine eindimensionales Feld ausKontaktwechselwirkungsvektoren.a) Schematische Darstellung einer Kontaktumgebung für einen Aminosäurerest. In diesem Beispiel ist ein Valin(Y-artiger Rest) gezeigt, das sich in einer Helix befindet und Kontakte (Pfeile) mit anderen Resten (Kreise) hat.

118

Dabei ist zwischen folgenden Kontakten unterschieden: Wechselwirkungstyp HHp = Kontakt mit Resten in derselben Helix, HHi = Kontakt mit einem direkt benachbarten Rest in der selben Helix, HEe = Kontakt mit einemRest in einem Faltblattstrang und HW = Kontakt mit Wasser. Der Anteil, mit dem ein Rest an den verschiedenenWechselwirkungstypen beteiligt ist, wird mit Hilfe von Inter-Atomkontakten berechnet. Es werden lediglich dieKontakte zu den nächsten Nachbarn gezählt und über alle Atome eines Restes summiert. Ein Atom kann dabeientweder mit einem anderen Proteinatom oder mit einem Wassermolekül in Kontakt sein (Kofaktoren oderEnzymsubstrate werden als Lösungsmittel betrachtet). Wenn Lösungsmittelkontakte in entsprechenden Einheitenausgedrückt werden (Colonna-Cesari & Sander, 1990), ist die Gesamtanzahl der Kontakte, die ein Atom macht,proportional zum Volumen einer Kugelschale. Dadurch kann aus der Anzahl der Protein-Proteinkontakte eineAbschätzung über die Anzahl von Wasserkontakten erfolgen. Die Gesamtanzahl der Kontakte eines Restes kanndann in die jeweiligen Typen und Zustände des kontaktierenden Restes aufgeteilt werden. Das Ergebnis ist einnormalisierter Kontaktwechselwirkungsvektor für jeden Aminosäurerest (0,1 HHp, 0,2 HHi, 0,3 HEe, 0,4 HW).b) Die Kontakte werden mit Hilfe eines einfachen Atom-Atom Potentials V(r) errechnet, das relativ robust gegenKoordinatenfehler ist. Ein einzelner Kontakt wird dabei als 1,0 gezählt, wenn sich zwei Atome berühren (Distanzder beiden Atome r kleiner oder gleich der Summe der van der Waals Radii). Mit steigender Distanz nimmt dieStärke des Kontakt linear bis auf 0,0 ab, wenn ein Wassermolekül (W) genau zwischen die beiden Atome paßt.Wenn die Distanz größer als die Summe der van der Waals Radii plus dem Durchmesser eines Wassermolekülsist, wird kein Kontakt gezählt. Die Kontaktstärke eines Restes ist dabei die Summe der Kontaktstärken derAtomkontakte. Es werden nur Kontakte der Seitenkette und des Cα-Atoms gezählt, die Atome des Rückgratswerden nicht betrachtet.c) Definition der 29 verschiedenen Kontakttypen. Ein Rest in einer Helix (H), einem Faltblattstrang (E), einemTurn (T) oder einem Loop (X) (Reihen) kann in Kontakt mit anderen Resten in einer Helix, Faltblattstrang, Turn,Loop oder mit Wasser sein (Spalten). In der einfachsten Beschreibung (2 Wechselwirkungstypen wie in AM2)werden die Kontakte der rechten Spalte als Protein-Wasser Kontakte zusammengefaßt (PW), alle anderen alsProtein-Protein Kontakte (PP). Es werden folgende Beschreibungen verwendet: Wechselwirkungstyp S1S2p12(HHa, HHi, HHe, HHe...), wobei S1 = H,E,T oder X die Sekundärstruktur eines Restes angibt, S2 = H,E,T oderX die Sekundärstruktur des kontaktierenden Restes bzw. wenn S2 = W für Kontakte mit Wasser; p12 = a, i, s, egibt die Nachbarschaft der zwei in Kontakt stehenden Reste an. Hierbei bedeuten: a = direkte Sequenznachbarn("adjacent"), i = die zwei Reste befinden sich auf demselben Sekundärstruktursegment ("internal"), s = die zweiReste befinden sich auf benachbarten Faltblattsträngen im selben Faltblatt ("strand-strand"), e = die zwei Restebefinden sich in unterschiedlichen Segmenten, bzw. für Faltblattstränge gehören zu verschiedenen Faltblättern("external").d) Beschreibung der dreidimensionale Struktur des Crambins als Kontaktwechselwirkungsvektoren c(j). Fürjeden Rest sind von links nach rechts die folgenden Angaben gemacht: die Aminosäure (Einbuchstabensymbol),die Sekundärstruktur nach der DSSP-Methode (mit der Ausnahme, daß H,G und I als H und S,B und "_" als Xzusammengefaßt sind) (Kabsch & Sander, 1983) und die Kontaktstärke für jeden der 5 Wechselwirkungstypen(AS5 = H, E, T, X, W) auf einer Grauskala von 0,0 (weiß) bis 100,0 (schwarz). Um eine Sequenz mit einemStrukturmuster zu vergleichen, braucht man Kontaktwechselwirkungs-Präferenzparameter für Aminosäuretypenin diesen Zuständen. Zur genauen Erklärung der Ableitung dieser Parameter siehe Methodenteil im Text.

Die Kontaktstärke c(j, I) eines Restes des Typs R an der Position j in der Struktur ist dabei dieSumme aller interatomaren Kontakte, die dieser Rest mit dem Wechselwirkungstyp I macht.In dieser Arbeit wurden nur Kontakte der Seitenkette und des Cα-Atoms des Restes j mitSeitenkettenatomen und Rückgratatomen anderer Reste gezählt, d.h. Kontakte der N-H und C-O Atome des Restes j werden nicht gezählt. Die Vektoren c(j) mit den Komponenten c(j, I) fürI = 1..K wurden für jeden Rest j auf die Einheitslänge normalisiert. Dadurch sollte das"Mitschleifen" von Sequenzinformation ("read-through"), insbesondere der Restgröße,verhindert werden. Bei den verwendeten Kontaktvektoren wurde jeweils nur eine Struktur zurAbleitung benutzt, im Prinzip kann c(j) jedoch über äquivalente Positionen ausstrukturähnlichen Proteinen gemittelt werden.Die einfachste Klassifizierung der Kontaktwechselwirkungen ist die Unterscheidung von zweiZuständen: Kontakte, die mit anderen Proteinatomen ("inside" oder I = PP für Protein-Protein)gemacht werden und Kontakte die mit dem Lösungsmittel ("outside" oder I = PW für Protein-Wasser) gemacht werden. Hierbei kann die Kontaktstärke eines Wasserkontakts c(j, PW)einen Wert zwischen 0,0 und 1,0 annehmen, was einem großen Vorteil gegenüber

119

Klassifizierungen hat, die nur eine binäre Einteilung in "vergraben" ("buried") und"zugänglich" haben. Wenn die Sekundärstruktur des kontaktierenden Partners in Betrachtgezogen wird, führt dies zu 5 verschiedenen Kontakttypen (PH: Protein-Helix ; PE: Protein-Faltblatt; PT: Protein-Turn; PX: Protein-Loop, PW: Protein-Wasser). Die kompliziertesteKlassifizierung in dieser Arbeit ist die, bei der die Sekundärstruktur beider in Kontaktstehender Reste und deren Nachbarschaft in Betracht gezogen werden. Dies führt zu einerUnterteilung in 29 verschiedene Kontaktypen (Abb. 36 c).Die Abfolge c(j), j = 1..N der Kontaktvektoren (Abb. 36 d) wird als Kontaktprofil bezeichnetund beschreibt die dreidimensionale Struktur mit einem mittleren Komplexitätsgrad. DasProfil hat eine Länge von N, wobei N die Anzahl der Aminosäurereste in der Proteinstrukturist, und eine Breite von K, wobei K die Anzahl der verschiedenen Kontakttypen ist. EinKontaktprofil für das Protein Crambin mit 5 verschiedenen Kontaktypen ist in Abb. 36cgezeigt. Mit dieser Beschreibung einer Proteinstruktur werden Präferenzparameter vonAminosäurereste für diese Kontakttypen abgeleitet.

3.8.2.2. Kontaktpräferenzen für Aminosäurereste mit deren Umgebung

Um eine Quantifizierung, wie gut ein bestimmter Aminosäuretyp bestimmte Kontaktypenbevorzugt, zu erhalten, wird ein statistischer Ansatz gewählt. Dabei werden diePräferenzparameter als der Logarithmus des Verhältnisses zwischen beobachteter underwarteter Kontakthäufigkeiten ausgedrückt. Diese Parameter werden aus einem Datensatzvon 64 nicht-homologen Proteinen abgeleitet (Tabelle 4).

120

#PID C SIZ

RES

%H %B %BP %BA SID ORIGIN PROTEIN_NAME

351C _ 82

1.6

50 4 0 100 C551$PSEAE

PSEUDOMONAS AERUGINOSA CYTOCHROME C 551

256B A 106

1.4

79 0 0 0 C562$ECOLI

ESCHERICHIA COLI CYTOCHROME B 562

8ADH _ 374

2.4

28 24 45 55 ADHE$HORSE

EQUUS CABALLUS ALCOHOL DEHYDROGENASE

8ATC A 310

2.5

40 15 100 0 PYRB$ECOLI

ESCHERICHIA COLI ASPARTATE CARBAMOYLTRANSFERASE

8ATC B 146

2.5

15 34 1 98 PYRI$ECOLI

ESCHERICHIA COLI ASPARTATE CARBAMOYLTRANSFERASE

2AZA A 129

1.8

16 35 36 63 AZUR$ALCDE

ALCALIGENES DENITRIFICANS AZURIN

3B5C _ 85

1.5

31 23 25 75 CYB5$BOVIN

BOS TAURUS CYTOCHROME B 5

3BLM _ 257

2.0

42 17 0 100 BLAC$STAAU

STAPHYLOCOCCUS AUREUS BETA-LACTAMASE

2CA2 _ 256

1.9

16 30 23 76 CAH2$HUMAN

HOMO SAPIENS CARBONIC ANHYDRASE II

1CCR _ 111

1.5

42 1 0 100 CYC$ORYSA ORYZA SATIVA CYTOCHROME C

2CCY A 127

1.7

74 1 0 100 CYCP$RHOMO

RHODOSPIRILLUMMOLISCHIANUM

CYTOCHROME C'

1CD4 _ 173

2.3

5 41 11 88 CD4$HUMAN HOMO SAPIENS, recombinant T-CELL SURFACE GLYCOPROTEIN CD4

3CLA _ 213

1.8

29 28 23 76 CAT3$ECOLI

ESCHERICHIA COLI CHLORAMPHENICOL ACETYLTRANSFERASE TYPEIII

5CPA _ 307

1.5

38 16 63 36 CBPA$BOVIN

BOS TAURUS CARBOXYPEPTIDASE A

2CPP _ 405

1.6

51 10 11 88 CPXA$PSEPU

PSEUDOMONAS PUTIDA CYTOCHROME P450CAM

4CPV _ 108

1.5

56 1 0 100 PRVB$CYPCA

CYPRINUS CARPIO CALCIUM-BINDING PARVALBUMIN

1CSE E 274

1.2

30 20 73 26 SUBT$BACLI

BACILLUS SUBTILIS SUBTILISIN

1CSE I 63

1.2

22 33 44 55 ICIC$HIRME

HIRUDO MEDICINALIS EGLIN-C

1CTF _ 68

1.7

55 26 0 100 RL7$ECOLI ESCHERICHIA COLI 50S RIBOSOMAL PROTEIN L7/L12 C-TERMINUS)

2CYP _ 293

1.7

50 7 8 91 CCPR$YEAST

SACCHAROMYCES CEREVISIAE CYTOCHROME C PEROXIDASE

8DFR _ 186

1.7

23 33 57 42 DYR$CHICK GALLUS GALLUS DIHYDROFOLATE REDUCTASE

1ECN _ 136

1.4

75 0 0 0 GLB3$CHITH

CHIRONOMOUS THUMMI) HEMOGLOBIN (ERYTHROCRUORIN) (FRACTIONIII)

2ER7 E 330

1.6

11 45 13 86 CARP$CRYPA

ENDOTHIA PARASITICA ASPARTIC PROTEINASE (ENDOTHIAPEPSIN)

4FD1 _ 106

1.9

33 14 0 100 FER1$AZOVI

AZOTOBACTER VINELANDII FERREDOXIN

4FXN _ 138

1.8

36 22 95 4 FLAV$CLOSP

CLOSTRIDIUM MP FLAVODOXIN

3GAP A 208

2.5

30 14 0 100 CRP$ECOLI ESCHERICHIA COLI CATABOLITE GENE ACTIVATOR PROTEIN

2GBP _ 309

1.9

43 19 90 10 DGAL$ECOLI

ESCHERICHIA COLI D-GALACTOSE/D-GLUCOSE BINDING PROTEIN

1GCR _ 174

1.6

7 46 0 100 CRGB$BOVIN

BOS TAURUS CRYSTALLIN GAMMA-II

1GD1 O 334

1.8

29 29 52 47 G3P$BACST BACILLUSSTEAROTHERMOPHILUS

D-GLYCERALDEHYDE-3-PHOSPHATEDEHYDROGENASE

121

1GOX _ 350

2.0

44 13 78 21 2HAO$SPIOL

SPINACIA OLERACEA GLYCOLATE OXIDASE

1GP1 A 183

2.0

32 18 47 52 GSHP$BOVIN

BOS TAURUS GLUTATHIONE PEROXIDASE

2HLA B 99

2.6

0 49 0 100 HA1H$HUMAN

HOMO SAPIENS HISTOCOMPATIBILITY CLASS I ANTIGEN

1HOE _ 74

2.0

0 48 0 100 IAA$STRTE STREPTOMYCES TENDAE ALPHA-AMYLASE INHIBITOR

1I1B _ 151

2.0

5 47 0 100 IL1B$HUMAN

HOMO SAPIENS, recombinant INTERLEUKIN-1 BETA

4ICD _ 414

2.5

39 18 52 47 IDH$ECOLI ESCHERICHIA COLI ISOCITRATE DEHYDROGENASE

1IL8 A 71

NMR

26 25 0 100 IL8$HUMAN HOMO SAPIENS, recombinant INTERLEUKIN 8

1L13 _ 164

1.7

64 9 0 100 LYCV$BPT4 BACTERIOPHAGE T4, mutant LYSOZYME

6LDH _ 329

2.0

43 17 51 48 LDHM$SQUAC

SQUALUS ACANTHIAS LACTATE DEHYDROGENASE

2LIV _ 344

2.4

44 19 73 26 LIVJ$ECOLI

ESCHERICHIA COLI LEU/ILE/VAL-BINDING PROTEIN

2LTN A 181

1.7

1 43 0 100 LEC$PEA PISUM SATIVUM, recombinant LECTIN

2LTN B 47

1.7

8 63 0 100 LEC$PEA PISUM SATIVUM, recombinant LECTIN

1LZ1 _ 130

1.5

39 12 11 88 LYC$HUMAN HOMO SAPIENS LYSOZYME

1MBD _ 153

1.4

77 0 0 0 MYG$PHYCA PHYSETER CATODON MYOGLOBIN

2MHR _ 118

1.7

70 0 0 0 HEMM$THEZO

THEMISTE ZOSTERICOLA MYOHEMERYTHRIN

2PAB A 114

1.8

7 51 16 83 TTHY$HUMAN

HOMO SAPIENS PREALBUMIN

1PAZ _ 120

1.6

16 37 35 64 AZUP$ALCFA

ALCALIGENES FAECALIS PSEUDOAZURIN

4PTP _ 223

1.3

10 34 2 97 TRYP$BOVIN

BOS TAURUS BETA TRYPSIN

1R69 _ 63

2.0

63 0 0 0 RPC1$BP434

PHAGE 434 434 REPRESSOR

1RHD _ 293

2.5

29 13 87 12 THTR$BOVIN

BOS TAURUS RHODANESE

7RSA _ 124

1.3

20 35 3 96 RNP$BOVIN BOS TAURUS RIBONUCLEASE A

2RSP A 115

2.0

5 41 17 82 GAG$RSVP ROUS SARCOMA VIRUS RSV PROTEASE

5RXN _ 54

1.2

16 22 0 100 RUBR$CLOPA

CLOSTRIDIUM PASTEURIANUM RUBREDOXIN

2SGA _ 181

1.5

9 55 6 93 PRTA$STRGR

STREPTOMYCES GRISEUS PROTEINASE A

4SGB I 51

2.1

0 29 11 88 IPR2$SOLTU

SOLANUM TUBEROSUM SERINE PROTEINASE B INHIBITOR

2SNS _ 141

1.5

20 22 15 85 NUC$STAAU STAPHYLOCOCCUS AUREUS STAPHYLOCOCCAL NUCLEASE

2SOD O 151

2.0

1 42 2 97 SODC$BOVIN

BOS TAURUS CU,ZN SUPEROXIDE DISMUTASE

2SSI _ 107

2.6

15 28 5 95 ISUB$STRAO

STREPTOMYCES ALBOGRISEOLUS SUBTILISIN INHIBITOR

2STV _ 184

2.5

11 47 1 98 COAT$STNV SATELLITE TNV COAT PROTEIN

2TMN E 316

1.6

40 17 26 73 THER$BACTH

BACILLUSTHERMOPROTEOLYTICUS

THERMOLYSIN

122

1TNF A 152

2.6

1 44 0 100 TNFA$HUMAN

HOMO SAPIENS, recombinant TUMOR NECROSIS FACTOR-ALPHA

2TS1 _ 317

2.3

54 10 85 14 SYY$BACST BACILLUSSTEAROTHERMOPHILUS

TYROSYL-tRNA SYNTHETASE

1UBQ _ 76

1.8

23 34 25 75 UBIQ$HUMAN

HOMO SAPIENS UBIQUITIN

1UTG _ 70

1.3

75 0 0 0 UTER$RABIT

ORYCTOLAGUS CUNICULUS UTEROGLOBIN

2WRP R 104

1.6

78 0 0 0 TRPR$ECOLI

ESCHERICHIA COLI TRP REPRESSOR

1WSY A 248

2.5

50 13 100 0 TRPB$SALTY

SALMONELLA TYPHIMURIUM TRYPTOPHAN SYNTHASE

4XIA A 393

2.3

47 10 85 14 XYLA$ARTS7

ARTHROBACTER SP D-XYLOSE ISOMERASE

1YPI A 247

1.9

43 17 96 3 TPIS$YEAST

SACCHAROMYCES CEREVISIAE TRIOSE PHOSPHATE ISOMERASE

Tabelle 4. Repräsentativer Datensatz von Proteinen, deren dreidimensionale Struktur bekannt ist und aus denendie Kontaktpräferenzparameter abgeleitet wurden. Insgesamt umfaßt die Liste 67 Proteinketten aus 64 Proteinenmit 12460 Aminosäuren, wobei die kürzeste Kette 47 und die längste 414 Reste besitzt. Die Liste enthält keinSequenzpaar, das eine größere Ähnlichkeit hat als der im Kapitel 3.1 definierte längenabhängigeHomologieschwellenwert. Die Auswahl der Proteine erfolgte nach folgenden Kriterien (Hobohm et al., 1992) :Für die 400 verfügbaren Datensätze der Proteine mit bekannter 3D-Struktur wurde ein kompletter Paarvergleichder Sequenzen durchgeführt. Aus einer nach der Auflösung sortierten Liste wurde danach jeweils eineProteinkette ausgewählt, wenn sie nicht homolog zu einem bereits ausgewählten Protein war. Zusätzlich wurdenfolgende Ausschlußkriterien an die Liste der Protein gestellt: die Strukturauflösung sollte besser als 2,6 Å sein("Res"), die Kettenlänge mindestens 40 Reste ("Siz"), die Anzahl der Cysteine, die Bestandteil einerDisulfidbrücke sind, sollte weniger als 8% der Kettenlänge sein ("CSS"), die Proteine sollten eine ausgeprägteSekundärstruktur besitzen ( "SEC": prozentualer Anteil aller Wasserstoffbrücken in Helix (%H),Faltblattsträngen (%B), parallelen (%BP) und anti-parallelen (%BA) Faltblättern größer als 35%), die Anzahl derHeteroatome sollte weniger als 8% der Gesamtatome sein ("HET"), sowie keine Membranproteine. Proteinkettensind durch den PDB-Schlüssel ("PID") und den Kettenschlüssel ("C") gegeben. Zusätzlich ist der jeweilskorrespondierende Sequenzeintrag der SwissProt Datenbank ("SID") (Bairoch & Boeckmann, 1991) mit derHerkunft ("ORIGIN") und dem Namen des Proteins ("PROTEIN_NAME") gezeigt. Die Identifizierung diesesEintrags erfolgte mit Hilfe des Querverweises der SwissProt Datenbank, bzw. wenn dieser nicht vorhanden war,aufgrund der Sequenzidentität (größer als 98% und Unterschied der Proteinlänge nicht größer als 3 Reste).

Die Gesamtzahl der Kontakte c(R,I) für einen Rest des Typs R für den Kontakttyp I werdendurch Aufsummieren der Einzelrestkontakte c(R(j), I) über alle Reste j des Typs R in allenProteinen ermittelt:

C(R,I) = c(j, I), Rest an der Position j vom Typ Rj∑ (1)

So ist zum Beispiel C(ala, HEe) = 1121,0 die Gesamtstärke von Alanin in Helix-Faltblattstrang-Kontakten.Aus diesen reinen Zählraten C(R,I) werden die Präferenzen abgeleitet:

p(R,I) = ld C(R, I)CC(R)C(I)

, (2)

mit C(R), C(I) und C als den partiellen Summen:

C(R) = C(R,I), C(I) = C(R,I ), C = C(R, I)R,I∑

R∑

I∑ (3)

und ld als dem Logarithmus zur Basis 2.

123

Diese Formeln sind identisch mit denen wie sie z.B. in der Sekundärstrukturvorhersagebenutzt werden, mit der Ausnahme, daß die Zählraten C hier Kontaktstärken angeben undnicht Aminosäurehäufigkeiten. Die Präferenzen sind dabei der Logarithmus des Verhältnissesvon beobachteten C(R,I) zu erwarteten Zählraten E(R,I) = C(R)C(I) / C, bzw. können alsInformation in Einheiten von bits aufgefaßt werden, die ein Rest des Typs R über seinenStrukturzustand I (z.B. R = Ala, I = HHe) hat. Das Problem von kleinen Zählraten, die zugroßen Schwankungen führen können, wird durch Skalierung der Präferenzwerte p(R,I) miteinen Dämpfungsfaktor (min(1,0, E(R,I) / 100) gemildert. Der Faktor ist 1,0, wenn E(R,I)größer oder gleich 100 ist und nimmt linear bis auf 0,0 ab, wenn E(R,I) =0 ist. Damitbekommen Zustände mit kleinen (erwarteten) Zählraten eine "neutrale" Präferenz nahe 0,0.Diese Dämpfung von statistischem Rauschen wurde auch von anderen, allerdings inunterschiedlicher Form, eingeführt (Sippl, 1990) und stellt eine wichtiges technisches Detaildar. Ein Satz von Präferenzen p(R,I), I = 1..K eines Aminosäurerestes für dieunterschiedlichen Kontaktypen wird hier als Präferenzvektor für diesen Resttyp bezeichnet(Abb. 35 und 37).

124

V L I M F W Y G A P S T C H R K Q E N D

HETXW


WatProt

(c)


HETX

-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

(d)

V L I M F W Y G A P S T C H R K Q E N DH WH H pH H iH H eH E eH T eH X eE WE E pE E iE E sE E eE H eE T eE X eT WT T pT T iT T eT H eT E eT X eX WX X pX X iX X eX H eX E eX T e

(a)

(e)

V L I M F W Y G A PWater -1. 19 -1.0 9 - 1.45 -0 .62 -1.57 -1. 48 -0.7 3 0.42 -0 .33 0.27Protein 0. 13 0.1 2 0.14 0 .08 0.15 0. 14 0.0 9 - 0.08 0 .05 -0.05 S T C H R K Q E N DWater 0. 17 0.0 3 - 1.72 -0 .33 0.50 1. 07 0.5 9 0.77 0 .35 0.48Protein -0. 03 0.0 0 0.16 0 .05 -0.10 -0. 29 -0.1 3 - 0.18 -0 .07 -0.10

(b)

(preference)

Abb. 37 a-e. Kontaktpräferenzparameter abgeleitet aus einem nicht-redundanten Datensatz aus 67 Proteinketten.Die Parameter können dazu benutzt werden, um zu bewerten, wie gut eine Sequenz in eine bestimmte

125

dreidimensionale Struktur passen würde, z.B. im Sequenz-Struktur-Alignment. Die Zeile HHe gibt dabei dieEinzelrestpräferenz für eine Helix-Helix, und die Zeile HEe für eine Helix-Faltblattstrang Wechselwirkung an,.Die 20 Standard-Aminosäuren sind im Einbuchstabensymbol angegeben, die Sekundärstruktur ist als H= Helix,E = Faltblattstrang, T= Wasserstoffbrückenbindung stabilisierter Knick, X= alle anderen (Schleifen; "loop")angegeben. Kontakte mit Wasser sind durch das Symbol "W" gekennzeichnet. Die Nähe zweier kontaktierenderSequenzreste ist als a = direkt benachbart ("adjacent"), i= im gleichen Sekundärstruktursegment (Helix oderFaltblattstrang; "internal"), s= Faltblattstrang - Faltblattstrang ("strand-strand") und e= unterschiedlicheSegmente - unterschiedliche Faltblätter kodiert.a) AInt29: Präferenzen für Aminosäureseitenketten bei Unterscheidung von 29 Kontaktwechselwirkungs-Typen,wie in Abb. 36 c definiert. Beispiele: Prolin (P) hat eine starke Präferenz für TTP (Prolin in einem "Turn" inKontakt mit anderen Resten im selben "Turn"), Lysin hat eindeutige Präferenzen für HW, EW, TW und XW(Lysin in Kontakt mit Wasser, unabhängig vom Sekundärstrukturtyp). Die stärksten Präferenzen für EHe sind fürIsoleuzin und Phenylalanin zu sehen (in einem Faltblattstrang mit Kontakt zu einer Helix).b ) AS5: Präferenzen von Aminosäureseitenketten für Kontakte von 5 verschiedenenKontaktwechselwirkungstypen (Kontakt mit Helix, Faltblatt, Turn, Loop, Wasser). Die Zählraten für dieseeinfacheren Wechselwirkungstypen ohne Berücksichtigung der Sekundärstruktur sind aus den AInt29 Wertendurch Aufsummierung über den Sekundärstrukturtyp bestimmt worden. Für die 5 verschiedenenWechselwirkungstypen der Art "in Kontakt mit" ergeben sich demnach: H = erster Rest (unabhängig von derSekundärstruktur) in Kontakt mit einem anderen Rest in einer Helix, E = Kontakt mit einem Rest in einemFaltblatt, T = Kontakt mit einem Rest in einem Turn, X = Kontakt mit einem Rest in einem Loop, W = Kontaktmit Wasser. Beispiele: Valin und Isoleuzin haben eine deutliche Präferenz für Kontakte mit Resten, die in einemFaltblatt sind, Alanin mit Resten die in einer Helix sind und Lysin für Kontakte mit Wasser. Diese Art vonPräferenzen werden durch den Sekundärstrukturtyp des jeweiligen zentralen Restes bestimmt, einfach weil Restein einer Helix sehr oft in Kontakt mit anderen Resten in einer Helix sind. Die AS5 Parameter wurden primär alsVergleichsgrundlage, und weniger zur Vorhersage verwendet.c ) AM2: Präferenzen von Aminosäureseitenketten für Kontakte von 2 verschiedenenKontaktwechselwirkungstypen, Kontakte mit Wasser (Wat) und Kontakte mit anderen Proteinatomen (Prot).Diese Parameter wurden durch entsprechendes Aufsummieren der Protein-Protein Kontakte über dieSekundärstrukturtypen beider in Kontakt stehender Reste aus den AInt29 Werten berechnet. Diese Parameterstellen im Prinzip eine Hydrophobizitätsskala dar, so hat z.B. Lysin eine starke Präferenz für Wasserkontakte,während Ile, Phe, Trp und Cys eine starke Präferenz für Protein-Protein Kontakte besitzen. Der schwacheKontrast in der Zeile "Prot" ist dabei ein numerischer Effekt des verwendeten Datensatzes, da die Anzahl derProtein-Wasser-Kontakte weit kleiner als die der Protein-Protein-Kontakte ist.d) S4: Präferenzen von Aminosäureseitenketten für die Häufigkeit in 4 verschiedenen Sekundärstrukturtypen.Diese Werte stellen die klassischen Präferenzparameter von Sekundärstrukturvorhersage-Methoden dar (Chou &Fasman, 1978, Garnier et al., 1978, Maxfield & Scheraga, 1979). Es besteht eine signifikante Korrelation mit denWerten in (b). Die Werte der AS5 geben jedoch zusätzlich Präferenzen für Kontakte mit Wasser an.e) AM2: numerische Werte der AM2 Parameter (c).Die Werte sind jeweils als der Logarithmus der Wahrscheinlichkeitsverhältnisse angegeben.

3.8.2.3. Bewertung der Sequenz-Strukturtauglichkeit

Man kann nun, gegeben eine Position j in der Musterstruktur und einen Rest des Typs R in derTestsequenz, quantifizieren, wie gut ein Rest in diese Position passen würde, d.h. man kanndie Sequenz-Strukturtauglichkeit an dieser Position berechnen. Dazu braucht man lediglichdie Präferenzen dieses Restes vom Typ R für die verschiedenen Kontaktypen zuakkumulieren. Hierbei wird jeweils mit dem Anteil, den ein bestimmter Kontaktyp I in dieserUmgebung an der Position j hat, gewichtet. Für jede Proteinstruktur wurde nun dieTauglichkeit der 20 Aminosäuren an jeder Position in der Struktur j als Sequenz-Struktur-Tauglichkeitsprofil berechnet:

f(R, j) = p(R,I )c(j,I),I∑ (4)

126

wobei R alle Aminosäuretypen und I alle Kontaktypen abdeckt (Abb. 38a). Diezugrundeliegende Annahme ist dabei, daß eine statistische Unabhängigkeit der einzelnenRestterme besteht. Ein Beispiel für ein Tauglichkeitsprofil für das Protein Crambin ist in Abb.38b gegeben. Das Profil hat dabei 20 reelle Zahlen für jeden Aminosäuretyp (R = VL..ND)und für jede Position in der Sequenz. Diese Art der Profile ist analog zu Profilen, wie sie fürSequenzvergleiche benutzt werden (Gribskov et al., 1987, Gribskov et al., 1990), und könnendaher direkt in ein Profil-Alignmentprogramm (siehe Kapitel 3.3) eingelesen werden. Dabeibesteht aber der Unterschied, daß die Profile hier aus Aminosäurekontakten indreidimensionalen Proteinstrukturen abgeleitet sind. Diese Profile können nun dazu benutztwerden, verschiede Anordnungen einer Sequenz in einer Musterstruktur zu bewerten.

127

Abb. 38 a-b. Sequenz-Struktur-Tauglichkeit.a) Berechnung der Sequenz-Struktur-Tauglichkeit f(Val,j) des Restes R(i) (im Beispiel R(Val)) für dieKontaktumgebung c(j) als Kombination aus 5 Kontakt-Wechselwirkungstypen (PX, PT, PE, PH und PW). DieTauglichkeit quantifiziert die Übereinstimmung zwischen den Wechselwirkungsvektoren an der Position j derMusterstruktur und dem Präferenzvektor p(Val) des Restes vom Typ R an der Position i der Eingabesequenz.Die numerischen Zahlen für f(R,j) sind als Grauschattierungen in (b) gezeigt.

128

b) Struktur-abgeleitetes Profil für das Protein Crambin bei der Verwendung der Präferenzparameter AS5. DerAminosäuretyp und die Sekundärstruktur ist an der linken Seite gegeben. An jeder Position in der Struktur(Reihen j=1-46) ist die Tauglichkeit f(R,j) ("fitness") der jeweiligen Aminosäure R (Spalten V bis D) alsGrauschattierung gezeigt (-1,0 = weiß, 1,0 = schwarz). Die Tauglichkeit jeder Aminosäuresequenz für diesesStrukturprofil kann dadurch bestimmt werden, daß man für jede Aminosäure (Spalte) in einer bestimmtenStrukturposition (Reihe) den entsprechenden Tauglichkeitswert entnimmt und für alle Alignmentposition desSequenz-Struktur-Alignments aufsummiert. Für einen gegebenen Satz von Kontakt-Präferenzparametern kanndieses Sequenz-Strukturprofil einmal berechnet werden und in allen nachfolgenden Sequenz-Struktur-Alignments benutzt werden. Prinzipiell können jegliche Art von Präferenzparametern (z.B..Sekundärstrukturpräferenzen) in dieser Weise repräsentiert werden.

3.8.2.4. Algorithmus für das Sequenz-Strukturalignment

Da ein dynamischer Programmieralgorithmus einen effizienten Weg darstellt, die besteAnordnung einer Sequenz in eine bestimmte Struktur zu bestimmen, wurde der in Kapitel 3.3beschrieben Algorithmus für paarweise Sequenzvergleiche in einer abgewandelten Formbenutzt. Hierbei werden die Ähnlichkeitswerte zwischen Aminosäuretypen an der Position i ineinem Protein an der Position j in einem anderen Protein durch die lokale Sequenz-Strukturtauglichkeit f(R,j) des Restes R an der Position i ersetzt. Die Gesamtähnlichkeit oderTauglichkeit wird dabei durch Aufsummieren über alle Paare (i, j) durch dieAlignmentprozedur berechnet.Der dynamische Programmieralgorithmus setzt eine Additivität und eine Unabhängigkeit dereinzelnen Werte voraus. Beide Voraussetzungen sind dabei erfüllt. Die Tauglichkeitswertesind additiv, weil die verwendeten Werte als Logarithmus der Wahrscheinlichkeiten benutztwerden (die als unabhängig voneinander angenommen werden und entlang desAlignmentweges multipliziert werden). Der beste Weg, der an der Position i und j endet, istunabhängig von nachfolgenden Entscheidungen, da das Kontaktprofil eine eindimensionaleAbfolge der Kontaktwechselwirkungsvektoren ist, die wiederum nur aus der Musterstrukturabgeleitet wurden. Hierbei besteht keine Abhängigkeit vom Aminosäuretyps desKontaktpartners der jeweils eingepaßten Aminosäure in die Musterstruktur.

3.8.2.5. Parameter für das Alignment

In einem dynamischen Programmieralgorithmus müssen, um ein realistischen Alignment zuerhalten, 3 Parameter aufeinander abgestimmt werden. Der erste Parameter bestimmt dasVerhältnis der Ähnlichkeitswerte relativ zu null und damit die Länge eines Alignments. Indieser Arbeit wurden die lokalen Ähnlichkeitswerte f(R,j) auf neue Werte s(i, j) mittels einerlinearen Transformation skaliert, um einen zum reinen Sequenzalignments vergleichbarenWert zu erhalten. Dabei wurden der Mittelwert der f(R,j) Werte abzüglich einerStandardabweichung auf eine Ähnlichkeitswert von smin = -0,5 und der Mittelwert plus einerStandardabweichung auf einen Wert von smax = 1,0 gesetzt. Gemittelt wurde dabei über allePositionen j und über alle Resttypen R der 64 Proteine des verwendeten Datensatzes. AlsResultat liegen die meisten Werte für s(i, j) zwischen -0,5 und 1,0. Durch Ändern des Wertesfür smin, bei konstantem Wert für smax, kann somit die mittlere Länge der Alignmentsbeeinflußt werden. Die anderen beiden Parameter sind der Bestrafungswert für das Öffnen undfür das Verlängern einer Lücke. Für die Ergebnisse dieser Arbeit wurden Werte von 4,0 bzw.3,0 für den Lückenöffnungswert, und 0,1 für den Lückenverlängerungswert benutzt. Dies hatzur Folge, daß eine Lücke durch etwa 3 bis 4 optimale Übereinstimmungen kompensiertwerden kann.

129

3.8.2.6. Kerngewichte

Um die Bedeutung des Proteinkernbereiches im Sequenz-Strukturalignment zu untersuchen,wurden sogenannte Kerngewichte ("core weights") eingeführt. Für diesen Zweck wurde derKernbereich so definiert, daß er aus Resten aufgebaut ist, die konserviert und im inneren desProteins liegen. Die Kerngewichte wurden wie folgt berechnet: ausgehend von einemmultiplen Sequenzalignment, wird die Sequenzvariabilität an jeder Alignmentpositionberechnet (siehe Kapitel 3.5) und linear skaliert, so daß der Mittelwert für ein gesamtesmultiples Sequenzalignment 1,0 beträgt. Demzufolge haben konservierte Positionen einGewicht w > 1,0, während variable Positionen ein Gewicht w < 1,0 haben. Diese Gewichtewurden dabei nur für Aminosäuren benutzt, die eine relative Wasserzugänglichkeit vonweniger als 30% haben (relativ zu einem vollkommen zugänglichen Rest) und gleichzeitigeine Variabilität von weniger als v < 25 besitzen. Für alle anderen Reste wurde ein Gewichtvon 0,5 verwendet. Wenn in der Alignmentprozedur die Tauglichkeit an der Stelle i und jbestimmt wird, werden dabei die gewichteten Ähnlichkeiten w * s(i, j) benutzt, wobeizusätzlich eine entsprechende Skalierung der Lückenparameter erfolgt. Auf diese Weise wirdden Resten, die im Kernbereich einer Proteinstruktur liegen, eine höhere Bedeutungzugemessen.

3.8.2.7. Nicht realistische Lückenparameter und fehlende "jack-knife" Tests

Bei dieser Art des Ansatzes gibt es zwei "klassische" Fehler, die begangen werden können.Der erste ist die nicht-realistische Bewertung von Lücken, wenn eine Sequenz gegen ihreeigene Struktur verglichen wird. Wenn die Einführung von Lücken in das Alignment "teuer"gemacht wird, hat dies zur Folge, daß die native Struktur in einem Alignment, die ja keineLücken aufweist, stark bevorteilt ist (Hendlich et al., 1990). Um diesen Effekt zu umgehen,wurden in dieser Arbeit die Lückenparameter so gewählt, das die resultierenden Alignmentsvon homologen Strukturen eine in etwa korrekte Anzahl von Lücken aufwiesen. Der zweiteFehler der des öfteren gemacht wird, ist der, daß die Sequenz, die als Testsequenz benutztwird, nicht aus dem Datensatz, der zur Berechnung der Präferenzen dient, herausgenommenwird ("jack-knife test"). Dies führt in der Regel dazu, daß die Testfälle relativ gute Ergebnisseliefern, jedoch bei Verwendung neuer Testsequenzen ein sehr schlechtes Ergebnis erzielt wird.Je größer die Anzahl der aus dem Datensatz abgeleiteten Präferenzen ist, umso größer istdabei die Gefahr, daß spezifische Protein-Struktur-Informationen in die Präferenzen miteinfließen, bei gleichzeitigem Verlust der Aussagekraft für eine Vorhersage. Dies führtmanchmal dazu, daß es relativ schwierig ist, zu beurteilen, ob dieser Effekt beiveröffentlichten Arbeiten eine Rolle spielt. So haben z.B. Bowie und Mitarbeiter (Bowie et al.,1991) Parameter benutzt, die aus einem Datensatz von 16 Protein abgeleitet waren, der auchMyoglobin und Hämoglobin enthielt, und dann getestet, ob das aus der Struktur abgeleiteteProfil des Myoglobins ("sperm whale myoglobin") dazu in der Lage ist, andere Globine in derDatenbank zu identifizieren.

3.8.2.8. Entfernung der Sequenzinformation aus Kontaktprofilen

Um den Informationsgehalt eines Sequenz-Strukturprofils zu bestimmen, wurde die direkteSequenzinformation aus den Suchprofilen entfernt. Dies hat den folgenden methodischenGrund: Wenn die Größe oder der chemische Charakter eines Restes in der Definition derStrukturzustände benutzt wird, fließt eine Sequenz-Sequenz-Information mit in den Sequenz-Strukturvergleich ein. Dadurch wird es äußerst schwierig, den erhofften Vorteil von Sequenz-Strukturvergleichen gegenüber reinen Sequenzvergleichen zu bestimmen. Hierbei wurde die

130

Information über die Größe eines Restes dadurch entfernt, daß dieKontaktwechselwirkungsvektoren c(j) für jede Position j in einer Struktur normalisiertwurden. Aufgrund dessen können alle Resultate dazu benutzt werden, den Einfluß derStrukturinformation in einem Sequenz-Strukturalignment zu bestimmen. DieseVorgehensweise ist im Kontrast zu der Methode von Bowie (Bowie et al., 1991) , bei der diedem Lösungsmittel zugängliche Oberfläche eines Restes als eins von zwei Kriterien für dieUmschreibung eines Strukturzustandes benutzt wird. Hierbei haben große Reste im Mittelauch eine größere dem Wasser zugängliche Oberfläche.

131

3.8.3. Ergebnis

Um den Nutzen dieser Methode zu testen, wurden Proteine, deren dreidimensionale Strukturbekannt ist, als Kontaktprofile dargestellt und die Tauglichkeit von verschiedenen Sequenzenfür diese Strukturen getestet. Dabei wurden folgende, in ihrem Schwierigkeitsgradzunehmende Tests durchgeführt: Schiebetest, Selbstalignment, Suche einer Sequenz nacheiner Struktur, Suche nach Faltungseinheiten und die Suche einer Struktur nach einerSequenzen.

3.8.3.1. Schiebetest: Kann die korrekte Position einer Sequenz in ihrer eigenen Struktur gefunden werden ?

In diesem Test wird die Sequenz eines Proteins (ohne Lücken) in alle möglichen Positionen inihre eigene Sequenz eingepaßt. Dabei wird eine zyklische Verschiebung um jeweils einenRest vorgenommen. Reste, die über das C-terminale Ende hinausragen würden, werden dabeijeweils vor das N-terminale Ende angesetzt. Für jede dieser Anordnungen wird eine Sequenz-Strukturtauglichkeit berechnet (siehe Methoden). Hierbei ist die Frage, welche derabgeleiteten Präferenzparameter ein klares Maximum für die korrekte Anordnung einerSequenz in ihrer Struktur liefern.Das Resultat ist erstaunlicherweise sehr eindeutig. Die Tauglichkeit einer Sequenz in ihrernativen Anordnung ist bei weitem besser als jede andere (Abb. 39a bis d). Dieses Ergebnis giltdabei, mit der Ausnahme des α-Amylase Inhibitors (1HOE) für die Parameter AM2 und AS5,für alle 64 getesteten Proteine und für alle verwendeten Präferenzparameter. Typischerweiseist dabei das Signal an der korrekten Position etwa 4 bis 7 Standardabweichungen größer alsdie Hintergrundverteilung. Wenn derselbe Test mit klassischen Präferenzparametern fürSekundärstrukturvorhersage (S4) durchgeführt wird (Abb. 39a), sinkt die Anzahl der Proteinemit dem korrekten Ergebnis von 64 auf 46 (wobei allerdings bei 60 von 64 Proteinen dashöchste Signal in einem Bereich von ±1 Resten neben der korrekten Position liegt). Darauskann geschlossen werden, daß selbst sie einfachste Zwei-Zustandsbeschreibung (AM2) besserals die klassischen Sekundärstrukturpräferenzen sind, weil die den Einfluß des Wassers inBetracht ziehen. Dies bedeutet, daß hydrophobe innen/außen Präferenzen mehr Informationals Sekundärstrukturpräferenzen besitzen.Der Grund für dieses eindeutige Ergebnis dürfte dabei die Koorperativität der Effekte sein. Ineinem typischen globulären Protein mit Sekundärstruktursegmenten und Schleifenregionenunterschiedlicher Länge führt lediglich die Anordnung in der native Struktur dazu, daß dieEinzelrestpräferenzen sich zu einem positiven Gesamtwert addieren. Eine Verschiebung umnur einen Rest kann dazu führen, daß viele Reste von einer Außenposition in eineInnenposition geschoben werden. Jede weitere Verschiebung führt ebenfalls zu sehrnachteiligen Anordnungen der Aminosäuren. Eine Ausnahme bilden dabei periodischeStrukturen, wie sie in Abb. 39 d zu sehen sind.

132

-100 -50 0 50 100

3ADK S4fi

tnes

s

shift ( r esi dues)

-0.3 -0.2 -0.1 0.0 0.1 0.2

-100 -50 0 50 100

3ADK AM 2

fitn

ess

shift ( r esi dues)

-0.0

8

-0

.06

-

0.04

-0.

02

0

.0

0.0

2

0

.04

0.06

(a)

(b)

133

-100 -50 0 50 100

3ADK AI nt 29fi

tnes

s

shift ( r esi dues)

-0.4 -0.2 0.0 0.2

-60 -40 -20 0 20 40 60

1REI AI nt 29

fitn

ess

shift ( r esi dues)

-0.4 -0.2 0.0 0.2

(c)

(d)

Abb. 39 a - d. Schiebetest: Detektion des korrekten Alignments einer Sequenz in ihrer eigenen Struktur. Indiesem Schiebetest, in dem keine Lücken im Alignment erlaubt werden, wird die Sequenz zyklisch durch ihrenative Struktur geschoben. Hierbei werden Reste, die über das C-terminale Ende hinausgeschoben werden, vordas N-terminale Ende gesetzt. Für jede Verschiebung (jeweils um einen Rest) wird mit Hilfe derPräferenzparameter bestimmt, wie gut die Sequenz in die Struktur eingepaßt werden kann. Eine Verschiebungum 0 korrespondiert dabei mit der nativen Struktur. In allen Beispielen hat die wirkliche Anordnung, unabhängigvon den verwendeten Parametern, den höchsten Wert, wobei aber die Kontaktwechselwirkungspräferenzen einsehr viel schärferes Signal als die klassischen Sekundärstruktur-Präferenzparameter (S4) ergeben.a) Bewertung der Adenylatkinase, eine gemischte α/β − Struktur, mit Hilfe der S4 Parameter. Hierbei erfolgt dieBewertung nur nach dem Sekundärstrukturtyp ohne Verwendung von Kontaktwechselwirkungstypen oder dieEinbeziehung von Wasserkontakten. Bemerkenswert ist, daß es bei einer Verschiebung von einem Rest (±1)jeweils ein Nebenmaximum gibt.b) Bewertung der Adenylatkinase mit Hilfe der AM2 Parameter (Protein-Protein oder Protein-Wasser Kontakt).Trotz der kleineren Anzahl an Parametern ist hier ein besseres Signal als in (a) zu sehen.c) Bewertung der Adenylatkinase mit Hilfe der AInt29 Kontaktpräferenzparameter.

134

d) Bewertung eines Immunoglobulin-ähnlichen Proteins (1REI), ein Homo-Dimer mit einer anti-parallelen "beta-sandwich" Struktur aus vier Faltblättern, mit Hilfe der AInt29 Kontaktpräferenzparameter. Im Sequenz-Strukturalignment ist hier eine schwache Periodizität zu erkennen (4-auf-4 Faltblattsträngen).

Die Ergebnisse des Schiebetests zeigen, daß die Bewertung des Sequenz-Strukturalignmentseine nützliche Filterprozedur für das Erkennen von falschen Sequenzanordnungen in einemStrukturmodell sein kann. Dabei sind Innen/Außen Präferenzen von Aminosäuren diewichtigsten Einzelfaktoren. Eine vergleichbare Schlußfolgerung wurde bei der Verwendungvon Lösungsmittel-Präferenzparametern gezogen (Holm & Sander, 1992).

3.8.3.2. Selbstalignment

Im sogenannten Selbstalignment wird eine Sequenz mit ihrer eigenen Struktur verglichen,wobei die Einführung von Lücken erlaubt ist. Mit Hilfe eines dynamischenProgrammieralgorithmus wird dabei aus einer riesigen Anzahl von möglichen Alignments, dasmit dem optimalen Wert berechnet (Abb. 40). Die lokale Ähnlichkeit wird dabei mit Hilfe derSequenz-Struktur-Tauglichkeitsprofile bewertet (Abb. 38b).

135

136

Abb. 40 a - b: Selbst-Alignmenta) Die Matrix der Ähnlichkeitswerte repräsentieren ein Alignment des Restes R an der Position i in derEingabesequenz (horizontale Achse) mit der Position j in der Musterstruktur (vertikale Achse). DerAlignmentalgorithmus findet den besten Weg durch die Matrix, so daß die Summe aller Tauglichkeitswerte("fitness") maximiert wird.b) Ähnlichkeitsmatrix für das Alignment des Proteins Flavodoxin (3FXN) mit sich selbst. Das Protein besitzteine gemischte β−α-Struktur und hat eine Länge von 138 Resten. Die Tauglichkeitswerte ("fitness") sind jeweilsmit einer Fensterbreite von 12 Resten berechnet und geben für jedes Sequenzfragment der Länge 12 dieTauglichkeit ("fitness") in jedem Strukturfragment dieser Länge an. Die Grauschattierung gibt dabei die Güte derTauglichkeit an. Es wird deutlich, daß in manchen Bereichen eine große Präferenz für ein bestimmtes Segmentbesteht (zusammenhängende Linien auf der Diagonalen und Nebendiagonalen). Dies führt zur Unterscheidungvon α-Helix bzw. β-Faltblattsträngen, jedoch sind die Präferenzen nicht stark genug, um daraus ein eindeutigesAlignment abzuleiten. Nur der kooperative Effekt des Aufsummierens der Tauglichkeitswerte kann zu einemlangen zusammenhängenden Alignment entlang der Hauptdiaognalen führen. Einige der Nebendiagonalen zeigenkorrekterweise die Präferenz für Sequenzfragmente für strukturell ähnliche β−α−β Einheiten an (z.B. die ersten20-25 N-terminalen Reste).

Das Ergebnis ist praktisch für alle Proteine im Datensatz richtig. Das native Alignment ist alsdas jeweils beste Alignment identifiziert, obwohl es viele sinnvolle Anordnungen gibt, einbestimmtes Sequenzstück in ein Struktursegment einzupassen (Nebendiagonalen in Abb. 40).Dieser Test ist dabei für kleine Proteine schwieriger als für große, da kleine Proteine in vielenBereichen in den größeren eingepaßt werden können, während für die großen Proteine nureine begrenzte Anzahl von Auswahlmöglichkeiten besteht. Die Qualität des resultierendenAlignments kann durch die Sequenzidentität gemessen werden (Spalten in Abb. 41). Im Falledes Trypsins (4PTP) führt zumindest eine Insertion bzw. Deletion zu einer Sequenzidentitätvon nur 76%. Die verschiedenen getesteten Präferenzparameter ergeben dabei folgendesErgebnis: mit den AInt29 Parametern erzielen 63 von 64 Proteinen ein korrektes Alignment,mit den AS5 Parametern sind ebenfalls 63, mit den AM2 60 und mit den S4 Parametern sindetwa ein Drittel der Alignments mit einem Fehler von bis zu 42% falsch.Das Alignment einer Sequenz in ihre eigene Struktur ist dabei keine einfacher Test, wenn alledirekten Informationen über die Sequenz entfernt worden sind und eine Position nur durchihre (normalisierte) Kontaktumgebung charakterisiert ist. Trotzdem zeigt sich, daß daskorrekte Alignment einen Vorteil gegen alle anderen möglichen Alignment besitzt. Daspositive Resultat des Selbstalignmenttests ist somit eine notwendige aber nicht ausreichendeVorbedingung für den Erfolg der Sequenz-Strukturalignment Methode.

3.8.3.3. Eine Sequenz auf der Suche nach einer Struktur

In diesem Test wird eine Proteinsequenz gegen 64 verschiedene Strukturen verglichen. Dabeiist die Frage, ob eine Sequenz in der Lage ist, die richtige Struktur aus einem Angebot vonStrukturprofilen herauszufinden. Wenn dies nicht zutrifft, kann man fragen, welche Strukturanstelle der korrekten als beste identifiziert wurde, und ob diese Struktur ähnlich zur nativenist. Für jedes Sequenz-Strukturpaar wurden hierfür die 5 besten nicht überlappenden lokalenAlignments bestimmt. Auf diese Weise hatte eine Sequenz jeweils mehr als 300 Alternativen.Die Ergebnisse diese Test (Abb. 41) sind recht vielversprechend. Für 58 der 64 Proteine ist dienative Struktur die mit dem besten Wert (Aint29 Parameter). Die Qualität des Alignments istdabei sehr gut (in den meisten Fällen 100% Sequenzidentität), sie sind dabei praktisch, mitAusnahme der S4 Parameter, unabhängig von den verwendeten Präferenzparametern.

137

protein selfrankwithAInt

%identity

forAInt

selfrankwithAM

%identity

forAM

selfrankwithAS

%identity

forAS

selfrankwithSA

%identity

forSA

351c 1 100 9 100 1 100 3 100256b 1 100 1 100 1 100 9 1008adh 1 100 1 100 1 100 -8atc 1 100 1 100 1 100 1 1002aza 1 100 1 100 1 100 51 933b5c 1 100 1 100 1 100 -3blm 1 100 1 100 1 100 -2ca2 1 100 1 100 1 100 1 1001ccr 1 100 1 100 1 100 4 1002ccy 1 100 1 100 1 100 2 1001cd4 1 100 1 100 1 100 1 1003cla 1 100 1 100 1 100 4 1005cpa 1 100 1 100 1 100 1 612cpp 1 100 1 100 1 100 1 804cpv 1 100 1 100 1 100 -1cse 1 100 1 100 1 100 1 761ctf 2 100 1 100 2 100 134 1002cyp 1 100 1 100 1 100 -8dfr 1 100 1 100 1 100 1 1001ecn 1 100 1 100 1 100 141 1002er7 1 100 1 100 1 100 1 974fd1 1 100 1 100 1 100 1 1004fxn 1 100 1 100 1 100 1 763gap 1 100 1 100 1 100 -2gbp 1 100 1 100 1 100 1 1001gcr 1 100 1 100 1 100 3 881gd1 1 100 1 87 1 100 1 851gox 1 100 1 100 1 100 2 1001gp1 1 100 2 100 1 100 2 1002hla 1 100 1 100 1 100 1 1001hoe 11 100 269 100 - 32 871i1b 1 100 1 100 1 100 10 1004icd 1 100 1 100 1 100 1 581il8 1 100 1 100 1 100 9 1001l13 1 100 1 100 1 100 1 846ldh 1 100 1 85 1 100 1 902liv 1 100 1 100 1 100 1 782ltn 1 100 1 100 1 100 -1lz1 1 100 1 100 1 100 -1mbd 1 100 1 100 1 100 4 1002mhr 1 100 1 100 1 100 131 1002pab 1 100 1 100 1 100 36 1001paz 1 100 1 100 1 100 1 644ptp 1 76 1 100 1 100 -1r69 1 100 1 100 1 100 2 1001rhd 1 100 1 100 1 100 1 1007rsa 1 100 1 100 1 100 1 1002rsp 1 100 1 100 1 100 2 1005rxn 2 100 1 100 1 100 80 852sga 2 100 1 100 1 100 -4sgb 2 100 39 100 2 100 28 1002sns 1 100 1 100 1 100 -2sod 1 100 1 100 1 100 -2ssi 1 100 2 100 1 100 4 1002stv 1 100 29 100 3 86 12 1002tmn 1 100 1 96 1 100 -1tnf 1 100 1 100 1 100 3 1002ts1 1 100 1 100 1 100 4 631ubq 1 100 1 100 1 100 -1utg 12 100 - 18 100 -2wrp 1 100 13 100 1 100 2 1001wsy 1 100 1 100 1 100 1 1004xia 1 100 1 80 1 100 -1ypi 1 100 1 100 1 100 1 100

Abb. 41. Suche einer Sequenz nach einer Struktur: Rangliste der nativen Struktur. Aufgelistet sind die Ergebnisseeiner Alignmentsuche, bei der jeweils die Sequenz als Eingabe verwendet wurde und gegen alle Strukturen auseinem selektierten Datensatz mit 64 Proteinen verglichen wurde. Benutzt wurden die Kontaktpräferenzparameterund zum Vergleich die Sekundärstrukturparameter. Für jeden Paarvergleich wurden die 5 besten Alignmentsbestimmt und die Werte (5 * 64 = 320) sortiert. Die Position der nativen Struktur in der Rangliste ist als "selfrank" angegeben. Die Qualität des korrespondierenden Alignments ist als prozentuale Übereinstimmung deridentischen Reste angegeben. Rang 1 und eine 100%ige Sequenzidentität bedeutet, daß die Sequenz-Struktur-Suche erfolgreich war, d.h. sowohl die native Struktur wurde erkannt, sowie ein richtiges Alignment wurdeberechnet. Die Kontaktparameter (AInt29, AS5, AM2) erzielen dabei bessere Resultate als die reinenSekundärstrukturparameter (S4). Ein Bindestrich zeigt an, daß die Sequenzidentität kleiner als 50% war, was alsnegatives Ergebnis interpretiert werden muß. Es wurden folgende Alignmentparameter benutzt: Öffnen einerLücke = 4,0, Verlängern einer Lücke = 0,1, smin = -0,5, smax= 1,0, maximale Länge einer Lücke = 10.

138

Die praktische Bedeutung dieses Tests liegt in der dreidimensionalen Vorhersage vonProteinstrukturen, wobei eine gegebene Sequenz gegen die bereits bekannten Strukturenverglichen werden kann. Die Frage, die damit beantwortet wird ist die folgende: Wenn eineSequenz einen bereits bekannten Faltungstyp hat, welche Struktur ist die korrekte ? Derjeweils vorhergesagte Faltungstyp ist der mit dem höchsten Alignmentwert. Wenn dabeidieser Wert relativ klein ist, verwirft man die Hypothese, daß die Sequenz einen bereitsbekannten Faltungstyp besitzt. Dieser Test liefert gute Ergebnisse für die native Struktur. Umvon praktischer Bedeutung zu sein, müssen jedoch auch entfernt verwandte Paare wie etwaImmunoglobulin und CD4 Rezeptor oder Globin und Phycocyanin erkannt werden. In derderzeitigen Version ist dies aber nicht immer möglich.

3.8.3.4. Eine Sequenz auf der Suche nach strukturellen Faltungseinheiten

Ein etwas anspruchsvollerer Test ist die Suche einer Sequenz nach Faltungseinheiten oderSubstrukturen im Gegensatz zur gesamten Struktur. Kann eine Strukturdomäne oder eineFaltungseinheit identifiziert werden, auch wenn sich die native Struktur nicht unter denangebotenen Alternativen befindet ? Hierbei ergibt sich ebenfalls die Frage, bis zu welcherStufe von Struktureinheiten die Suchprozedur arbeitet. Ein Beispiel ist in Abb. 42 gezeigt,indem mit der Sequenz des D-Galaktose bindenden Protein (2GBP) gegen einen Datensatz ausStrukturen inklusive der des 2GBP gesucht wurde. Die Strukturen, die am besten zu dieserSequenz passen, sind das 2GBP selbst und die zwei homologen Strukturen des 1ABP und2LIV's (die Sequenzähnlichkeit ist dabei sehr gering). Die nächstbesten Strukturen des 3ICDund der 3PGK sind nicht Struktur-homolog, besitzen jedoch eine ähnlicheSupersekundärstruktur ((βα)n Einheiten). In allen Fällen stimmt die Sekundärstruktur sehr gutüberein.

1 - 100 ....:....1....:....2....:....3....:....4....:....5....:....6....:....7....:....8....:2gbp ADTRIGVTIYKYDDNFMSVVRKAIEQDAKAAPDVQLLMNDSQNDQSKQNDQIDVLLAKGVKALAINLVDPAAAGTVIEKARGQNV EEEEEEES TT HHHHHHHHHHHHHHTT TTEEEEEEE TT HHHHHHHHHHHHHTT SEEEESSGGGHHHHHHHHHTTT

*************************************************************************************2gbp 212.20ADTRIGVTIYKYDDNFMSVVRKAIEQDAKAAPDVQLLMNDSQNDQSKQNDQIDVLLAKGVKALAINLVDPAAAGTVIEKARGQNV EEEEEEES TT HHHHHHHHHHHHHHTT TTEEEEEEE TT HHHHHHHHHHHHHTT SEEEESSGGGHHHHHHHHHTTT * * * * * ** * * * * * ** **** 1abp 159.71ENLKLGFLVKQPEEPWFQTEWKFADKAGKDLGFEVIKIAV..PDGEKTLNAIDSLAASGAKGFVICTPDPKLGSAIVAKARGYDM EEE SSTTHHHHHHHHHHHHHHSSS EEE .. SHHHHHHHHHHHHHT B S SS TTHHHHHHHHH * ** * * * * * * * 3icd 155.26ENPIIPYIEgdVTPAMLKVVDAAVEKAYKGERKISWMEIYTGelPAETLDLIREYRVAIKGPLTT..PVGGGIRSLNVALRQELD SSBEEEEE HHHHHHHHHHHHHHHHHTTTS EEEEE THS HHHHHHHHHHSEEEE .. SSSHHHHHHHHTT * * * * * * * * * * * * 2liv 151.58EDIKVAVVGaqYGDQEFTGAEQAVADINAkgNKLQIAKYDDACDPKQAVAVANKVVNDGIKYVIGHlyEDEGILMITPAATAPer EEEEEEE HHHHHHHHHHHHHHHHHHHTTB EEEEEEE TT HHHHHHHHHHHHHTT EEEE HHHTT EEEESS GGS * * * * * ** * * * * *

139

3pgk 149.39KDKRVFIRVdiTSNQRIVAALPTIKYVLEHHPRYVVLASHLGrsLAPVAKELQSLLGKDVTFLNDCVgdGQKVKASKEDVQKFRH SS EEEE S HHHHHHHHHHHHHHHH S EEE SHHHHHHHHHHH S EE SS SSSS HHHHHHHH

Abb. 42. Suche einer Sequenz nach einer Sub-Struktur (Faltungs-Einheit). Gezeigt sind die optimalenAlignments nach einer Suche mit der Sequenz des D-Galaktose-Bindungsproteins (2GBP) gegen einenDatensatz aus 64 Kontaktprofilen. Es sind nur die ersten 85 Reste des 2GBP-Proteins gezeigt. Angegeben sindjeweils die Sequenz, die Sekundärstruktur, Sequenzidentität ("*"), Lücken (".") und Insertionen (alsKleinbuchstaben). Die vier besten Alignments der Suche sind das Arabinose-bindende Protein (1ABP), dieIsozitrat Dehydrogenase (3ICD), das Leuzin-Isoleuzin-Valin-bindende Protein (2LIV) und diePhosphoglyzerat-Kinase (3PGK). Zwei dieser Protein (1ABP, 2LIV) haben einen ähnlichen Faltungstyp undsind korrekt auch mit guten Alignments identifiziert. Der Faltungstyp der beiden anderen Proteine (3ICD,3PGK) ist zwar auch vom (αβ)n Typ, aber die Topologie der Kettenverbindung ist verschieden.Bemerkenswert ist allerdings, daß die Sekundärstruktur dieser beiden Proteine über weite Bereiche mit der des2GBP übereinstimmt. Dies deutet darauf hin, daß die Vorhersage von Sub-Strukturen oder Faltungseinheitenmit Hilfe der Sequenz-Struktursuche von praktischer Bedeutung sein kann.

140

3.8.3.5. Eine Struktur auf der Suche nach einer Sequenz

Die Methode kann "auf den Kopf gestellt" werden, indem mit einer Struktur gegen eineDatenbank aus Sequenzen gesucht wird. In dieser invertierten Suche versucht man alleSequenzen zu identifizieren, die eine strukturelle Domäne enthalten, die ähnlich zurSuchstruktur ist. Die Frage dabei ist, ob die native Sequenz oder zu ihr homologe Sequenzenin einer Suche immer an erster Position gefunden werden. Hierfür wurden jeweils dieStrukturprofile der 64 Proteine gegen einen Datensatz aus 640 Sequenzen verglichen ( die 64Sequenzen der Suchstrukturen und 576 zufällig gewählte Sequenzen aus der SwissProtDatenbank. Als Präferenzparameter wurden die AInt19 Wechselwirkungspräferenzen undfolgende Alignmentparameter benutzt: Lückenöffnung = 10,0, Lückenverlängerung = 0,3,smin = -0,7, wobei keine Lücken in Sekundärstruktursegmenten erlaubt waren.Die native Sequenz wurde in 38 von 64 Fällen an erster Position gefunden (73%) und in 55Fällen innerhalb der 10 besten Alignments (86%). Die Alignments der Strukturen mit ihrennativen Sequenzen waren in fast allen Fällen perfekt. Für die Parameter AM2 sind dieErgebnisse vergleichbar (Rang 1: 73%, Rang 1 oder 2: 83%, Rang unter den 10 besten: 84%).Das Gesamtergebnis dieses Tests scheint dabei auf den ersten Blick schlechter zu sein, als derTest, bei dem eine Sequenz eine Struktur sucht. Dabei ist aber zu bedenken, daß in denmeisten Fällen, in denen die native Sequenz relativ schlecht bewertet wurden, Sequenzen, diebesser eingestuft wurden, nah verwandte Sequenzen waren. So haben z.B. die reinen HelixProteine des Globins 1ECN, 4MHR und das Kalzium-bindende Protein 4CPV jeweils alleanderen Helix-Proteine wie Myosin und Tropomyosin als beste Sequenz identifiziert d.h. alsokorrekte Identifizierung auf der Ebene von Sekundärstruktursegmenten.

3.8.3.6. Verbesserung durch Kerngewichte

Die Verwendung von evolutionärer Information kann zur Verbesserung des Sequenz-Strukturalignment beitragen. Dies wird durch die Verwendung von höheren Gewichten fürkonservierte Kernreste einer Struktur (siehe Methode), die aus einem multiplenSequenzalignment und den Wasserzugänglichkeiten abgeleitet werden, geschehen. Dabei istdie Grundidee, daß Resten, die sehr variabel und in Kontakt mit Wasser stehen, wenigerAugenmerk geschenkt wird.Diese Kerngewichte sind dabei besonders für die Detektion von entfernt verwandten Proteinenvon Nutzen. In einer Suche mit der Sequenz der Malat-Dehydrogenase (4MDH) gegen einenDatensatz aus Kontaktprofilen, bei dem Kerngewichte benutzt werden, wird die verwandteLaktat-Dehydrogenase (6LDH) an Rang 1 eingeordnet, obwohl nur eine Sequenzidentität von15% erreicht wird. Die Qualität des implizit damit verbunden dreidimensionalen Modells isterstaunlich gut, wenn der direkte Strukturvergleich dieser beiden Protein zum Vergleichherangezogen wird (Abb. 43). Ein relativierendes Faktum dieses guten Resultats ist allerdingsdie überdurchschnittliche Länge der Dehydrogenasen mit mehr als 300 Resten. Hierbei ist zubedenken, daß die Einordnung auf den Rang 1 nach dem absoluten Alignmentwert in diesemund ähnlichen Fällen durch den Umstand erleichtert wird, daß kurze Kontaktprofile mit einerkleineren Wahrscheinlichkeit zu vergleichbaren hohen Alignmentwerten führen. Einezufällige Übereinstimmung der Längen kann mit ein Grund für die erfolgreiche Detektion vonschwach verwandten Sequenzen in den Beispielen von Bowie et al. (Bowie et al., 1991)gewesen sein.

141

0

5

10

15

20

25

30

35

0 25 50 75 100 125 150 175

Frequency

Fitness

6ldh 4mdh

α/β

Abb. 43 Anwendung von Kerngewichten in der Suche nach entfernt verwandten Proteinen. Die Sequenz derMalat-Dehydrogenase (4MDH) erkennt das Strukturprofil der entfernt verwandten Laktat-Dehydrogenase(6LDH) bei einer Suche gegen 69 verschiedene Profile an zweiter Stelle, direkt nach der nativen Struktur. Dasresultierende Alignment ist dabei relativ gut: das Sequenz-Strukturalignment zeigt eine mittlere Abweichung deräquivalenten Cα-Atome von 4,7 Å über einen Bereich von 309 Resten und eine Sequenzidentität von 15%,verglichen mit einer optimalen Abweichung von 2,7Å und 18% Sequenzidentität nach direktemStrukturvergleich (Holm et al., 1992). Die Positionen 3,4 und 5 sind mit anderen gemischten α−β-Proteinenbesetzt. Es wurden die Kontaktparameter AInt29, Lückenöffnungswert = 10,0, Lückenverlängerungswert = 0,3und smin = -0,7 verwendet.

Ein weiteres Beispiel für diesen anspruchsvollen Test ist die Suche der Myoglobin-Struktur(1MBD) gegen die gesamte SwissProt Datenbank (Abb. 44). Der Überlappungsbereich derWerte für Globin und Nicht-Globin-Sequenzen wird durch Verwendung von Kerngewichtensignifikant reduziert (Abb. 44 a und b). Desweiteren werden in dieser Suche einige sehr weitverwandte Sequenzen identifiziert, die mit reinen Sequenzmethoden nicht mehr detektierbarsind. Die Diskriminierung zwischen wahren Treffern und statistischem Hintergrund ist dabeirecht scharf, wie in der zweidimensionalen Auftragung des Sequenz-Struktur-Tauglichkeitswertes (längennormalisiert nach der Formel für den längenabhängigenHomologieschwellenwert aus Kapitel 3.1) gegen die Sequenzidentität zu sehen ist (Abb. 44 c).

142

a)

0

50

100

150

200

250

0.01 0.31 0.61 0.91

num

ber o

f seq

uenc

es

normalized fitness

Myoglobin (1MBD), without core weights

b)

0

50

100

150

200

250

0.01 0.31 0.61 0.91

num

ber o

f seq

uenc

es

normalized fitness

Myoglobin (1MBD), with core weights

143

c)

3.3

3.4

3.5

3.6

3.7

3.8

3.9

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

Fitn

ess *

Len

gth-0

.562

1

Sequence identity

2

345

6 7

Abb. 44 a -c. Anwendung der Kerngewichte in der Suche einer Struktur nach einer Sequenz. Gezeigt sind dieErgebnisse einer Suche des Kontaktwechselwirkungsprofils des Myoglobin gegen die SwissProt Datenbank(25000 Sequenzen), (a) ohne Kerngewichten, (b) und (c) mit Kerngewichten. Hierbei wurde lediglich das aus derStruktur abgeleitete Profil sowie die Kerngewichte verwendet, die Sequenz des Myoglobins wurde nicht mit inBetracht gezogen. Es sind jeweils die 2000 besten Werte der Datenbanksuche gezeigt. Die Trennung derDatenpunkte für die Globine (Balken, Myoglobine auf der rechten Seite, Hämoglobine auf der linken Seite) unddie Nicht-Globine (als Linie) ist bei Anwendung der Kerngewichte sehr viel besser als ohne. Es wurden jeweilsdie Parameter AM2 verwendet. In (a) und (b) wurden die Tauglichkeitswerte jeweils zwischen 1,0 (bestesAlignment) und 0,0 (Alignment an der Position 2000) skaliert.a) Alle Sequenzen besitzen das gleiche Gewicht.b) konservierte Kernpositionen haben ein höheres Gewicht in der Alignmentprozedur.c) gleiche Daten wie in (b), aber mit der prozentualen Sequenzidentität (bestimmt nach dem Sequenz-Strukturalignment) und einem auf die Alignmentlänge normalisierten Tauglichkeitswert ("fitness"). DieseDarstellung erlaubt eine bessere Unterscheidung der Daten als in (b) gezeigt. Proteine, die nicht in die Klasse derGlobine eingeordnet sind, jedoch einen ähnlich hohen Tauglichkeitswert wie Globine besitzen, sind mit Zahlenvon 3-7 markiert ( 3: Phe-tRNA Synthase beta-Kette, syfb_ecoli ; 4: Sulfat Permease, cy14_neucr; 5: src-verwandte Tyr-Kinase, kstk_hydat; 6: Replikationsstart-bindendes Protein, ul09_hsv11; 7: dapa-Aminotransferase, bioa_bacsh). Diese Proteine müssen entweder als falsche Treffer eingestuft werden, oder alsVorhersage für globin-ähnliche Strukturen betrachtet werden. Zwei sehr weit entfernte homologe Proteine desMyoglobins (16% Sequenzidentität im Sequenz-Strukturalignment) sind das Kobra Hämoglobin (1: hbb2_najna)und das Pflanzen Globin (2: hbpl_parad).

144

Für Sequenzen, die einen Tauglichkeitswert nahe der Grenze zwischen Signal undHintergrund haben, ist mit dieser Art der Suche eine Strukturvorhersage verbunden. In derSuche mit der Sequenz des Myoglobins werden fünf Sequenzen identifiziert, die potentiell nuraus Helices und Schleifenregionen aufgebaut sind (Abb. 44c). Die src-verwandte Kinase istdabei, aufgrund der bekannten Struktur eines homologen Proteins (cAMP-abhängigeProteinkinase) (Knighton et al., 1991) , als ein falscher Treffer einzuordnen. Die Sequenz desHerpes simplex Virus Proteins, das an den Startbereich der Replikation bindet (McGeoch etal., 1988), ist wahrscheinlich ein wahrer Treffer: dar C-terminale Bereich (Reste 701-851) istals Struktur, die nur aus Helices besteht, vorhergesagt, und möglicherweise eine Globin-ähnlichen Faltungstyp besitzt. Die Vorhersage wird dabei durch folgende Beobachtungunterstützt: ein Bereich von 85 Resten hat eine Sequenzidentität zu einer alpha-Kette desHämoglobins von 29,4%, und eine Sekundärstrukturvorhersagemethoden, die eine mittlereVorhersagegüte von 71% besitzt, sagt in diesem Bereich 6 Helices voraus (Rost et al., 1993).

3.8.4. Diskussion

3.8.4.1. Strukturvorhersage durch Sequenz-Sequenzalignment

Die Vorhersage von Proteinstruktur durch die Detektion einer Sequenzhomologie zu einerbekannten Struktur hat seit einiger Zeit eine praktische Bedeutung erlangt. Eine Anzahl vonMethoden wurden dabei entwickelt, um Sequenzprofil- oder Sequenzmustersuchen mit Hilfedes dynamischen Programmieralgorithmus gegen Datenbanken durchführen zu können(Taylor, 1986, Bashford et al., 1987, Gribskov et al., 1987, Staden, 1988, Smith & Smith,1990, Henikoff & Henikoff, 1991). Wenn ein signifikanter Treffer (Sander & Schneider,1991) (Kapitel 3.1) mit einer Sequenz, dessen Struktur bekannt ist, gefunden wird, kann dieStruktur des Suchproteins mit hinreichender Genauigkeit modelliert werden. Die neue undeinfache Idee bei dem hier vorgestellten Ansatz ist die Bewertung der Sequenz-Strukturtauglichkeit auf direktem Wege, ohne den indirekten Weg über den Vergleich derSequenzen zu benutzen.

3.8.4.2. Meßmethoden für die Sequenz-Strukturtauglichkeit

In den letzten Jahren wurden eine Reihe von Meßmethoden für die Bewertung von Sequenz-Strukturtauglichkeit für ganze Proteine oder Proteindomänen entwickelt. Diese Methodenwurden ursprünglich zur Unterscheidung von richtig und falsch gefalteten Proteinenentwickelt. Dabei basieren diese Methoden auf intramolekularen Energiepotentialen (Novotnyet al., 1984, Novotny et al., 1988), Volumenberechnungen (Gregoret & Cohen, 1990), demZählen von Kontakten (Bryant & Amzel, 1987), empirischen Lösungsmitteltermen (Eisenberget al., 1986, Baumann et al., 1989, Chiche et al., 1990, Holm & Sander, 1992), mittlerenKräftepotentialen aus der Analyse von Kontaktzählraten (Hendlich et al., 1990, Sippl, 1990,Sippl & Weitckus, 1992), Kontaktpotentialen zwischen Resten, die daraufhin optimiertwurden, daß die native Struktur ein globales Minimum erreicht (Crippen, 1991, Maiorov &Crippen, 1992), einem selbst-konsistenten hydrophoben Molekularkräftefeld (Finkelstein &Reva, 1991)oder Umgebungs-spezifischen Restpräferenzen (Lüthy et al., 1992).Kontaktenergien oder Präferenzen wurden bereits vorher abgeleitet (Tanaka & Scheraga,1975, Crippen, 1977, Lifson & Sander, 1980, Galaktionov & Rodionov, 1981, Miyazawa &Jernigan, 1985, Scharf, 1989). In verwandten Arbeiten wurden Umgebungs-spezifische

145

Austauschmatrizes aus multiplen Sequenz- und Strukturvergleichen abgeleitet (Overington etal., 1990, Lüthy et al., 1991). Wenn diese Austauschwahrscheinlichkeiten über das gesamteProtein summiert werden, ergibt sich dadurch ebenfalls eine Maßeinheit für die Sequenz-Strukturtauglichkeit.

3.8.4.3. Die verschiedenen Ansätze für das Sequenz-Strukturalignment

Eine Reihe von Arbeitsgruppen hat realisiert, daß das Sequenz-Strukturalignment zurStrukturvorhersage benutzt werden kann, wenn das Protein einen bereits bekanntenFaltungstyp besitzt. Dieser Faltungstyp wird dabei mit Methoden identifiziert, die sehr ähnlichzu denen sind, wie sie in Datenbanksuchen mit Sequenzen oder Sequenzprofilen benutztwerden. Hierbei wurden auch hybride Methoden entwickelt, die Zusatzinformationen aus derStrukturanalyse mit in Betracht ziehen (Taylor, 1986, Bashford et al., 1987). Bowie undMitarbeiter (Bowie et al., 1990) benutzten einfache Profile, die aus bekannten Strukturenabgeleitet wurden, um Muster aus der Lösungsmittelzugänglichkeit (strukturelle Information)mit Hydrophobizitätsmustern (Sequenzinformation) zu vergleichen. Um verschiedeneAnordnungen einer Sequenz in einer Struktur zu testen, wurden Paarpotentiale verwendet(Hendlich et al., 1990). Eine Reihe von Arbeiten kombinieren die Beschreibung vonSekundärstruktur und Wasserzugänglichkeit, um daraus Suchprofile abzuleiten (Bowie et al.,1991, Lüthy et al., 1991, Casari & Sippl, 1992, Godzik et al., 1992, Godzik & Skolnick, 1992,Goldstein et al., 1992).Mit Hilfe eines iterativen molekularen Kräftefeldes wurdengeometrisch erzeugte hypothetische Proteinfaltungstypen, im Gegensatz zu bekanntenFaltungstypen, getestet (Finkelstein & Reva, 1991, Taylor, 1991, Finkelstein & Reva, 1992).Als Optimierungsprozedur für das Sequenz-Strukturalignment wird dabei meist eineindimensionaler Alignmentalgorithmus benutzt. Das Problem wird allerdingszweidimensional, wenn Kontaktstatistik für Aminosäurepaare, ohne Mittelung über denKontaktpartner, benutzt wird. Dieses schwierigere Problem wurde durch einenAlignmentalgorithmus wie er für das Struktur-Strukturalignment benutzt wird, gelöst (Taylor& Orengo, 1989, Jones et al., 1992).

3.8.4.4. Alignmentqualität in der Grauzone

Die Frage ist, wie gut die Ergebnisse dieser Methode im Vergleich zu reinen Sequenz-Alignmentmethoden sind. Die Methoden des Sequenzalignments arbeiten bis etwa zu einerpaarweisen Sequenzidentität von 25-30% relativ verläßlich, wenn die resultierendeAlignmentlänge größer als 80 Reste beträgt (Sander & Schneider, 1991). Aufgrund dessenmüssen neue Methoden zur Detektion von Verwandtschaften führen, die unterhalb dieserSchwelle, d.h. in der Grauzone ("twilight zone") liegen. So sollten z.B. diese Methoden in derLage sein, die zwei Domänen der Rhodanese als verwandt zu identifizieren, obwohl dieSequenzidentität nur etwa 15% beträgt. Keine der heute verfügbaren Sequenz-Strukturalignment Methoden ist in der Lage, dieses Kriterium in einer konsistenten Art undWeise zu erfüllen, d.h. entfernte Verwandte mit einem hohen Wert und gleichzeitig mit einemkorrekten Alignment zu detektieren. Es gibt allerdings einige vielversprechende Beispiele, wieetwa die Detektion der Verwandtschaft zwischen Aktin und dem Hitzeschock-Protein hsp70(Bowie et al., 1991) , oder zwischen Phycocyanin und Myoglobin (Jones et al., 1992).Es wäre dabei äußerst interessant, eine vergleichbaren Test für alle verfügbaren Methodendurchzuführen. Dabei müßten folgende Versuchsbedingungen erfüllt werden: ein ausreichendgroßer Testsatz und Kontrollsatz, ein "Klappmessertest" (jack-knifing": Entfernung von zumTestprotein homologen Sequenzen aus dem Datensatz, der zur Ableitung der Parameter

146

benutzt wird), festgesetzte Alignmentparameter (Lückenparameter) und Auflistung nicht nurdes Alignmentwertes, sondern auch der Güte des resultierenden Alignments.

3.8.4.5. Asymmetrie der Sequenz-Struktur- und Struktur-Sequenz-Datenbanksuche

Es besteht eine deutliche Asymmetrie in den zwei verschiedenen Suchstrategien: die Sequenzauf der Suche nach einer Struktur und in der Suche einer Struktur nach einer Sequenz. Imersten Fall wird typischerweise in einem Datensatz von einigen Dutzend oder einigen Hundertverschiedenen Strukturen gesucht. Die meisten Arbeitsgruppen haben sich auf diese Art derSuche, d.h. die Strukturvorhersage mit einer vorgegebenen Sequenz, konzentriert. Dabeikönnen im Moment die Ergebnisse von Jones et al. als die besten angesehen werden (Jones etal., 1992). Im umgekehrten Fall, der Suche einer Struktur nach einer Sequenz, wird jeweilseine Struktur gegen eine komplette Sequenzdatenbank wie SwissProt verglichen. Das Zieldabei ist, alle Sequenzen, die eine gleiche oder zumindest sehr ähnliche Struktur zu dieserSuchstruktur haben, zu identifizieren. Hierzu bedarf es jedoch einer gut kalibrieten Sequenz-Struktur-Tauglichkeitsfunktion auf einer absoluten Skala, da der physikalische (natürliche)Wettbewerb in der Proteinfaltung, der einer Sequenz für verschiedene Strukturen ist. Nur inder natürlichen Evolution und im Proteindesign werden verschieden Sequenzen für einebestimmte Struktur ausprobiert.

147

3.8.4.6. Mögliche Verbesserung der Parameter

Der konzeptionelle Unterschied zu anderen Gruppen ist die Beschreibung der Proteinstrukturin Form von Kontaktvektoren. Hierbei wird für jeden Rest die Information über seinUmgebung auf einer Skala von reellen Werten (anstelle von diskreten Zuständen), die alleinteratomaren Kontakte diese Restes beschreiben, kodiert. Die Bewertung der Präferenzenwird dabei nicht einfach durch eine Tabellenzugriff durchgeführt, sondern durch einVektorprodukt, welches eine effektive Gewichtung jedes Aminosäurepaar-Kontaktes mit derkorrespondierenden Kontaktstärke erlaubt.Dieser konzeptionelle Ansatz erlaubt einen großen Variantenreichtum in der Definition derPräferenzparameter bzw. mittleren Kraftpotentiale, in einer vereinheitlichten Sichtweise voninter-atomaren Kontakten. Lösungsmittelkontakte sind dabei in der selben Art und Weiseintegriert. Der Vergleich von fünf verschiedenen Parametersätzen hat dabei zu folgendenSchlußfolgerungen geführt:

• Klassische Sekundärstrukturpräferenzparameter sind schlechter als Kontakt-Präferenzparameter

• Die beste Wechselwirkungsdefinition ist die mit 29 unterschiedlichen Zuständen• Die einfache binäre (Protein-Protein, Protein-Wasser) Beschreibung liefert annähernd gute

Ergebnisse wie die komplizierteste 29-Zustansdefinition

Eine vor Kurzem durchgeführte Analyse von Kontaktpotentialen mit vielen Parameternunterstützt diese Ergebnisse (Casari & Sippl, 1992).

3.8.4.7. Zukünftige Verbesserungen

Verbesserungen für das Sequenz-Strukturalignment zur Vorhersage von Proteinstruktur in derGrauzone werden vermutlich aus einer besseren Definition der Strukturzustände (nichtunbedingt einer größeren Zahl an Zuständen) erwachsen. Weiterhin werden sicherlich dieVerwendung von evolutionärer Information, z.B. aus multiplen Sequenzvergleichen in Formvon Kerngewichten oder das Mischen von Sequenz und Strukturinformation in einemrichtigen Verhältnis, zu weiteren Verbesserungen führen. Eine weitere deutliche Verbesserungist durch eine bessere Optimierung, d.h. Alignmentmethode, zu erwarten. Hierbei kommt esdarauf an, daß verschiedene miteinander interagierende Terme aufeinander abgestimmtwerden. Desweiteren ist ein flexibler mehr-dimensionaler Alignmentalgorithmus von Nöten,der die Veränderung des jeweiligen Kontaktpartners in der Alignmentprozedur in Betrachtzieht, und wenn möglich eine Verschiebung der Rückgratstruktur erlaubt. Die Lösung dieserProblem ist dabei relativ dringend, da durch die Genomprojekte ein Unzahl vonProteinsequenzen aufgeklärt werden, über deren Struktur bzw. Funktion nichts bekannt seinwird.

148

3.9. Funktionelle Genomanalyse am Beispiel des Hefechromosoms III

Das Genom von Hefe besteht aus 16 Chromosomen, die etwa 14 Megabasen enthalten (Oliveret al., 1992). In einer Zusammenarbeit von 35 Forschungsgruppen des europäischen Projektzur Sequenzierung des Hefegenoms wurde die Sequenz des kompletten Chromosoms IIIaufgeklärt. Es umfaßt 315 Kilobasen, die etwa 2,3% des gesamten Hefegenoms ausmachen(Oliver et al., 1992). Dies war das erste komplette eukaryontische Chromosom und der längstezusammenhängende DNA-Bereich, der bis 1992 sequenziert wurde. Es stellte aufgrund dessenauch eine Herausforderung für die rechnergestützte Sequenzanalyse im Sinne einer komplexenDateninterpretation zur Aufklärung der Gensequenz-Funktions-Korrelation dar. Im Rahmendieser Arbeit wurden die 182 "open reading frames" (ORFs: offene Leseraster), die in derArbeit von Oliver et al. (Oliver et al., 1992) vorhergesagt wurden, näher untersucht. Dabeiwurden eine Reihe von technischen und biologischen Fragen gestellt:

• Inwieweit kann die Sequenzanalyse zur Identifikation der Proteinfunktion beitragen ?• Gibt es eine bevorzugte Methode, um Sequenzverwandtschaften durch Datenbanksuchen

aufzudecken ?• Wie groß ist der Aufwand, der zur Datenbanksuche, zur Analyse der Daten und zum

Berichten der Resultate notwendig ist ?• Wie viele der Proteine haben eine bekannte oder vorhergesagte Funktion ?• Wie viele sind homolog zu bereits bekannten 3D-Strukturen ?• Was kann man, ausgehend vom derzeitigen Status der Datenbanken und

Analysemethoden, für das gesamte Hefechromosom erwarten ?

3.9.1. Methoden

3.9.1.1. Rohdaten

Die gesamte DNA-Sequenz des Hefechromosoms III (315357 Basenpaare) wurden in derEMBL-Datenbank unter dem Namen SCCHRIII und dem Datenbankschlüssel X59720abgelegtAusgehend von dieser DNA-Sequenz wurden 182 ORFs, die für Proteine kodieren, die längerals 100 Aminosäuren sind, vorhergesagt, und im März 1992 durch die MIPS-Datenbanköffentlich zugänglich gemacht. Die Proteinsequenzen dieser ORFs wurden dabei näheruntersucht. Für diesen Zweck wurden eine Reihe von Prozeduren und Methoden angewandt,um Sequenzverwandtschaften in Sequenz- und Musterdatenbanken sowie der Datenbank fürdreidimensionale Proteinstrukturen aufzudecken.

3.9.1.2. Datenbanksuchen und Verifizierung

Für jeden ORF wurden jeweils mehrere Datenbanken mit Hilfe von Standardmethodendurchsucht, wobei die Suchen mit der Aminosäuresequenz durchgeführt wurden(Abb. 45).Jede dieser Methoden ist dabei für eine bestimmte Fragestellung optimal, wobei allerdingseinige Überlappungen vorhanden sind.

149

Pat

Motifs

Tfasta with filters

Blastp and Fastawith filters MaxHom

Yeast 3 Swiss-Prot PIR-only NA-only Prosite ExCell

182 predicted ORFs

sequence databases:

PropSearch

176 confirmed ORFs

Abb. 45. Methoden die für die Sequenzanalyse der Proteine des Hefechromosom III benutzt wurden. Es wurdendie folgenden Datenbanken durchsucht: (1) SwissProt (Version 21) (Bairoch & Boeckmann, 1992),(2) PIR-only,alle Sequenzen, aus der PIR-Datenbank (Version 31) (Barker et al., 1992), die mit keiner Sequenz aus derSwissProt Datenbank identisch waren, zusammengestellt von Peter Rice am EMBL (persönliche Mitteilung) , (3)Datensatz der 182 ORF's des Chromosom III, (4) NA-only, eine Untermenge der EMBL-DNA-Datenbank (inalle 6 Leseraster übersetzt). Diese Untermenge enthielt alle Einträge für die kein explizieter EMBL-SwissProtQuerverweis oder SwissProt-EMBL Querverweis vorhanden war. Damit wurden alle DNA-Sequenzen die unterUmständen noch nicht in die Proteindatenbanken aufgenommen waren in die Analyse mit eingebunden (aus48434 Datenbankeinträgen wurden hierbei 290604 Proteinsequenzen erzeugt), (5) Prosite, eine Datenbank fürSequenzmuster, die charakteristisch für bestimmte strukturelle bzw. funktionelle Klassen sind (Bairoch, 1992),(6) ExCell, eine Bibliothek ausgesuchter Sequenzmuster für extrazelluläre Domänen von sogenanntenMosaikproteinen (Bork, 1991). Für komplette Datenbanksuchen wurden folgende Programme benutzt: (1-3)Blastp (Altschul et al., 1990) und Fasta (Pearson & Lipman, 1988) mit Filter_Fasta (sieh diese Arbeit), (4) TFasta(Pearson & Lipman, 1988) , (5) Motifs aus dem GCG-Programmpacket (Devereux et al., 1984), (6) Pat (Bork &Grundwald, 1990). (7) Das Programm MaxHom (siehe diese Arbeit) um interne Wiederholungen ("repeats") zufinden. (8) Das Programm PropSearch (Sültemeyer, 1988) wurde benutzt um die SwissProt Datenbank nach inihrer Aminosäurekomposition ähnlichen Sequenzen zu durchsuchen. In der Arbeit wurden, aufgrund eines zustrengen Signifikanztests, keine interne Wiederholungen gefunden. Ein Beispiel für einen möglichen fünffachen"repeat" ist im ORF YCR84c gegeben (Duronio et al., 1992, van der Voorn & Ploegh, 1992) gegeben.

Das Programm Blastp kann eine sehr schnelle Datenbanksuche nach lückenfreien Alignmentsmit einer auf Wahrscheinlichkeitsabschätzung basierenden Signifikanzbewertung durchführen(Altschul et al., 1990, Karlin & Altschul, 1990). In der Praxis arbeitet diese

150

Signifikanzabschätzung besonders für eindeutige Sequenzverwandtschaften von globulärenProteinen sehr gut. Die Programme Fasta und TFasta (Pearson & Lipman, 1988) führen eineDatenbanksuche mit Hilfe von "hashing" und k-Tupel-Methoden durch, wobei Alignmentsberechnet werden, die Lücken enthalten können. Die Signifikanzabschätzung, die in dieserArbeit benutzt wurde, beruht auf dem im Kapitel 3.1 beschriebenen längenabhängigenHomologieschwellenwert. Die Ausgaben dieser beiden Programme wurden jeweils mit demim Kapitel 3.2 beschriebenen Programm Filter_Fasta bearbeitet. Um interneSequenzwiederholungen in einer Sequenz zu finden, wurde das Programm MaxHom benutzt(siehe Kapitel 3.3).Datenbanksequenzen, die in ihrer Aminosäurekomposition ähnlich zu der Suchsequenz sind,wurden mit dem Programm PropSearch gesucht (Sültemeyer, 1988). Diese Methode istbesonders hilfreich bei Proteinen, die eine stark abweichende Aminosäurezusammensetzunghaben. In solchen Fällen können durch nähere Analysen Hinweise auf einen bestimmtenfunktionellen oder Strukturtyp erlangt werden.Die Datenbanken Prosite (Bairoch, 1992)und ExCell (Bork, 1991) wurden durchsucht umspezielle charakteristische Muster von Proteinfamilien zu finden, die mit normalenHomologiesuchen nicht gefunden werden können. Die Identifizierung vonTransmembranregionen wurde mit Hilfe von Hydrophobizitätsdiagrammen durchgeführt(Kyte & Doolittle, 1982).Das erstes Kriterium für das Auffinden einer eindeutig homologen Sequenz war dieSignifikanzabschätzung des Programms Blastp. Hierzu wurde ein Schwellenwert von p= 10-10 für die Wahrscheinlichkeit eines zufälligen Auftreten des jeweiligen Alignments benutzt.Alle Alignments mit einem p-Wert < 10-10 wurden als deutlich homologe Sequenzengekennzeichnet. Die Sequenzen, deren Alignments einen größeren Wert besaßen, wurden alsKandidaten markiert, und näher untersucht.Zusätzlich wurden die optimierten Alignmentwerte der Programme Fasta und TFasta bis zueinem Wert von 100 und die Distanz zum längenabhängigen Homologieschwellenwert, alsIndiz für ein signifikantes Alignment benutzt. Aufgrund des Fehlens einer mathematischenTheorie mußte die endgültige Entscheidung ob eine Homologie vorliegt aber teilweisesubjektiv sein.Wenn es möglich war, wurden multiple Sequenzalignments der gesamten Proteinfamilie undweitere Methoden wie Profilalignments und eventuell vorhandene experimentelleInformationen benutzt, um eine Homologiebeziehung zu verifizieren.Da die verwendeten schnellen Suchprogramme nicht unbedingt ein optimales Alignmentliefern, wurden diese mit Hilfe von Programmen generiert, die den dynamischenProgrammieralgorithmus benutzen.

3.9.1.3. Zeitlicher Arbeits- und Rechenaufwand

Das Durchsuchen der Datenbanken mit Hunderten Sequenzen erfordert einen relativ hohenRechenaufwand. Mit Hilfe des Programms Blastp konnte jedoch der erste Schritt der Analyse(182 ORFs gegen die SwissProt und PIR-Datenbank) in weniger als 3 Stunden CPU-Zeitdurchgeführt werden (SGI 4D/480 Rechner mit R3000 Prozessor, 33 MHz Taktrate). Wennlangsamere Programme benutzt werden, erhöht sich der Rechenzeitbedarf teilweise drastisch.Das Durchsuchen der "NA-only" Datenbank mit 48434 Einträgen mit dem Programm TFastafür alle sechs möglichen Leseraster hätte auf diesem Rechner eine Rechenzeit von 23 Tagenerfordert. Diese Zeit wurde durch das Verteilen der einzelnen Suchläufe auf mehrere Rechnerstark reduziert. Die korrespondierenden Fasta Suchläufe gegen 35000 Proteinsequenzen

151

wurden in 15 Stunden auf einem Rechner des Typs Alliant FX2800 mit 16 i860 Prozessorendurchgeführt.Zusätzlich waren etwa 6 Wochen Arbeitszeit notwendig um die Verifizierung undAuswertung sowie die Erstellung der Ergebnistabellen vorzunehmen.

152

3.9.2. Ergebnisse

Aufgrund von eindeutigen Sequenzverwandtschaften konnte für 67 der 176 Proteinsequenzeneine biologische Funktion und für 25 Proteine eine dreidimensionale Struktur vorhergesagtwerden (Tabelle 5). Unter Hinzunahme von 7 Proteinen, für die bereits vorher aufgrundgenetischer bzw. biochemischer Experimente die biologische Funktion bekannt war, konnten42% der Proteine des Hefechromosoms III eine biologische Funktion zugeordnet werden. Diejeweiligen Vorhersagen sind dabei teilweise das Resultat eindeutiger Treffer inDatenbanksuchen mit Standardprogrammen, sowie das Ergebnis der detaillierten Analysen inder "Grauzone" von Sequenzverwandtschaften mit Hilfe einer Kombination der obenangeführten Methoden wie des multiplen Sequenzalignments oder der Mustersuche.

Significant hits (according to BLASTP: p<1.0e-10)

Enzymes

ORF len [code] family new closest %id/len dis opt p 3D domains/sites

YCL18w 364 [LEU3_YEAST] isopropyl- LEU3_KLULA 86%/360 60.8 1524 2.0e-228 9ICDmalate dehydrogenases

YCL24w 816 protein kinases SNF1_YEAST 30%/504 5.6 650 4.7e-46 1CPK [N-550]onlyNIM1_SCHPO 40%/349 14.7 660 3.7e-51 [550-C]ins

YCL30c 799 [HIS2_YEAST] HIS- HIS2_NEUCR 41%/688 20.9 1312 4.2e-88cyclohydrolases

YCL40w 500 [HXKG_YEAST] glucokinases/ S15885(P) 36%/268 11.0 345 2.4e-40 2YHXhexokinases HXKA_YEAST 34%/384 9.3 589 6.1e-30

YCL43c 522 [JX0182 (P)] protein ER72_MOUSE 58%/403 7.2 613 4.6e-59 2TRXS:ER_target:519

disulfide isomeraseYCL50c 321 [APA1_YEAST] 5',5'''-P-1, APA2_YEAST 59%/321 34.1 1056 1.0e-76

P-4 tetra-Pphosphorylases

YCL57w 712 soluble metalloprotease A36165(P) 36%/561 10.7 1012 2.9e-58S:zinc_protease:498

YCL64c 360 [SDCSERTHR(E)] L-serine SDHL_YEAST 53%/330 28.2 973 2.7e-120 yes

dehydratases SDHL_HUMAN 34%/263 9.4 360 8.3e-21YCL9c 309 prokaryotic acetolactate new ILVH_ECOLI 40%/90 15.2 192 1.3e-16

synthases,small subunitYCR105w 361 alcohol dehydrogenases ADH_SCHPO 30%/342 4.7 335 2.6e-14 7ADH

YCR12w 416 [PGK_YEAST] phospho- PGK_KLULA 82%/416 57.4 1643 7.7e-246glycerate kinases

YCR24c 492 CLASS II tRNA synthases SYN_ECOLI 32%/295 6.7 399 3.5e-50 yes

(probably ASP) SYK2_ECOLI 18%/471 -7.2 123 >1e-5YCR36w 333 ribokinase (other prok. new RBSK_ECOLI 38%/96 12.7 150 1.5e-10

sugar kinases)YCR45c 491 subtilisin family PRTB_YEAST 37%/348 12.3 430 7.8e-32 1SBC

YCR53w 514 [THRC_YEAST] threonine THRC_CORGL 39%/465 14.6 760 8.2e-27 yes

synthasesYCR5c 460 [CISZ_YEAST] citrate CYSY_PIG 59%/437 33.8 1432 1.1e-153 4CTS

synthasesYCR69w 170 peptidyl-prolyl-cis- new CYPH_CANAL 37%/122 12.1 176 2.4e-13

trans isomerases

(YCR70w)a

YCR8w 603 [SC4(E)] protein kinases KCCG_RAT 31%/283 6.3 277 4.1e-12 1CPK [311-592]only

YCR73c 1314 protein kinases JQ1118(P) 34%/285 8.9 321 1.4e-19 1CPK [1034-1293]only

YCR91w 726 protein kinases KS6_HUMAN 37%/312 12.4 355 7.8e-31 1CPK [319-625]onlyB30311(P) 42%/184 17.0 451 5.2e-88

DNA associated or regulatory proteins


YCL11c 426 poly (A) binding protein PABP_XENLA 28%/195 8.4 225 2.0e-11

YCL17c 497 bacterial NIFS genes NIFS_ANASP 44%/383 18.8 778 4.5e-41 [N-100]ins

YCL74w 308 retroelement, COPIA S05465(P) 31%/308 5.6 405 3.4e-14like protein POLX_TOBAC 34%/308 9.1 517 7.3e-26

153

YCR63w 157 G-cycle specific protein G10_XENLA 52%/155 26.8 480 6.7e-44 yes zinc_finger[105-122]

YCR65w 532 HNF3/forkhead FKH_DROME 24%/295 -0.7 289 1.9e-20 DNA bindingdomain

transcription factors A39533(P) 51%/88 12.1 286 5.1e-24 [110-230]onlyHNF3 rat gamma

YCR92c 1047 DNA repair proteins DUG_HUMAN 31%/947 5.9 1120 2.7e-45 S:ATP-binding:820

Not classified


YCL19w 1347 [B23496(P)] Transposon new COPI_DROME 18%/505 -7.9 248 3.2e-13 [170-780]onlyB gene family,related POLX_TOBAC 20%/393 -4.7 304 3.0e-16to pol genes

YCL20w 438 [A23496(P) Transposon new YTY1_YEAST 49%/438 24.4 1080 3.0e-102A gene family

YCL25c 633 Aminoacid permeases, GAP1_YEAST 47%/630 22.3 1527 9.3e-125transporter family

YCL35c 110 glutaredoxins GLRX_YEAST 64%/106 39.4 396 3.2e-52

YCL48w 463 sporulation specific SPS2_YEAST 44%/434 19.2 941 4.3e-89protein

YCR11c 1049 multidrug transporter WHIT_DROME 27%/445 2.2 512 5.6e-17superfamily

YCR18c 225 [YH26_YEAST] YH16_YEAST 94%/126 69.6 577 7.4e-87 yes GATA-type zinchypothetical protein finger [168-

193]YCR27c 209 [SCTRNGLN(E)] RAS RAPB_HUMAN 34%/192 9.1 296 4.5e-24 5P21 S:farnelysation:206

protein family

YCR2c 322 GTP/ATP binding protein JU0319(P) 40%/304 15.0 610 3.7e-36 yes

MMH5RNA(E) 38%/322 13.9 660 ndYCR31c 137 [RS14_YEAST] 40S RS14_DROME 82%/133 57.0 530 1.8e-78

ribosomal proteinsYCR52w 483 mitochondrial targeting SCPCPEIIT(E) 30%/353 4.9 435 nd [150-C]only

proteinYCR57c 439 domains, G-proteins, GBB2_HUMAN 32%/160 7.1 266 1.7e-17 [170-330]only

beta subunitYCR67c 1065 membrane glycoprotein SC12_YEAST 45%/388 20.6 889 2.2e-66

S:ER_target:1062(ER/Golgi proteintransport)

YCR72c 514 G-protein beta subunits new PRO4_YEAST 23%/278 -1.8 191 5.7e-10 [200-500]onlyTUP1_YEAST 32%/110 7.0 183 3.0e-28

YCR83w 127 thioredoxins THI2_YEAST 47%/98 22.1 272 1.4e-27 3TRX(but not I, 1, 2 family)

YCR84c 713 [TUP1_YEAST] regulator PRO4_YEAST 19%/487 -6.5 206 2.3e-10 [450-660]onlyof glucose repression, GBB2_HUMAN 34%/163 9.2 201 1.9e-14G proteins beta subunit

YCR89w 1609 agglutinin core protein S17031(P) 25%/675 0.1 278 4.1e-105 [540-1200]only

Significant hits in the 'twilight zone'

Enzymes


YCR47c 275 ApoMet- new GLMT_RAT 26%/301 8.8 102 >1e-5methyltransferases

YCR64c 136 carboxypeptidases new CBP8_HUMAN 27%/88 2.5 73 >1e-5dipep-peptidase IV DPP_LACLA 25%/105 0.0 71 >1e-5

DNA associated or regulatory proteins


YCL33c 168 repressor of pilin new PILB_NEIGO 33%/110 7.9 163 2.5e-9 [N-398]delpromotor

YCL75w 146 pol-like protein new S00954(P) 40%/74 14.6 124 >1e-5 [N-70]ins,[90-C]del

YCR104w 124 glucose repressor/ new SRP1_YEAST 27%/115 2.2 123 >1e-5 [114-C]del (S-rich)

cold shock inducib. SCTIPI(E) 27%/106 2.5 143YCR106w 832 Gal4-like DNA/Zn new CYP1_YEAST 45%/47 11.3 135 >1e-5 yes GAL4 likeZn/DNA

binding domain GAL4_YEAST 19%/168 -5.8 111 >1e-5 bind omainYCR14c 582 type X DNA polymerases new DPOB_RAT 26%/393 -0.4 189 >1e-5 [N-65]only

154

YCR66w 487 DNA repair protein RADZ RPT1_MOUSE 27%/81 2.4 140 >1e-5 yesS:zinc_finger:28

(RAD18)

155

Not classified


YCL66w 175 [MAT1_YEAST] mating MATA_NEUCR 35%/58 4.8 126 >1e-5hormone alpha

(YCR40w)b

YCL67c 210 [MTA2_YEAST] mating MTPI_SCAPO 34%/62 5.3 107 >1e-5 1HDD S:homeobox:129factor,P polypeptide

(YCR39c)b

YCL68c 190 [A39933(P)] exchange >1e-5factorBUD5

(YCR38c)b related to C-term ofCC25 family

YCL69w 458 multidrug resistance TCR2_BACSU 20%/313 -5.4 185 >1e-5proteins

YCR23c 611 multidrug resistance new TCR1_ECOLI 28%/150 3.2 186 >1e-5proteins

YCR26c 743 mammalian PC1 plasma new PC1_HUMAN 38%/129 13.2 175 1.1e-9cell membr. prot. PPD1_BOVIN 38%/66 10.3 117 5.6e-7 [150-300]onlyphosphodiesterase family

YCR32w 2167 [S15052(P)] hypothetical new HSCDC4A(E) 49%/316 24.3 852 nd [N-336]insprotein rel.to C-term."CDC4"-like human fragm.

YCR107w 363 auxin regulated protein NTAUX115(E) 22%/327 -3.3 225 ndfrom tobacco

YCR88w 592 [ABP1_YEAST] actin HS1_HUMAN 26%/286 1.1 224 3.5e-9 yes SH3 dom.[537-589]only

binding proteinYCR96c 119 [MTA2_YEAST] mating HME2_HUMAN 33%/71 5.9 81 >1e-5 1HDD S:homeobox: 63

type alpha-2,short formYCR97w 126 [MTA1_YEAST] mating type HM43_CHICK 27%/92 2.4 106 >1e-5 1HDD S:homeobox: 70

A1, MTA0YCR98c 518 sugar transporter/ new A40260(P) 25%/179 0.3 137 1.1e-7

symporter

Tabelle 5. Sequenzanalyse der Proteine des Hefechromosoms III. "ORF": Bezeichnung des offenenLeserasters ("open reading frame") (Oliver et al., 1992) "Len": Länge der Proteinsequenz in Aminosäuren."Code": Datenbankschlüssel der SwissProt, PIR (P) bzw. EMBL (E) Datenbank. "Family": FunktionelleProteinfamilie. "New": Ähnlichkeiten, die in der Arbeit von Oliver nicht aufgeführt waren . Für vier ORF's(Yc120w, Ycr36w, Ycr69w/Ycr70w, Ycr98c) wurden bereits vorher Ähnlichkeiten festgestellt .(Warmingtonet al., 1985, Thierry et al., 1990, Franco et al., 1991, Sor et al., 1992) "Closest": Datenbankeintrag des nächstverwandten Proteins, mit der jeweiligen Ähnlichkeit gegeben als Sequenzidentität ("%ide"), Länge desAlignments ("len") und Abstand (in Prozent der Sequenzidentität) zum längenabhängigenHomologieschwellenwert ("dis") ."Opt": Alignmentwert des FASTA-Programms ("optimized score") (Pearson& Lipman, 1988)."p": Zufallswahrscheinlichkeit des Alignments nach Blastp (Altschul et al., 1990). DieDatenbankgröße betrug 35268075 Aminosäurereste (SwissProt und PIR-only). Es wurde jeweils die PAM120Austauschmatrix benutzt. Wenn die Zufallswahrscheinlichkeit "p" kleiner als 1,0 e-10 betrug, und die Sequenzkeine auffällige Aminosäurekomposition besaß, wurde ein Treffer als signifikant eingestuft. "nd" Wert wurdenicht bestimmt. "3D": PDB-Datenbankschlüssel für die nächst-verwandten Proteine (wenn vorhanden)(Bernstein et al., 1977) "Yes": eine dreidimensionale Struktur ist bekannt, aber nicht in der PDB-Datenbankabgelegt. "Domains/sites": Sequenzbereich (in Klammern), für den eine Ähnlichkeit eines Proteins desHefechromosoms besteht (N: N-Terminus, C: C-Terminus). "only": die Ähnlichkeit gilt jeweils nur für einenTeil der Sequenz. "ins/del": die Sequenz des Proteins aus dem Hefechromosom hat eine relativ große Deletionbzw. Insertion in Vergleich mit der Sequenzdomäne der verwandten Sequenz. "S": die Sequenz besitzt eineexakte Übereinstimmung mit einem Motiv aus der Prosite Datenbank (Bairoch, 1992)(Name des Motivs undSequenzposition sind in Form S:Name:Position gegeben).a: Wenn die beiden ORF's miteinander kombiniert werden, repräsentieren sie ein Mitglied der PPI

Familie (Peptidyl-Prolyl-cis-Isomerase).b: Diese Gene sind doppelt auf dem Chromosom III vertreten.

156

3.9.2.1. Sequenzverwandtschaften in der "Grauzone" und deren Interpretation

Im folgenden werden eine Reihe von aufgedeckten Sequenzverwandtschaften näherbeschrieben.

• Azetolaktat-Synthase:Das Protein YCL9c hat eine entfernte Sequenzverwandtschaft zur kleinen regulatorischenUntereinheit der prokaryontischen Azetolaktat-Synthase und ist damit das erste Proteindieses Typs, das in Eukaryonten gefunden wurde (Abb. 46). Für die große Untereinheit derprokaryontischen Azetolaktat-Synthase, die nicht homolog zur kleinen Untereinheit ist(Wek et al., 1985), war das eukaryontische Protein bereits bekannt (Wiersma et al., 1989).Die kleine Untereinheit des prokaryontischen Enzyms ist dabei deutlich kleiner (90-170Aminosäuren) als die des Proteins aus Hefe (YCL9c). Die Sequenzverwandtschaft istdabei über drei Regionen mit langen Insertionen im eukaryontischen Enzym verteilt. Dieeindeutigste Ähnlichkeit erstreckt sich über einen Bereich von 90 Resten mit einerIdentität von 40% (Abb. 46).

YCL9C 76 KQHVLNCLVQNEPGVLSRVSGTLAARGFNIDSLVVCNTEVKDLSRMTIVLQGQDGVVEQARRQIEDLVPVYAVLDYTNSEIIKRELVMAR

{-43-}

ILVH_ECOLI 1 MRRILSVLLENESGALSRVIGLFSQRGYNIESLTVAPTDDPTLSRMTIQTVGDEKVLEQIEKQLHKLVDVLRVSELGQGAHVEREIMLVK

{- 0-}

YCL9C 209 LPASEVLRLKHEHLNDITNLTNNFGGRVVDISETSCIVELSAKPTRISAFL.KLVEPFGVLECARSGMMALPRTPLKTSTEEAADEDEKISE

ILVH_ECOLI 91 IQASGYGR......DEVKRNTEIFRGQIIDVTPSLYTVQLAGTSGKLSAFLASIRDVAKIVEVARSGVVGLSR.............GDKIMR

Abb. 46. Optimales Alignment des Proteins YCL9c mit der Azetolaktat-Synthase. Das Alignment zwischen demORF YCL9c aus Hefe und der kleinen Untereinheit der Azetolaktat-Synthase aus E. coli ergibt eineSequenzidentität von 36% bei einer Länge von 208 Aminosäuren. Der Bereich mit der deutlichstenSequenzverwandtschaft ist unterstrichen (40% /90 Reste).

157

• DNA-Polymerase:Es wurden bisher mindestens vier unterschiedliche Familien von DNA-Polymerasenidentifiziert (Ito & Braithwaite, 1991). Die kleinste Gruppe bildet dabei der sogenannte X-Typ, der die DNA-Polymerase beta und die DNA Nukleotidyl-Exotransferase angehören.Beide Proteine sind dabei verglichen mit anderen DNA-Polymerasen relativ klein undwaren nur aus Säugetieren bekannt. Das Protein YCR14c wurde aufgrund derSequenzähnlichkeit als zu dieser Gruppe gehörend vorhergesagt (Abb. 47). Als besonderesIndiz für diese Verwandtschaft können die konservierten Reste, die für die Bindung desPrimers verantwortlich sind, gelten (Date et al., 1991). Aufgrund dieser Entdeckung istdavon auszugehen, daß weitere Proteine dieses Typs in Eukaryonten gefunden werden.Die Vorhersage wurde in der Zwischenzeit experimentell bestätigt (Prasad et al., 1993).

YCR14C 194ALKRLTK.KYEIEGEKFRARSYRLAKQSMENCDFNVRSGEEAHTKLRNIGPSIAKKIQVILDTGVLPGLNDSVGLE..DKLKYFKNCYGIGSEIAKRWNLDPOB_HUMAN 1MLTEIANFEKNVSQAIHKYNAYRKAASVIAKYPHKIKSGAEAK.KLPGVGTKIAEKIDEFLATGKLRKLEKIRQDDTSSSINFLTRVSGIGPSAARKFVDDPOB_RAT 17MLVELANFEKNVSQAIHKYNAYRKAASVIAKYPHKIKSGAEAK.KLPGVGTKIAEKIDEFLATGKLRKLEKIRQDDTSSSINFLTRVTGIGPSAARKLVDTDT_BOVIN 182AFEILAE.NSEFKENEVSYVTFMRAASVLKSLPFTIISMKDTE.GIPCLGDKVKCIIEEIIEDGESSEVKAVLNDERYQSFKLFTSVFGVGLKTSEKWFRTDT_HUMAN 171AFDILAE.NCEFRENEDSCVTFMRAASVLKSLPFTIISMKDTE.GIPCLGSKVKGIIEEIIEDGESSEVKAVLNDERYQSFKLFTSVFGVGLKTSEKWFRTDT_MOUSE 171ALDILAE.NDELRENEGSCLAFMGASSVLKSLPFPITSMKDTE.GIPCLGDKVKSIIEGIIEDGESSEAKAVLNDERYKSFKLFTSVFGVGLKTAEKWFR

YCR14C 291LNFESFCVAAKKDPEEFVSDWTILFGWSYYDDWLCKMSRNECFTHLKKVQKALRGIDPECQVELQGSYNRGYSKCGDIDLLFFKP.FCNDTTELAKIMETDPOB_HUMAN 100EGIKTLEDLRKNED.KLNHHQRI..GLKYFGDFEKRIPREEMLQMQDIVLNEVKKVDSEYIATVCGSFRRGAESSGDMDVLLTHPSFTSESTKQPKLLHQDPOB_RAT 116EGIKTLEDLRKNED.KLNHHQRI..GLKYFEDFEKRIPREEMLQMQDIVLNEVKKLDPEYIATVCGSFRRGAESSGDMDVLLTHPNFTSESSKQPKLLHRTDT_BOVIN 280MGFRSLSKIMSDKTLKFTKMQKA..GFLYYEDLVSCVTRAEAEAVGVLVKEAVWAFLPDAFVTMTGGFRRGKKIGHDVDFLITSPGSAEDEE.Q..LLPKTDT_HUMAN 269MGFRTLSKVRSDKSLKFTRMQKA..GFLYYEDLVSCVTRAEAEAVSVLVKEAVWAFLPDAFVTMTGGFRRGKKMGHDVDFLITSPGSTEDEE.Q..LLQKTDT_MOUSE 269MGFRTLSKIQSDKSLRFTKMQKA..GFLYYEDLVSCVNRPEAQAVSMLVKEAVVTFLPDALVTMTGGFRRGKMTGHDVDFLITSPEATEDEEQQ..LLHK * * *

YCR14C 390 LCIKLYKDGYI { -99- } RLDFFCCKWDELGAGRIHYTGSKEYNRWIRILAA.QKGFKLTQHGL { - 6- }LESFNERRIFELLNLKYAEPEHRDPOB_HUMAN 197 VVEQLQKVHFI { -29- } RIDIRLYPKDQYYCGVLYFTGSDIFNKNMRAHAK.EKGFTINEYTI { -12- }LPVDSEKDIFDYIQWKYREPKDRDPOB_RAT 213 VVEQLQKVRFI { -29- } RIDIRLIPKDQYYCGVLYFTGSDIFNKNMRAHAL.EKGFTINEYTI { -12- }LPVDSEQDIFDYIQWRYREPKDRTDT_BOVIN 375 VINLWEKKGLL { -56- } RVDLVMCPYENRAFALLGWTGSRQFERDIRRYATHERKMMLDNHAL { - 8- }LKAESEEEIFAHLGLDYIEPWERTDT_HUMAN 364 VMNLWEKKGLL { -56- } RVDLVLCPYERRAFALLGWTGSR.FERDLRRYATHERKMILDNHAL { - 8- }LKAESEEEIFAHLGLDYIEPWERTDT_MOUSE 365 VTHFWKQQGLL { -56- } RVDLVMCPYE.CACALLGWTGSRQFERDLRRYATHERKMMLDNHAL { -28- }LEAESEEEIFAHLGLDYIEPWER

Abb. 47. Multiples Sequenzalignment der DNA-Polymerasen des Typs X. Das Protein YCR14c kann mit denDNA-Polymerasen beta aus Säugetieren (DPOB) und der DNA Nukleotidyl-Exotransferase (TDT) verglichenwerden. Es sind nur die drei Regionen mit der deutlichsten Sequenzverwandtschaft gezeigt. Die Sequenzpositionist jeweils am linken Rand gegeben. Die Länge von Alignmentlücken ist in Klammern notiert. Funktionellwichtige Positionen (Date et al., 1991) sind mit "*" markiert. Das Muster dieser Proteinfamilie ist unterstrichen(Bairoch, 1992), und konservierte Positionen sind in Fettschrift geschrieben.

158

• Methyltransferase:Das Protein YCR47c wurde als wahrscheinliche Methyltransferase identifiziert. Es wurdehierfür ein Sequenzmuster ausgehend aus einigen Treffer definiert, das eine Untergruppeder Methyltransferasen definiert, die eine bestimmte gemeinsame funktionelle Regionbesitzen. Alle Proteine in dieser Untergruppe gehören zu einer großen Superfamilie vonMethyltransferasen mit S-Adenosylmethionin als Donor der Methylgruppe. Die demSequenzmuster korrespondierende Region wird als Teil der S-AdenosylmethioninBindungsstelle angesehen (Ingrosso et al., 1989, Klimasauskas et al., 1989), wobei eskleinere Abweichungen im Konservierungsmuster für die verschiedenen Untergruppengibt (R. Robert, persönliche Mitteilung). Ausgehend vom multiplen Sequenzalignmentwurde das folgende 23 Aminosäure langes Muster def inier t :tttxhh[NDE]hGtGxGhhxxxhhxxh (t = polar oder "turn"-bildend, h = hydrophob, x = jedeAminosäure, alternative Aminosäuren sind in Klammern gegeben). Wenn mit diesemMuster eine Datenbanksuche durchgeführt wird, wobei kleine Abweichungen vom Mustererlaubt werden, werden auch verschiedene Epimerasen, Adenosyl-Homocysteinasen undverschiedene Protein mit unbekannter Funktion gefunden (Abb. 48). Es ist wahrscheinlich,daß diese Proteine ebenfalls S-Adenosylmethionin binden.

ttt hh-hGtG Ghh hh h hhhHIOM_BOVIN hydroxyindole O-methyltransferase 178

PFPLICDLGGGSGALAKACVSLYPGCRAICRTF_RHOCA hydroxyneurosporen methyltransferase 228

DAKRVMDVGGGTGAFLRVVAKLYPELPLTCARB_STRTH RRNA methyltransferase 74

PGEVVLEVGAGNGAITRELARLCRRVVAYKSGA_ECOLI S-adenosylmethionin dimethyltransfer. 37

KGQAMVEIGPGLAALTEPVGERLDQLTVIMLS1_STAAU RRNA adenyl-N-6-methyltransferase 30

KQDNVIEIGSGKGHFTKELVKMSRSVTAIMTPS_PROST modification methyltranferase PSTI 57

GEHEILDAGAGVGSLTAAFVQNATLNGAKPIMT_BOVIN protein-beta-aspart. methyltransferase 77

EGAKALDVGSGSGILTACFARMVGPSGKVGLMT_RAT glycine methyltransferase 56

GCHRVLDVACGTGVDSIMLVEEGFSVTSV

YCR47c yeast ORF 47

PCSFILDIGCGSGLSGEILTQEGDHVWCG

BIOC_ECOLI protein involved in biotin conversion 42

KYTHVLDAGCGPGWMSRHWRERHAQVTALYT37_STRFR hypoth. protein in transposon TN4556 126

PGESALDLGCGPGTDLGTLAKAVSPSGRVYAT1_SYNP6 hypoth. protein in the GYRA 5' region 71

GRPRILDAGCGTGVSTDYLAHLNPSAEITYFAB_ECOLI hypoth. 26.6KD protein 56

FGKKVLDVGCGGGILAESMAREGATVTGLSAHH_HUMAN adenosylhomocycteinase 340

AEGRLVNLGCAMGHPSFVMSNSFTNQVMAGALE_ECOLI UDP-glucose-4-epimerase 254

PGVHIYNLGAGVGNSVLDVVNAFSKACGK

Abb. 48. Ergebnis einer Mustersuche mit der S-Adenosylmethionin Bindungsstelle von Methyltransferasen.Nach dem ersten Durchsuchen der Datenbanken mit dem Programm Fasta wurden einige Methyltransferasengefunden, die einem kurzen Sequenzbereich von YCR47c ähnlich waren. Dieses Sequenzstück korrespondiertdabei mit einer bestimmten S-Adenosylmethionin Bindungsstelle, wie sie in einer Untergruppe der

159

Methyltransferasen gefunden wird (Ingrosso et al., 1989, Klimasauskas et al., 1989). Ausgehend von diesenSequenzen wurde für diese Region ein Eigenschaftsmuster (Bork & Grundwald, 1990) erstellt. EineDatenbanksuche mit diesem Muster findet mehr als 50 verschiedene Methyltransferasen, von denen nur einige inder Abbildung gezeigt sind. Zusätzlich werden S-Adenosyl-Homocystein Transferasen, UDP-Glukose-4-Epimerasen, sowie einige hypothetische Proteine gefunden. In jeder Zeile sind jeweils folgende Angabengemacht: SwissProt-Schlüssel, Name des Proteins, Sequenzposition des Motivs und die Sequenz. In der oberstenZeile ist das Sequenzmuster gegeben (Großbuchstaben: konservierte Reste; h: hydrophob; t: "turn"-bildend oderpolar; "-": D,N oder E).

160

• GAL4-Transkriptions-Aktivator:Das Protein YCR106w ist homolog zu einer DNA-Bindungsdomäne mit bekannterStruktur (Kraulis et al., 1992, Marmorstein et al., 1992). Diese Domäne ist eingemeinsames Merkmal von Transkriptionsfaktoren aus Pilzen, wie etwa denTranskriptionsfaktoren aus Hefe: GAL4, CYP, MAL und PPR (Abb. 49). Allekonservierten Cysteine und konservierte positiv geladene Aminosäuren sind vorhanden,und die Sequenz weicht nur in einer Position von der Konsensus-Sequenz der GAL4-ähnlichen Domäne ab (Prosite Eintrag: Zn2_CY6_FUNGAL).

{ METAL-BINDING DOMAIN } { LINKER }

======== ======== +++++++++ YCR106w 9 PRLRLVCLQCKKIKRKCDKLRP...ACSRCQQNSLQ..CEYEERTDLSAN - -- -- -- - - - GAL4_YEAST 5 SSIEQACDICRLKKLKCSKEKP...KCAKCLKNNWE..CRYSPKTKRSPL ARG2_YEAST 15 AKTFTGCWTCRGRKVKCDLRHP...HCQRCEKSNLP..CGGYDIKLRWSK LAC9_KLULA 89 EVMHQACDACRKKKWKCSKTVP...TCTNCLKYNLD..CVYSPQVVRTPL LEUR_YEAST 31 RKRKFACVECRQQKSKCDAHERAPEPCTKCAKKNVP..CILKRDFRRTYK AMDR_ASPNI 14 GNGSAACVHCHRRKVRCDARLVG.LPCSNCRSAGKTD.CQIHEKKKKLAV MALR_SACCA 2 GIAKQSCDCCRVRRVKCDRNKP....CNRCIQRNLN..CTYLQPLKKRGP PDR1_YEAST 40 SKVSKACDNCRKRKIKCNGKFP....CASCEIYSCE..CTFSTRQGGARI PPR1_YEAST 28 SKSRTACKRCRLKKIKCDQEFP...SCKRCAKLEVP..CVSLDPATGKDV QA1F_NEUCR 70 QRVSRACDQCRAAREKCDGIQP...ACFPCVSQGRS..CTYQASPKKRGV QUTA_ASPNI 43 QRVSRACDSCRSKKDKCDGAQP...ICSTCASLSRP..CTYRANPKKRGL UGA3/YEAST 11 KYSKHGCITCKIRKKRCSEDKP...VCRDCRRLSFP..CIYISESVDKQS CYP1_YEAST 58 NRIPLSCTICRKRKVKCDKLRP...HCQQCTKTGVAHLCHYMEQTWAEEA YCO1_YEAST 11 SKAFKTCLFCKRSHVVCDKQRP....CSRCVKRDIAHLCREDDIAVPNEM * ** * ** * * *

Abb. 49. Multiples Sequenzalignment der N-terminalen GAL4-ähnlichen DNA-Bindungsdomäne. Die GAL4-ähnlichen Transkriptionsfaktoren aus Pilzen sind durch ihren jeweiligen SwissProt Namen gekennzeichnet. Diekonservierten Cysteine sowie die positiv geladenen Positionen sind mit "*" markiert. Funktionell wichtige Restein der bekannten 3D-Struktur (durch "-" über der GAL4-Zeile markiert) sind in YCR106w zum Großteilkonserviert.

• "fork head" DNA-bindendes Protein:Das Protein YCR65w enthält eine DNA-bindende Domäne (110 Reste), die aus demTranskriptionsregulator fkh ("fork head") aus Drosophila, dem leber-spezifischenTranskriptionsfaktor HNF-3A aus der Ratte und dem Interleukin Bindungsfaktor bekanntist. Das Auffinden dieser DNA-bindenden Domäne in Hefe deutet auf eine interessanteAnalogie zwischen der Transkriptionskontrolle bei Hefe und der Kontrolle derEntwicklung bei Eukaryonten hin.

• Stress-induzierte Proteine:Das Protein YCR104w (110 Reste) hat eine Ähnlichkeit zur N-terminalen Domäne desGlukose-induzierten srp1-Genprodukts und zum "cold shock" (Kälteschock) Protein tip1aus Hefe. Diese Domäne ist in den sehr viel längeren srp1 und tip1 Proteinen einer langenSerin-reichen Region vorgelagert. Alle drei Proteine haben eine wahrscheinlicheSignalsequenz. Durch Hybridisierungsexperimente waren bereits Hinweise bekannt, daßes ein zum srp1 und tip1 homologes Protein in Hefe gibt (Marguet et al., 1988, Kondo &Inouye, 1991). Das Protein YCR104w scheint eines dieser homologen Proteine zu sein,obwohl es den Serin-reichen Bereich nicht aufweist.

161

• Regulatorische Domäne:Eine neue regulatorische Domäne, die Eukaryonten und Prokaryonten gemeinsam ist, wirddurch die signifikante Ähnlichkeit zwischen dem Hefeprotein YCL33c und dem C-terminalen Bereich des PILB Proteins definiert. PILB reprimiert die Aktivität desPromoters für das Pilin-Gen. Pilin ist das Hauptprotein der Pili in Neisseria gonorrhoeae.Sie spielen eine wichtige Rolle bei der Zelladhäsion spielen. Die Ähnlichkeit des YCL33cProteins zu einem Teil des PILB Proteins deutet auf eine regulatorischen Mechanismus derGenexpression hin, der sowohl in Eukaryonten wie auch in Prokaryonten vorkommt.

3.9.2.2. Funktionelle und strukturelle Einteilung der Proteine des Hefechromosoms III

Die Verteilung der Protein des Hefechromosoms III auf die verschiedenen bekanntenProteintypen ist wahrscheinlich nicht vergleichbar mit anderen Chromosomen, dennoch isteine Überblick über die statistische Verteilung in die verschiedenen funktionellen undstrukturellen Proteintypen recht interessant (Abb. 50).

3.9.2.2.1. Strukturelle Klassen

Etwa 14% (25 der 176 ORFs) der Proteine des Chromosom III haben eine ausreichendeÄhnlichkeit zu bereits bekannten 3D-Strukturen (Tabelle 5), um automatische Modelle zubauen. Dieser Prozentsatz ist deutlich kleiner als der für die Proteinsequenzdatenbank (sieheTabelle 3) mit etwa 25-30%. Dieser Unterschied ist höchstwahrscheinlich auf den Umstandzurückzuführen, daß in der derzeitigen Datenbank eine Ungleichverteilung in Richtung vongut untersuchten Proteinen herrscht.In der Analyse wurden 49 Proteine identifiziert, die eine außergewöhnlicheAminosäurezusammensetzung haben. Dieser Prozentsatz ist weit aus höher als der, den manvon Proteinen aus Säugetieren kennt (Brendel et al., 1992). Unter diesen Proteinen sind 26, diemindestens eine Transmembranregion haben bzw. reich an hydrophoben Aminosäuren sind.Von diesen haben wiederum 7 Proteine Bereiche mit einer hohen Dichte an geladenen Resten,7 Proteine haben eine Zusammensetzung wie sie für "coiled-coil" Proteine typisch ist (Lupaset al., 1991) und 9 Proteine sind reich an einem bestimmten Aminosäuretyp, wie z.B. Serinoder Prolin. Für die Transmembranbereiche, die meistens helikal sind, und für die "coiled-coil" Proteine kann die grobe Struktur vorhergesagt werden.

3.9.2.2.2. Funktionelle Klassen

Wenn man eine grobe Einteilung der Proteine in die drei funktionellen KlassenMembranprotein, lösliche Enzyme und DNA-assoziierte regulatorische Proteine, vornimmt,können 74 der 176 ORFs einer dieser Klassen zugeordnet werden. Ein besonderes Merkmaldes Chromosoms III ist dabei die Häufung von DNA-assoziierten Proteinen (19 Proteine).Enzyme, unter denen sich metabolische als auch regulatorische und extrazelluläre Enzymebefinden, bilden den Hauptbestandteil mit 24 Vertretern. Von den 26 Proteinen, für diezumindest eine Transmembranregion vorhergesagt wird, befinden sich 5 Proteine, diewahrscheinlich Transportaufgaben haben (YCL25c, YCL69w, YCR11c, YCR23c, YCR98c)(Ringe & Petsko, 1990). Das Protein YCR75c ist als sogenanntes 7-Helix Membranproteinvorhergesagt (Hardwick & Pelham, 1990).Die Transposon-Region (Ty-17) war bereits sehr gut charakterisiert (Warmington et al., 1986),aber es gibt eine weitere Region, die Retroelemente enthält (YCL74w, YCL75w). Der erste

162

ORF ist dabei ein copia-ähnliches Protein, und der zweite ORF hat über einen Bereich von 80Resten Ähnlichkeit zu einer reversen Transkriptase. Andere Proteine des Chromosoms IIIsind Paarungsfaktoren ("mating factors"), ein 40S ribosomales Protein, einige β -Untereinheiten von G-Proteinen, sowie eine mitochondriales "targeting" Protein.Die Funktion von 102 Proteinen (58%) blieb in der ersten Untersuchung unbekannt, wobeiallerdings einige dieser Proteine eine Transmembranregion, "coiled-coil" Strukturen undgeladene Bereiche enthalten, die somit einen Hinweis auf die etwaige Funktion geben.

Abb. 50. Kuchendiagramme für den Informationsgehalt der Proteine im Hefe-Chromosoms III. JedesKuchendiagramm entspricht dabei einer Analyse zu einem bestimmten Zeitpunkt. Das obere linke Diagrammspiegelt den Informationsgehalt der ursprünglichen Analyse von Oliver et al. wider (Oliver et al., 1992). Dasobere rechte Diagramm ist das Ergebnis von Bork et al. (Bork et al., 1992), und das untere linke Diagramm istdas Ergebnis der Analyse, nachdem sie ein Jahr später nochmals durchgeführt wurde (Koonin et al., 1994). DerInformationsgehalt nimmt dabei in Uhrzeigerrichtung ab. Die grundsätzliche Unterscheidung ist die in Proteine

163

mit bekannter und solche mit unbekannter biologischer Funktion. Dieser Bereich ist jeweils zwischen den beidenPfeilen eingeschlossen. Die Markierung mit der Angabe in Form xx %sim gibt jeweils den Prozentsatz anProteinen an, die eine Ähnlichkeit mit bereits bekannten Sequenzen haben, wobei der Anteil der mit "f"gekennzeichneten Sequenzen jeweils abgezogen ist. Die Information, die über ein Protein vorhanden ist, giltdabei nicht immer für die gesamte Sequenz eines Proteins, sondern kann jeweils auf einen Teilbereich (Domäne)beschränkt sein. Für 6 der ursprünglich identifizierten ORF's bestand ein berechtigter Zweifel, ob diese Bereichewirklich in Proteinsequenzen übersetzt werden, und wurden deshalb nicht berücksichtigt (= 176 ORF's). In dererneuerten Untersuchung von Bork und Koonin hat sich diese Zahl auf 171 reduziert. Diese Bereiche hattenstarke Homologien zu regulatorischen Elementen oder überlappten mit anderen ORF's des Chromosom III, fürdie eine eindeutige Sequenzhomologie gefunden werden konnte. Der prozentuale Anteil der Proteine, für die eineFunktion abgeleitet werden kann, erhöhte sich von 29% über 42% auf 54%. Die letzte Steigerung istinsbesondere auf eine in der Zwischenzeit größer gewordene Datenbank, sowie durch die Verwendungzusätzlicher Methoden, zurückzuführen. Die Abbildung wurde freundlicherweise von Peer Bork zur Verfügunggestellt.

3.9.3. Diskussion

3.9.3.1. Derzeitige Methoden in der rechnergestützten Sequenzanalyse

3.9.3.1.1. Welche Methode ist die Beste ?

Die Erfahrungen, die während der Analyse des Hefe-Chromosoms III in Bezug auf dieverwendeten Methoden gesammelt wurden, lassen wie folgt zusammenfassen:• Schnelle heuristische Datenbanksuchen mit Programmen wie Fasta und Blastp sind sehr

effizient für den ersten Schritt der Identifizierung von eindeutigenSequenzverwandtschaften. Beide Methoden arbeiten relativ schnell, und wenn strikteAuswahlkr i te r ien für d ie e r forder l iche Ähnl ichkei t oder d ieWahrscheinlichkeitsabschätzung benutzt werden, sind die gefundenen Treffer glaubhaft.Das Durchsuchen der Datenbank mit den sechs möglichen Leserastern (TFasta Programm)stellt ein wichtiges Hilfsmittel zur Kontrolle der vorhergesagten ORFs dar. Wenn etwaBereiche identifiziert werden, die Kontrollbereichen der DNA entsprechen (Promotoren,enhancer etc.), muß davon ausgegangen werden, daß es sich wahrscheinlich nicht um eineSequenz handelt, die in ein Protein übersetzt wird. Zusätzlich können mit diesemProgramm die neuesten Sequenzen überprüft werden, da es eine zeitliche Verzögerungzwischen dem Eintrag in die DNA-Datenbanken und der Aufnahme in dieProteinsequenzdatenbank gibt.

• Bei der Verifizierung bzw. Falsifizierung von schwachen Sequenzähnlichkeiten im Sinneeiner möglichen entfernten Verwandtschaft treten teilweise große Schwierigkeiten auf.Hierzu ist meist eine Kombination aus verschiedenen Methoden notwendig, wobei fürjedes Fallbeispiel eine diesem typische Vorgehensweise notwendig ist. In einigenBeispielen konnten Informationen aus bereits veröffentlichen Publikationen hinzugezogenwerden, während in anderen das menschliche Expertenwissen eine nicht zuunterschätzende Rolle spielte. Nachdem der zeitliche Aufwand für alle notwendigenDatenbanksuchen durch den Einsatz von mehreren schnellen Rechnern auf einevertretbares Maß reduziert werden konnte, stellte die Interpretation und Zusammenstellungder Resultate einen bedeutenden Anteil am Gesamtaufwand dar. Für die detaillierteAnalyse ist eine Kombination aus unterschiedlichen Methoden mit verschiedenen Wegender Signifikanzabschätzung notwendig. Es muß dabei festgestellt werden, daß keine derheute verfügbaren Methoden als "die" Methode für die Sequenzanalyse gelten kann. Die"Kunst" der Sequenzanalyse bei schwachen Sequenzverwandtschaften liegt dabei weniger

164

in der Anwendung von bestimmten Methoden, als vielmehr in der Kombination undInterpretation der Ergebnisse durch einen menschlichen Experten.

3.9.3.1.2. Hauptschwierigkeiten

Die Gebiete, die sich als die limitierenden Faktoren in der Analyse herausstellten, sind wiefolgt:

• Es fehlen Methoden um Sequenzverwandtschaften in der "twilight zone" mit hoherSicherheit und vor allem auf einem automatischen Weg identifizieren können.

• Die Methoden für die Identifizierung von Sequenzen oder Sequenzbereichen, die in ihrerAminosäurekomposition starke Abweichungen zeigen, sind trotz der Fortschritte derstatistischen Theorie (Karlin & Brendel, 1992), noch nicht ausgereift.

• Die Integration der verschiedenen Methoden und insbesondere der spezialisiertenMethoden in ein gemeinsames Softwarepacket ist ungenügend gelöst.

• Informationen aus Veröffentlichungen wie Literaturhinweise und Zusammenfassungenvon Publikationen sind noch nicht in eine automatische Sequenzanalyse integriert.

• Es fehlt an Software, die einen automatischen Ergebnisreports erstellt, und vor allem anKonzepten und Methoden, um die Ergebnisse einer Sequenzanalyse wieder in öffentlicheDatenbanksystem einzuspeisen.

3.9.3.2. Zukünftige Erfordernisse

Da die Genomprojekte schon in naher Zukunft eine große Anzahl an Rohsequenzen liefernwerden, ist absehbar, daß die Prozeduren, wie sie in dieser Analyse verwendet wurden, nichtin der Lage sein werden, mit der Analyse dieser Daten schritt zu halten. Ein derzeit nochweitgestecktes Ziel, um die Analyse dieser enormen Datenflut nicht zum Engpaß werden zulassen, ist ein automatisches System, das ausgehend von der Rohsequenz und den Daten dergenetischen Karten einen Ergebnisreport liefert und diesen wiederum in Datenbanksysteme alsInformation für nachfolgende Analysen, eingliedert.Um dieses Ziel zu erreichen, sind Verbesserungen auf den folgenden Gebieten amdringlichsten:

• Verbesserung der Methoden und Algorithmen für die Detektion von schwachenSequenzverwandtschaften, sowie für die Vorhersage der Funktion und Struktur vonProteinen. Dieser Bereich erfordert vor allem theoretische Arbeit.

• Integration der teilweise sehr heterogenen Hilfsmittel und Programme in eine gemeinsameSoftwareumgebung, die einen Austausch von Informationen zwischen einzelnen Aufgabenund Programmen, in Form eines einheitlichen "Sequenzanalyse-Arbeitsplatzes" erlaubt.Für die Lösung diese Aufgabe werden vor allem Softwareentwickler gebraucht werden.

• Entwicklung eines "on-line, on-desk" Systems, das die Verfügbarkeit aller relevantenInformationen aus der biologischen Literatur und spezialisierten Datenbanken bereitstellt.Diese Aufgabe muß von Datenbankspezialisten übernommen werden.

3.9.3.3. Abschätzung der Anzahl unbekannter Proteine in Hefe

165

3.9.3.3.1. Wahrscheinlichkeit für die richtige Vorhersage der Funktion und Struktur

Es bleibt die Frage, wieviel biologische Information man haben wird, wenn alleChromosomen der Hefe sequenziert sein werden ? Was ist die Wahrscheinlichkeit, mit der dieFunktion (p(F)) oder die Struktur (p(S)) eines neu sequenzierten ORFs aus dem Hefegenommit großer Zuverlässigkeit aufgrund von Datenbanksuchen vorhergesagt werden kann ? DieAbschätzung dieser Wahrscheinlichkeiten hängt natürlich sehr stark von den derzeitverfügbaren Datenbanken und dem jetzigen Stand der Methoden ab. Ausgehend von denErgebnissen für das Hefechromosom III kann man aber folgende groben Abschätzungenableiten. Der Anteil der Proteine, für die eine dreidimensionale Struktur abgeleitet werdenkonnte, betrug f(S) = 25/176, und der für den eine Funktion zugeordnet werden konnte betrugf(F) =74/176. Wenn man eine gewisse Fehlerbandbreite in dieser Abschätzung zuläßt, könnenausgehend von diesen Anteilen etwa folgende Wahrscheinlichkeiten angenommen werden:p(F) = 0,42 und p(S) = 0,14. Der Anteil, für den eine Funktion vorhergesagt werden kann,erhöhte sich in einer Analyse, die ein Jahr nach dieser Untersuchung durchgeführt wurde, auf54% (Koonin et al., 1994) (Abb. 50). Demnach kann für etwa die Hälfte aller Proteine ausHefe die Funktion, bzw. für 15% die Struktur, aufgrund von Datenbanksuchen vorhergesagtwerden.

3.9.3.3.2. Wie viele Proteintypen gibt es in Hefe ?

Es kann davon ausgegangen werden, daß die meisten Proteine in einer Hefezelle eine spezielleAufgabe wahrnehmen und keine redundante Kopie eines anderen Proteins darstellen.Andererseits können für bestimmte Betrachtungen, wie etwa die der biochemischenKlassifikation von Enzymreaktionen, zwei Proteine mit derselben grundlegenden Funktion alszum selben Grundtyp gehörend gezählt werden. In diesem Sinne von Grundfunktionen ist dieRedundanz im Hefechromosom III relativ gering, in den 74 Proteinen, denen eine Funktionzugeordnet werden konnte, gibt es etwa 65 verschiedene Grundtypen. Die Definition derGrundtypen ist hierbei allerdings relativ grob und intuitiv. Es wurden z.B. zwei Proteine, diePaarungsfaktoren darstellen ("mating factors"), als zu einem Grundtyp gehörend betrachtet,während eine Proteinkinase und eine Ribokinase als unterschiedliche Grundtypen gezähltwurden. Gegeben diese Unsicherheiten und Vereinfachungen kann man von einer Redundanzvon 1,1 - 1,2 ausgehen (definiert als der Quotient der Gesamtzahl von Proteinen mit derAnzahl der funktionellen Grundtypen). Wenn man ausgehend vom Chromosom III mit etwa180 ORFs auf das gesamte Genom einer Hefezelle, das etwa 44 mal größer ist, extrapoliert,kann man 8000 verschiedene Proteine und etwa 7000 unterschiedliche funktionelleGrundtypen annehmen. Diese Zahlen stellen dabei eine obere Grenze dar, da (1) dasChromosom III eine höhere Dichte an ORFs besitzen könnte, und (2) die Wahrscheinlichkeitfür das Auffinden einer entfernten Verwandtschaft mit Hilfe von multiplenSequenzalignments und Mustersuchen durch das Bekanntwerden von zusätzlichenFamilienmitgliedern erhöht wird.

3.9.3.4. Extrapolation auf das menschliche Genom

Eine interessante, wenn auch spekulative, Frage ist, wieviel verschiedene Proteine undGrundtypen im menschlichen Genom kodiert sind. Es kann davon ausgegangen werden, daßdie Dichte an kodierenden Bereichen in Genomen, die einen ausgeprägten "splicing"Mechanismus besitzen, geringer ist (hier wird 2-5% des gesamten Genoms angenommen).Zusätzlich wird die Redundanz der grundlegenden funktionellen Typen, wie Proteinkinasen

166

mit unterschiedlichen Regulationsaufgaben, etwas höher sein. Wenn man eine Zunahme desAnteils von nicht-kodierender zu kodierender DNA um einen Faktor von 20-50 und einenRedundanzfaktor von 3 für die Grundtypen zuläßt, würden die 3,6*106 Kilobasen desmenschlichen Genoms etwa 30000 - 100000 verschiedenen Proteinen, bzw. 10000 - 30000unterschiedlichen Grundtypen entsprechen. Diese Abschätzungen sind natürlich hochspekulativ und gründen sich lediglich auf den ersten größeren zusammenhängenden Bereicheines eukaryontischen Genoms. Es ist allerdings davon auszugehen, daß diese Abschätzungenmit der Zeit genauer werden.

3.9.3.5. Informationslücke für die Proteinfunktion

Die Wahrscheinlichkeit, die Funktion eines neuen Proteins aus Hefe mit Hilfe vonDatenbanksuchen zu bestimmen, beträgt etwa 50% und ist erstaunlich hoch. Auf der anderenSeite wird die Funktion der restlichen Hälfte relativ schwer zu bestimmen sein. Wenn großeBereiche des Hefechromosoms und anderer Genome sequenziert werden, wachsenentsprechend auch die Datenbanken. Als ein Resultat wird auch die Wahrscheinlichkeitsteigen, daß sich zumindest eine homologe Sequenz in der Datenbank befindet, wenn miteinem neu sequenzierten Protein gesucht wird. Allerdings wird es immer öfter der Fall sein,daß die Funktion des homologen Proteins ebenfalls unbekannt ist. Die Informationslückezwischen den bekannten Proteinsequenzen mit eindeutigen Sequenzverwandtschaften unddenen mit durch Experimenten bekannten Funktionen wird demnach immer größer werden.Wenn es nicht zu einem qualitativen Sprung in den experimentellen Techniken zurFunktionsaufklärung kommt, wird es auf Jahre hinaus Tausende Sequenzen mit unbekannterFunktion und Struktur in den Datenbanken geben.

167

4. Diskussion

Der in dieser Arbeit empirisch abgeleitete längenabhängige Homologieschwellenwert stellteine einfache und sehr effiziente Signifikanzabschätzung für Proteinsequenzvergleiche dar. Erermöglicht sowohl den Ausschluß von nicht verwandten Proteinen wie auch die Detektion vonschwachen Sequenzverwandtschaften. Ein Vorteil dieses Homologieschwellenwertes ist seineAllgemeingültigkeit. Aufgrund dessen ist seine Anwendung nicht auf das in dieser Arbeitentwickelte Alignmentprogramm beschränkt, sondern kann als zusätzliches Filterkriterium fürandere Programme wie etwa schnelle heuristische Datenbanksuchprogramme verwendetwerden. Hierbei werden besonders Sequenzverwandtschaften, die sich nur über kurzeBereiche der beiden Vergleichssequenzen erstrecken, detektiert. Da die verwendete Definitionder Sequenzähnlichkeit auf der einfachsten Meßgröße, der Sequenzidentität, beruht, führt diesaber zu einer größeren Unschärfe des resultierenden Schwellenwertes. Um eine schärfere undselektivere Definition zu erhalten, bieten sich die Meßgrößen Sequenzähnlichkeit und die indieser Arbeit abgeleitete gewichtete Ähnlichkeit an. Dadurch ist eine deutliche Verbesserungzu erzielen. Der resultierende Homologieschwellenwert wird allerdings abhängig von derverwendeten Austauschmatrix bzw. des verwendeten Algorithmus und verliert seineAllgemeingültigkeit. Zur Ableitung des Homologieschwellenwertes mit der gewichtetenSequenzähnlichkeit (einer spezifischen Größe innerhalb einer Proteinfamilie) als eine derMeßgrößen wird eine sorgfältige Normierung notwendig, die zur Zeit noch nicht gelöstwerden konnte.

Der neu entwickelte Algorithmus für das multiple Sequenzalignment (hierarchisches clusterAlignment) zeichnet sich durch seine relativ geringe Komplexität der erforderlichenRechenoperationen aus. Die aus einer Proteinfamilie abgeleiteten Konservierungsgewichtewerden als zusätzlicher Parameter im dynamischen Programmieralgorithmus benutzt. Alleindadurch ergeben sich eine sehr gute Sensitivität und Selektivität des Algorithmus, der dieDetektion von vorher nicht bekannten Sequenzverwandtschaften erlaubt, die sich teilweiseweit innerhalb oder sogar unterhalb der sogenannten "twilight zone" befinden. Ein wichtigertechnischer Vorteil des entwickelten Programms ist die konsequente Auslegung alsProfilalignmentalgorithmus. Die normalerweise verwendeten Austauschmatrizes fürAminosäurepaare können hierbei durch eine positionsabhängige Beschreibung in Form eineskomplexen Vektorfeldes ersetzt werden. Dadurch ist es möglich, Vergleiche durchzuführen,die nicht auf einer reinen Sequenzinformation basieren, sondern z.B. auf der Beschreibung derd re id imens iona len Kon tak tumgebung ode r de r E inb indung vonSekundärstrukturinformationen beruhen. Diese Profilnotation ist dabei nicht wie in bisherverfügbaren Methoden des Profilalignments auf einen Vergleichspartner beschränkt, sondernwurde vielmehr auf den Vergleichspartner erweitert. Dadurch hat das hier entwickelteProgramm das Potential, einen komplexen Vergleich zweier Profile durchzuführen. Hierdurchkönnen zwei Proteinfamilien miteinander verglichen werden und auf eine etwaigeSequenzverwandtschaft getestet werden, die mit einem einfachen Sequenzvergleich odereinem einseitigen Profilvergleich nicht mehr detektierbar ist. Insbesondere im Hinblick aufdie entwickelte HSSP-Datenbank, die eine fertige Profilbibliothek aller bekanntendreidimensionalen Strukturen darstellt, ergeben sich dadurch neue Möglichkeiten. Für eineneue Proteinsequenz mit unbekannter Struktur und Funktion wird man zuerst einSequenzprofil mit Hilfe aller zur Suchsequenz homologen Sequenzen erstellen und danach mitdiesem alle Profile der bekannten Strukturen durchsuchen. Auf diese Weise kann dieZugehörigkeit zu einer bereits bekannten 3D-Strukturfamilie getestet werden.

168

Im Hinblick auf die enorme Quantität an Rohdaten (Sequenzen), die aus den verschiedenenGenomprojekten erwachsen wird, ist es notwendig, sehr schnelle Datenbanksuchendurchführen zu können. Hierzu wurden in den letzten Jahren sehr schnelle, aber heuristischeapproximierende Datenbanksuchprogramme, entwickelt. Mit Hilfe dieser Programme ist esheute möglich, den Rechenzeitbedarf innerhalb einiger Minuten zu halten. Es ist jedochbereits jetzt abzusehen, daß auch diese Methoden nicht mehr mit den anfallenden DatenSchritt halten können. Ein zusätzliches Problem ist die zwangsläufige niedrigere Sensitivitätdieser schnellen Methoden. Die Detektion entfernter Sequenzverwandtschaften, dieerfahrungsgemäß den wichtigeren Beitrag zum Verständnis von biologischen Prozessenleisten, wird daher mit diesen Methoden sehr schwierig, wenn nicht unmöglich. Um die Fragezu beantworten, ob es möglich ist, einen sensitiven, aber dadurch rechenintensivenVergleichs- und Datenbanksuchalgorithmus als routinemäßige Suchstrategie zu verwenden,wurde das Programm auf eine Reihe von Parallelrechnern portiert. Die erzielten Ergebnissesind recht vielversprechend und lassen den Schluß zu, daß es mit den in den nächsten Jahrenverfügbaren massiv-parallelen Rechnern möglich sein wird, auch diese sensitiven Such- undVergleichsmethoden als Standardprozeduren für die Datenbanksuche zu benutzen. Zur Zeitwird im Rahmen eines europäischen Förderprogramms für anwendungsorientiertesHöchstleistungsrechnen (ESPRIT-HPCN, EUROPORT) die Portierung des Programms aufeine Reihe von Rechnern der neuesten Generation vorgenommen. WichtigesBeurteilungskriterium dabei ist, inwieweit sich das Programm als Hilfsmittel für das "DrugDesign" im industriellen Einsatz nutzen läßt.

Die entwickelte Datenbank für homologie-abgeleitete Proteinstrukturen (HSSP) hat sich alsgewisser Standard etabliert und wird der Öffentlichkeit auf unterschiedliche Weise zurVerfügung gestellt. Hierbei haben sich zwei Hauptanwendungsgebiete herauskristallisiert: (1)Schließen bzw. Verkleinern der Sequenz-Struktur-Informationslücke und (2) als Hilfsmittelund Datengrundlage für ein weitgestecktes Feld von statistischen und anderen theoretischenArbeiten. Dadurch, daß praktisch für alle Sequenzen, die in der HSSP-Datenbank abgelegtsind, eine indirekte dreidimensionale Information vorliegt, kann zumindest prinzipiell für jededieser Sequenzen ein dreidimensionales Modell angefertigt werden. Dies gilt für etwa 25-30%aller Sequenzen, die in der SwissProt Datenbank gespeichert sind. Die Schere zwischen derAnzahl an bekannten Sequenzen und bekannten Strukturen kann dadurch etwas verkleinertwerden.Die Verfügbarkeit der HSSP-Datenbank und der damit verbundenen Möglichkeit, die daringespeicherten Informationen zu nutzen, hat sich als sehr hilfreich erwiesen.Exemplarisch seien einige der Arbeiten und Themen, die unter Verwendung der HSSP-Datenbank durchgeführt wurden, genannt:• Positionsabhängige Korrelation des Mutationsverhalten, und die Anwendung dieser

Korrelation für die dreidimensionale Kontaktvorhersage (Göbel et al., 1994, Shindyalov etal., 1994).

• Vorhersage von funktionellen Resten (Casari et al., submitted).• Analyse der Aminosäurepräferenzen in parallelen und anti-parallelen Faltblattsträngen,

und deren Nutzung zur Strukturvorhersage (Hubbard, 1994)• Als Trainings- und Testdatensätze für Optimierungsstrategien für das multiple

Sequenzalignment (Haussler et al., 1993).• Einbindung in andere Spezialdatenbanken (Pascarella & Argos, 1992).• Als Lern- und Trainingsdaten für neuronale Netzwerke für die

Sekundärstrukturvorhersage von Proteinen (Rost & Sander, 1993).

169

Die HSSP-Datenbank stellt eine weit verbreitetes und angewandtes Hilfsmittel fürunterschiedlichsten Fragestellungen auf dem Gebiet der theoretischen Proteinforschung dar.Mit neuen Versionen der SwissProt Datenbank bzw. der 3D-Strukturdatenbank (PDB) wirddie HSSP-Datenbank entsprechend aktualisiert, und es ist zu erwarten, daß ihr aufgrund desgesteigerten Datenaufkommens in Zukunft eine steigende Bedeutung zukommen wird.

Die Datenbank hat einen entscheidenden Beitrag bei der Entwicklung des derzeit bestenProgramms für die Vorhersage der Sekundärstruktur von Proteinen geleistet (Rost & Sander,1993). Zusätzlich ist das entwickelte Datenbanksuchprogramm (MaxHom) Bestandteil desPHD-Vorhersagedienstes. Dieser Service, der über weltweite Datenleitungen derÖffentlichkeit zur Verfügung gestellt wird, ist mittlerweile zu einer Standardeinrichtunggeworden.

Die neu entwickelte Methode für das "threading" stellt einen neuen Ansatz für die Vorhersagevon Proteinstruktur dar. Hierbei wird eine dreidimensionale Proteinstruktur in Form vonKontakten beschrieben. Diese Art der Methoden sind dadurch prinzipiell unabhängig von derSequenzinformation und bieten somit einen neuen Ansatz für die Vorhersage vonProteinstruktur, wenn keine Sequenzverwandtschaft zu bereits bekannten Strukturen vorliegt.Die Ergebnisse dieser Arbeit sind sehr vielversprechend, sind derzeit jedoch noch nicht ausgereift. Insbesondere die aus bekannten 3D-Strukturen abgeleiteten Präferenzparametermüssen weiter verbessert werden. Im Moment ist keine dieser Methoden in der Lage, sehrweit verwandte Sequenzen die zur gleichen Strukturfamilie gehören, in einer konsistenten Artund Weise zu detektieren. Sie stehen dabei in Konkurrenz mit sensitiven Suchalgorithmen wieProfilsuchen. Um eine eindeutige Detektion in der "twilight zone" zu gewährleisten, sindsowohl eine Verbesserung der abstrahierten Strukturbeschreibung, sowie neue Algorithmenfür das "threading" notwendig. Hierfür müssen wahrscheinlich wirkliche dreidimensionaleAlignmentalgorithmen entwickelt werden, die etwa eine optimierte Anpassung an diedreidimensionale Umgebung erlauben. In der Praxis werden in Zukunft hybride Methodeneingesetzt werden, die einerseits eine abstrahierte 3D-Beschreibung zulassen und zusätzlicheinem gewissen Grad an Sequenzinformation, etwa in Form eines Familienprofils, miteinbeziehen.

Die Sequenzanalyse eines kompletten Chromosoms aus Hefe als Beispiel für eine komplexefunktionelle Genomanalyse zeigte eine Reihe von Problemen auf. Es konnten zwar eine Reihevon biologisch interessanten Sequenzverwandtschaften aufgezeigt werden, dies war jedochnur mit einem recht hohen Arbeitsaufwand möglich. Dabei bestand das Hauptproblem in einerungenügenden Integration der vorhandenen Methoden und prinzipiell verfügbarenInformationen in eine gemeinsame Arbeitsumgebung. Dies gilt insbesondere bei der Detektionvon schwachen Sequenzverwandtschaften. Ausgehend von diesen Erfahrungen wurde einPrototyp für ein integriertes Softwarepacket entwickelt (GeneQuiz), das für eine automatischeAktualisierung der weltweit verstreuten Datenbanken sorgt, eine automatisierte Analyse derSequenz durchführt und die Ergebnisse in Form einer Datenbank ablegt. Diese Datenbank istüber eine grafische Benutzerschnittstelle, die auch den Zugriff auf Zusatzinformationen wieetwa Literaturdatenbanken erlaubt, zugänglich und bildet die Grundlage für die weitereSequenzanalyse. Dabei bedürfen eindeutige Sequenzverwandtschaften keines weiterenEingreifens des Benutzers (Scharf et al., 1994). Mit Hilfe dieses Systems ist es möglich, denArbeitsaufwand, der zur Analyse von großen Datenmengen notwendig ist, drastisch zureduzieren.

170

Das eigentliche Ziel der Genomprojekte muß es sein, zu einem besseren Verständnis derbiologischen Funktionsbeziehungen beizutragen. Dabei ist die Sequenzierung aber nur dererste Schritt. Die große Herausforderung besteht darin, diese Daten zu analysieren undinterpretieren. Dazu ist eine im höchsten Maße interdisziplinäre Zusammenarbeit notwendig,die so unterschiedlicher Gebiete, wie Algorithmenentwicklung, Datenbankentwurf, grafischeDatenaufbereitung, paralleles Rechnen, und nicht zuletzt eine Beteiligung aller biologischenTeildisziplinen erfordert.Es besteht die begründete Hoffnung, daß eine Integration von Methoden und Hilfsmitteln, wiesie im Rahmen dieser Arbeit entwickelt wurden, in der Lage sind, die Genomprojekte nichtauf der ersten Stufe des Datensammelns stehen zulassen.

171

5. Abkürzungen und Begriffe

Å 1 Ångström = 10-10 MeterAlgorithmus nach einem bestimmten Schema ablaufender RechenvorgangAlignment Ergebnis eines ZeichenkettenvergleichsASCII "American Standard Code for Information Interchange", einfacher ZeichensatzBit InformationseinheitBLAST "Basic Local Search Tool", schnelles DatenbanksuchprogrammByte Zusammenfassung von 8 BitsCPU "Central Processing Unit", Zentraleinheit eine RechnersDSSP "Dictionary for Secondary Structure of Proteins"; Methode für die Ermittlung eines

Sekundärstrukturzustandese-mail elektronische PostEMBL "European Molecular Biology Laboratory"Express "message passing library"FASTA schnelles DatenbanksuchprogrammFlops "floating point operation per second"; Anzahl der Gleitkommaoperationen die ein

Rechner in der Sekunde bearbeitetFORTRAN Programmierspracheftp "file transfer protocol", Protokoll zur Datenübermittlung zwischen RechnernGBytes 109 Bytes

GFlops 109 FlopsGopher Informations-Service im InternetHSSP "Homology derived Secondary Structure of Proteins"; Datenbank für multiple

SequenzalignmentsInternet Protokoll für Rechnernetzwerkejack-knife test statistischer Test, bei dem der jeweilige Testfall aus dem Lernsatz, der zur Ableitung der

Parameter etc. benutzt wird, entfernt wirdlog-odd Logarithmus eines Quotienten für Wahrscheinlichkeitenmassiv parallel Rechnersystem mit vielen Prozessoren (>100)MaxHom Alignment Programm (diese Arbeit)MBytes 106 Bytesmessage passing Versenden von Nachrichten oder Daten zwischen Prozessen ohne gemeinsamen SpeicherMIMD "multiple instruction multiple data", bestimmter Typ eines ParallelrechnerMIPS Martinsried Institute for Protein SequencesMosaic Programm für multimedialen Zugriff auf internationale Informations-DiensteMFlops 109 FlopsORF "open reading frame", offener LeserasterP4 "message passing library"Parix "message passing library"PDB "Protein Data Bank", Datenbank für 3D-StrukturenPERL ProgrammiersprachePHD Prediction from HeiDelberg, Methode zur Vorhersage von Sekundärstruktur von ProteinenPIR "Protein Identification Resource", ProteindatenbankPVM "parallel virtual machine", Unterprogramm-Bibliothek zur Interprozessorkommunikationrmsd "root mean square deviation", mittlere Abweichung der Abstandsquadratescale up Skalierungsgewinn bei paralleler Datenverarbeitungserver Rechner der einen Dienst anbietetSIMD "single instruction multiple data", bestimmter Typ eines Parallelrechnersspeed up Geschwindigkeitszuwachs bei der parallelen DatenverarbeitungSPMD "single program multiple data", Programmiermodell für parallele DatenverarbeitungSwissProt Protein Sequenzdatenbankthreading Rechnerische Methode, die eine Sequenz durch alle Positionen einer Struktur "durchzieht"TFlops 1012 Flopstwilight zone Grauzone, in der keine gesicherte Aussage über eine Sequenzverwandtschaft gemacht

werden kannUNIX Betriebssytem für Computer

172

VAX / VMS Rechnertyp mit dem Betriebssytem VMS ("virtual memory system")WAIS "wide area information server", Protokoll für RechnernetzwerkeWWW "world wide web", Protokoll für Rechnernetzwerke

173

6. Literaturliste

Abola, E. E., Bernstein, F. C., Bryant, S. H., Koetzle, T. F. & Weng, J. (1987). In Crystallographic Databases -information content, software systems, scientific applications (Allen, F. H. et al., eds.), pp. 107-132, DataCommission of the International Union of Crystallography, Bonn / Cambridge / Chester.

Abola, E. E., Bernstein, F. C. & Koetzle, T. F. (1988). In Computational molecular biology. Sources and methodsfor sequence analysis (Lesk, A. M., eds.), pp. 69-81, Oxford University Press, Oxford.

Alam, K. Y. & Clark, D. P. (1991). Molecular Cloning and Sequence of the thdF Gene, Which Is Involved inThiophene and Furan Oxidation by Escherichia coli. Journal of Bacteriology, 173, 6018-6024.

Altschul, S. F., Gish, W., Miller, W., Myers, E. W. & Lipman, D. J. (1990). Basic local alignment search tool. J.Mol. Biol., 215, 403-410.

Amdahl, G. (1967). Validity of the Single-Processor Approach to Achieving Large Scale ComputingCapabilities. AFIPS Conference Proceedings, 30, 483-485.

Bairoch, A. (1992). PROSITE: A dictionary of sites and patterns in proteins. Nucl. Acids Res., 20, 2013-2018.Bairoch, A. & Boeckmann, B. (1991). The SWISS-PROT protein sequence data bank. Nucl. Acids Res., 19,

2247-2250.Bairoch, A. & Boeckmann, B. (1992). The SWISS-PROT protein sequence data bank. Nucl. Acids Res., 20,

2019-2022.Barker, W. C., George, D. G., Mewes, H.-W. & Tsugita, A. (1992). The PIR-International protein sequence

database. Nucl. Acids Res., 20, 2023-2026.Barton, G. J. (1991). Scanning protein sequence databanks using a distributed processing workstation network.

Comput. Appl. Biosci., 7, 85-88.Barton, G. J. & Sternberg, M. J. E. (1987). Evaluation and improvements in the automatic alignment of protein

sequences. Protein Eng., 1, 89-94.Barton, G. J. & Sternberg, M. J. E. (1987). A strategy for the rapid multiple alignment of protein sequences:

confidence levels from tertiary structure comparisons. J. Mol. Biol., 198, 327-337.Bashford, D., Chothia, C. & Lesk, A. M. (1987). Determinants of a protein fold: unique features of the globin

amino acid sequences. J. Mol. Biol., 196, 199-216.Baumann, G., Frömmel, C. & Sander, C. (1989). Polarity as a criterion in protein design. Protein Eng., 2, 329-

334.Beguelin, A., Dongarra, J., Geist, A., Manchek, R. & Sunderam, V. (1991). A user's guide to PVM: Parallel

Virtual MAchine. Oak Ridge National Laboratory, Engineering Physics and Mathematics Division,Mathematical Sciences Section, ORNL/TM-11826.

Benner, S. A. (1989). Patterns of divergence in homologous proteins as indicators of tertiary and quaternarystructure. Adv. Enzyme Regul., 28, 219-236.

Benner, S. A., Cohen, M. A. & Gonnet, G. H. (1993). Empirical and structural models for insertions anddeletions in the divergent evolution of proteins. J. Mol. Biol., 229, 1065-1082.

Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., Meyer, E. F., Brice, M. D., Rodgers, J. R., Kennard, O.,Shimanouchi, T. & Tasumi, M. (1977). The Protein Data Bank: a computer-based archival file formacromolecular structures. J. Mol. Biol., 112, 535-542.

Biou, V., Gibrat, J. F., Levin, J. M., Robson, B. & Garnier, J. (1988). Secondary structure prediction:combination of three different methods. Protein Eng., 2, 185-191.

BLITZ (1993). EMBL network server for fast sequence searches on a MasPar-1. EMBL, .Blundell, T. L., Sibanda, B. L., Sternberg, M. J. E. & Thornton, J. M. (1987). Knowledge-based prediction of

protein structure and the design of novel molecules. Nature, 326, 347-352.Bork, P. (1991). Shuffled domains in extracellular proteins. FEBS Lett., 286, 47-54.Bork, P. & Grundwald, C. (1990). Recognition of different nucleotide-binding sites in primary structures using a

property-pattern approach. Eur. J. Biochem., 191, 347-358.Bork, P., Ouzounis, C., Sander, C., Scharf, M., Schneider, R. & Sonnhammer, E. (1992). Comprehensive

sequence analysis of the 182 predicted open reading frames of yeast chromosome III. Protein Sci., 1, 1677-1690.

Bowie, D., Clarke, N. D., Pabo, C. O. & Sauer, R. T. (1990). Identification of protein folds: matchinghydrophobicity patterns of sequence sets with solvent accessibility patterns of known structures. Proteins, 7,257-264.

Bowie, J. U., Luethy, R. & Eisenberg, D. (1991). A method to identify protein sequences that fold into a knownthree-dimensional structure. Science, 253, 164-170.

Brendel, V., Bucher, P., Nourbakhsh, I. R., Blaisdell, B. E. & Karlin, S. (1992). Methods and algorithms forstatistical analysis of protein sequences. Proc. Natl. Acad. Sci. USA, 89, 2002-2006.

174

Bryant, S. H. & Amzel, L. M. (1987). Correctly folded proteins make twice as many hydrophobic contacts. J. Int.Pept. Prot. Res., 29, 46-52.

Butler, R. & Lusk, E. (1992). User's guide to the p4 programming system. Mathematics and Computer ScienceDivision (UC-405) Argonne National Laboratory, 9700 South Cass Av., Argonne, IL 60439-4801, ANL-92/17.

Casari, G., Sander, C. & Valencia, A. Functional residues in protein sequence space. submitted, .Casari, G. & Sippl, M. J. (1992). Structure-derived hydrophobic potential. Hydrophobic potential derived from

X-ray structures of globular proteins is able to identify native folds. J. Mol. Biol., 224, 725-732.Chiche, L., Gregoret, L. M., Cohen, F. E. & Kollman, P. A. (1990). Protein model structure evaluation using the

solvation free energy of folding. Proc. Natl. Acad. Sci. USA, 87, 3240-3243.Chothia, C. (1992). One thousand protein families for the molecular biologist. Nature, 357, 543-544.Chothia, C. & Lesk, A. M. (1986). The relation between the divergence of sequence and structure in proteins.

EMBO J., 5, 823-826.Chou, P. Y. & Fasman, G. D. (1974). Prediction of protein conformation. Biochemistry, 13, 222-244/5.Chou, P. Y. & Fasman, G. D. (1978). Prediction of the secondary structure of proteins from their amino acid

sequence. Adv. Enzymol., 47, 45-148.Collins, J. F., Coulson, A. F. W. & Lyall, A. (1988). The significance of protein sequence similarities. Comput.

Appl. Biosci., 4, 67-71.Colonna-Cesari, F. & Sander, C. (1990). Excluded volume approximation to protein-solvent interaction. The

solvent contact model. Biophys. J., 57, 1103-1107.Corpet, F. (1988). Multiple sequence alignment with hierarchical clustering. Nucl. Acids Res., 16, 10881-10890.Crippen, G. M. (1977). Correlation of sequence and tertiary structure in globular proteins. Biopol., 16, 2189-

2201.Crippen, G. M. (1991). Prediction of protein folding from amino acid sequences over discrete conformation

spaces. Biochemistry, 30, 4232-4237.Date, T., Yamamoto, S., Tanikara, K., Nishimoto, Y. & Matsukage, A. (1991). Aspartic acid residues at positions

190 and 192 of rat DNA polymerase β are involved in primer binding. Biochemistry, 30, 5286-5292.Dayhoff, M. O. (1978). Atlas of Protein Sequence and Structure. National Biomedical Research Foundation,

Washington, D.C., USA.Decoster, E., Vassal, A. & Faye, G. (1993). MSS1, a Nuclear-encoded Mitochondrial GTPase Involved in the

Expression of COX1 Subunit of Cytochrome c Oxidase. J. Mol. Biol., 232, 79-88.Devereux, J., Haeberli, P. & Smithies, O. (1984). A comprehensive set of sequence analysis programs for the

VAX. Nucl. Acids Res., 12, 387-395.Dijkstra, B. W., Kalk, K. H., Drenth, J., DeHaas, G. H., Egmond, M. R. & Slotboom, A. J. (1984). Role of the N-

terminus in the interaction of pancreatic phospholoipase A2 with aggregated substrates. Properties and crystalstrucure of transaminated phospholipases A2. Biochemistry, 23, 2759-2766.

Dijkstra, B. W., Renetseder, R., Kalk, K. H., Hol, W. G. J. & Drenth, J. (1983). Structure of porcine pancreaticphospholipase A2 at 2.6 Å resolution and comparison with bovine phospholipase A2. J. Mol. Biol., 168, 163-179.

Dodd, I. B. & Egan, J. B. (1987). Systematic method for the detection of potential lamda Cro-like DNA-bindingregions in proteins. J. Mol. Biol., 194, 557-564.

Doolittle, R. F. (1986). Of URFs and ORFs: a primer on how to analyze derived amino acid sequences.University Science Books, Mill Valley California.

Doolittle, R. F., Hunkapiller, M. W., Hood, L. E., Robbins, K. C., Devare, S. G., Aaronson, S. A. & Antoniades,H. N. (1983). Simian Sarcoma Virus onc Gene, v-sis, Is Derived from the Gene (or Genes) Encoding aPlatelet-Derived Growth Factor. Science, 221, 275-277.

Downward, J., Yarden, Y., Mayes, E., Scrace, G., Totty, N., Stockwell, P., Ullrich, A., Schlessinger, J. &Waterfield, M. D. (1984). Close Similarity of Epidermal Growth Factor Receptor and v-erb-B OncogeneProtein Sequences. Nature, 307, 521-527.

Dumas, J.-P. & Ninio, J. (1982). Efficient algorithms for folding and comparing nucleic acid sequences. Nucl.Acids Res., 10, 197-206.

Duronio, R. J., Gordon, J. I. & Boguski, M. S. (1992). Comparative analysis of the b transducin family withidentifikation of several new members including PWP1 a non-essential gene of Saccharomyces cervisiae thatis divergently transcribed from NMT1. Proteins, 41-56.

Eisenberg, D. & McLachlan, A. D. (1986). Solvation energy in protein folding and binding. Nature, 319, 199-203.

Eisenberg, D., Wilcox, W., Eshita, S. M., Pryciak, P. M., Ho, S. P. & DeGrado, W. F. (1986). The design,synthesis, and crystallization of an α-helical peptide. Proteins, 1, 16-22.

Feng, D.-F. & Doolittle, R. F. (1987). Progressive sequence alignment as a prerequisite to correct phylogenetictrees. J. Mol. Evol., 25, 351-360.

175

Finkelstein, A. V. & Reva, B. A. (1991). A search for the most stable folds of protein chains. Nature, 351, 497-499.

Finkelstein, A. V. & Reva, B. A. (1992). Search for the stable state of a short chain in a molecular field. ProteinEng., 5, 617-624.

Flynn, M. J. (1972). Some computer organizations and their effectiveness. IEEE Trans. Computers, 21, 948-960.Franco, L., Jimenez, A., Demolder, J., Molemans, F., Fiers, W. & Contreras, R. (1991). The nucleotide sequence

of a third cyclophilin-homologous gene from Saccharomyces cerevisiae. Yeast, 7, 971-979.Galaktionov, S. G. & Rodionov, M. A. (1981). Calculation of the tertiary structure of proteins on the basis of

analysis of the matrices of contacts between amino acid residues. Biophysics, 25, 395-403.Garnier, J., Osguthorpe, D. J. & Robson, B. (1978). Analysis of the accuracy and implications of simple methods

for predicting the secondary structure of globular proteins. J. Mol. Biol., 120, 97-120.Gehrke, W. (1987). FORTRAN 77- Handbuch. Carl Hauser Verlag, München/Wien.Gerloff, D. L., Jenny, T. F., Knecht, L. J., Gonnet, G. H. & Benner, S. A. (1993). The nitrogenase MoFe protein.

FEBS Lett., 318, 118-124.Gibrat, J.-F., Garnier, J. & Robson, B. (1987). Further Developments of Protein Secondary Structure Prediction

Using Information Theory. New Parameters and Consideration of Residue Pairs. J. Mol. Biol., 198, 425-443.Göbel, U., Sander, C., Schneider, R. & Valencia, A. (1994). Correlated mutations and residue contacts in

proteins. Proteins, 18, 309-317.Godzik, A., Kolinski, A. & Skolnick, J. (1992). A topology fingerprint approach to the inverse protein folding

problem. J. Mol. Biol., 227, 227-238.Godzik, A. & Skolnick, J. (1992). Sequence-structure matching in globular proteins: application to

supersecondary and tertiary structure determination. Proc. Natl. Acad. Sci. USA, 89, 12098-12102.Goldstein, R. A., Luthey-Schulten, Z. A. & Wolynes, P. G. (1992). Protein tertiary structure recognition using

optimized Hamiltonians with local interactions. Proc. Natl. Acad. Sci. USA, 89, 9029-9033.Gotoh, O. (1982). An improved algorithm for matching biological sequences. J. Mol. Biol., 162, 705-708.Grandori, R. & Sander, C. (1991). Identification by computer sequence analysis of transcriptional regulator

proteins in Dictyostelium discoideum and Serratia marcescens. Nucl. Acids Res., 19, 2359-2362.Greer, J. (1981). Comparative model-building of the mammalian serine proteases. J. Mol. Biol., 153, 1027-1042.Greer, J. (1990). Comparative modeling methods: application to the family of the mammalian serine proteases.

Proteins, 7, 317-334.Greer, J. (1991). Comparative modeling of homologous proteins. Meth. Enzymol., 202, 239-252.Gregoret, L. M. & Cohen, F. E. (1990). Novel method for the rapid evaluation of packing in protein structures. J.

Mol. Biol., 211, 959-974.Gribskov, M., Luethy, R. & Eisenberg, D. (1990). Profile analysis. Meth. Enzymol., 183, 146-159.Gribskov, M., McLachlan, M. & Eisenberg, D. (1987). Profile analysis: Detection of distantly related proteins.

Proc. Natl. Acad. Sci. USA, 84, 4355-4358.Gustafson, J. L. (1988). Reevaluating Amdahl's law. Comm. ACM, 31, 532-533.Hardwick, K. & Pelham, H. (1990). ERS1, a seven transmembran domain protein from Saccharomyces

cerevisiae. Nucleic Acids. Res., 18, 2177.Haussler, D., A., K., Mian, I. S. & K., S. (1993). In Protein Structure Prediction, 26th Hawaii International

Conference on System Sciences, January 4-7 (L., Hunter, eds.), pp. IEEE Computer Society Press, LosAlamitos, California, Mauii, Hawaii.

Hendlich, M., Lackner, P., Weitckus, S., Floeckner, H., Froschauer, R., Gottsbacher, K., Casari, G. & Sippl, M.J. (1990). Identification of native protein folds amongst a large number of incorrect models. The calculationof low energy conformations from potentials of mean force. J. Mol. Biol., 216, 167-180.

Henikoff, S. & Henikoff, J. G. (1991). Automated assembly of protein blocks for database searching. Nucl. AcidsRes., 19, 6565-6572.

Higgins, D. G., Bleasby, A. J. & Fuchs, R. (1992). CLUSTAL V: improved software for multiple sequencealignment. Comput. Appl. Biosci., 8, 189-191.

Higgins, D. G., Fuchs, R., Stoehr, P. J. & Cameron, G. N. (1992). The EMBL data library. Nucl. Acids Res., 20,2071-2074.

Higgins, D. G. & Sharp, P. M. (1988). CLUSTAL: a package for performing multiple sequence alignment on amicrocomputer. Gene, 73, 237-244.

Hirschberg, D. S. (1975). A linear space algorithm for computing maximal common subsequences. Comm. ACM,18, 341-343.

Hobohm, U., Scharf, M., Schneider, R. & Sander, C. (1992). Selection of representative protein data sets. ProteinSci., 1, 409-417.

Holley, H. L. & Karplus, M. (1989). Protein secondary structure prediction with a neural network. Proc. Natl.Acad. Sci. USA, 86, 152-156.

176

Holm, L., Ouzounis, C., Sander, C., Tuparev, G. & Vriend, G. (1992). A database of protein structure familieswith common folding motifs. Protein Sci., 1, 1691-1698.

Holm, L. & Sander, C. (1992). Evaluation of Protein Models by Atomic Solvation Preference. J. Mol. Biol., 225,93-105.

Holm, L. & Sander, C. (1992). Fast and Simple Monte Carlo Algorithm for Side Chain Optimization in Proteins:Application to Model Building by Homology. Proteins, 14, 213-223.

Hubbard, T. J. P. (1994). In Protein Structure Prediction, 27th Hawaii International Conference on SystemSciences, January 4-7 (L., H., eds.), pp. 336-344, IEEE Compueter Society, Los Alamitos, California, Mauii,Hawaii.

Ingrosso, D., Fowler, V., Bleibaum, J. & Clarke, S. (1989). Sequence of D-aspartyl/L-isoaspartyl proteinmethyltransferase from human erythrocytes. J. Biol. Chem., 264, 20131-20139.

Intel Corporation (1991). iPSC/860 FORTRAN Compiler user's guide. Intel Supercomputer Systems Division,Intel Corporation, 3065 Bowers Av., Santa Clara, CA 95051, 312131-001.

Ito, J. & Braithwaite, D. K. (1991). Compilation and alignment of DNA polymerase sequences. Nucl. Acids Res.,19, 4045-4057.

Johnson, E. E. (1988). Completing an MIMD multiprocessor taxonomy. Computer Architecure News, 16, 44-47.Jones, D. T., Taylor, W. R. & Thornton, J. M. (1992). A new approach to protein fold recognition. Nature, 358,

86-89.Jones, R., Taylor, W., IV, Zhang, X., Mesirov, J. P. & Lander, E. (1990). Protein sequence comparison on the

connection machine CM-2. Computers and DNA, SFI Studies in the Sciences of Complexity, VII, Addison-Wesley, 99-107.

Kabsch, W. (1978). A discussion of the solution for the best rotation to relate two sets of vectors. Acta Cryst.,A34, 827-828.

Kabsch, W. & Sander, C. (1983). Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopol., 22, 2577-2637.

Kabsch, W. & Sander, C. (1983). How good are predictions of protein secondary structure? FEBS Lett., 155,179-182.

Karlin, S. & Altschul, S. F. (1990). Methods for assessing the statistical significance of molecular sequencefeatures by using general scoring schemes. Proc. Natl. Acad. Sci. USA, 87, 2264-2268.

Karlin, S. & Brendel, V. (1992). Chance and statistical significance in protein and DNA sequence analysis.Science, 257, 39-49.

Karlin, S., Dembo, A. & Kawabata, T. (1990). Statistical composition of high-scoring segments from molecularsequences. Ann. Stat., 18, 571-581.

Ke, H. M., Ponzatko, R. B. & Lipscomb, W. N. (1984). Structure of unligated aspartate carbamoyltransferase ofEscherichia coli at 2.6 Å resolution. Proc. Natl. Acad. Sci. USA, 81, 4037-4040.

Kim, K. H., Pan, Z. X., Honzatko, R. B., Ke, H. M. & Lipscomb, W. N. (1987). Structural asymetrie in the CTP-liganded form of aspartate carbamoyltransferase from Escherichia coli. J. Mol. Biol., 196, 853-875.

Klimasauskas, S., Timinskas, A., Menkevicius, S., Butkiene, D., Butkus, V. & Janulaitis, A. (1989). Sequencemotifs charcteristic of DNA [cytosine-N4]methyltransferases: SImilarity to adenine and cytosine-C5 DNA-methylases. Nucleic Acids. Res., 17, 9823-9832.

Knighton, D. R., Zheng, J., H., Ten-Eyck, L. F., Ashford, V. A., Xuong, N. H., Taylor, S. S. & Sowadski, J. M.(1991). Crystal strucure of the catalytic subunit of cyclic adenosine monophosphat-depnedent protein kinase.Science, 253, 407-414.

Kohda, D., Hatanaka, H., Odaka, M., Mandiyan, V. & Ullrich, A. (1993). Solution structure of the SH3 domainof phospholipase C-γ. Cell, 72, 953-960.

Kondo, K. & Inouye, M. (1991). TIP1, a cold schock-inducible gene of Saccharomyces cerevisiae. J. Biol.Chem., 266, 17537-17544.

Koonin, E. V., Bork, P. & Sander, C. (1994). Yeast chromosom III: new gene functions. The EMBO Journal, 13,493-503.

Kraulis, P. J., Raine, A. R. C., Gadhavi, P. L. & Laue, E. D. (1992). Structure of the DNA-binding domain ofzinc GAL4. Nature, 356, 448-450.

Kyte, J. & Doolittle, R. F. (1982). A simple method for displaying the hydropathic character of a protein. J. Mol.Biol., 157, 105-132.

LaCour, T. F. M., Nyborg, J., Thirup, S. & Clark, B. F. C. (1985). Strucutral details of the binding of guanosindiphosphate to elongation factor TU from E. coli as strudies by x-ray crystallography. EMBO J., 4, 2385-2388.

Lander, E., Mesirov, J. P. & Taylor, W., IV (1988). In International Conference on Parallel Processing eds.), pp.257-269, .

Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions, and reversals. Cybernet.Control Theor., 10, 707-710.

177

Levesque, J. M. & Williamson, J. W. (1989). A guidebook to Fortran on supercomputers. Academic Press, SanDiego, CA.

Levin, J. M. & Garnier, J. (1988). Improvements in a secondary structure prediction method based on a search forlocal sequence homologies and its use as a model building tool. Biochim. Biophys. Acta, 955, 283-295.

Levin, J. M., Robson, B. & Garnier, J. (1986). An algorithm for secondary structure determination in proteinsbased on sequence similarity. FEBS Lett., 205, 303-308.

Levitt, M. (1992). Accurate modeling of protein conformations by automatic segment matching. J. Mol. Biol.,226, 507-533.

Lifson, S. & Sander, C. (1979). Antiparallel and parallel beta-strands differ in amino acid residue preferences.Nature, 282, 109-111.

Lifson, S. & Sander, C. (1980). Specific recognition in the tertiary structure of beta-sheets of proteins. J. Mol.Biol., 139, 627-639.

Lim, V. I. (1974). Structural Principles of the Globular Organization of Protein Chains. A Stereochemical Theoryof Globular Protein Secondary Structure. J. Mol. Biol., 88, 857-872.

Lipman, D. J. & Pearson, W. R. (1985). Rapid and sensitive protein similarity searches. Science, 227, 1435-1441.Lupas, A., Dyke, M. v. & Stock, J. (1991). Predicting coiled coils from protein sequences. Science, 252, 1162-

1164.Lüthy, R., Bowie, J. U. & Eisenberg, D. (1992). Assessment of protein models with three-dimensional profiles.

Nature, 356, 83-85.Lüthy, R., McLachlan, A. D. & Eisenberg, D. (1991). Secondary Structure-Based Profiles: Use of Structure-

Conserving Scoring Tables in Searching Protein Seqence Databases for Structural Similarities. Proteins, 10,229-239.

Maiorov, V. N. & Crippen, G. M. (1992). A contact potential that recognizes the correct folding of globularproteins. J. Mol. Biol., 227, 876-888.

Marguet, D., Guo, X. J. & Languin, G. J.-M. (1988). Yeast gene SRP1 (serin-rich) protein. J. Mol. Biol., 202,455-470.

Marmorstein, R., Carey, M., Ptashne, M. & Harrison, S. C. (1992). DNA recognition by GAL4: Structure of aprotein-DNA complex. Nature, 356, 408-414.

Maxfield, F. R. & Scheraga, H. A. (1979). Improvements in the prediction of protein backbone topography byreduction of statistical errors. Biochemistry, 18, 697-704.

McGeoch, D. J., Dalrymple, M. A., Dolan, A., McNab, D., Perry, L. J., Taylor, P. & Challberg, M. D. (1988).Structure of herpes simplex virus type 1 genes required for replication of virus DNA. J. Virol., 62, 444-453.

McLachlan, A. D. (1971). Tests for comparing related amino acid sequences. J. Mol. Biol., 61, 409-424.Meyer, E., Cole, G., Radahakrishnan, R. & Epp, O. (1988). Structure of native procine pancreatic elastase at 1.65

Å resolution. Acta Crystallogr. b, 44, 26-38.Miller, P. L., Nadkarni, P. M. & Carriero, N. M. (1991). Parallel computation and FASTA: confronting the

problem of parallel database search for a fast sequence comparison algorithm. Comput. Appl.. Biosci., 7, 71-78.

Miller, P. L., Nadkarni, P. M. & Pearson, W. R. (1992). Comparing machine-independent versus machine-specific parallelization of a software platform for biological sequence comparison. Comput. Appl. Biosci., 8,167-175.

Miyazawa, S. & Jernigan, R. L. (1985). Estimation of effective interresidue contact energies from protein crystalstructures: quasi-chemical approximation. Macromolecules, 18, 534-552.

Murata, M. (1990). Three-way Needleman-Wunsch algorithm. Meth. Enzymol., 183, 365-375.Murata, M., Richardson, J. S. & Sussman, J. L. (1985). Simultaneous comparison of three protein sequences.

Proc. Natl. Acad. Sci. USA, 82, 3073-3077.Myers, E. W. & Miller, W. (1988). Optimal alignments in linear space. Comput. Appl. Biosci., 4, 11-17.Needleman, S. B. & Wunsch, C. D. (1970). A general method applicable to the search for similarities in the

amino acid sequence of two proteins. J. Mol. Biol., 48, 443-453.Novotny, J., Bruccoleri, R. E. & Karplus, M. (1984). An analysis of incorrectly folded models. Implications for

structure prediction. J. Mol. Biol., 177, 787-818.Novotny, J., Rashin, A. A. & Bruccoleri, R. E. (1988). Criteria that discriminate between native proteins and

incorrectly folded models. Proteins, 4, 19-30.Oliver, S. G., Aart, Q. J. M. v. d., Agostoni-Carbone, M. L., Aigle, M. & al., e. (1992). The complete DNA

sequence of yeast chromosome III. Nature, 357, 38-46.Ouzounis, C., Sander, C., Scharf, M. & Schneider, R. (1993). Prediction of protein structure by evaluation of

sequence-structure fitness: aligning sequences to contact profiles derived from 3D structures. J. Mol. Biol.,232, 805-825.

Overington, J., Donnelly, D., Johnson, M. S., Sali, A. & Blundell, T. L. (1992). Environment-specific amino acidsubstitution tables: tertiary templates and prediction of protein folds. Protein Sci., 1, 216-226.

178

Overington, J., Johnson, M. S., Sali, A. & Blundell, T. L. (1990). Tertiary structural constraints on proteinevolutionary diversity: templates, key residues and structure prediction. Proc. R. Soc. Lond. B, 241, 132-145.

Pai, E. F., Kabsch, W., Krengel, U., Holmes, K. C., John, J. & Wittinghofer, A. (1989). Structure of theguaninine-nucleotide-binding domain of the Ha-ras oncogen product p21 in the triphosphat conformation.Nature, 341, 209-214.

Parasoft Corporation (1990). Express FORTRAN User's Guide 3.0. Parasoft Corporation, 2500 E. Foothill Blvd.,Pasadena, CA 91107.

Parsytec (1992). Parix Release 1.0. Software Documentation. Parsytec Computer GmbH, Roemonder Str. 197,D-52072 Aachen, Germany.

Pascarella, S. & Argos, P. (1992). A data bank merging related protein structures and sequences. Protein Eng., 5,121-137.

Pearson, W. R. & Lipman, D. J. (1988). Improved tools for biological sequence comparison. Proc. Natl. Acad.Sci. USA, 85, 2444-2448.

Prasad, R., Widen, S. G., Singhal, R. K., Watkins, J., Prakash, L. & Wilson, S. H. (1993). Yeast open readingframe YCR14C encodes a DNA β-polymerase-like enzyme. Nucleic Acids Res., 21, 5301-5307.

Ptitsyn, O. B. & Finkelstein, A. V. (1983). Theory of protein secondary structure and algorithm of its prediction.Biopol., 22, 15-25.

Qian, N. & Sejnowski, T. J. (1988). Predicting the Secondary Structure of Globular Proteins Using NeuralNetwork Models. J. Mol. Biol., 202, 865-84.

Ringe, D. & Petsko, G. A. (1990). A transport problem ? Nature, 346, 312-313.Robson, B. & Osguthorpe, D. J. (1979). Refined models for computer simulation of protein folding. J. Mol. Biol.,

132, 19-51.Robson, B. & Pain, R. H. (1971). Analysis of the code relating sequence to conformation in proteins: possible

implications for the mechanism of formation of helical regions. J. Mol. Biol., 58, 237-259.Rost, B. & Sander, C. (1993). Prediction of protein secondary structure at better than 70% accuracy. J. Mol. Biol.,

232, 584-599.Rost, B., Sander, C. & Schneider, R. (1993). Progress in protein structure prediction? Trends Biochem. Sci., 18,

120-123.Rost, B., Sander, C. & Schneider, R. (1994). Redefining the Goals of Protein Secondary Structure Prediction. J.

Mol. Biol., 235, 13-26.Sali, A. & Blundell, T. L. (1990). Definition of general topological equivalence in protein structures. J. Mol.

Biol., 212, 403-428.Sali, A., Overington, J. P., Johnson, M. S. & Blundell, T. L. (1990). From comparisons of protein sequences and

structures to protein modelling and design. Trends Biochem. Sci., 15, 235-240.Salzberg, S. & Cost, S. (1992). Predicting protein secondary structure with a nearest-neighbor algorithm. J. Mol.

Biol., 227, 371-374.Sander, C., Scharf, M. & Schneider, R. (1992). In Protein Engineering, A Practical Approach (Sternberg, M.,

eds.), pp. 89-115, Oxford University Press.Sander, C. & Schneider, R. (1991). Database of Homology-Derived Structures and the Structural Meaning of

Sequence Alignment. Proteins, 9, 56-68.Sander, C. & Schneider, R. (1993). The HSSP data base of protein structure-sequence alignments. Nucl. Acids

Res., 21, 3105-3109.Sander, C. & Vriend, G. (1991). Protein Design on Computers Biocomputing Technical Document. EMBL, 6.Sankoff, D. & Kruskal, J. B. (1983). Time warps, string edits, and macromolecules: The theory and practice of

sequence comparison. Addison-Wesley, Reading, MA.Scharf, M. (1989). Analyse von Paarwechselwirkungen in Proteinen. Diplomarbeit, Dept. of Physics, Univ.

Heidelberg, Germany.Scharf, M., Ouzounis, C., Casari, G., Bork, P., Valencia, A., Schneider, R. & Sander, C. (1994). In ISMB94,

submitted.Schneider, R. (1989). Sekundärstrukturvorhersage von Proteinen unter Berücksichtigung von

Tertiärstrukturaspekten. Diplomarbeit, Fakultät für Biologie der Universität Heidelberg, Germany.Sellers, P. H. (1974). An algorithm for the distance between two finite sequences. J. Combin. Theor. A, 16, 253-

258.Shindyalov, I. N., Kolchanov, N. A. & Sander, C. (1994). Can three-dimensioanl contacts in protein structures be

predicted by analysis of correlated mutations ? Prot. Eng., 7, 349-358.Sippl, M. J. (1990). Calculation of Conformational Ensembles from Potentials of Mean Force. An Approach to

the Knowledge-based Prediction of Local Structures of Globular Proteins. J. Mol. Biol., 213, 859-883.Sippl, M. J. & Weitckus, S. (1992). Detection of native-like models for amino acid sequences of unknown three-

dimensional structure in a data base of known protein conformations. Proteins, 13, 258-271.

179

Smith, R. F. & Smith, T. F. (1990). Automatic generation of primary sequence patterns from sets of relatedprotein sequences. Proc. Natl. Acad. Sci. USA, 87, 118-122.

Smith, T. F. & Waterman, M. S. (1981). Comparison of biosequences. Adv. Appl. Math., 2, 482-489.Smith, T. F. & Waterman, M. S. (1981). Identification of common molecular subsequences. J. Mol. Biol., 147,

195-197.Sneath, P. H. A., Sackin, M. J. & Ambler, R. P. (1975). Detecting evolutionary incompatibilities from protein

sequences. Syst. Zool., 24, 311-332.Software, A. (1993). KalaeidaGraph: Data Analysis and Graphic Presentation for Business, Science and

Engineering. .Sönnichsen, F. D., Sykes, B. D., Chao, H. & Davies, P. L. (1993). The nonhelical structure of antifreeze protein

type III. Science, 259, 1154-1157.Sor, F., Cheret, G., Fabre, F., Faye, G. & Fukuhara, H. (1992). Sequence of the HMR region on chromosom III

of Saccharmyces cerevisiae. Yeast, 8, 215-222.Staden, R. (1988). Methods to define and locate patterns of motifs in sequences. Comput. Appl. Biosci., 4, 53-60.Steensma, H. Y. & Van der Aart, Q. J. M. (1991). Sequence of the CDC10 Region at Chromosom III of

Saccharomyces cerevisiae. Yeast, 7, 425-429.Sternberg, M. J. E. & Islam, S. A. (1990). Local protein sequence similarity does not imply a structural

relationship. Protein Engin., 4, 125-131.Stultz, C. M., White, J. V. & Smith, T. F. (1993). Structural analysis based on state-space modeling. Protein Sci.,

2, 305-314.Sültemeyer, R. (1988). Vergleich von Proteinen anhand charakteristischer Sequenzkenngrößen. Diploma thesis,

Medizinische Informatik, Fachhochschule Heilbronn, Germany, .Summers, N. L. & Karplus, M. (1990). Modelling of globular proteins. J. Mol. Biol., 216, 991-1016.Sunderam, V. (1990). PVM: A framework for parallel distributed computing. Concurrency: Practice &

Experience, 2, 315-339.Tanaka, S. & Scheraga, H. A. (1975). Model of protein folding: inclusion of short-, medium-, and long-range

interactions. Proc. Natl. Acad. Sci. USA, 72, 3802-3806.Taylor, W. (1992). New paths from dead ends. Nature, 356, 478-480.Taylor, W. R. (1986). Identification of protein sequence homology by consensus template alignment. J. Mol.

Biol., 188, 233-258.Taylor, W. R. (1987). Multiple sequence alignment by a pairwise algorithm. Comput. Appl. Biosci., 3, 81-87.Taylor, W. R. (1991). Towards protein tertiary fold prediction using distance and motif constraints. Protein

Engin., 4, 853-870.Taylor, W. R. & Orengo, C. A. (1989). A holistic approach to protein structure alignment. Protein Eng., 2, 505-

519.Taylor, W. R. & Orengo, C. A. (1989). Protein structure alignment. J. Mol. Biol., 208, 1-22.Thierry, A., Fairhead, C. & Dujon, B. (1990). The complete sequence of the 8.2 kb segment left of MAT on

chromosom III reveals five ORF's, including a gene for a yeast ribokinase. Yeast, 6, 521-534.van der Voorn, L. & Ploegh, H. L. (1992). The WD-40 repeat. FEBS Letter, 307, 131-134.Vingron, M. & Argos, P. (1989). A fast and sensitive multiple sequence alignment algorithm. Comput. Appl.

Biosci., 5, 115-121.Vogt, G. & Argos, P. (1992). Searching for distantly related protein sequences in large databases by parallel

processing on a transputer machine. Comput. Appl. Biosci., 8, 49-55.Vriend, G. (1990). WHAT IF: a molecular modelling and drug design program. J. Mol. Graphics, 8, 52-56.Vriend, G. & Sander, C. (1991). Detection of common three-dimensional substructures in proteins. Proteins, 11,

52-58.Wall, L. & Schwartz, R. L. (1990). Programming perl. O'Reilly & Associates, Inc., Sebastopol, CA.Walter, J., Steigermann, W., Singh, T. P., Bartunik, H., Bode, W. & Huber, R. (1982). On the disordered

activation domain in trypsinogen, chemical labelling and low-temperature crystallography. Acta Crystallogr.b, 38, 1462-1472.

Warme, P. K. & Morgan, R. S. (1978). A survey of amino acid side-chain interactions in 21 proteins. J. Mol.Biol., 118, 289-304.

Warmington, J. R., Anwar, R., Newlon, C. S., Waring, R. B., Davies, R. W., Inolge, K. J. & Oliver, S. G. (1986).A 'hot-spot' for Ty transposition on the left arm of yeast chromosom III. Nucleic Acids Res., 14, 3475-3485.

Warmington, J. R., Waring, R. B., Newlon, C. S., Indge, K. J. & Oliver, S. G. (1985). Nucleotide sequencecharacterization of Ty 1-17, a class II transposon from yeast. Nucleic Acids Res., 13, 6679-6693.

Wek, R. C., Hauser, C. A. & Hatfield, G. W. (1985). The nucleotide sequence of the ilvBN operon of E. coli:Sequence homologies of the acetohydroxy acid synthase isozymes. Nucleic Acids Res., 13, 3995-4011.

180

Wiersma, P. A., Schmiermann, M. G., Condie, J. A., Crosby, W. L. & Moloney, M. M. (1989). Isolation,expression and phylogenetic inheritance of an acetolactate synthase gene from Brassica napus. Mol. Gen.Genet., 219, 413-420.

Wilbur, W. J. & Lipman, D. J. (1983). Rapid similarity searches of nucleic acid and protein data banks. Proc.Natl. Acad. Sci. USA, 80, 726-730.

Wolfram, S. (1991). Mathematica: a system for doing mathematics by computer. Addison-Wesley, RedwoodCity, CA.

Zhang, C.-T. & Chou, K.-C. (1992). An optimization approach to predicting protein structural class from aminoacid composition. Protein Sci., 1, 401-408.

Documents

PhD Schneider R 1991