27
B. Geib 1-1 Kapitel 1 Gliederung 1.Einführung in die Thematik 1.1 Aufgabe und Zweck fehlertoleranter Rechensysteme 1.2 Begriffe und Benennungen 1.3 Anwendungsbereiche und Anwendungsbeispiele 1.4 Anforderungen an fehlertolerante Systeme Fehlertolerante Systeme

FTS_Kap_1

  • Upload
    feichth

  • View
    51

  • Download
    0

Embed Size (px)

Citation preview

Page 1: FTS_Kap_1

B. Geib 1-1

Kapitel 1 Gliederung

1. Einführung in die Thematik 1.1 Aufgabe und Zweck fehlertoleranter Rechensysteme 1.2 Begriffe und Benennungen 1.3 Anwendungsbereiche und Anwendungsbeispiele 1.4 Anforderungen an fehlertolerante Systeme

Fehlertolerante Systeme

Page 2: FTS_Kap_1

B. Geib 1-2

Einführung in die Thematik Begriffe und Benennungen

• Zuverlässigkeit (reliability): Beschaffenheit einer Funktionseinheit bzgl. ihrer Fähigkeit, während oder nach vorgegebenen Zeitspannen bei festgelegten Betriebsbedingungen die Zuverlässigkeitsanforderungen zu erfüllen (DIN 40041).

• Verfügbarkeit (availability): Wahrscheinlichkeit, ein System zu einem vorgegebenen Zeitpunkt t in einem funktionsfähigen Zustand anzutreffen (DIN 40042).

Fehlertolerante Systeme

Page 3: FTS_Kap_1

B. Geib 1-3

Einführung in die Thematik Begriffe und Benennungen

• Unverfügbarkeit (unavailability): Unverfügbarkeit U ist das Komplement der Verfügbarkeit V zu 1, d. h.

U := 1 - V • Lebensdauer (Life Time):

Für die einzelne nicht instandsetzbare Betrachtungseinheit die beobachte Zeitspanne L vom Beanspruchungsbeginn t0 bis zum Ausfallzeitpunkt tF.

L := tF – t0

Fehlertolerante Systeme

Page 4: FTS_Kap_1

B. Geib 1-4

Einführung in die Thematik Begriffe und Benennungen

• Downtime DT in [min/yr]: Die Zeitdauer, für die die Dienste bzw. die Funktionalität eines Systems in einen bestimmten Zeitraum (meistens bezogen auf ein Jahr) nicht verfügbar sind. Typisch ist der Durchschnittswert über eine große Zahl von Benutzern.

DT = U * 525.600 [min/yr] wobei

U = Unavailability 525.600 = 365 * 24 * 60 (d. h. 1 Jahr entspricht 525.600 Minuten)

Fehlertolerante Systeme

Page 5: FTS_Kap_1

B. Geib 1-5

Einführung in die Thematik Begriffe und Benennungen

Daraus für ein Kommunikationsnetzwerk abgeleitet werden die Begriffe:

• Network Downtime NDT: Die Zeitdauer, für die ein Kommunikationsnetzwerk aufgrund von Komponentenausfällen nicht in der Lage ist, die gewünschten Netzwerkdienste zu unterstützen.

• Customer Downtime CDT: Die Zeitdauer, für die ein Benutzer aufgrund von Ausfällen der Netzwerkkomponenten nicht in der Lage ist, auf die Netzwerkdienste zuzugreifen.

Fehlertolerante Systeme

Page 6: FTS_Kap_1

B. Geib 1-6

Einführung in die Thematik Begriffe und Benennungen

Im allgemeinen gilt: CDT = NTD

wobei NDT = Network Downtime CDT = Customer Downtime

• Component failure rate: Die Fehlerrate von Komponenten wird in FIT (Failure In Time) ausgedrückt:

1 FIT ≡ 1 Failure in 109 Komponenten-Stunden Bsp.: 10 FIT means 1 failure in 108 h (11415 yr)

25000 FIT means 1 failure in 40.000 h (4,57 yr)

Fehlertolerante Systeme

Page 7: FTS_Kap_1

B. Geib 1-7

Einführung in die Thematik Modellbildung

Ausfall- und Reparaturzeiten (reparierbare Systeme):

wobei TTF = Time To Failure TTR = Time To Repair

TBF = Time Between Failure

Fehlertolerante Systeme

Zeit

Events

Reparatur Reparatur

XS

1

0

X = 0 => System "intakt"S

X = 1 => System "defekt"S

TTR 1 TTR 2TTF1 TTF2 TTF3TBF1 TBF2

Betriebs-intervall

Ausfall-phase

Page 8: FTS_Kap_1

B. Geib 1-8

Einführung in die Thematik Modellbildung

Erwartungs- bzw. Durchschnittswerte:

MTTF = avg < TTFi > Mean Time To Failure (mittlere ausfallfreie Zeitspanne)

MTTR = avg < TTRi > Mean Time To Repair (mittlere Ausfalldauer)

MTBF = avg < TBFi > Mean Time Between Failure (mittlere Zeitdauer zwischen Ausfällen) Bei uns gilt stets: MTBF = MTTF + MTTR

Fehlertolerante Systeme

Page 9: FTS_Kap_1

B. Geib 1-9

Einführung in die Thematik Modellbildung

Ausfall- und Reparaturrate:

Ausfallrate λ : λ = 1 / MTTF

Reparaturrate µ : µ = 1 / MTTR

Mittlere Fehlerhäufigkeit ν : ν = 1 / MTBF (bzw. Fehlerrate) Demnach gilt der Zusammenhang:

ν = λ * µ / (λ + µ)

Fehlertolerante Systeme

Page 10: FTS_Kap_1

B. Geib 1-10

Einführung in die Thematik Modellbildung

Kenngrößen eines reparierbaren Systems:

• Mit Hilfe der mittleren Zeit bis zum Ausfall (MTTF) und der mittleren Zyklusdauer aus Betriebsintervall und Ausfallphase (MTBF) lassen sich die Verfügbarkeit V, die Unverfügbarkeit U und die durchschnittliche Fehlerrate AFR experimentell aus dem Systemverhalten ermitteln.

• Umgekehrt beschreiben V, U und AFR das Systemverhalten eines reparierbaren Systems dann, wenn sich Betriebsintervalle (System = intakt) und Ausfallphasen (System = defekt) abwechseln.

• Im stationären Fall gilt:

Fehlertolerante Systeme

Page 11: FTS_Kap_1

B. Geib 1-11

Einführung in die Thematik Modellbildung

Verfügbarkeit V:

V = MTTF / MTBF = MTTF / (MTTF + MTTR) = V(t → ∞) ≡ P(XS = 0)

wobei MTTF = Mean Time To Failure [yr] MTTR = Mean Time To Repair [yr] MTBF = Mean Time Between Failure [yr] XS = Strukturvariable des Systems

Fehlertolerante Systeme

Page 12: FTS_Kap_1

B. Geib 1-12

Einführung in die Thematik Modellbildung

Unverfügbarkeit U:

U = MTTR / MTBF = MTTR / (MTTF + MTTR) = 1 – V = U(t → ∞) ≡ P(XS = 1)

wobei MTTF = Mean Time To Failure [yr] MTTR = Mean Time To Repair [yr] MTBF = Mean Time Between Failure [yr] XS = Strukturvariable des Systems

Fehlertolerante Systeme

Page 13: FTS_Kap_1

B. Geib 1-13

Einführung in die Thematik Modellbildung

Average Failure Rate AFR:

AFR = 1 / MTBF [1 / yr] = ν = λ * µ / (λ + µ)

wobei MTBF = Mean Time Between Failure [yr]

ν = Mittlere Fehlerrate µ = Reparaturrate λ = Reparaturrate

Fehlertolerante Systeme

Page 14: FTS_Kap_1

B. Geib 1-14

Einführung in die Thematik Modellbildung

V und U als Funktion von MTTR/MTTF:

Fehlertolerante Systeme

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5 6 7 8 9 10

MTTR/MTTF

UV

UnavailabilityAvailability

Page 15: FTS_Kap_1

B. Geib 1-15

Einführung in die Thematik Modellbildung

Rechenbeispiel:

Verfügbarkeit Unverfügbarkeit Downtime 99.99 % 0.01 % 53 min/yr 99.98 % 0.02 % 106 min/yr 99.95 % 0.05 % 265 min/yr 99.90 % 0.10 % 530 min/yr

Fehlertolerante Systeme

Page 16: FTS_Kap_1

B. Geib 1-16

Einführung in die Thematik Kenngrößen

Kenngrößen nicht reparierbarer Systeme: Diese Kenngrößen drücken das Systemverhalten bei ununterbroche-nem Betrieb ohne zwischengeschobenen Reparaturphasen aus.

• Lebensdauer (Life Time) → L • Mittlere Lebensdauer (Mean Life Time) → TM • Ausfallwahrscheinlichkeit (Probability Of Failure) → F(t) • Überlebenswahrscheinlichkeit → R(t)= 1 – F(t) • Ausfallrate → A(t)

Fehlertolerante Systeme

Page 17: FTS_Kap_1

B. Geib 1-17

Einführung in die Thematik Kenngrößen

Mittlere Lebensdauer T M: +∞ +∞

TM = E(L) = < L > := ∫ t ⋅ fL(t) dt = ∫ R(t) dt 0 0

wobei L = Lebensdauer (L ≥ 0) E(L) = Erwartungswert der Lebensdauer fL = Dichtefunktion der Lebensdauer R(t) = Überlebenswahrscheinlichkeit

Fehlertolerante Systeme

Page 18: FTS_Kap_1

B. Geib 1-18

Einführung in die Thematik Kenngrößen

Ausfallwahrscheinlichkeit:

Wahrscheinlichkeit einer Betrachtungseinheit des Anfangbestandes (die zum Zeitpunkt t = 0 intakt ist) bis zu einem vorgegebenen Zeitpunkt t auszufallen → F(t)

⇒ entspricht der Verteilungsfunktion der Lebensdauer !

d. h. F(t) = FL(t)

Fehlertolerante Systeme

Page 19: FTS_Kap_1

B. Geib 1-19

Einführung in die Thematik Kenngrößen

Ausfallwahrscheinlichkeit: t

F(t) = P(L ≤ t) := FL (t) := ∫ fL(τ) dτ wobei 0

L = Lebensdauer P = Wahrscheinlichkeit fL = Dichtefunktion der Lebensdauer FL = Verteilungsfunktion der Lebensdauer F = Ausfallwahrscheinlichkeit

Fehlertolerante Systeme

Page 20: FTS_Kap_1

B. Geib 1-20

Einführung in die Thematik Kenngrößen

Überlebenswahrscheinlichkeit:

Die Überlebenswahrscheinlichkeit ist das Komplement der Ausfallwahrscheinlichkeit zu 1 → R(t)

d. h. Überleben- Ausfall- wahrschein- = 1 – wahrschein- lichkeit lichkeit

bzw. R(t) = 1 – F(t)

Fehlertolerante Systeme

Page 21: FTS_Kap_1

B. Geib 1-21

Einführung in die Thematik Kenngrößen

Ausfallrate A(t):

Die Ausfallrate ist ein Maß für die temporäre Ausfallhäufigkeit und damit für die Ausfallhäufigkeitsdichte.

A(t) = – 1 / R(t) * dR(t) / dt wobei

R(t) = Überlebenswahrscheinlichkeit d / dt = Ableitung nach der Zeit t A(t) = Ausfallrate in [Ausfälle / Zeiteinheit]

Fehlertolerante Systeme

Page 22: FTS_Kap_1

B. Geib 1-22

Einführung in die Thematik Einführungsbeispiel

Doppelrechnersystem (K1 und K2) an kritischer Stromversorgung (K3 bzw. K4)

• Welche Systemverfügbarkeit VS ergibt sich für die vorliegende Anordnung? • Ist die Systemverfügbarkeit höher als die Verfügbarkeit der Einzelrechner? • Schafft Redundanz tatsächlich immer eine höhere Systemverfügbarkeit?

Fehlertolerante Systeme

K 2

K 3

K 4

K 1

Page 23: FTS_Kap_1

B. Geib 1-23

Einführung in die Thematik Begriffe und Benennungen

• Sicherheit: Sachlage, bei der das zulässige Grenzrisiko nicht überschritten wird, d. h. eines vereinbarten Wertes, der sich aus der Häufigkeit für den Eintritt eines Schadensereignisses sowie dem möglichen Schadens-maß zusammensetzt (DIN 31000).

• Ausfall: Aussetzen der Ausführung der festgelegten Aufgabe einer Betrachtungseinheit aufgrund einer in ihr selbst liegenden Ursache und im Rahmen der zulässigen Beanspruchung (DIN 40041, Teil 3).

Fehlertolerante Systeme

Page 24: FTS_Kap_1

B. Geib 1-24

Einführung in die Thematik Begriffe und Benennungen

• Redundanz: Vorhandensein von mehr als für die Ausführung der vorgesehenen Aufgaben an sich notwendigen Mitteln (DIN 40041, Teil 4). Betrachtungseinheiten, für die diese Eigenschaft zutrifft, heißen fehlertolerant.

• Fehlertoleranz: Fähigkeit eines Systems, auch mit einer begrenzten Zahl fehlerhafter Teilsysteme seine spezifizierten Funktionen zu erfüllen.

Fehlertolerante Systeme

Page 25: FTS_Kap_1

B. Geib 1-25

Einführung in die Thematik Anwendungsbereiche

• Hochzuverlässige Systeme

• Wartungsfreie Systeme mit langer Lebensdauer

• Systeme mit variablen Wartungszeiten

• Hochleistungsrechner

• Rechner für sicherheitskritische Anwendungen

Fehlertolerante Systeme

Page 26: FTS_Kap_1

B. Geib 1-26

Einführung in die Thematik Neuere Einteilung

• Realzeitrechensysteme z. B. Steuerung, Überwachung und Automatisierung technischer Prozesse mit

Echtzeitanforderungen

• Vermittlungssysteme z. B. Ein- und Ausgliederung von Komponenten im laufenden Betrieb

• Transaktionssysteme z. B. interaktive Benutzerzugriffe auf gemeinsam benutzte Datenbanken

• Dienstleistungsrechner z. B. Server-Systeme (Datenspeicherung, Archivierung,

Dokumentenverwaltung etc.)

Fehlertolerante Systeme

Page 27: FTS_Kap_1

B. Geib 1-27

Einführung in die Thematik Anforderungen

• Datenintegrität und zusätzlich noch:

• Funktionskontinuität ♣ Fehlererkennung

• Zuverlässigkeit ♣ Fehlerlokalisierung

• Verfügbarkeit ♣ Fehlerbehandlung

• Lebensdauer ♣ Sicherung der Daten-

• Instandhaltbarkeit bestände

• Leistungsverhalten

Fehlertolerante Systeme