FTS_Kap_1

B. Geib 1-1

Kapitel 1 Gliederung

1. Einführung in die Thematik 1.1 Aufgabe und Zweck fehlertoleranter Rechensysteme 1.2 Begriffe und Benennungen 1.3 Anwendungsbereiche und Anwendungsbeispiele 1.4 Anforderungen an fehlertolerante Systeme

Fehlertolerante Systeme

B. Geib 1-2

Einführung in die Thematik Begriffe und Benennungen

• Zuverlässigkeit (reliability): Beschaffenheit einer Funktionseinheit bzgl. ihrer Fähigkeit, während oder nach vorgegebenen Zeitspannen bei festgelegten Betriebsbedingungen die Zuverlässigkeitsanforderungen zu erfüllen (DIN 40041).

• Verfügbarkeit (availability): Wahrscheinlichkeit, ein System zu einem vorgegebenen Zeitpunkt t in einem funktionsfähigen Zustand anzutreffen (DIN 40042).


B. Geib 1-3


• Unverfügbarkeit (unavailability): Unverfügbarkeit U ist das Komplement der Verfügbarkeit V zu 1, d. h.

U := 1 - V • Lebensdauer (Life Time):

Für die einzelne nicht instandsetzbare Betrachtungseinheit die beobachte Zeitspanne L vom Beanspruchungsbeginn t0 bis zum Ausfallzeitpunkt tF.

L := tF – t0


B. Geib 1-4


• Downtime DT in [min/yr]: Die Zeitdauer, für die die Dienste bzw. die Funktionalität eines Systems in einen bestimmten Zeitraum (meistens bezogen auf ein Jahr) nicht verfügbar sind. Typisch ist der Durchschnittswert über eine große Zahl von Benutzern.

DT = U * 525.600 [min/yr] wobei

U = Unavailability 525.600 = 365 * 24 * 60 (d. h. 1 Jahr entspricht 525.600 Minuten)


B. Geib 1-5


Daraus für ein Kommunikationsnetzwerk abgeleitet werden die Begriffe:

• Network Downtime NDT: Die Zeitdauer, für die ein Kommunikationsnetzwerk aufgrund von Komponentenausfällen nicht in der Lage ist, die gewünschten Netzwerkdienste zu unterstützen.

• Customer Downtime CDT: Die Zeitdauer, für die ein Benutzer aufgrund von Ausfällen der Netzwerkkomponenten nicht in der Lage ist, auf die Netzwerkdienste zuzugreifen.


B. Geib 1-6


Im allgemeinen gilt: CDT = NTD

wobei NDT = Network Downtime CDT = Customer Downtime

• Component failure rate: Die Fehlerrate von Komponenten wird in FIT (Failure In Time) ausgedrückt:

1 FIT ≡ 1 Failure in 109 Komponenten-Stunden Bsp.: 10 FIT means 1 failure in 108 h (11415 yr)

25000 FIT means 1 failure in 40.000 h (4,57 yr)


B. Geib 1-7

Einführung in die Thematik Modellbildung

Ausfall- und Reparaturzeiten (reparierbare Systeme):

wobei TTF = Time To Failure TTR = Time To Repair

TBF = Time Between Failure


Zeit

Events

Reparatur Reparatur

XS

1

0

X = 0 => System "intakt"S

X = 1 => System "defekt"S

TTR 1 TTR 2TTF1 TTF2 TTF3TBF1 TBF2

Betriebs-intervall

Ausfall-phase

B. Geib 1-8


Erwartungs- bzw. Durchschnittswerte:

MTTF = avg < TTFi > Mean Time To Failure (mittlere ausfallfreie Zeitspanne)

MTTR = avg < TTRi > Mean Time To Repair (mittlere Ausfalldauer)

MTBF = avg < TBFi > Mean Time Between Failure (mittlere Zeitdauer zwischen Ausfällen) Bei uns gilt stets: MTBF = MTTF + MTTR


B. Geib 1-9


Ausfall- und Reparaturrate:

Ausfallrate λ : λ = 1 / MTTF

Reparaturrate µ : µ = 1 / MTTR

Mittlere Fehlerhäufigkeit ν : ν = 1 / MTBF (bzw. Fehlerrate) Demnach gilt der Zusammenhang:

ν = λ * µ / (λ + µ)


B. Geib 1-10


Kenngrößen eines reparierbaren Systems:

• Mit Hilfe der mittleren Zeit bis zum Ausfall (MTTF) und der mittleren Zyklusdauer aus Betriebsintervall und Ausfallphase (MTBF) lassen sich die Verfügbarkeit V, die Unverfügbarkeit U und die durchschnittliche Fehlerrate AFR experimentell aus dem Systemverhalten ermitteln.

• Umgekehrt beschreiben V, U und AFR das Systemverhalten eines reparierbaren Systems dann, wenn sich Betriebsintervalle (System = intakt) und Ausfallphasen (System = defekt) abwechseln.

• Im stationären Fall gilt:


B. Geib 1-11


Verfügbarkeit V:

V = MTTF / MTBF = MTTF / (MTTF + MTTR) = V(t → ∞) ≡ P(XS = 0)

wobei MTTF = Mean Time To Failure [yr] MTTR = Mean Time To Repair [yr] MTBF = Mean Time Between Failure [yr] XS = Strukturvariable des Systems


B. Geib 1-12


Unverfügbarkeit U:

U = MTTR / MTBF = MTTR / (MTTF + MTTR) = 1 – V = U(t → ∞) ≡ P(XS = 1)

wobei MTTF = Mean Time To Failure [yr] MTTR = Mean Time To Repair [yr] MTBF = Mean Time Between Failure [yr] XS = Strukturvariable des Systems


B. Geib 1-13


Average Failure Rate AFR:

AFR = 1 / MTBF [1 / yr] = ν = λ * µ / (λ + µ)

wobei MTBF = Mean Time Between Failure [yr]

ν = Mittlere Fehlerrate µ = Reparaturrate λ = Reparaturrate


B. Geib 1-14


V und U als Funktion von MTTR/MTTF:


0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5 6 7 8 9 10

MTTR/MTTF

UV

UnavailabilityAvailability

B. Geib 1-15


Rechenbeispiel:

Verfügbarkeit Unverfügbarkeit Downtime 99.99 % 0.01 % 53 min/yr 99.98 % 0.02 % 106 min/yr 99.95 % 0.05 % 265 min/yr 99.90 % 0.10 % 530 min/yr


B. Geib 1-16

Einführung in die Thematik Kenngrößen

Kenngrößen nicht reparierbarer Systeme: Diese Kenngrößen drücken das Systemverhalten bei ununterbroche-nem Betrieb ohne zwischengeschobenen Reparaturphasen aus.

• Lebensdauer (Life Time) → L • Mittlere Lebensdauer (Mean Life Time) → TM • Ausfallwahrscheinlichkeit (Probability Of Failure) → F(t) • Überlebenswahrscheinlichkeit → R(t)= 1 – F(t) • Ausfallrate → A(t)


B. Geib 1-17


Mittlere Lebensdauer T M: +∞ +∞

TM = E(L) = < L > := ∫ t ⋅ fL(t) dt = ∫ R(t) dt 0 0

wobei L = Lebensdauer (L ≥ 0) E(L) = Erwartungswert der Lebensdauer fL = Dichtefunktion der Lebensdauer R(t) = Überlebenswahrscheinlichkeit


B. Geib 1-18


Ausfallwahrscheinlichkeit:

Wahrscheinlichkeit einer Betrachtungseinheit des Anfangbestandes (die zum Zeitpunkt t = 0 intakt ist) bis zu einem vorgegebenen Zeitpunkt t auszufallen → F(t)

⇒ entspricht der Verteilungsfunktion der Lebensdauer !

d. h. F(t) = FL(t)


B. Geib 1-19


Ausfallwahrscheinlichkeit: t

F(t) = P(L ≤ t) := FL (t) := ∫ fL(τ) dτ wobei 0

L = Lebensdauer P = Wahrscheinlichkeit fL = Dichtefunktion der Lebensdauer FL = Verteilungsfunktion der Lebensdauer F = Ausfallwahrscheinlichkeit


B. Geib 1-20


Überlebenswahrscheinlichkeit:

Die Überlebenswahrscheinlichkeit ist das Komplement der Ausfallwahrscheinlichkeit zu 1 → R(t)

d. h. Überleben- Ausfall- wahrschein- = 1 – wahrscheinlichkeit lichkeit

bzw. R(t) = 1 – F(t)


B. Geib 1-21


Ausfallrate A(t):

Die Ausfallrate ist ein Maß für die temporäre Ausfallhäufigkeit und damit für die Ausfallhäufigkeitsdichte.

A(t) = – 1 / R(t) * dR(t) / dt wobei

R(t) = Überlebenswahrscheinlichkeit d / dt = Ableitung nach der Zeit t A(t) = Ausfallrate in [Ausfälle / Zeiteinheit]


B. Geib 1-22

Einführung in die Thematik Einführungsbeispiel

Doppelrechnersystem (K1 und K2) an kritischer Stromversorgung (K3 bzw. K4)

• Welche Systemverfügbarkeit VS ergibt sich für die vorliegende Anordnung? • Ist die Systemverfügbarkeit höher als die Verfügbarkeit der Einzelrechner? • Schafft Redundanz tatsächlich immer eine höhere Systemverfügbarkeit?


K 2

K 3

K 4

K 1

B. Geib 1-23


• Sicherheit: Sachlage, bei der das zulässige Grenzrisiko nicht überschritten wird, d. h. eines vereinbarten Wertes, der sich aus der Häufigkeit für den Eintritt eines Schadensereignisses sowie dem möglichen Schadens-maß zusammensetzt (DIN 31000).

• Ausfall: Aussetzen der Ausführung der festgelegten Aufgabe einer Betrachtungseinheit aufgrund einer in ihr selbst liegenden Ursache und im Rahmen der zulässigen Beanspruchung (DIN 40041, Teil 3).


B. Geib 1-24


• Redundanz: Vorhandensein von mehr als für die Ausführung der vorgesehenen Aufgaben an sich notwendigen Mitteln (DIN 40041, Teil 4). Betrachtungseinheiten, für die diese Eigenschaft zutrifft, heißen fehlertolerant.

• Fehlertoleranz: Fähigkeit eines Systems, auch mit einer begrenzten Zahl fehlerhafter Teilsysteme seine spezifizierten Funktionen zu erfüllen.


B. Geib 1-25

Einführung in die Thematik Anwendungsbereiche

• Hochzuverlässige Systeme

• Wartungsfreie Systeme mit langer Lebensdauer

• Systeme mit variablen Wartungszeiten

• Hochleistungsrechner

• Rechner für sicherheitskritische Anwendungen


B. Geib 1-26

Einführung in die Thematik Neuere Einteilung

• Realzeitrechensysteme z. B. Steuerung, Überwachung und Automatisierung technischer Prozesse mit

Echtzeitanforderungen

• Vermittlungssysteme z. B. Ein- und Ausgliederung von Komponenten im laufenden Betrieb

• Transaktionssysteme z. B. interaktive Benutzerzugriffe auf gemeinsam benutzte Datenbanken

• Dienstleistungsrechner z. B. Server-Systeme (Datenspeicherung, Archivierung,

Dokumentenverwaltung etc.)


B. Geib 1-27

Einführung in die Thematik Anforderungen

• Datenintegrität und zusätzlich noch:

• Funktionskontinuität ♣ Fehlererkennung

• Zuverlässigkeit ♣ Fehlerlokalisierung

• Verfügbarkeit ♣ Fehlerbehandlung

• Lebensdauer ♣ Sicherung der Daten-

• Instandhaltbarkeit bestände

• Leistungsverhalten


Documents

FTS_Kap_1