Upload
feichth
View
51
Download
0
Embed Size (px)
Citation preview
B. Geib 1-1
Kapitel 1 Gliederung
1. Einführung in die Thematik 1.1 Aufgabe und Zweck fehlertoleranter Rechensysteme 1.2 Begriffe und Benennungen 1.3 Anwendungsbereiche und Anwendungsbeispiele 1.4 Anforderungen an fehlertolerante Systeme
Fehlertolerante Systeme
B. Geib 1-2
Einführung in die Thematik Begriffe und Benennungen
• Zuverlässigkeit (reliability): Beschaffenheit einer Funktionseinheit bzgl. ihrer Fähigkeit, während oder nach vorgegebenen Zeitspannen bei festgelegten Betriebsbedingungen die Zuverlässigkeitsanforderungen zu erfüllen (DIN 40041).
• Verfügbarkeit (availability): Wahrscheinlichkeit, ein System zu einem vorgegebenen Zeitpunkt t in einem funktionsfähigen Zustand anzutreffen (DIN 40042).
Fehlertolerante Systeme
B. Geib 1-3
Einführung in die Thematik Begriffe und Benennungen
• Unverfügbarkeit (unavailability): Unverfügbarkeit U ist das Komplement der Verfügbarkeit V zu 1, d. h.
U := 1 - V • Lebensdauer (Life Time):
Für die einzelne nicht instandsetzbare Betrachtungseinheit die beobachte Zeitspanne L vom Beanspruchungsbeginn t0 bis zum Ausfallzeitpunkt tF.
L := tF – t0
Fehlertolerante Systeme
B. Geib 1-4
Einführung in die Thematik Begriffe und Benennungen
• Downtime DT in [min/yr]: Die Zeitdauer, für die die Dienste bzw. die Funktionalität eines Systems in einen bestimmten Zeitraum (meistens bezogen auf ein Jahr) nicht verfügbar sind. Typisch ist der Durchschnittswert über eine große Zahl von Benutzern.
DT = U * 525.600 [min/yr] wobei
U = Unavailability 525.600 = 365 * 24 * 60 (d. h. 1 Jahr entspricht 525.600 Minuten)
Fehlertolerante Systeme
B. Geib 1-5
Einführung in die Thematik Begriffe und Benennungen
Daraus für ein Kommunikationsnetzwerk abgeleitet werden die Begriffe:
• Network Downtime NDT: Die Zeitdauer, für die ein Kommunikationsnetzwerk aufgrund von Komponentenausfällen nicht in der Lage ist, die gewünschten Netzwerkdienste zu unterstützen.
• Customer Downtime CDT: Die Zeitdauer, für die ein Benutzer aufgrund von Ausfällen der Netzwerkkomponenten nicht in der Lage ist, auf die Netzwerkdienste zuzugreifen.
Fehlertolerante Systeme
B. Geib 1-6
Einführung in die Thematik Begriffe und Benennungen
Im allgemeinen gilt: CDT = NTD
wobei NDT = Network Downtime CDT = Customer Downtime
• Component failure rate: Die Fehlerrate von Komponenten wird in FIT (Failure In Time) ausgedrückt:
1 FIT ≡ 1 Failure in 109 Komponenten-Stunden Bsp.: 10 FIT means 1 failure in 108 h (11415 yr)
25000 FIT means 1 failure in 40.000 h (4,57 yr)
Fehlertolerante Systeme
B. Geib 1-7
Einführung in die Thematik Modellbildung
Ausfall- und Reparaturzeiten (reparierbare Systeme):
wobei TTF = Time To Failure TTR = Time To Repair
TBF = Time Between Failure
Fehlertolerante Systeme
Zeit
Events
Reparatur Reparatur
XS
1
0
X = 0 => System "intakt"S
X = 1 => System "defekt"S
TTR 1 TTR 2TTF1 TTF2 TTF3TBF1 TBF2
Betriebs-intervall
Ausfall-phase
B. Geib 1-8
Einführung in die Thematik Modellbildung
Erwartungs- bzw. Durchschnittswerte:
MTTF = avg < TTFi > Mean Time To Failure (mittlere ausfallfreie Zeitspanne)
MTTR = avg < TTRi > Mean Time To Repair (mittlere Ausfalldauer)
MTBF = avg < TBFi > Mean Time Between Failure (mittlere Zeitdauer zwischen Ausfällen) Bei uns gilt stets: MTBF = MTTF + MTTR
Fehlertolerante Systeme
B. Geib 1-9
Einführung in die Thematik Modellbildung
Ausfall- und Reparaturrate:
Ausfallrate λ : λ = 1 / MTTF
Reparaturrate µ : µ = 1 / MTTR
Mittlere Fehlerhäufigkeit ν : ν = 1 / MTBF (bzw. Fehlerrate) Demnach gilt der Zusammenhang:
ν = λ * µ / (λ + µ)
Fehlertolerante Systeme
B. Geib 1-10
Einführung in die Thematik Modellbildung
Kenngrößen eines reparierbaren Systems:
• Mit Hilfe der mittleren Zeit bis zum Ausfall (MTTF) und der mittleren Zyklusdauer aus Betriebsintervall und Ausfallphase (MTBF) lassen sich die Verfügbarkeit V, die Unverfügbarkeit U und die durchschnittliche Fehlerrate AFR experimentell aus dem Systemverhalten ermitteln.
• Umgekehrt beschreiben V, U und AFR das Systemverhalten eines reparierbaren Systems dann, wenn sich Betriebsintervalle (System = intakt) und Ausfallphasen (System = defekt) abwechseln.
• Im stationären Fall gilt:
Fehlertolerante Systeme
B. Geib 1-11
Einführung in die Thematik Modellbildung
Verfügbarkeit V:
V = MTTF / MTBF = MTTF / (MTTF + MTTR) = V(t → ∞) ≡ P(XS = 0)
wobei MTTF = Mean Time To Failure [yr] MTTR = Mean Time To Repair [yr] MTBF = Mean Time Between Failure [yr] XS = Strukturvariable des Systems
Fehlertolerante Systeme
B. Geib 1-12
Einführung in die Thematik Modellbildung
Unverfügbarkeit U:
U = MTTR / MTBF = MTTR / (MTTF + MTTR) = 1 – V = U(t → ∞) ≡ P(XS = 1)
wobei MTTF = Mean Time To Failure [yr] MTTR = Mean Time To Repair [yr] MTBF = Mean Time Between Failure [yr] XS = Strukturvariable des Systems
Fehlertolerante Systeme
B. Geib 1-13
Einführung in die Thematik Modellbildung
Average Failure Rate AFR:
AFR = 1 / MTBF [1 / yr] = ν = λ * µ / (λ + µ)
wobei MTBF = Mean Time Between Failure [yr]
ν = Mittlere Fehlerrate µ = Reparaturrate λ = Reparaturrate
Fehlertolerante Systeme
B. Geib 1-14
Einführung in die Thematik Modellbildung
V und U als Funktion von MTTR/MTTF:
Fehlertolerante Systeme
0.2
0.4
0.6
0.8
1.0
0 1 2 3 4 5 6 7 8 9 10
MTTR/MTTF
UV
UnavailabilityAvailability
B. Geib 1-15
Einführung in die Thematik Modellbildung
Rechenbeispiel:
Verfügbarkeit Unverfügbarkeit Downtime 99.99 % 0.01 % 53 min/yr 99.98 % 0.02 % 106 min/yr 99.95 % 0.05 % 265 min/yr 99.90 % 0.10 % 530 min/yr
Fehlertolerante Systeme
B. Geib 1-16
Einführung in die Thematik Kenngrößen
Kenngrößen nicht reparierbarer Systeme: Diese Kenngrößen drücken das Systemverhalten bei ununterbroche-nem Betrieb ohne zwischengeschobenen Reparaturphasen aus.
• Lebensdauer (Life Time) → L • Mittlere Lebensdauer (Mean Life Time) → TM • Ausfallwahrscheinlichkeit (Probability Of Failure) → F(t) • Überlebenswahrscheinlichkeit → R(t)= 1 – F(t) • Ausfallrate → A(t)
Fehlertolerante Systeme
B. Geib 1-17
Einführung in die Thematik Kenngrößen
Mittlere Lebensdauer T M: +∞ +∞
TM = E(L) = < L > := ∫ t ⋅ fL(t) dt = ∫ R(t) dt 0 0
wobei L = Lebensdauer (L ≥ 0) E(L) = Erwartungswert der Lebensdauer fL = Dichtefunktion der Lebensdauer R(t) = Überlebenswahrscheinlichkeit
Fehlertolerante Systeme
B. Geib 1-18
Einführung in die Thematik Kenngrößen
Ausfallwahrscheinlichkeit:
Wahrscheinlichkeit einer Betrachtungseinheit des Anfangbestandes (die zum Zeitpunkt t = 0 intakt ist) bis zu einem vorgegebenen Zeitpunkt t auszufallen → F(t)
⇒ entspricht der Verteilungsfunktion der Lebensdauer !
d. h. F(t) = FL(t)
Fehlertolerante Systeme
B. Geib 1-19
Einführung in die Thematik Kenngrößen
Ausfallwahrscheinlichkeit: t
F(t) = P(L ≤ t) := FL (t) := ∫ fL(τ) dτ wobei 0
L = Lebensdauer P = Wahrscheinlichkeit fL = Dichtefunktion der Lebensdauer FL = Verteilungsfunktion der Lebensdauer F = Ausfallwahrscheinlichkeit
Fehlertolerante Systeme
B. Geib 1-20
Einführung in die Thematik Kenngrößen
Überlebenswahrscheinlichkeit:
Die Überlebenswahrscheinlichkeit ist das Komplement der Ausfallwahrscheinlichkeit zu 1 → R(t)
d. h. Überleben- Ausfall- wahrschein- = 1 – wahrschein- lichkeit lichkeit
bzw. R(t) = 1 – F(t)
Fehlertolerante Systeme
B. Geib 1-21
Einführung in die Thematik Kenngrößen
Ausfallrate A(t):
Die Ausfallrate ist ein Maß für die temporäre Ausfallhäufigkeit und damit für die Ausfallhäufigkeitsdichte.
A(t) = – 1 / R(t) * dR(t) / dt wobei
R(t) = Überlebenswahrscheinlichkeit d / dt = Ableitung nach der Zeit t A(t) = Ausfallrate in [Ausfälle / Zeiteinheit]
Fehlertolerante Systeme
B. Geib 1-22
Einführung in die Thematik Einführungsbeispiel
Doppelrechnersystem (K1 und K2) an kritischer Stromversorgung (K3 bzw. K4)
• Welche Systemverfügbarkeit VS ergibt sich für die vorliegende Anordnung? • Ist die Systemverfügbarkeit höher als die Verfügbarkeit der Einzelrechner? • Schafft Redundanz tatsächlich immer eine höhere Systemverfügbarkeit?
Fehlertolerante Systeme
K 2
K 3
K 4
K 1
B. Geib 1-23
Einführung in die Thematik Begriffe und Benennungen
• Sicherheit: Sachlage, bei der das zulässige Grenzrisiko nicht überschritten wird, d. h. eines vereinbarten Wertes, der sich aus der Häufigkeit für den Eintritt eines Schadensereignisses sowie dem möglichen Schadens-maß zusammensetzt (DIN 31000).
• Ausfall: Aussetzen der Ausführung der festgelegten Aufgabe einer Betrachtungseinheit aufgrund einer in ihr selbst liegenden Ursache und im Rahmen der zulässigen Beanspruchung (DIN 40041, Teil 3).
Fehlertolerante Systeme
B. Geib 1-24
Einführung in die Thematik Begriffe und Benennungen
• Redundanz: Vorhandensein von mehr als für die Ausführung der vorgesehenen Aufgaben an sich notwendigen Mitteln (DIN 40041, Teil 4). Betrachtungseinheiten, für die diese Eigenschaft zutrifft, heißen fehlertolerant.
• Fehlertoleranz: Fähigkeit eines Systems, auch mit einer begrenzten Zahl fehlerhafter Teilsysteme seine spezifizierten Funktionen zu erfüllen.
Fehlertolerante Systeme
B. Geib 1-25
Einführung in die Thematik Anwendungsbereiche
• Hochzuverlässige Systeme
• Wartungsfreie Systeme mit langer Lebensdauer
• Systeme mit variablen Wartungszeiten
• Hochleistungsrechner
• Rechner für sicherheitskritische Anwendungen
Fehlertolerante Systeme
B. Geib 1-26
Einführung in die Thematik Neuere Einteilung
• Realzeitrechensysteme z. B. Steuerung, Überwachung und Automatisierung technischer Prozesse mit
Echtzeitanforderungen
• Vermittlungssysteme z. B. Ein- und Ausgliederung von Komponenten im laufenden Betrieb
• Transaktionssysteme z. B. interaktive Benutzerzugriffe auf gemeinsam benutzte Datenbanken
• Dienstleistungsrechner z. B. Server-Systeme (Datenspeicherung, Archivierung,
Dokumentenverwaltung etc.)
Fehlertolerante Systeme
B. Geib 1-27
Einführung in die Thematik Anforderungen
• Datenintegrität und zusätzlich noch:
• Funktionskontinuität ♣ Fehlererkennung
• Zuverlässigkeit ♣ Fehlerlokalisierung
• Verfügbarkeit ♣ Fehlerbehandlung
• Lebensdauer ♣ Sicherung der Daten-
• Instandhaltbarkeit bestände
• Leistungsverhalten
Fehlertolerante Systeme