Upload
conrad-moos
View
108
Download
3
Embed Size (px)
Citation preview
Fehlerraten von HW
Hubert Kraut, 0025471
Inhalt
Klassifizierung
typische HW Fehler
Statistische Verteilungen
Fehlerraten
Trends
Analyse von 2 Fehler Beispielen
Klassifizierung
Permanente Fehler
Transiente Fehler
Intermittierend: wirken transient, aber:
Fehler treten wiederholt an der selben Stelle auf
mit einer ungewöhnlich hohen Fehlerrate
werden durch Komponententausch entfernt
90% aller Workstation Abstürze
Design Fehler
fehlerhafte Umsetzung der Spezifikation
mangelhafte Synchronisation: Metastabilitäten
mangelhafte Versorgungsspannungsstabilisierung:
Electrical Overstress möglich
zu hohe Stromdichten
Ursachen für Designfehler Wachsender Zeitdruck
(Schere zwischen Produktivität und Komplexität)
zunehmender Anteil von Fremddesign
Fehlerhafte oder falsch ausgelegte Spezifikation bzw
unzureichende Spezifikation am Projektanfang
Mangelhafter Tool Support
Fertigungsfehler
Wafer:
Verunreinigungen, Kristalldefekte, Microcracks, ...
Prozesse:
Masken-Alignment, Unterätzung, Ionen, ...
Packaging:
Hohlräume, Bonding-Defekte, Microcracks
Transport:
Handhabung, Umweltbedingungen
Bestückung:
Handhabung, Kurzschlüsse, kalte Lötstellen,...
Betriebsfehler 1/2
Electrical Stress
Intrinsic: bedingt durch Material- oder Prozessfehler
Gate-oxide Wear-out
Ionic contamination
Oberflächenladungen
Kristalldefekte
Piping
Betriebsfehler 2/2 Extrinsic: Verbindungen, Packaging oder Umwelteinflüsse
Elektromigration
Kontaktmigration
Stress-induzierte Migration
Microcracks
Die Attach Fehler
Bonding Fehler
Popcorn Effekt
Korrosion
Soft Errors
Electrical Stress
Elektrostatische Entladung
Ursache: unsachgemäßer Behandlung
Electrical Overstress
Versorgungs-Spannungsspitzen
Ursache: mangelhaftes Design oder Umwelteinflüsse (Gewitter)
Latch-Up
ungewollte Thyristor Strukturen im Chip
werden durch Schwankungen in der Versorgungsspannung gezündet
Ursache: mangelhaftes Design
Gate-Oxide wear-out
Neutrale Elektronenfallen im Gate-Oxide
Ursache:
durch oftmaliges Programmieren oder
electrical Overstress
Wirkung
stark erhöhte Tunnelströme
führt zu Gate-Oxide Breakdown: Durchbruch des Isolators
Häufigster Alterungsdefekt
Electromigration Elektronenwind bewegt Atome und verschiebt Material
Black‘s Law:
Voiding Hillock
kT
E
eJ
AMTTF
2
J...Stromdichte [A/cm2], E = 0.5 ... 1.5eV, A ... Konstante, T...Temperatur [K], k ... Boltzmann-Konst. = 8.6*10-5eV/K
Single Event Upsets Verursachen Bitflips in Speicherelementen und Glitches in Logik Elementen
Werden verursacht durch:
Neutronen Strahlung: kosmische Strahlung Höhen- und Ortsabhängig
Alpha Partikel: Überreste vom Erzeugungsverfahren und vom Packaging Material < 0.01 Alpha / cm2-hr
SER für Altera Cyclone II EP2C20
(New York, Meereshöhe):
Neutron Induced
Alpha Induced
Config bit FIT per Mbit: 188 FIT 229 FIT
FF FIT per Mbit: 613 FIT 748 FIT
User bit FIT per Mbit: 770 FIT 939 FIT
Typische Verteilung„Badewannenkurve“ - Weibull Verteilung:
Infant mortality: hohe Ausfallsrate, β < 1
Useful life: kleine, konstante Ausfallsrate, β = 1
Wear-out: starker Anstieg der Ausfallsrate, β > 1
1
teFailureRat
TrendsHardware Trends:
~ alle 2 Jahre Verdopplung der Transistorendichte
geringere Betriebsspannungen
geringere Ladung in Speicherelementen
Erhöhung der Taktfrequenzen
Fehlertrends:
Signifikante Steigerung der SER
Höherer Anteil an multi-bit upsets
Mehr Verletzungen von timing-safety Margen
Mehr Intermittierende Fehler durch Prozessvariationen und
Prozessrückstände
Typische Fehlerraten
Beispiel 1 – Intermittierender Fehler durch Produktionsrückstände Single-Bit error bursts bei einer Communication Controller Serie
Messungen ergaben hohen Widerstand einer Durchkontaktierung
Elektronenmikroskopie ergab:
Ätzprozess verursachte Polymerhärtung
Säuberungsprozess der Ablagerungen konnte Polymer nicht komplett
entfernen
partielle Metallabscheidung und resistiver Ring gebildet
=>Intermittierender Kontakt
Beispiel 2 – Speicherfehler durch Timing violations 10 boards wurden auf single- und multi bit Fehler überprüft
Testumgebung:
Boards bearbeiteten Matrizenberechnungen
Temperaturvariationen: -10°C bis 70°C
Spannungsversorgungsschwankungen: 10%
Ergebnis: 90,5% Silent-Data-Corruption
Fehler analyse:
Clock Fehler und Setup/Hold Violations eines VLSI Schaltkreis
=> multi-bit Fehler während write-Zyklen
Referenzen
MTBF Calculator: http://mtbf.polimore.com
MIL-HDBK-217F
Electromigration-induced failures in VLSI interconnects, P. B. Ghate, Texas
Instruments Incorporated
Radiation Results of the SER Test of Actel FPGA December 2005, Overview of
iRoC Technologies Report, Actel, 2005
Impact of Deep Submicron Technology on Dependability of VLSI Circuits, C.
Constantinescu, Proc. Int’l Conf. Dependable Systems and Networks (DSN-
2002), pp. 205-209, 2002.
Folien zur VO “Dependable Systems”, S. Poledna
Folien zur VO Digitales Design A. Steininger
2007/May/16 ASIC vs. FPGA - A Comparisson 19
Fragen ?!?