ClusterLion. Unternehmenskritische Applikationen müssen heute jeder Zeit verfügbar sein! Hochverfügbarkeit der IT „Heute eine Grundlage und keine Option“

ClusterLion

Unternehmenskritische Applikationen müssen heute jeder Zeit verfügbar sein!

Hochverfügbarkeit der IT „Heute eine Grundlage und keine Option“

Die meisten Branchen sind heute von einer funktionierenden IT abhängig.

Daher ist permanente IT Verfügbarkeit „Always-ON“ für viele Unternehmen eine Grundvoraussetzung und keine Option mehr.

Jeder Ausfall kostet Geld und Image!

Die Werte der Branchen und Studien variieren, doch fest steht, IT Downtime verursacht beträchtlichen Schaden!

Wie viel kostet IT Downtime?

Redundante Hardware Kein single Point of Failure innerhalb der Systeme Zumindest zwei räumlich getrennte Rechenzentren Synchrone Datenspiegelung Cluster Technologie für transparenten Site Failover

Doch auch in der Cluster Technologie gibt es Szenarien, wo das zentrale System ausfallen kann.

In diesem Fall entsteht beträchtlicher Schaden für das Unternehmen!

Hochverfügbarkeit erreichen

Was ist ein Split Brain Zustand? Wikipedia: Split Brain ist in der Informatik

ein unerwünschter Zustand eines Computerclusters, bei dem alle Zwischenverbindungen zwischen den Clusterteilen gleichzeitig unterbrochen sind.

Zur Koordination der Transaktionen im Cluster wird in der Regel ein Cluster Interconnect verwendet. Wird die Verbindung zwischen einem oder mehreren Teilen des Clusters über diesen Weg unterbrochen, kann keines noch unterscheiden ob es sich um einen partiellen Ausfall oder eine Trennung handelt. Alle diese (nun isolierten) Clusterfragmente arbeiten für sich weiter, um die Bereitstellung des Dienstes aufrechtzuerhalten.

Srvc(a)

Heartbeat

Hardware Fehleraktiv/aktiv

Cluster

o Beispiel: Hardware Ausfallo Cluster Service (a) wird automatisch auf den zweiten Cluster Node

gestartet (Takeover)

Srvc(b)Srvc(a)

Leitungsausfall

o Beispiel: Leitungsausfallo Cluster Services werden nicht automatisch übernommen, jede Site

läuft autark weiter. o Sobald die Leitungen wieder verfügbar sind, werden die Daten

synchronisiert und der Cluster befindet sich wieder im Normalzustand.

Heartbeat

aktiv/aktiv

ClusterSrvc(a) Srvc(b)Srvc(a)

o Beispiel: Stromausfall im Rechenzentrumo Der Cluster weiß nun nicht ob es sich nur um einen Leitungsausfall

oder um einen Stromausfall handelt! Service (a) wird nicht automatisch übernommen!

o Service (a) geht nun offline!o Nur durch einen manuellen Takeover oder einen dritten Standort

(Quorum) kann das Service übernommen werden.

Desasterfall, Stromausfall, etc.

aktiv/aktiv

Cluster

Heartbeat

Srvc(b)?Srvc(a) Manual Cluster Takeover

Srvc(a)

7-Mode MetroCluster

BSrvc (b)

cf giveback

A

A3A3A2A1

B4B3B2B1

Srvc (a)

system01 failed !takeover!

stretched HA

A/A Controller Failure Scenario1. 1st Controller fails2. Identity „moves“ to 2nd controller3. I/O passes through 2nd controller4. After repairing1st controller,

issue „cf giveback“5. Identity „moves“ back to 1st controller6. Normal operations continues

7-Mode MetroCluster

A

A‘

B

B‘

Srvc (a) Srvc (b)

MC Site Failure Scenario1. Entire Site A fails2. 2nd controller checks heartbeat, disk-

connections and IP connection while still serving it‘s data

3. Human or process on 3rd Site identifies site-failure

4. Issue „cf takeover –d“5. Identity „moves“ to second controller

SiteA down orsite-connection broken?cf takeover -dcf giveback

MC FabricSrvc(b)Srvc(a)

cDOT MetroCluster, local HA

no automatic Takeover between Datacenter

stretched HAlocal HA local HA

Data ONTAP 8.3MetroCluster Management und Desaster Recovery Guide

Data ONTAP 8.3MetroCluster Management und Desaster Recovery Guide

ClusterLion, die Lösung!

UPSGrid100m

EthernetRS232

QRemote Quorum

100m

EthernetRS232

Monitoring:• Power• Storage Controller • Partner Status • Heart-Beat

1. Reporting:• A1: Lost Cluster Partner• B1: Lost Cluster Partner• A2: not responding any more• B2: not responding any more

2. Action:• A2: Power off• B2: Power off• A1: force Takeover • B1: force Takeover• Q: Open Helpdesk Ticket

Takeover

ClusterLion-AP (Advanced Protection)

open TicketPartner Helpdesk

Support Customer during Giveback

Telco BTelco A

Use Case: Site Desaster

UPSGrid

MC Fabric

“Giveback”

A1B1 A2B2

Srvc(b)Srvc(a) Srvc(b)

ClusterLion-AP erhöht die Verfügbarkeit eines zwei-Standorte Storage Clusters!

Deutlich geringere Kosten im Vergleich zu einem traditionellen Quorum Standort (Leitungskosten, Betriebskosten, Aministration)!

Selbst bei einem Site Desaster (K-Fall) an einem Standort werden die Cluster Services ordnungsgemäß übergeben und alle Applikationen bleiben verfügbar!

Durch lokales Abschalten wird eine Dateninkonsistenz aufgrund eines Split Brain Syndroms durch ClusterLion ausgeschlossen!

An jedem bestehenden NetApp MetroCluster kann ClusterLion unterbrechungsfrei nachgerüstet werden und so die Verfügbarkeit der unternehmenskritischen Applikationen weiter steigern!

Vorteile durch ClusterLion-AP

Alleinstellungsmerkmal (USP) speziell in NetApp MetroCluster Projekten!

Höhere Marge durch den Verkauf von zusätzlichen Services (Premium Contract)!

„Door opener“ bei Bestandskunden der Mitbewerber! Vorteil bei Ausschreibungen durch geringere TCO im

Vergleich zu einem 3 Standorte Konzept! Technisch valide Antwort auf Witness-Konzepte der

Mitbewerber (z.B. EMC vplex, etc.) Höhere Sicherheit und Verfügbarkeit für den Kunden!

Mehrwert für ClusterLion Reseller

Basiert auf HighEnd Industrie Komponenten Überwacht Stromversorgungen, Netzwerk,

Interconnects und die Dienste des Clusters. Kommuniziert über zwei getrennte und vom Cluster

unabhängige Kommunikationskanäle. Bei Beeinträchtigung der Storage Services wird ein

automatischer Takeover im Storage Cluster ausgelöst und die Gefahr von Split-Brain mit Garantie ausgeschlossen.

Die Storage Services laufen weiter – keine Downtime!

ClusterLion im Detail

7x24 Telefon Support Proaktive Benachrichtigung des Kunden Automatisches Support Ticket am Partner Helpdesk Unterstützung beim Cluster Giveback

Premium Support f. Partner

ClusterLion ohne Frontblende „hot swap“ Battery

ClusterLion (front view)

4x Power Input 4x Power Output (UPS max. 1.100W) 2x Cooling Fans 2x 24V Output for UMTS Gateways Reset Button 2x Serial Consol Port 6x Ethernet Connectivity

ClusterLion (rear view)

...ob man sich einen Betrieb ohne

ClusterLion leisten kann?

Vielen DANK!Die Frage ist nicht ob man sich ClusterLion

leisten kann? Sondern...

Documents

ClusterLion. Unternehmenskritische Applikationen müssen heute jeder Zeit verfügbar sein! Hochverfügbarkeit der IT „Heute eine Grundlage und keine Option“