Unser Weg zum Frankenstack

Preview:

Citation preview

FRANKENSTACKUNSER WEG ZUM

INTRO

SASCHA VOGT

▸ Software Entwickler @ SEEBURGER AG

▸ Part-Time Operator Entwicklungsinfrastruktur

▸ Twitter @maybebuggy

▸ E-Mail: sascha@vogt-neuenbuerg.de

FRANKENSTACKUNSER WEG ZUM

INTRO

UMFRAGE

▸ OpenStack Install-Guide angeschaut?

▸ Eigenes OpenStack Deployment?

0

10

20

30

40

YES NO

?

Do’s

Dont’s

INTRO

UNSER OPENSTACK

▸ Wo haben wir angefangen?

▸ Wo sind wir jetzt?

▸ Wo wollen wir hin?

▸ Q&A gerne am Ende und bei Pizza & Bier

IT’S LIKE A SAUNA IN HERE

Cosmo Kramer - Seinfeld

DER ANFANG

WARUM ÜBERHAUPT OPENSTACK

DER ANFANG

DIE BÜRO SERVERFARM

▸ 1 Büro

▸ 4 Personen

▸ 8 Monitore

▸ 12 Rechner

▸ 34 Grad trotz Klimaanlage

DER ANFANG

PROTOTYP

▸ 3 Desktops

▸ Openstack Havana

▸ ein Netzwerkinterface ;)

DER ANFANG

INTERNE IT

▸ IPs

▸ Routen

▸ DNS

▸ etc.

DER ANFANG

GRÜNDE FÜR OPENSTACK

▸ All things cloud

▸ Erfahrungen sammeln

▸ IT sucht ebenfalls “günstige” Alternative zu VMWare

PLANUNG

HARDWARE

▸ I/O-lastige Anwendung

▸ SAN “out of budget”

▸ Ceph ➔ 10 GbE

PLANUNG

HARDWARE

▸ Compute / Storage geshared

▸ 3,5” HDDs

▸ Dell 730xd

▸ 2x 10 GbE NIC

▸ angedacht: 5 Nodes + Controller

PLANUNG

HARDWARE

▸ 4 Compute / Storage Nodes

▸ 5 HDDs 7200rpm, 4 TB, pro Node für Storage ==> 7 slots frei

▸ keine SSDs fürs Ceph journal ==> Geld in Reserve falls nötig

▸ 2 HDDs 15k rpm, 300 GB als Boot Platten im Raid-1

▸ 256 GB RAM

▸ 2x 14 Core Xeon CPU E5-2695 v3 @ 2.30GHz

▸ 1 Controller

▸ 1 TB Disk für apt / yum repo Mirrors

▸ 64 GB RAM

▸ 1x 8 Core Xeon CPU E5-2630 v3 @ 2.40GHz

PLANUNG

HARDWARE

▸ Dell Force10 48 port 10 GbE Switch

▸ Geld in Reserve für 1 zusätzlichen Knoten wie oben

▸ Externe Hilfe (B1 systems) (3x3 Tage)

▸ Fallback ➔ Hardware für VMWare

SETUP

VORBEREITUNGEN

▸ Hardware im Keller

▸ BIOS / EFI Updates

▸ Firmware Patches

▸ SELFTESTS !

▸ defekter RAID-Controller getauscht

SETUP

JUNO

▸ Netzwerk: Openvswitch + GRE

▸ Storage zunächst LVM + lokale 15k Disks

▸ Es läuft - “Everbody” is happy

SETUP

SETUP

SETUP

SETUP

CEPH

▸ ceph-deploy

▸ Hauptsächlich “defaults”

▸ Kämpfe mit

▸ qcow vs sparse

▸ Snapshots

▸ Boot from ISO

SETUP

KILO

▸ Unser erste Update *zitter*

▸ Holzhammer Methode

▸ 5x apt-get upgrade && reboot

SETUP

FAIL 1: CEPH

▸ Ceph maintenance mode

▸ “ceph osd set noout”

SETUP

KILO

▸ Konfigurationsänderungen nachziehen

▸ Fehler im Log fixen

▸ Updatedauer ca. 5h

STORAGE

CEPH - MR. SLOW HAND

▸ hohe Latenz

▸ Automatisierte Tests

▸ 1x, 2x, 4x, 8x

▸ Latenz bleibt gleich, IOPS skalieren

STORAGE

TUNING

▸ Journal disks

▸ 15k RPM Disks + NVRAM Cache

▸ Replication size

▸ min_size=1, size=1

STORAGE

NVME

▸ freie PCIe slots

▸ keine spezielle Backplane

▸ schnell, schneller, NVMe

▸ Intel DC P3700, 400 GB

STORAGE

SSD CACHE

▸ 4x 130 GB auf NVMe

▸ I/O Performance vergleichbar

▸ solange Cache nicht voll

▸ “großer” Cache mit mehr OSDs?

STORAGE

FAIL 2: TARGET_MAX_BYTES - DIE ERSTE

▸ Ceph defaults mal wieder

▸ Cache läuft voll

▸ trotz cache_target_full_ratio

▸ Recovery dank LVM

STORAGE

FAIL 3: TARGET_MAX_BYTES - DIE ZWEITE

▸ Cache läuft wieder voll

▸ size=2 ein kalkulieren

UPGRADE

LIBERTY

▸ Liberty Upgrade mit B1

▸ “HA-Reihenfolge”

▸ ebenfalls ca. 1 Tag

DIE ZUKUNFT

NEUE HARDWARE

▸ NVMe Cache pool (1,2 TB)

▸ Compute / Storage trennen

DIE ZUKUNFT

NEUE HARDWARE

▸ Bereits bestellt, 2x:

▸ 2x 18 Core XEON

▸ 512 GB RAM

▸ 300 GB Boot-HDDs

▸ 8x NVMe SSDs für reinen Cache Pool

DIE ZUKUNFT

AUSFALLSICHERHEIT / MAINTAINABILITY

▸ 2ter Controller

▸ evtl. 2ter Switch

▸ Dienste in VMs

ZUSAMMENFASSUNG

WAS HABEN WIR GELERNT?

▸ Ausprobieren

▸ keine Angst vorm Umbau

▸ Dont’s auch mal ignorieren ;)

ZUSAMMENFASSUNG

ANDERS MACHEN?

▸ Controller Dienste in VMs

▸ Ceph Journal SSDs direkt einkalkulieren

▸ Evtl. Storage auf SSD only?

▸ Geringere Ansprüche an uns

▸ wir sind keine Vollzeit-Ops

▸ Flache Netzwerk Konfiguration

ZUSAMMENFASSUNG

CEPH

▸ expect the unexpected

▸ mehr verstehen

▸ weniger trial ’n error

▸ weiter optimieren

ZUSAMMENFASSUNG

ALLGEMEIN

▸ Aktuell 120 VMs, 400 vCPUs, 800 GB RAM

▸ vgl. Amazon AWS ca. 16k USD / Monat

▸ Ceph im Schnitt > 2000 IOPS

▸ Bisher alles sehr positiv!

▸ Ausbauen und lernen

▸ jetzt kommt der Betrieb

ZUSAMMENFASSUNG

Q & A

▸ Fragen?

ZUSAMMENFASSUNG

VIELEN DANK

▸ Wo bleibt das Bier und die Pizza?!?

LICENSES

▸ https://creativecommons.org/licenses/by/2.0/ ▸ David Goehring - It Looks Insoluble https://www.flickr.com/photos/carbonnyc/

Recommended