Hauptspeicher- Datenbanksysteme

Hauptspeicher-Datenbanksysteme• Hardware-Entwicklungen• Anwendungsstudie: Handelsunternehmen• Column- versus Row-Store• OLAP&OLTP: Snapshotting• Kompaktifizierung• Mehrbenutzersynchronisation• Indexierung• Multi-Core Anfragebearbeitung

Vortrag am Freitag Marcel Kornacker Cloudera Impala 13 Uhr

Hauptspeicher-Datenbanksysteme Disk is Tape, Tape is dead … Jim Gray

Die Zeit ist reif für ein Re-engineering der Datenbanksysteme

Man kann heute für 25000 Euro einen Datenbankserver mit 1 TeraByte Hauptspeicher und 32 Rechenkernen kaufen

Network in the small and in the large

Einsatz von Hauptspeicher-Datenbanksystemen

Feasibility: Main Memory DBMS Amazon

Data VolumeRevenue: 15 billion

EuroAvg. Item Price: 15

Euro1 billion order lines

per year 54 Bytes per order

line 54 GB per year + additional data - compression

Transaction RateAvg: 32 orders per s Peak rate:

Thousands/s+ inquiries

IntelTera Scale InitiativeServer with several

TB main memoryWe just ordered one

from Dell for 49 K Euro

Main Memory capacity will grow faster than Customers‘ Needs

Cf. RAMcloud-project at StanfordOusterhoud et al.

Leistungsengpässe: Profiling eines klassischen Datenbanksystems

Widerholung: Speicherhierarchie

Register(L1/L2/L3)

Hauptspeicher

Plattenspeicher

Archivspeicher

Überblick: Speicherhierarchie

Register

Hauptspeicher

Plattenspeicher

Archivspeicher

1 – 8 ByteCompiler

8 – 128 ByteCache-Controller

4 – 64 KBBetriebssystem

Benutzer

1-10nsRegister10-100ns

Cache100-1000ns

Hauptspeicher10 ms

Plattenspeicher

secArchivspeicher

Zugriffslücke105

1-10nsRegister10-100ns

Cache100-1000ns

Hauptspeicher10 ms

Plattenspeicher

secArchivspeicher

Zugriffslück

Kopf (1min)

Raum (10 min)

München (1.5h)

Pluto (2 Jahre)

Andromeda

(2000 Jahre)

Row Store versus Column Store

Anfragebearbeitung

Komprimierung

Datenstrukturen einer Hauptspeicher-Datenbank

Row-Store-Format

Column-Store-Format

Column-Store-Format (cont‘d)

Einfügeoperation eines Tupels

Insert into Verkaeufe values (12, 007, 4711, 27.50)

Anfragen

Hybrides Speichermodell

Anfragebearbeitung

Anwendungsoperationen in der Datenbank: Stored Procedures

Snapshots für Anfragen

Snapshot der Haupt-Datenbank

Haupt-Datenbank

Update Staging: In vielen Systemen verwendet, zB. NewDB von SAP

Scan-only Datenbanken: ISAO von IBM oder Crescando von der ETHZ

Ursprüngliches Schattenspeicher-Verfahren: Lorie77 für IBM System R

Copy on Write

Update aa‘2 µs

Snapshotting via fork-ing: Details

Snapshot Maintenance: copy on write

Fast because of Hardware-Support: MMU

OLAP Queries on Tx-Consistent Snapshots

Multiple Query Sessions

Synchronization-Assertions Serializability of the OLTP Transactions

What else if executed serially We support full ACID see coming slides

Snapshot isolation of the OLAP queriesMulti-version mixed synchronization methodSeveral OLAP queries form one Tx = OLAP SessionBernstein, Hadzilacos, Goodman: Chapter 5.5

Kompaktifizierung: Motivation

Kompaktifizierung der Datenbank

Invalidierung gefrorener Datenobjekte

Transaktionsverwaltung: serielle Ausführung auf Partitionen

Snapshot used for Tx-consistentBackup

Logging the Transaction Processing

To Storage Server via 10 Gb/s rDMA Interface

(e.g. Myrinet or Infiniband)

Isolation von OLAP und OLTP

Tentative Ausführung langer Transaktionen

Multi-Version Concurrency Control

Validierung einer Update-Transaktion

Precision Locking: Prädikatprüfung

•Stand-By for OLTP•Active for OLAP•Possible for Backup

High Availability &Load Balancing

A B C D E F

A B CD E

Column-Store

Indexstrukturen für Hauptspeicher-Datenbanken Radix-Baum / Trie / Präfixbaum

Idee des Adaptiven Radix-Baums ART

Adaptive Knoten des ART-Baums

Join-Berechnung Cache-Lokalität

Mehrkern-Parallelität

NUMA-Berücksichtigung

Synchronisations-freie Parallelität

Grundidee des hoch-parallelen Sort/Merge-Joins

Bereichspartitionierung

Hochparallel Bereichs/Radix-Partitionierung

Real C hacker at work …

Paralleler Radix-Join

Mehrfache Partitionierung des Radix-Joins: Cache-Lokalität

Hash-Join-Teams: Globale Hashtabelle

NUMA-lokale Arbeitszuteilung:„Häppchen“-weise (morsel driven)

Adaptive Dynamische Parallelisierung

Algorithmen auf sehr großen Datenmengen

789013174289

S44179756

• Nested Loop: O(N2)• Sortieren: O(N log N)• Partitionieren und

Hashing

Hauptspeicher- Datenbanksysteme

Documents

Datenbanken Vergleich der verschiedenen kommerziellen Datenbanksysteme

Übung Datenbanksysteme II Index- strukturen Thorsten Papenbrock

1 7.1 Externes Suchen Bisherige Algorithmen: geeignet, wenn alle Daten im Hauptspeicher. Große Datenmengen: oft auf externen Speichermedien, z.B. Festplatte

5. SQL: Erstellen von Tabellen Erzeugen und Löschen von ...home.edvsz.hs-osnabrueck.de/skleuker/WS12_DB/Datenbanksysteme… · Datenbanksysteme Prof. Dr. Stephan Kleuker 108 Anmerkungen

Objekt-relationale und erweiterbare Datenbanksysteme Erweiterbarkeit SQL:1999 Objekt-relationale Modellierung

Datenbanksysteme 1 - fj-strube.de

Grundlagen der Datenbanksysteme I · Einführung Grundlagen der Datenbanksysteme I I-15 Nachteile und Probleme dieser Einzellösung (1) • Redundanz und Inkonsistenz Daten müssen

Optimierung von Anfragen an verteilte Datenbanksysteme

Datenbanken, Datenbanksysteme & Zugriffsschichten für Daten Konstantin Steinbrecher

Die Analyse großer Datensätze mittels freier Datenbanksysteme · MS Access, MS Excel, ) Datenanalyse. Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007

1 Mehrrechner- Datenbanksysteme Grundlegende Architekturen Anfragebearbeitungstechniken

Grundlagen der Datenbanksysteme II - B-Bäume · B-Bäume 1 Grundlagen der Datenbanksysteme II B*-BÄUME Beobachtung: • Ein Index ist seinerseits wieder nichts anderes als eine

Aufbau eines Rechners, Hard- und Software. INHALTSÜBERSICHT: Hardware: Aufbau eines Computersystems Prozessor (CPU) Hauptspeicher Eingabegeräte Ausgabegeräte

Distributed Database Systems Parallele Datenbanksysteme von Stefan Schneider

Datenbanksysteme I Datenbanken und Informationssysteme

Blended-Learning am Beispiel des Moduls Datenbanksysteme · Blended-Learning am Beispiel des Moduls "Datenbanksysteme" Prof. Dr. Andreas Thor Hochschule für Telekommunikation Leipzig

Hauptspeicher- Datenbanksysteme Hardware-Entwicklungen Column- versus Row-Store

Datenbanksysteme1 Datenbanksysteme II Vorlesung WS 2006 / 2007 Paul Manthey

Vorlesung Datenbanksysteme vom 20.10.2004 Anfragebearbeitung

Automatisierte Hauptspeicher-Forensik auf Basis von Open ... · Automatisierte Hauptspeicher-Forensik auf Basis von Open-Source-Tools - Detektion von Verschlüsselungstrojanern mittels