52
BASEL BERN BRUGG DÜSSELDORF FRANKFURT A. M. FREIBURG I.BR. GENF HAMBURG KOPENHAGEN LAUSANNE MÜNCHEN STUTTGART WIEN ZÜRICH Big Data Konnektivität Einführung und Demos für die Platform Peter Welker (Trivadis GmbH) Berater / Partner

Big Data Konnektivität

Embed Size (px)

Citation preview

BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENF HAMBURG KOPENHAGEN LAUSANNE MÜNCHEN STUTTGART WIEN ZÜRICH

Big Data KonnektivitätEinführung und Demos für die Pla tform

Peter Welker (Trivadis GmbH)Berater / Partner

Wer bin ich?

DOAG 2015 - Oracle Big Data Connectivity2 17.11.2015

Peter WelkerBerater (Trivadis Stuttgart)Partner

Hintergrundinfos – 23 Jahre IT / 17 Jahre DWH (meist Oracle)

– Architekturen, Performance

– Reviews, Evaluationen, PoCs

– DWH Appliances, MPP- & „Neue“ Plattformen

– Training, Artikel, Talks, Bücher

– Themenverantwortlicher „Big Data“

Aufgaben bei Trivadis

– Big Data – Solutions

– Business Intelligence Beratung und Entwicklung

Agenda

DOAG 2015 - Oracle Big Data Connectivity3 17.11.2015

1. Big Data @ Oracle –Statement of Direction

2. Eine umfassende analytische Plattform mit Oracle Produkten?

3. „Big Data Glue“ – Überblick Konnektivität

4. Konnektoren und mehr

5. ODI, Golden Gate & Big Data

6. Zusammenfassung

DOAG 2015 - Oracle Big Data Connectivity4 17.11.2015

Big Data @ Oracle „Statement of Direction “

Oracle Big Data Statement of Direction (1)http://www.oracle.com/technetwork/database/bigdata-appliance/overview/sod-bdms-2015-04-final-2516729.pdf

DOAG 2015 - Oracle Big Data Connectivity5 17.11.2015

Oracle: „Big Data Management Systeme bestehen aus“ …

Data Warehouse (Database)

Data ReservoirBigData „Ecosystem mit

Hadoop & NoSQL

(Big Data Appliance)

„FranchisedQuery Engine“Federation Tool

(Big Data SQL)

Oracle Big Data Statement of Direction (2)

DOAG 2015 - Oracle Big Data Connectivity6 17.11.2015

Aktueller Fokus auf vier Bereichen

– Global Metadata Services a single view of all available data across multiple data stores, exposed in a format similar to Oracle’s data dictionary .

– Global Query Routing and Processingoptimized query execution across multiple data store s. A single query may possibly merge data from multiple data stores. A variety of query optimization and caching techniques will be applied to optimize performance.

– Global Resource Monitoring and Managementprioritization of workloads across the entire BDMS ecosystem.

– Global Data Optimizationthe ability to automatically move data from one repository to anot her (for example, from a data warehouse to a data reservoir or vice versa) based on query performance requirements and/or storage costs .

Oracle Big Data Statement of Direction (3)

DOAG 2015 - Oracle Big Data Connectivity7 17.11.2015

Ein paar Aussagen

“Oracle will provide fast, integrated, secure access to all data – not on ly data stored in […] Exadata […] or Oracle Big Data Appliance , but also data stored in operational NoSQL databases, transactional relational databases, streaming data sources, and more.”

“Oracle will provide a framework for easily incorporating new data sourc es, ensuring that these new data sources can be seamlessly accessed and managed”

“Strategy is to extend its existing in-database features (such as its data dictionary, SQL query engine, query optimizer, resource manager, and data optimization) in order to manage the entire Big Data Management System ”

Oracle Big Data Statement of Direction (4)

DOAG 2015 - Oracle Big Data Connectivity8 17.11.2015

“A favorite hobby of new entrants to the database market is to paint Oracle , the market-leading database, as inflexible and promote their product on the basis that Oracle will never be able to provide the same type of functionality as their new platform. Such vendors pursue this positioning at their peril: object-oriented databases, massively-parallel databases, columnar databases, data warehouse appliances and other trends have been outed as replacements for Oracle Database only to later s ee their core benefits subsumed by the Oracle platform. ”

DOAG 2015 - Oracle Big Data Connectivity9 17.11.2015

Eine umfassende analytische Plattform mit Oracle Produkten?

Das Traditionelle / Klassische DWH

DOAG 2015 - Oracle Big Data Connectivity10 17.11.2015

RDBMS + OLAP

Hoher ETL Aufwand

Hoher Integrationsgrad

OLTP Quellen

Tagesaktuell

Core = SPOT

Marts dimensional

BI Suite obendrauf

Power-User Direktzugriff

Auswahl häufiger „moderner“ DWH Anforderungen

DOAG 2015 - Oracle Big Data Connectivity11 17.11.2015

OperativEinbindung direkt in operative Prozesse – nicht nur analytisch / dispositiv

„ODS“1:1 Abbild der Quellsysteme – manchmal historisiert – als Teil der Staging Area

„Echtzeit“Latenz von Stunden oder Minuten – sehr selten wirklich „Echtzeit“

Self Service BIAnsätze zur Flexibilisierung – Sandboxes, BI Tool-Features, einfache ETL Tools, Federation auf OLTP Systeme

Unified AnalysisEinbindung/Zusammenspiel mit Big Data Lösungen/Plattformen + Federation

Das Logische Data Warehouse (LDW) nach Gartner

DOAG 2015 - Oracle Big Data Connectivity12 17.11.2015

SLA für Data Management (DM)

� LDW ist eine integrierte DM Plattform

� Das „klassische“ DWH ist ein Teil davon

Metadata

„Best-fit“ Engineering

Quelle: Gartner

LDW – Die vergessenen 20% (80/10/5 Regel)

DOAG 2015 - Oracle Big Data Connectivity13 17.11.2015

Nach Gartner

Meta

data

Repositories(80%)

“Classic” DWHs & ODS

FederationVirtualization

(10%)Flexibility & Direct Access

Distributed Process

(5%)Big Data Analytics

SLA Requirements

Taxonomy/Ontology Resolution

DQ

, MD

M, G

ov.

Auditing andManagement Statistics

Use

Case

Acc

ess

Sem

an

tics

=/<>/~

Science Sandbox(80/10/5 = 5%)Data Scientist Playground

COMPROMISE CONTENDER CANDIDATE

80/10/5 Regel = Anteil UseCases, nicht Datenmenge, Kosten oder Mehrwert

VERACITIY VARIABILITY HIGH VALUE

Data Warehouse (Database)

Data ReservoirBigData „Ecosystem

mit Hadoop & NoSQL

(Big Data Appliance)

„FranchisedQuery Engine“Federation Tool(Big Data SQL)

DOAG 2015 - Oracle Big Data Connectivity14 17.11.2015

„Big Data Glue“Überblick Konnektivität

Das „Oracle Big Data Management System“ (1)

DOAG 2015 - Oracle Big Data Connectivity15 17.11.2015

Quelle: Oracle

Das „Oracle Big Data Management System“

DOAG 2015 - Oracle Big Data Connectivity16 17.11.2015

Source Systems

OLTP

Doku-ment

Inter-net

DSS

Event

Sensor

VideoAudioImage

Data Ingestion

Data Optimization

Raw Data Reservior

Data Foundation

Data Access

Query & Analytics

Schema on Read

RawData

ManagedDataSchema on Write

Data Integration

Metadata Management, Data Quality, Big Data Discoverer etc.

Data Ingestion

SQL*Loader

Big Data Connectors

AdvancedAnalytics

„R“

Big Data SQL

Data Integrator

NoSQLKey Value

Database EE

InMemory

OLAP

Semantic Graph (NoSQL)

XDB, JSON (NoSQL)

Advanced AnalyticsDB M/R

Enterprise „R“

ESSBASE

Enterprise „R“

Big Data Discovery

Cloudera

HadoopHDFS + Tools

Data Integrator

Connectivity

Golden Gate

ComplexEvent

Processing

BIEE, BI-Publisher, Hyperion

Visual Analyzer, BD

Discovery, Endeca

Welches Produkt für welchen Fall?http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/2297765.pdf

DOAG 2015 - Oracle Big Data Connectivity17 17.11.2015

Gutes Whitepaper

Beschreibt und definiert Big Data, organisatorische und technische Anforderungen sowie „Tooling“

… und Entscheidungskriterien

Tooling maturity

Availability & Business Continuity

ACID transactionalrequirements

Security

Variety of data formats

Data sparsity

Ingestion (coding) simplicity

Cost effectivelystore lowvalue data

Ingestion rate

Straight throughprocessing

Quelle: Oracle

DOAG 2015 - Oracle Big Data Connectivity18 17.11.2015

Konnektoren und mehr

Oracle Big Data Connectors

DOAG 2015 - Oracle Big Data Connectivity19 17.11.2015

Oracle SQL Connector for HDFS (OSCH)

Oracle Loader for Hadoop (OLH)

Oracle XQuery for Hadoop

Oracle „R“ Advanced Analytics for Hadoop

OSCH

OLH

OXH

ORH

Oracle SQL Connector for HDFS (OSCH)

DOAG 2015 - Oracle Big Data Connectivity20 17.11.2015

“ Read Only HDFS Zugriff auf Oracle Data Pump files, Delimited text files und Delimited text files in Apache Hive Tabellen aus einer Oracle Datenbank heraus”

„Einfachste“ Variante für Zugriff auf HDFS und Hive aus der Datenbank heraus

Nutzt External Tables und ET Präprozessor zum Zugriff auf HDFS und Hive via SQL

Ermöglicht Zugriff auf

– Apache Hadoop ab Version 2.2.0 (bspw. Cloudera 4 und 5)

– Hive Versionen 0.10.0, 0.12.0, 0.13.0, 0.13.1 oder 1.1.0

Benötigt DB ab 10.2.0.5, 11.2.0.2 oder 12

– Nur für Linux x86-64

OSCH

OSCH Setup

DOAG 2015 - Oracle Big Data Connectivity21 17.11.2015

Installation von Hadoop Client und OSCH auf DB Server

– http://docs.oracle.com/cd/E63064_01/doc.42/e63063/start.htm#BDCUG109

Datenbankbenutzer einrichten

Danach generiert OSCH Zugriffsmechanismen und -objekte

CONNECT / AS sysdba;CREATE USER hdfsuser IDENTIFIED BY password

DEFAULT TABLESPACE hdfsdata -- Nur für Schreibvor-QUOTA UNLIMITED ON hdfsdata; -- gänge in die DB

GRANT CREATE SESSION, CREATE TABLE, CREATE VIEW TO hdfsuser;GRANT EXECUTE ON sys.utl_file TO hdfsuser; -- UTL_FILE Zugriff!GRANT READ, EXECUTE ON DIRECTORY osch_bin_path TO hd fsuser; -- OSCH binariesGRANT READ, WRITE ON DIRECTORY external_table_dir TO hdfsuser; -- External Tables

OSCH

Local Linux

Oracle Database

Hadoop

HiveTableFiles

OSCH – was passiert beim Generieren der ET?

DOAG 2015 - Oracle Big Data Connectivity22 17.11.2015

XML Definition mit Strukturinfo

Hadoop„ExternalTable“

Exec

HiveMetadata

Oracle Create Table Command

OSCH Location-File

2b Generates ExternalTable

2c Creates2

a

2a

3. SQL

Developer

DB UserReads

Reads

1. Creates

DeletmitedHDFS Files

Oracle Datapump

FilesOR OR OSCH

„hdfs_stream“

3b

Data

Stre

am

Program usedin Preprocessor

3b Data Stream

File ProgramMetadata OSCHInstalled or Generated

Existing Developed

3a u

ses

OSCH

OSCH ExternalTable Setup

DOAG 2015 - Oracle Big Data Connectivity23 17.11.2015

Achtung: Hier handelt es sich um das OSCH CommandLine Tool „ExternalTable“ , nicht um den Oracle Database Befehl

ExternalTable Tool in Hadoop ausführen

– Provide ET with information about the Hadoop data source and a schema in the Oracle Database either as part of the CREATE ET command or in a separate XML file

– Achtung: Außerhalb DB statt – es ist ein Aufruf eines Java Programms mittels des Hadoop client

Das Tool generiert den passenden Create External Table Befehl für die Datenbank

Der Zugriff geschieht über einen generischen Präprozessor

hadoop jar \ -- hadoop Befehl$OSCH_HOME/jlib/orahdfs.jar \ -- Tool aus folgender Bibliothekoracle.hadoop.exttab.ExternalTable \ -- Name des Tools (Java Programm)-conf /home/oracle/movies/moviefact_hdfs.xml \ -- Param: XML mit ET Definition-createTable -- Param: Befehl im Tool

OSCH

OSCH „ExternalTable“ Syntax & more

DOAG 2015 - Oracle Big Data Connectivity24 17.11.2015

Nur SELECTs

Paralleles Lesen bei mehreren Files unterstützt

External Table Funktionalität (bspw. Formatmasken, Datenkonvertierung usw.)

Es werden immer FULL TABLE SCANs durchgeführt

– Also kein PushDown von Filtern aus WHERE Clauses, keine Indexe usw.

hadoop jar OSCH_HOME/jlib/orahdfs.jar \oracle.hadoop.exttab.ExternalTable \[-conf config_file]... \[-D property=value]... \-createTable [--noexecute [--output filename.sql]]| -drop [--noexecute]| -describe| -publish [--noexecute]| -listlocations [--details]| -getDDL

OSCH

Oracle Loader for Hadoop (OLH)

DOAG 2015 - Oracle Big Data Connectivity25 17.11.2015

“Effizienter high-performance Loader für den schnellen Transfer von Daten auseinem Hadoop Cluster in eine Tabelle in einer Oracle Datenbank”

Erstellt aus anderen Dateien Oracle Datapump Dateien auf HDFS

– Ist ein MapReduce Programm: Partitioniert, sortiert, konvertiert und lädt Daten

Optimiert auf hohe Ladeperformance

Unterstützt zahlreiche Dateiformate wie Hive Tables, Delimited oder Avro

– Erweiterbar um neue Formate via Java

Unterstützt Online und Offline Modi

– Online lädt die Daten bei der Conversion gleich in die DB

– Offline erstellt DP- oder Delimited Dateien für OSCH oder SQL*Loader

OLH

OLH Setup

DOAG 2015 - Oracle Big Data Connectivity26 17.11.2015

Installation von Hadoop Client und OLH auf DB Server

– http://docs.oracle.com/cd/E63064_01/doc.42/e63063/start.htm#BDCUG115

Danach generiert OLH Zugriffsmechanismen und –objekte und führt den Ladevorgang aus , wenn gewünscht (Online Mode)

OraLoader Tool in Hadoop ausführen

– Provide OraLoader with information about the Hadoop data source, the table definition in the Oracle Database and various optimizations in one or two separate XML files

– Es ist ein Aufruf eines Java Programms mittels Hadoop client

hadoop jar \ -- hadoop Befehl$OLH_HOME/jlib/oraloader.jar \ -- Tool aus folgender Bibliothekoracle.hadoop.loader.OraLoader \ -- Name des Tools (Java Programm)-conf /home/oracle/movies/jobconfig.xml -- Param: XML mit Loaderdefinition

[-libjars input_file_format1.jar[,...]] -- MapReduce Input Definitionen

OLH

Local OS (Linux)

Oracle Database

Hadoop

Various File Formats

OLH – was passiert im Online Mode?

DOAG 2015 - Oracle Big Data Connectivity27 17.11.2015

XML Job Config

File

Hadoop„OraLoader“

Exec

2a

2b Reads

Developer

Reads

File ProgramOLHInstalled or Generated

Existing Developed

XML LoaderMapFile

Various File Formats

Staging Table

2d Loads

2d Creates

2c Creates

Bad-File

Output FileCSV or

DataPump

1. Creates

Optional

OLH

Local OS (Linux)

Oracle Database

Hadoop

Various File Formats

OLH – was passiert im Offline Mode?

DOAG 2015 - Oracle Big Data Connectivity28 17.11.2015

XML Job Config

File

Hadoop„OraLoader“

Exec

3a

3b Reads

Developer

Reads

File ProgramOLHInstalled or Generated

Existing Developed

XML LoaderMapFile

Various File Formats

Staging Table

3c Creates

Output FileCSV or

DataPump

2. Creates

Optional

„OraLoaderMetadata “ - Exec

1aReads Definition

XML Metadata File

1b Creates

(locally)

1. Calls

OLH

OLH – Input Formate

DOAG 2015 - Oracle Big Data Connectivity29 17.11.2015

„Simple Delimited Text File “ – Newline separiert Records, ein Zeichen separiert Felder

„Complex Delimited Test Files “ – Regular Expression separiert Felder

„Hive Tables “ – Konvertiert Hive Tabellen in das Avro-Format und lädt dieses

„Avro “ – Lädt Avro Formate

„Oracle NoSQL DB “ – Lädt „Values“ aus der NoSQL DB. Java Programmierung erforderlich, um auch die Keys zu laden

„Custom Input Formats “ – InputFormat Klasse von MapReduce muss erweitert werden

OLH

OLH – Output Formate

DOAG 2015 - Oracle Big Data Connectivity30 17.11.2015

Nur Online Load

– JDBC Output Format � Configdatei-Parameter mapreduce.outputformat.class = oracle.hadoop.loader.lib.output.JDBCOutputFormat

o Batch Inserts – ohne vollständige Fehlerbehandlung

– OCI Direct Path Output Format � Configdatei-Parametermapreduce.outputformat.class = oracle.hadoop.loader.lib.output.OCIOutputFormat

o Nur wenn Hadoop auf Linux x86-64 läuft

o Zieltabelle muss partitioniert sein

o Parallelität = Anzahl Reducer im MapReduce Job

Files (Online und Offline)

– Delimited Te xt Output Format Files auf dem Hadoop Cluster

– Data Pump Output Format Files auf dem Hadoop Cluster

OLH

OLH – Details

DOAG 2015 - Oracle Big Data Connectivity31 17.11.2015

DB Mapping – Auto Mode

– Im Online-Mode holt der OraLoader die DB Tabellenmetadaten direkt aus der DB

– Im Offline-Mode kann mit dem lokalen Java Program OraLoaderMetadata vorab ein Oracle Metadata XML File erzeugt werden. Dies muss vorab auf den Hadoop Cluster kopiert werden

– Automatisches Mapping möglich, sofern alle Spalten geladen und nur gleiche Spaltennamen sowie nur ein Date-Format verwendet wird

DB Mapping – Manual Mode

– Loadermap XML Datei muss erstellt werden

OLH

Oracle XQuery for Hadoop (OXH) – Überblick

DOAG 2015 - Oracle Big Data Connectivity32 17.11.2015

“Oracle XQuery for Hadoop runs transformations expressed in the XQuery language by translating them into a series of MapReduce jobs , which are executed in parallel on an Apache Hadoop cluster”

Input Formate: HDFS files oder Oracle NoSQL DB

Adapter für Avro, JSON, Oracle DB (OCI & JDBC + Datapump und Delimited Text als Output), Oracle NoSQL DB, Sequence Files, Solr, Text Files und XML

„XML Extensions for Hive“ liest XML Dateien als Hive Tabellen oder XML in HiveTabellen

„Apache Tika“ Adapter erlaubt die Programmierung weiterer Formate

Nutzt Hadoop Distributed Cache, Custom Java Functions, XQuery Bibliotheken, XML Schema Defintionen usw.

OXH

Oracle R Adv. Analytics for Hadoop - Überblick

DOAG 2015 - Oracle Big Data Connectivity33 17.11.2015

MapReduce fähige und erweiterte Variante von R – nutzt Hadoop Streaming

Hies früher “Oracle R Connector for Hadoop” – die Abkürzung ORCH wird noch in der Dokumentation verwendet

R-Nutzer können Daten aus Oracle Tabellen nach HDFS und zurück bewegen(SQOOP und OLH)

ORH

Direkte DB � Big Data Verbindungen

DOAG 2015 - Oracle Big Data Connectivity34 17.11.2015

Oracle Big Data SQL

Oracle Database Gateway for ODBC

OBDS

ODG

Big Data SQL

DOAG 2015 - Oracle Big Data Connectivity35 17.11.2015

Abfragen bspw. Gegen Apache Hive , HDFS, Oracle NoSQL Database oder Apache HBase [via Hive Metadata]

Gemeinsames Analysieren von Daten aus diversen Datenspeichern ”as if it were all stored in an Oracle database ”

– Die vollständige Oracle SQL Syntax kann genutzt werden (auch AAO etc.)

– Der Zugriff erfolgt via External Tables (wie bei OSCH), unterstützt aber darüber hinaus „SmartScans“ (bspw. Filter Predicate Offload)

Zwei Varianten sind verfügbar

– Oracle Big Data for Hive (für Hive – und HBase – Konnektivität)

– Oracle Big Data SQL Server (für freien Zugriff mit SmartScan Funktionalität)

Benötigt Installation von Oracle Komponenten auf dem Hadoop Cluster

Aktuell limitiert auf die Kombination Exadata � Big Data Appliance!

OBDS

Big Data SQL – Installation im Überblick

DOAG 2015 - Oracle Big Data Connectivity36 17.11.2015

Big Data SQL muss auf dem Hadoop Cluster (BDA) installiert sein

Auf dem DB Server muss ein Hadoop Client installiert sein (CDH)

Die Konfiguration auf dem DB Server geschieht via Verzeichnisstrukturen und Konfigurationsdateien (bigdata.properties, Cluster-directory usw.)

Diese OS-Verzeichnisse werden in Oracle Directories gemappt

Der „Big Data SQL Multithreaded Agent“ (MTA) sorgt via Extproc und DB Link für den Metadatenaustausch zwischen Hadoop und DB

Damit wird das Oracle Dictionary um einige HIVE Views erweitert

– USER|ALL|DBA_HIVE_TABLES, USER|ALL|DBA_HIVE_TAB_COLUMNS

– Achtung, funktioniert auf OBDL nicht

OBDS

Big Data SQL – Was passiert da?

DOAG 2015 - Oracle Big Data Connectivity37 17.11.2015

OBDS

Oracle Database

Hadoop

HiveTableFiles

Oracle Big Data SQL Software on BDA

HiveMetadata

Oracle Create Hive Table

Command

ExternalHive Table

1. DDL

DB Developer

OtherHDFS Files

File ProgramMetadata OBDSInstalled or Generated

Existing Developed

Oracle Big Data SQL Agent on DB

ExternalHDFS Table

Oracle Create HDFS

Table Commandwith detailed access

parameters

2. Query

1b Ask for Metadata

1c Read

Metadata

1d

2a

2a

Oracle HiveData

Dictionary

1a Ask for

Metadata

Local Linux

Big Data SQL – External Tables erstellen (HDFS)

DOAG 2015 - Oracle Big Data Connectivity38 17.11.2015

Der Rest ist ausgesprochen einfach

– Beispiel JSON Applog � Jede Zeile in einer VARCHAR2(4000) Spalte in der DB abbilden

Beispielquery mit JSON Funktionalität

CREATE TABLE movielog(click VARCHAR2(4000)) -- Für ganze Applog ZeileORGANIZATION EXTERNAL -- External Table(TYPE ORACLE_HDFS -- Neuer Typ ORACLE_HDFS

DEFAULT DIRECTORY DEFAULT_DIRLOCATION ('/user/oracle/moviework/applog_json/') -- Dateien auf Hadoop Cluster

);

SELECT m.click.custid, m.click.movieid, m.click.ge nreid, m.click.timeFROM movielog mWHERE rownum < 50;

OBDS

Big Data SQL – External Tables erstellen (Hive)

DOAG 2015 - Oracle Big Data Connectivity39 17.11.2015

Da hier direkt die Hive Metadaten verwendet werden, ist es noch einfacher

– Beispiel Applog – man muss allerdings die Struktur in Hive kennen, damit es passt

– DBMS_HADOOP. CREATE_EXTDDL_FOR_HIVE hilft hier und erstellt das passende DDL

In ACCESS_PARAMETERS der ET Definition sind zahlreiche Einstellungen möglich

CREATE TABLE movieapp_log_json ( -- Spaltenangeben wie in Hivecustid INTEGER , movieid INTEGER , genreid INTEGER ,time VARCHAR2 (20) , recommended VARCHAR2 (4) , activity NUMBER,rating INTEGER, price NUMBER ) ORGANIZATION E XTERNAL

(TYPE ORACLE_HIVE); -- Neuer Typ ORACLE_HIVE

CREATE TABLE ... (TYPE ORACLE_HIVE ACCESS PARAMETERS (

com.oracle.bigdata.tablename: order_db.order_summar ycom.oracle.bigdata.colmap: {"col":"ITEM_CNT", field ":„oli_count"}... )

);

OBDS

Big Data SQL – Mehr zu ORACLE_HIVE

DOAG 2015 - Oracle Big Data Connectivity40 17.11.2015

Zur „Create Table“ DDL Ausführungszeit werden die Hive Metadaten gelesen

Typen werden bei Bedarf automatisch konvertiert

– Bei external Hive Daten sogar bis zu zweimal: 1. via SerDe ins Hive Format und 2. von dort ins Oracle Format

Auch Zugriff auf Oracle NoSQL oder HBase ist möglich

– Schritt 1: Hive External Table auf KVStore von Oracle NoSQL bzw. HBase erstellen

– Schritt 1: Oracle External Table auf diese Hive Table erstellen

OBDS

Big Data SQL – „Copy to BDA“ Tool

DOAG 2015 - Oracle Big Data Connectivity41 17.11.2015

Bietet Hive-Zugriff auf einzelne, via CTAS-DP (siehe unten) erzeugte Dateien

Dazu erstellt man via CREATE TABLE … EXTERNAL (TYPE ORACLE _DATAPUMP) DP Dateien mit einer Tabelle als Inhalt

Kopiert diese nach HDFS

… und erstellt eine External Hive Table mit dem SERDE oracle.hadoop.hive.datapump.DPSerDe

OBDS

„Umsonst und draußen“: Oracle Database Gateway

DOAG 2015 - Oracle Big Data Connectivity42 17.11.2015

Erzeugt Database Links zu anderen Datenbanken (SQL Server, Teradata usw.)

– Gerne kostenintensiv

Kostenfrei ist aber die GENERIC OCBD Variante

– https://community.oracle.com/thread/2292321

Erzeugt einen DB Link via ODBC Treiber bspw. zu Hive

Was ist die Idee?

Oracle Konnektoren meiden die Nutzung anderer SQL Query Engines wie Hive oder Impala (auch wenn sie gerne die Hive Metadaten verwenden)

Mit ODG tun wir das aber – mit allen Vor- und Nachteilen

ODG

Database Gateway for ODBC – Architektur

DOAG 2015 - Oracle Big Data Connectivity43 17.11.2015

ODG

Quelle: Oracle

Database Gateway for ODBC – Setup

DOAG 2015 - Oracle Big Data Connectivity44 17.11.2015

1. Passenden OBCD Treiber installieren und konfigurieren

2. ODBC Gateway Installieren

3. listener.ora und tnsnames.ora anpassen

4. In ORACLE_HOME\hs\admin neue Datei erzeugen

5. Public Database Link erzeugen

6. … loslegen

ODG

DOAG 2015 - Oracle Big Data Connectivity45 17.11.2015

ODI, Golden Gate & Big Data

Oracle Big Data Capturing & Integration

DOAG 2015 - Oracle Big Data Connectivity46 17.11.2015

Oracle Data Integrator

Oracle Golden Gate

ODI

OGG

Oracle Data Integrator – Überblick

DOAG 2015 - Oracle Big Data Connectivity47 17.11.2015

Big Data Option (separate Lizenz!)

Native Code Generierung für Pig Latin, Spark (PySpark) und Oozie

Auswahl aus dem traditionellen ODI Agent oder Apache Oozie als Orchestrierungs-Engine

WebLogic Hive JDBC Driver

Zahlreiche Direct Load KMs (LKM = Loading Knowledge Modules kombiniert mit anderen KMs in einem Mapping einsetzbar) bspw. für Sqoop etc.

Oracle Data Integrator Application Adapter for Hadoop

Part of the Oracle Big Data Connectors (uses OLH/OSCH)

There is also a Big Data SQL Integration to ODI

ODI

Oracle Golden Gate

Oracle Golden Gate for Big Data – Überblick

DOAG 2015 - Oracle Big Data Connectivity48 17.11.2015

OGG

Adapted from Oracle

Cap

ture

Tra

il

Pu

mp

Ro

ute

Deli

ver

ForBig

Data

Oracle Golden Gate for Big Data – Überblick (2)

DOAG 2015 - Oracle Big Data Connectivity49 17.11.2015

Oracle Golden Gate for Big Data

Provides GoldenGate delivery to Flume , HDFS, Hive and HBase

Includes GoldenGate for Java, enabling integration to others such as Oracle NoSQL, Apache Kafka, Apache Storm, Apache Spark etc.

Key component of Oracle’s big data integration offering along with Oracle Data Integrator 12c

Oracle GoldenGate supports log-based capture from, and delivery to, Oracle, DB2 for z/OS, i Series, & LUW (Linux, Unix, Windows), SQL Server, MySQL, Informix, Sybase ASE, SQL/MX, JMS messaging systems and more. Oracle GoldenGate’sdelivery capabilities also include Oracle TimesTen In Memory Database andPostgreSQL, in addition to Hadoop-based big data systems

OGG

DOAG 2015 - Oracle Big Data Connectivity50 17.11.2015

Zusammenfassung

Zusammenfassung

DOAG 2015 - Oracle Big Data Connectivity51 17.11.2015

Konnektivität Datenbank � Big Data Plattform steht im Zentrum der Oracle BigDataAktivitäten

– Oracle Big Data Connectors (OLH, OSCH, OXH usw.) schon länger verfügbar

– Big Data SQL vereinfacht und beschleunigt Konnektivität deutlich, ist äußerst vielversprechend – aber lizenzmäßig extrem limitiert und daher für die meisten Kunden heute irrelevant

– Oracle Generic ODBC Database Gateway ist eine kostengünstige und einfache Option für Verbindungen ohne besondere Ansprüche an Durchsatz und Kompatibilität

ODI hat zahlreiche KMs rund um Hadoop und Co.– Mit der Big Data Option ist die Nutzung von Hadoop als Datenintegrationsplattform greifbar

Golden Gate erlaubt Hadoop & Co als Replikationsziel– Real-Time DI für Hive mag eingeschränkten Nutzen haben, aber Flume, Storm etc. sind

vielversprechende Ziele für Streaming

Peter Welker

[email protected]+49 162 295 96 81

17.11.2015 DOAG 2015 - Oracle Big Data Connectivity52