28
Oracle Data Integration в архитектуре Big Data Sergey Prokhorov ORACLE principal sales consultant

Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle Data Integration в архитектуре Big Data

Sergey Prokhorov

ORACLE principal sales consultant

Page 2: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Agenda

• Архитектурные задачи

• Коннекторы Oracle Big Data

• Решения Oracle’s Data Integration

• Ссылки, вопросы и ответы

Page 3: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Architecture Principles

and Best Practices Архитектурные задачи

Page 4: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Составляющие информационного пространства

Video-Audio

Машинные данные

Социальные

данные

Документы

Информационная архитектура

сегодня:

Управление на основе

транзакционных данных

Информационная архитектура

завтра:

Управление на основе всех данных

Транзакционные системы

Единая интеграционная архитектура

для всех источников данных

Структурированные данные

Приложения

Page 5: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Традиционная информационная архитектура

ETL/ELT

Transaction

Data Ma

nag

em

en

t

Se

cu

rity

, G

ove

rna

nce

Advanced

Analytics

Visual

Discovery

DBMS

(OLTP)

Reference &

Master Data

Стр

уктур

ир

ов

ан

ны

е

да

нн

ые

Data

Warehouse EPM / BI Apps

Reporting &

Dashboards

CDC

Real-Time

DB Rep

Data

Marts ODS

Ключевые архитектурные аспекты • Тип данных: Структурированные, малой вариативности, отработанная технология загрузки

• Объемы: Расширение архитектуры для поддержки больших объемов данных

• Скорость обработки: Real-time или близкая к real-time

• Использование: Широко используется всеми структурами компании

Page 6: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Информационная архитектура Big Data

Distributed

File System

Machine

Generated

Social

Media

Text, Image

Video, Audio

Key-Value

Data Store

Нес

тр

уктур

ир

ов

ан

ны

е

да

нн

ые

Structured Data

Correlation

Visualization

& Discovery

Sandboxes Statistical

Analytics

Visualization

& Discovery

Data

Marts DW

MapReduce

Solutions

Ключевые архитектурные аспекты • Тип данных: Слабо структурированные или не структурированные

• Объемы: Потенциально очень большие объемы данных. Постоянный рост данных.

• Скорость обработки: Важна для обработки больших объемов данных, не для анализа.

• Использование: Еще используется незначительно, в основном инновации.

Page 7: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Разрозненная архитектура ETL/ELT

Biz Txn

Data Ma

nag

em

en

t

Se

cu

rity

, G

ove

rna

nce

Advanced

Analytics

Visual

Discovery

Master &

Ref Data

Distributed

File System

EPM / BI App

Reporting &

Dashboards

MapReduce

Solutions

CDC

Real-Time

DB Rep

Data

Marts ODS

Machine

Generated

Social

Media

Text, Image

Video, Audio

Key-Value

Data Store

Нестр

уктур

ир

ов

ан

ны

е

да

нн

ые

Custom Code?

Sandboxes

DBMS

(OLTP) Data

Warehouse

Стр

уктур

ир

ов

ан

ны

е

дан

ны

е

Page 8: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle : Общая интеграционная архитектура

Transaction

Data

Advanced

Analytics

Visual

Discovery

DBMS

(OLTP)

Master &

Ref Data

Data

Warehouse

Text Analytics

and Search

Reporting &

Dashboards

Real-Time

Machine

Generated

Social

Media

Text, Image

Video, Audio Key-Value

Data Store

Hadoop

Cluster w

MapReduce

Alerting

In-Database

Analytics

EPM

BI Applications

Message-

Based

DB Replic

ETL/ELT

ChangeDC

ODS

Data Marts

Streaming

(CEP Engine)

Источники данных Подготовка данных Анализ Н

естр

уктур

ир

ов

ан

ны

е

да

нн

ые

Стр

уктур

ир

ов

ан

ны

е

да

нн

ые

Page 9: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Решения Oracle Data Integration

Page 10: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle Data Integrator (ODI) Big Data Интеграция и управление

Any Data Warehouse

Any Planning System • Оптимизированная E-LT архитектура

• Декларативный дизайн

• Модули знания, возможность расширения набора модулей знаний

Relational and Non-Relational

Application Sources

Legacy Sources

Oracle Data Integrator

CEP, Data Services

Page 11: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Оптимизированная загрузка данных благодаря E-LT

• Используются SET-based трансформации

• Быстрее загрузка данных, меньше передач по сети

• Преимущества от использования существующих аппаратных платформ

Традиционная архитектура ETL

Extract Load

Transform

Архитектура Следующего Поколения

“E-LT”

Load Extract

Transform Transform

Рост производительности, снижение затрат

Page 12: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Тест производительности ELT на Exadata Загрузка и сложные преобразования реальных данных

со скоростью до 7ТБ в час

Page 13: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle GoldenGate Гетерогенная Real-time интеграция (возможна работа под управлением ODI)

Миграция с нулевым временем простоя

CEP Integration, Real-time Events

Enterprise синхронизация данных

Real-time BI/Data Warehousing, MDM

Высокая доступность и отказоустойчивасть

Relational and Non-Relational

Application Sources

Legacy Sources

• Log-based CDC

• Двунаправленная репликация

• Гарантированная доставка,

транзакционная целостность

Oracle GoldenGate

Page 14: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Как работает Oracle GoldenGate

Двунаправленная

Capture

Захват

Trail

Данные

Pump

Доставка

Delivery

Применение

Source

Oracle & Non-Oracle

Database(s)

Target

Oracle & Non-Oracle

Database(s)

Высока производительность, транзакционность,

гарантированная доставка.

LAN/WAN

Internet

TCP/IP

Trail

Маршрутизация Данные

Page 15: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle Enterprise Data Quality Data Quality для всех данных (интегрировано с ODI)

Relational and Non-Relational

Application Sources

Legacy Sources

• Реализует оптимизированный подход для customer and product data

• Бизнес ориентированный пользовательский интерфейс

• Повышает стоимость информации, снижает риски ошибочных данных

Описка, стандартизация, слияние данных

Data Preparation, Case Management

Управление, профилирование, аудит Oracle Enterprise Data Quality

Page 16: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Коннекторы Oracle Big Data

Page 17: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Коннекторы Oracle Big Data

Сбор данных

Oracle NoSQL

Database

HDFS

Oracle

Database

Организация данных

Hadoop (MapReduce)

Oracle Big Data Connectors

Oracle Data Integrator

Принятие решений

Analytic

Applications

Анализ данных

In-D

ata

base

An

aly

tics

Data

Warehouse

Page 18: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle Data Integrator (ODI) для Big Data Гетерогенная интеграция для сред Hadoop

Трансформация

через MapReduce

Loads

Oracle Data

Integrator

• Поддерживает стандарты Hadoop

• Генерация кода MapReduce на

основе процессов созданых с

помощью UI

Page 19: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

ODI для Big Data и Oracle Оптимизированная интеграция дял Oracle Exadata

Oracle Database,

Oracle Exadata

Трансформация

через MapReduce

Загрузка

Управление

Oracle Loader

for Hadoop

Oracle Data

Integrator

Коннекторы Oracle Big Data

Hadoop Cluster

Page 20: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

ODI для Oracle Big Data Appliance Корпоративная аналитика всего информационного пространства

Загрузка

Управление

Oracle Loader

for Hadoop

Oracle Data

Integrator

Oracle Database,

Oracle Exadata Oracle Big Data Appliance

Коннекторы Oracle Big Data

Трансформация

через MapReduce

Page 21: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle Big Data Appliance

Hardware

• 18 Sun X4270 M2 Servers

– 48 GB memory на узел = 864 GB memory

– 12 Intel cores на узел = 216 cores

– 36 TB дискового пространства на узел = 648 TB

• 40 Гб/сек InfiniBand

• 10 Гб/сек Ethernet

Software

• CDH (Hadoop)

• Oracle NoSQL Database

• Oracle Adapters

Page 22: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Oracle Data Integrator для Big Data

Упрощение создания Hadoop MapReduce кода для наилучшей продуктивности.

Интеграция в гетерогенных средах с использованием стандартов: Hadoop, MapReduce, Hive, NoSQL, HDFS

Унификация интеграционных подходов для структурированных и неструктурированных данных.

Оптимизированная загрузка больших данных в Oracle Exadata используя Oracle Big Data Connectors

Позволяет работать с данными на сторонеOracle Big Data Appliance и с использованием Big Data Connectors

Объединяет возможности:

Page 23: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

23

Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted

HDFS export для Oracle Database

Oracle Loader для Hadoop

HDFS

Oracle11g

• Загрузка в single partitioned

или non-partitioned таблицы – Поддерживает scalar data-types

для Oracle Database

• Выполняется как Hadoop

Map-Reduce процесс

• Online и Offline модели

загрузки

• Высокая производительность Parallel JDBC

Direct Load Offline / Data Pump

Page 24: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

24

Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted

SQL доступ к HDFS данным из Oracle

Oracle SQL HDFS Connector

Oracle11g

HDFS

HDFS Files

External Table

• Позволяет обращаться к

файлам HDFS как к внешним

таблицам Oracle Database

Page 25: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

25

Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted

Oracle R Connector для Hadoop

• Возможность запуска

скриптов языка R на

очень больших объемах

данных

• Обеспечивает R API к

данным Hadoop

Oracle R

Enterprise

Oracle R

Connector

Page 26: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Мост в мир БОЛЬШИХ ДАННЫХ

• Большие данные уже существуют. Задача

использовать эти данные.

• Интеграционные продукты Oracle уже

существуют для Big Data. Они позволяют

построить мост между старыми и новыми

архитектурными подходами.

• Oracle предлагает единое интеграционное

решение с открытой архитектурой для работы с

большими данными.

Page 27: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Присоединяйтесь к Data Integration Community

Узнайте больше…

Oracle.com/goto/DataIntegration

Twitter twitter.com/OracleDI

Facebook facebook.com/OracleDataIntegration

LinkedIn Oracle Data Integration

Oracle’s Data Integration blog blogs.oracle.com/dataintegration

Oracle.com/bigdata

Page 28: Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator для Big Data Упрощение создания Hadoop MapReduce кода для

Sergey Prokhorov

ORACLE principal sales consultant

[email protected]