Oracle Data Integration в архитектуре Big Data · 2012-11-30 · Oracle Data Integrator...

Preview:

Citation preview

Oracle Data Integration в архитектуре Big Data

Sergey Prokhorov

ORACLE principal sales consultant

Agenda

• Архитектурные задачи

• Коннекторы Oracle Big Data

• Решения Oracle’s Data Integration

• Ссылки, вопросы и ответы

Architecture Principles

and Best Practices Архитектурные задачи

Составляющие информационного пространства

Video-Audio

Машинные данные

Социальные

данные

Документы

Информационная архитектура

сегодня:

Управление на основе

транзакционных данных

Информационная архитектура

завтра:

Управление на основе всех данных

Транзакционные системы

Единая интеграционная архитектура

для всех источников данных

Структурированные данные

Приложения

Традиционная информационная архитектура

ETL/ELT

Transaction

Data Ma

nag

em

en

t

Se

cu

rity

, G

ove

rna

nce

Advanced

Analytics

Visual

Discovery

DBMS

(OLTP)

Reference &

Master Data

Стр

уктур

ир

ов

ан

ны

е

да

нн

ые

Data

Warehouse EPM / BI Apps

Reporting &

Dashboards

CDC

Real-Time

DB Rep

Data

Marts ODS

Ключевые архитектурные аспекты • Тип данных: Структурированные, малой вариативности, отработанная технология загрузки

• Объемы: Расширение архитектуры для поддержки больших объемов данных

• Скорость обработки: Real-time или близкая к real-time

• Использование: Широко используется всеми структурами компании

Информационная архитектура Big Data

Distributed

File System

Machine

Generated

Social

Media

Text, Image

Video, Audio

Key-Value

Data Store

Нес

тр

уктур

ир

ов

ан

ны

е

да

нн

ые

Structured Data

Correlation

Visualization

& Discovery

Sandboxes Statistical

Analytics

Visualization

& Discovery

Data

Marts DW

MapReduce

Solutions

Ключевые архитектурные аспекты • Тип данных: Слабо структурированные или не структурированные

• Объемы: Потенциально очень большие объемы данных. Постоянный рост данных.

• Скорость обработки: Важна для обработки больших объемов данных, не для анализа.

• Использование: Еще используется незначительно, в основном инновации.

Разрозненная архитектура ETL/ELT

Biz Txn

Data Ma

nag

em

en

t

Se

cu

rity

, G

ove

rna

nce

Advanced

Analytics

Visual

Discovery

Master &

Ref Data

Distributed

File System

EPM / BI App

Reporting &

Dashboards

MapReduce

Solutions

CDC

Real-Time

DB Rep

Data

Marts ODS

Machine

Generated

Social

Media

Text, Image

Video, Audio

Key-Value

Data Store

Нестр

уктур

ир

ов

ан

ны

е

да

нн

ые

Custom Code?

Sandboxes

DBMS

(OLTP) Data

Warehouse

Стр

уктур

ир

ов

ан

ны

е

дан

ны

е

Oracle : Общая интеграционная архитектура

Transaction

Data

Advanced

Analytics

Visual

Discovery

DBMS

(OLTP)

Master &

Ref Data

Data

Warehouse

Text Analytics

and Search

Reporting &

Dashboards

Real-Time

Machine

Generated

Social

Media

Text, Image

Video, Audio Key-Value

Data Store

Hadoop

Cluster w

MapReduce

Alerting

In-Database

Analytics

EPM

BI Applications

Message-

Based

DB Replic

ETL/ELT

ChangeDC

ODS

Data Marts

Streaming

(CEP Engine)

Источники данных Подготовка данных Анализ Н

естр

уктур

ир

ов

ан

ны

е

да

нн

ые

Стр

уктур

ир

ов

ан

ны

е

да

нн

ые

Решения Oracle Data Integration

Oracle Data Integrator (ODI) Big Data Интеграция и управление

Any Data Warehouse

Any Planning System • Оптимизированная E-LT архитектура

• Декларативный дизайн

• Модули знания, возможность расширения набора модулей знаний

Relational and Non-Relational

Application Sources

Legacy Sources

Oracle Data Integrator

CEP, Data Services

Оптимизированная загрузка данных благодаря E-LT

• Используются SET-based трансформации

• Быстрее загрузка данных, меньше передач по сети

• Преимущества от использования существующих аппаратных платформ

Традиционная архитектура ETL

Extract Load

Transform

Архитектура Следующего Поколения

“E-LT”

Load Extract

Transform Transform

Рост производительности, снижение затрат

Тест производительности ELT на Exadata Загрузка и сложные преобразования реальных данных

со скоростью до 7ТБ в час

Oracle GoldenGate Гетерогенная Real-time интеграция (возможна работа под управлением ODI)

Миграция с нулевым временем простоя

CEP Integration, Real-time Events

Enterprise синхронизация данных

Real-time BI/Data Warehousing, MDM

Высокая доступность и отказоустойчивасть

Relational and Non-Relational

Application Sources

Legacy Sources

• Log-based CDC

• Двунаправленная репликация

• Гарантированная доставка,

транзакционная целостность

Oracle GoldenGate

Как работает Oracle GoldenGate

Двунаправленная

Capture

Захват

Trail

Данные

Pump

Доставка

Delivery

Применение

Source

Oracle & Non-Oracle

Database(s)

Target

Oracle & Non-Oracle

Database(s)

Высока производительность, транзакционность,

гарантированная доставка.

LAN/WAN

Internet

TCP/IP

Trail

Маршрутизация Данные

Oracle Enterprise Data Quality Data Quality для всех данных (интегрировано с ODI)

Relational and Non-Relational

Application Sources

Legacy Sources

• Реализует оптимизированный подход для customer and product data

• Бизнес ориентированный пользовательский интерфейс

• Повышает стоимость информации, снижает риски ошибочных данных

Описка, стандартизация, слияние данных

Data Preparation, Case Management

Управление, профилирование, аудит Oracle Enterprise Data Quality

Коннекторы Oracle Big Data

Коннекторы Oracle Big Data

Сбор данных

Oracle NoSQL

Database

HDFS

Oracle

Database

Организация данных

Hadoop (MapReduce)

Oracle Big Data Connectors

Oracle Data Integrator

Принятие решений

Analytic

Applications

Анализ данных

In-D

ata

base

An

aly

tics

Data

Warehouse

Oracle Data Integrator (ODI) для Big Data Гетерогенная интеграция для сред Hadoop

Трансформация

через MapReduce

Loads

Oracle Data

Integrator

• Поддерживает стандарты Hadoop

• Генерация кода MapReduce на

основе процессов созданых с

помощью UI

ODI для Big Data и Oracle Оптимизированная интеграция дял Oracle Exadata

Oracle Database,

Oracle Exadata

Трансформация

через MapReduce

Загрузка

Управление

Oracle Loader

for Hadoop

Oracle Data

Integrator

Коннекторы Oracle Big Data

Hadoop Cluster

ODI для Oracle Big Data Appliance Корпоративная аналитика всего информационного пространства

Загрузка

Управление

Oracle Loader

for Hadoop

Oracle Data

Integrator

Oracle Database,

Oracle Exadata Oracle Big Data Appliance

Коннекторы Oracle Big Data

Трансформация

через MapReduce

Oracle Big Data Appliance

Hardware

• 18 Sun X4270 M2 Servers

– 48 GB memory на узел = 864 GB memory

– 12 Intel cores на узел = 216 cores

– 36 TB дискового пространства на узел = 648 TB

• 40 Гб/сек InfiniBand

• 10 Гб/сек Ethernet

Software

• CDH (Hadoop)

• Oracle NoSQL Database

• Oracle Adapters

Oracle Data Integrator для Big Data

Упрощение создания Hadoop MapReduce кода для наилучшей продуктивности.

Интеграция в гетерогенных средах с использованием стандартов: Hadoop, MapReduce, Hive, NoSQL, HDFS

Унификация интеграционных подходов для структурированных и неструктурированных данных.

Оптимизированная загрузка больших данных в Oracle Exadata используя Oracle Big Data Connectors

Позволяет работать с данными на сторонеOracle Big Data Appliance и с использованием Big Data Connectors

Объединяет возможности:

23

Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted

HDFS export для Oracle Database

Oracle Loader для Hadoop

HDFS

Oracle11g

• Загрузка в single partitioned

или non-partitioned таблицы – Поддерживает scalar data-types

для Oracle Database

• Выполняется как Hadoop

Map-Reduce процесс

• Online и Offline модели

загрузки

• Высокая производительность Parallel JDBC

Direct Load Offline / Data Pump

24

Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted

SQL доступ к HDFS данным из Oracle

Oracle SQL HDFS Connector

Oracle11g

HDFS

HDFS Files

External Table

• Позволяет обращаться к

файлам HDFS как к внешним

таблицам Oracle Database

25

Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted

Oracle R Connector для Hadoop

• Возможность запуска

скриптов языка R на

очень больших объемах

данных

• Обеспечивает R API к

данным Hadoop

Oracle R

Enterprise

Oracle R

Connector

Мост в мир БОЛЬШИХ ДАННЫХ

• Большие данные уже существуют. Задача

использовать эти данные.

• Интеграционные продукты Oracle уже

существуют для Big Data. Они позволяют

построить мост между старыми и новыми

архитектурными подходами.

• Oracle предлагает единое интеграционное

решение с открытой архитектурой для работы с

большими данными.

Присоединяйтесь к Data Integration Community

Узнайте больше…

Oracle.com/goto/DataIntegration

Twitter twitter.com/OracleDI

Facebook facebook.com/OracleDataIntegration

LinkedIn Oracle Data Integration

Oracle’s Data Integration blog blogs.oracle.com/dataintegration

Oracle.com/bigdata

Sergey Prokhorov

ORACLE principal sales consultant

sergey.prokhorov@oracle.com

Recommended