CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント...

Preview:

Citation preview

広告事業におけるビッグデータ活用の現実~大規模分散システム構築の課題と工夫点~

CyberAgent Inc. adtech studio

2017/03/08

CyberAgent, Inc. All Rights Reserved

Agenda

・自己紹介

・基礎知識

サイバーエージェント アドテクスタジオとは

広告事業におけるデータとは

今までのデータ基盤と問題点

・データ基盤構築プロジェクト

・今後の展望

自己紹介

自己紹介

神田 勝規株式会社サイバーエージェント

アドテク本部 AI Studio

最高技術責任者

2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。

その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

い、よりトラフィックの多いサービスを開発してみたいと思い転職を決意。

現在はAI Studioの技術責任者として、データ活用のための基盤システム開発

に携わっている。

自己紹介

鷹雄 健株式会社サイバーエージェント

アドテク本部 技術戦略室

インフラマネージャー

2011年CyberAgent America, Inc.へ入社 フルスタックエンジニアとして従事

2014年株式会社サイバーエージェントアドテク本部技術戦略室で

インフラ専門の組織を立ち上げ

インフラエンジニアのマネージャーとして従事

現在はインフラにとどまらずエンジニアの文化作りや他部署との横断的な取

り組みを推進しています。

AWS認定ソリューションアーキテクト-プロフェッショナル

Google Cloud Platform 認定試験 CP304

認定スクラムマスター

基礎知識・サイバーエージェント,アドテクスタジオとは

・広告事業におけるデータとは

・今までのデータ基盤と問題点

株式会社サイバーエージェント

アドテクノロジーとは

アド + テクノロジー

広告 技術

技術の力で広告/マーケティングを最適化

これまで出来なかった配信手法や分析、

データを活用したマーケティングを提供

アドテクノロジーの目的

広告主 メディア

売上利益認知集客…

収益を最大化

目的を効率的、且つ効果的に実現したい

広告1表示あたりの価値を最大化したい

サイバーエージェントのアドテク事業

広告主

広告代理店

純広告

リワード広告

SSP

ユ|ザ|

メディア

アドネットワーク

DSP

DMP

広告効果計測ツール

位置情報特化

動画特化

スマホ特化

広告事業におけるデータとは

広告事業におけるデータ活用

位置情報による行動分析 不正ユーザーの検知ユーザー毎に最適な広告配信

開発チームの高い独立性広告プロダクトごとに異なるプラットフォームを利用

アドテクスタジオのシステム基盤

既存システムのデータに関わる課題

1.データの断片化

2.データの属人化

課題1: データの断片化

● 異なるプラットフォームにデータが

蓄積されている

● 全体像の把握が困難

○ ex. 昨日接触したユーザー数は?

課題2: データの属人化

● データがどこにあるのか?

● スキーマは?

● どこで処理すればいいの?

分析担当者が変わるたびに受け継がれる

「秘伝のタレ」

データ基盤

構築プロジェクト

欲しいデータがすぐに取り出せる

目指すべき状態

○ 必要な人が自分で取り出せる(属人性の排除)

○ 何処にどんなデータがあるかが分かる

○ 適切なデータ処理方法が選べる=

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

データに関わるロール(役職)

Data Analyst

Data Engineers

Data Scientist

データのレポーティング、可視化などデータの専門家エンジニアでは無いためシステムの部分までは入り込めない。

営業上がりor文系の人が多いイメージ。

ビッグデータインフラストラクチャをアーキテクト、開発するエンジニアです。システムとシステムの繋ぎ込みなどには彼らが必要です。

データ科学者とは21世紀の錬金術師です。重要なビジネス上の問題を解決す

るため統計・機械学習から深層学習まで使いこなします。分析のためのモデルを構築し、データエンジニアと連携してデータによる改善を行います。

データ分析に関わるタスクと分担

前処理 分析 評価/レポート

Data Scientist / Data AnalystData Engineer理想的な役割分担

実際には、すべての工程をData Scientist/Data Analystが担当することが多い。

データエンジニアリングとは?(1/2)

● データの準備

○ 適切なソースからデータを分析基盤に投

入する

○ データクレンジング

○ 系統、品質などデータの基本的な性質を

まとめる

データエンジニアリングとは?(2/2)

● データに関わるタスクの自動化

○ ETLの自動化

○ データパイプラインの構築

● データ処理システムの基盤化

○ エンドユーザーがデータに関わるタスク

を自分で処理できるようにする

アドテクスタジオでのデータ組織

・Dev Group

基盤開発グループ

・AI Lab

データサイエンティスト集団

・Central Infrastructure Agency

インフラグループ

各20近くのプロダクト

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

Data Platform

HDFS

YARN(Hive/Impala/Spark)

Data Processing StorageFrontend Tools

Matrix

Jupyter

Zeppelin

Tableau

Ing

estio

n I/F

Analytics Platform Data Lake

Storage I/F

Data Lake: データ取り込み

● インターフェイスの柔軟性

○ Streaming/Batch

○ Data Source

○ Schema

● 長期保存を考慮

● 分析時のパフォーマンスを考慮

○ ParquetなどColumnar形式

● セキュリティを考慮

○ 適切な権限を持った人のみ参照可能

○ Hadoop in Secure Mode + ACL

Data Lake: データ保存

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

データ処理を自動化するためには?

● メタデータの管理

○ スキーマ

○ データの保存場所

○ 品質、系統

● リソースマネージメント

○ YARN / Mesos / Kubernetesなど

今後の展望

今後について

● フロントエンドツールと分析環境のシームレスな連携

● Data Pipeline

● データ処理基盤の増強

● GPU/FPGAの導入

● 分析人材の育成・採用の強化

まとめ

まとめ

1. ビッグデータを扱うには専門の職務を分け、

分析者が分析に集中できる環境を用意する。

2. データを集めて分析するにはトップダウンでは無く、

各関係者との連携と協力が必要。

3. データ分析は何か一つのシステムを導入すれば解決出

来る物では無く、データエンジニアによるインテグレ

ーションが必要。

4. 分析手法や技術は日夜進化している。PDCAを意識し、

変化に順応できる組織を作る。

Recommended