37
広告事業におけるビッグデータ活用の現実 ~大規模分散システム構築の課題と工夫点~ CyberAgent Inc. adtech studio 2017/03/08 CyberAgent, Inc. All Rights Reserved

CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

広告事業におけるビッグデータ活用の現実~大規模分散システム構築の課題と工夫点~

CyberAgent Inc. adtech studio

2017/03/08

CyberAgent, Inc. All Rights Reserved

Page 2: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

Agenda

・自己紹介

・基礎知識

サイバーエージェント アドテクスタジオとは

広告事業におけるデータとは

今までのデータ基盤と問題点

・データ基盤構築プロジェクト

・今後の展望

Page 3: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

自己紹介

Page 4: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

自己紹介

神田 勝規株式会社サイバーエージェント

アドテク本部 AI Studio

最高技術責任者

2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。

その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

い、よりトラフィックの多いサービスを開発してみたいと思い転職を決意。

現在はAI Studioの技術責任者として、データ活用のための基盤システム開発

に携わっている。

Page 5: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

自己紹介

鷹雄 健株式会社サイバーエージェント

アドテク本部 技術戦略室

インフラマネージャー

2011年CyberAgent America, Inc.へ入社 フルスタックエンジニアとして従事

2014年株式会社サイバーエージェントアドテク本部技術戦略室で

インフラ専門の組織を立ち上げ

インフラエンジニアのマネージャーとして従事

現在はインフラにとどまらずエンジニアの文化作りや他部署との横断的な取

り組みを推進しています。

AWS認定ソリューションアーキテクト-プロフェッショナル

Google Cloud Platform 認定試験 CP304

認定スクラムマスター

Page 6: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

基礎知識・サイバーエージェント,アドテクスタジオとは

・広告事業におけるデータとは

・今までのデータ基盤と問題点

Page 7: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

株式会社サイバーエージェント

Page 8: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた
Page 9: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた
Page 10: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

アドテクノロジーとは

アド + テクノロジー

広告 技術

技術の力で広告/マーケティングを最適化

これまで出来なかった配信手法や分析、

データを活用したマーケティングを提供

Page 11: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

アドテクノロジーの目的

広告主 メディア

売上利益認知集客…

収益を最大化

目的を効率的、且つ効果的に実現したい

広告1表示あたりの価値を最大化したい

Page 12: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

サイバーエージェントのアドテク事業

広告主

広告代理店

純広告

リワード広告

SSP

ユ|ザ|

メディア

アドネットワーク

DSP

DMP

広告効果計測ツール

位置情報特化

動画特化

スマホ特化

Page 13: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

広告事業におけるデータとは

Page 14: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

広告事業におけるデータ活用

位置情報による行動分析 不正ユーザーの検知ユーザー毎に最適な広告配信

Page 15: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

開発チームの高い独立性広告プロダクトごとに異なるプラットフォームを利用

アドテクスタジオのシステム基盤

Page 16: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

既存システムのデータに関わる課題

1.データの断片化

2.データの属人化

Page 17: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

課題1: データの断片化

● 異なるプラットフォームにデータが

蓄積されている

● 全体像の把握が困難

○ ex. 昨日接触したユーザー数は?

Page 18: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

課題2: データの属人化

● データがどこにあるのか?

● スキーマは?

● どこで処理すればいいの?

分析担当者が変わるたびに受け継がれる

「秘伝のタレ」

Page 19: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

データ基盤

構築プロジェクト

Page 20: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

欲しいデータがすぐに取り出せる

目指すべき状態

○ 必要な人が自分で取り出せる(属人性の排除)

○ 何処にどんなデータがあるかが分かる

○ 適切なデータ処理方法が選べる=

Page 21: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

Page 22: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

Page 23: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

データに関わるロール(役職)

Data Analyst

Data Engineers

Data Scientist

データのレポーティング、可視化などデータの専門家エンジニアでは無いためシステムの部分までは入り込めない。

営業上がりor文系の人が多いイメージ。

ビッグデータインフラストラクチャをアーキテクト、開発するエンジニアです。システムとシステムの繋ぎ込みなどには彼らが必要です。

データ科学者とは21世紀の錬金術師です。重要なビジネス上の問題を解決す

るため統計・機械学習から深層学習まで使いこなします。分析のためのモデルを構築し、データエンジニアと連携してデータによる改善を行います。

Page 24: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

データ分析に関わるタスクと分担

前処理 分析 評価/レポート

Data Scientist / Data AnalystData Engineer理想的な役割分担

実際には、すべての工程をData Scientist/Data Analystが担当することが多い。

Page 25: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

データエンジニアリングとは?(1/2)

● データの準備

○ 適切なソースからデータを分析基盤に投

入する

○ データクレンジング

○ 系統、品質などデータの基本的な性質を

まとめる

Page 26: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

データエンジニアリングとは?(2/2)

● データに関わるタスクの自動化

○ ETLの自動化

○ データパイプラインの構築

● データ処理システムの基盤化

○ エンドユーザーがデータに関わるタスク

を自分で処理できるようにする

Page 27: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

アドテクスタジオでのデータ組織

・Dev Group

基盤開発グループ

・AI Lab

データサイエンティスト集団

・Central Infrastructure Agency

インフラグループ

各20近くのプロダクト

Page 28: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

Page 29: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

Data Platform

HDFS

YARN(Hive/Impala/Spark)

Data Processing StorageFrontend Tools

Matrix

Jupyter

Zeppelin

Tableau

Ing

estio

n I/F

Analytics Platform Data Lake

Storage I/F

Page 30: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

Data Lake: データ取り込み

● インターフェイスの柔軟性

○ Streaming/Batch

○ Data Source

○ Schema

Page 31: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

● 長期保存を考慮

● 分析時のパフォーマンスを考慮

○ ParquetなどColumnar形式

● セキュリティを考慮

○ 適切な権限を持った人のみ参照可能

○ Hadoop in Secure Mode + ACL

Data Lake: データ保存

Page 32: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

理想的な状態に向けてのキーポイント

● 組織

○ データに関わる役割の整理

● システム

○ データの集約

○ 自動化

Page 33: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

データ処理を自動化するためには?

● メタデータの管理

○ スキーマ

○ データの保存場所

○ 品質、系統

● リソースマネージメント

○ YARN / Mesos / Kubernetesなど

Page 34: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

今後の展望

Page 35: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

今後について

● フロントエンドツールと分析環境のシームレスな連携

● Data Pipeline

● データ処理基盤の増強

● GPU/FPGAの導入

● 分析人材の育成・採用の強化

Page 36: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

まとめ

Page 37: CyberAgent Inc. adtech studio自己紹介 神田 勝規 株式会社サイバーエージェント アドテク本部 AI Studio 最高技術責任者 2012年中途入社。学生時代はファイルシステムの仮想化技術の研究に従事。その後、ベンチャー企業でエンジニアとなるも、もっと自分の技術を高めた

まとめ

1. ビッグデータを扱うには専門の職務を分け、

分析者が分析に集中できる環境を用意する。

2. データを集めて分析するにはトップダウンでは無く、

各関係者との連携と協力が必要。

3. データ分析は何か一つのシステムを導入すれば解決出

来る物では無く、データエンジニアによるインテグレ

ーションが必要。

4. 分析手法や技術は日夜進化している。PDCAを意識し、

変化に順応できる組織を作る。