(C) Recruit Technologies Co.,Ltd. All rights reserved.
2015年7月15日
リクルートテクノロジーズITソリューション統括部ビッグデータ部
野村 健
変わる!?リクルートグループのデータ解析基盤
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentはじめに
本日お伝えしたいこと
リクルートグループのデータ活用状況について1
データ活用をしていく中で、でてきた課題感に対する対応について2
1
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
野村 健〜2009年:
・電気メーカのソフトウェア開発会社に勤務
・交通管制システムの導入
- 主に、旅行時間情報の算出
- 運用管理システムの構築
〜2014年:
・某SIer会社に勤務
・通信キャリアのログ分析基盤のアーキテクチャ設計
・デジタルコンテンツのレコメンドシステムのアーキテクチャ設計
・+5年 Hadoopなど並列分散処理関連の経験
2014年11月〜:
・リクルートテクノロジーズにて、R&D及びHadoop基盤運用を担当2
(C) Recruit Technologies Co.,Ltd. All rights reserved.
1
2 最近のデータ活用状況紹介
3
4
5
6
ビッグデータへの取り組み
データ活用における課題
新たなデータ解析基盤の要件
現状の取り組み
アジェンダ
まとめと今後の展望
3
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータへの取組みの歴史
2012年
Hadoop
活用拡大
DWH導入展開
ほぼ全ての事業で
Hadoopの活用を実施
ビッグデータ活用基盤
を拡充(DWH等)
2011年
Hadoopの
本格展開
各サイトで本格展開を
開始、11事業40案件
に適用
Hadoopカンファレンス
をR後援で開催
2010年
高速集計基盤
の研究
Hadoopのリサーチを
開始、この段階の投資
は最小限に抑えサーバ
はWebオークションで
調達
2013年~
全社規模
BI導入展開
ビッグデータの
さらなる活用/
用途拡大に向けた
全社統合DWH構築
リサーチ環境 第1世代Hadoop 第2世代Hadoop/DWH
BI基盤
5
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータ基盤構成概要
DWH/Hadoopを中心としたデータ格納領域に各事業等からデータを収集。
様々な利用シーンに対応し、「高速化を追求する」基盤を目指している。
6
データソース データ格納 プレゼンテーション 利用者
事業データ
行動データ
プッシュ基盤ログ
経営データ
経営データ
外部データ
IPアドレスデータ
行動履歴情報
オンプレミス
Redshift
Hadoopエコシステム
高度分析やモデル作成
レポート/モニタリング
ビジネスインサイト(マーケター)
機械学習やモデル実装
エンドユーザー(エグゼ/営業/マネージャ)
マーケター(プロデューサ/事業企画)
データサイエンティスト(高度分析者)
データサイエンティスト(エンジニア)
ツールバーデータ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番98台/開発24台 1 PB
8
(C) Recruit Technologies Co.,Ltd. All rights reserved.
数値で見るHadoopの使われ方
28,344
1,038万
1日あたりの全JOBの数
1日あたりの全Hbaseクエリの数
リクルートグループ全体
リクルートグループ全体
9
(C) Recruit Technologies Co.,Ltd. All rights reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 240
リクルートテクノロジーズ内での人数(パートナーも含む)
リクルートテクノロジーズ内での案件数
10
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentビッグデータ活用における体制
リクルートグループでは、分析業務に対して以下の3つの役割を定義し案件を推進!
(「コンサル型」+「エンジニア型」)×マーケター
コンサル型 エンジニア型
事業担当者≒マーケターリクルートテクノロジーズ
ビッグデータグループ
Hadoopエンジニア分析者
11
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
データドリブンの意思決定・施策 【数が多い】(レコメンド・BI・予測・リアルタイム・非構造)
施策ひとつひとつがより難易度高くかつ長期に【質が高い】①シナリオマーケティング、②リアルタイムレコメンド、③画像解析 etc
事業担当者≒マーケター
の知識向上、データドリブン施策の重要性が認識・拡散。
ここ数年での変化①
12
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department一般物体認識:スパースコーディング+SVM
一般物体認識: 画像に映った物を特定する処理
① 画像をベクトルに変換するencoderの作成
② encoderで画像をベクトルに変換
③ 教師データのベクトルを用いて判別モデルを生成
④ 未知の画像を②でベクトルに変換
⑤ ③のモデルに④を通し物体を特定
カスタマが興味のある画像に、何が映っているかを特定し、検索の軸としたり、レコメンド利用の可能性がある
13
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
特定の技術上で施作実行 【種類が少ない】(MapReduce/Mahout/Hive/HBase)
施策特性に合わせたエコシス/インフラ環境の活用【種類が増加】①YARN+Tez、②Spark(Spark Streaming)、③Impala、④ AWS/TreasureData etc
事業からの要望の高度化から、施策特性に合わせた技術の選択。
ここ数年での変化②
エンジニア型分析者
事業担当者≒マーケター
14
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department取り掛かり中(一部やりたい)のテーマ紹介
Titan
グラフ画像解析テキスト解析
ストリーム分散SQL
15
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
データマネジメント
データ活用における課題
2
データ連携負荷1
17
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department1. データ連携負荷
個別環境が乱立困ったなぁ~
18
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department1. データ連携負荷
Oracleユーザ行動ログ
ログ(システム/
アプリ)
Adobe
ログ検索BI/DWHレコメンドエンジン
モニタリング
Hadoop
19
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
AWS
1. データ連携負荷
OracleS3/SQSユーザ行動ログ
ログ(システム/
アプリ)
AdobeTreasure
Data
ログ検索BI/DWHレコメンドエンジン
モニタリング
HadoopExaDataプッシュ基盤
20
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department2. データマネジメント
個別のデータ品質チェックなど共通化できないかな?
21
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
AWS
2. データマネジメント
OracleS3/SQSユーザ行動ログ
ログ(システム/
アプリ)
AdobeTreasure
Data
ログ検索BI/DWHレコメンドエンジン
モニタリング
HadoopExaDataプッシュ基盤
品質担保品質担保品質担保品質担保 品質担保品質担保 品質担保
22
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
AWS
データ連携・マネジメントに対する課題について
OracleS3/SQSユーザ行動ログ
ログ(システム/
アプリ)
AdobeTreasure
Data
ログ検索BI/DWHレコメンドエンジン
モニタリング
HadoopExaDataプッシュ基盤
データコネクト基盤
品質担保
23
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
25
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
26
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータソースの多様性
REST API
FTPサーバ
データコレクタ
リアルタイムデータとバッチデータのコレクト・フィード対応
データフィード
27
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
28
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点2
システム監査の観点1
29
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
システム監査の観点
アプリサーバなどデータコネクト データ処理
ログ分析基盤
いつ生成されたデータなのか?
どこで生成されたデータなのか?
社内データセンタ
30
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
システム監査の観点
アプリサーバなどデータコネクト データ処理
ログ分析基盤
どの経路から来たデータなのか?
社内データセンタ
31
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
システム監査の観点
アプリサーバなど
社内データセンタ
データコネクト データ処理
ログ分析基盤
どのデータを元に生成されたのか?
データフローの管理者は誰か?
誰がどのようにアクセスするのか?32
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
特定用途による管理
• BI用の列指向ファイルフォーマットなど
生データ
BI用データ
レコメンドエンジン用データ
・・・
33
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
時系列による管理
• 過去の不必要なデータのクリーニング
直近 1ヶ月後 2ヶ月後 1年後 N年後
・・・ ・・・
削除
34
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
利用頻度・SLA・コストによる管理
• 蓄積デバイス、HDFSのレプリケーション数などの最適化
・・・ ・・・
利用頻度高 低
35
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータライフサイクル管理
データ活用の観点
利用者権限による管理
• ロールベースによる権限毎のデータ分離
生データ(マスキングや暗号化など対策済み)
マーケター用データ
分析者用データ
・・・
事業担当者≒マーケター
分析者36
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department新たなデータ解析基盤の要件とは
1. データソースの多様性
2. データライフサイクル管理
3. データ品質管理
37
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentデータ品質管理
機密項目(マスキング/暗号化etc)
スキーマ互換性の担保
メタデータ管理
監査用ユニークID管理
ポリシー定義に基づく品質管理
品質チェック
データ蓄積
ポリシーチェック
破棄
データ
38
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentフィジビリ検証予定の内容について
フィジビリ検証予定のシステム概要について
ユーザの行動をニアリアルタイムに把握し、サービスレベルを向上したい
ログの活用先の増加が想定されるので、データ連携先の追加がしやすい仕組みにしておきたい
ログの活用に不要な情報に対して、暗号化・マスキングなどの対策コストを抑えたい
40
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentフィジビリ検証予定の内容について
フィジビリ検証予定のシステム概要について
① 事業サイトのログに対し、暗号化・マスキングなどデータの品質及びセキュリティ担保
② データ活用側へ必要なデータのみ限定できるよう、データパイプラインを定義
③ データ活用側が今後増えていくことを見越し、連携方式を統一し連携負荷軽減
アプリサーバ
Agent
アプリサーバ
Agent
事業サイト
マスタシステム
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
モニタリング基盤
ログ解析基盤
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
①②
③
41
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department検証実施中の内容について
フィジビリ検証予定のシステム概要について
④ ユーザ行動をニアリアルタイムに分析し、予測モデルによる検知からプッシュ基盤などへのアクション通知へ(のちのちは、オンライン学習などもできたら)
アプリサーバ
Agent
アプリサーバ
Agent
事業サイト
マスタシステム
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
プッシュ基盤
生ログ-アプリ
ETL済ログ-アプリ
変換 蓄積品質
オンライン予測
通知検知
④
42
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
Hadoop YARN
新たなデータ解析基盤への取り組み
検討中のシステム構成概要案
セキュリティポリシー
メタデータリポジトリ
データ変換
データ品質管理
データ蓄積
データフィード
モニタリング
MRv2
データコネクト/データリポジトリ
リアルタイム/バッチ API
データコレクタ
データライフサイクル管理
データ受信
43
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department
事業担当者の案件施策に対するデータ連携負荷を軽減し、リクルートグループ内での更なるデータ利活用促進を目指す
まとめと今後
2
新技術は積極的に試し、事業サービスでの利用可能性を常に模索していく3
ストリームデータから導入を始め、既存のバッチへ横展開そして、共通機能化をしていく
1
45
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department一緒に戦ってくれる仲間募集中
本日の「データマネジメント」はデータ解析基盤の1テーマであり他にも取り組んでいます。
RTCでは、一緒に働く
仲間を求めてます!!
リアルタイムデータ解析処理
リソースマネジメントの効率化
データ分析者向けユーザインタフェース etc…リクルートテクノロジーズ
ITソリューション統括部ビッグデータ部
野村 健<[email protected]>