24
アド テク における機械学習技術 2015.7.23 ソネット・メディア・ネットワークス株式会社 舘野 啓

アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

Embed Size (px)

Citation preview

Page 1: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

アドテクにおける機械学習技術

2015.7.23

ソネット・メディア・ネットワークス株式会社

舘野 啓

Page 2: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23

• 舘野 啓 (たての けい)– ソネット・メディア・ネットワークス 所属

– @f_g_hollyhock (連絡用)

• 経歴– 2003.6~2012.3

某メーカー研究所にて機械学習やパーソナライゼーション/リコメンデーション技術の日々

– 2012.4~2014.7新規事業立ち上げでもがく(含むSan Franciscoでの活動)

– 2014.10~ソネット・メディア・ネットワークスにてアドテク業界に足を踏み入れる

• 好き

自己紹介

Page 3: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 3

• Demand Side Platform(DSP) “Logicad” のパワーアップ&新機能・新サービス開発

業務紹介

http://www.so-netmedia.jp/company/news/2015/pr_release_20150707.html

“潜在顧客ターゲティング”

Page 4: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

アドテクにおける機械学習技術

2015/7/23 4

Page 5: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 5

• お話の内容– Web広告、特にRTBの仕組みのどんなところに機械学習が使わ

れているのか?

• お話のターゲット– “アドテク” “機械学習”の言葉ぐらいは知ってるソフトウェア

エンジニア

• 今日は気にしないこと– 「そもそもネットの広告って・・・」

– 未来の広告の形、マーケティングソリューションのあり方

– アルゴリズムの詳細

– RTB/ビッグデータ分析のためのシステム [12]

• 個人の見解です

はじめに

Page 6: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 6

• 機械学習– ≒ 未知のものを予測するためにデータから学習する

ための技術

• "学習"と"予測"って?

機械学習とは

サンプル特徴量

知りたいこと

学習アルゴリズム

予測モデル

予測結果未知サンプル

教師データ

Page 7: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

DSPdemand

sideplatform

DSPdemand

sideplatform

2015/7/23 7

Real Time Bidding(RTB)とは

SSPsupplyside

platform

DSPdemand

sideplatform

広告主A

広告主B

──────────────────

ad a1

ad a2

ad b1

ad b2

auction

ad

──────────────────

¥a

¥b

広告を表示するサイト

こちらもご参考に:[1][2]

Page 8: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

DSPdemand

sideplatform

DSPdemand

sideplatform

2015/7/23 8

機械学習とRTB

SSPsupplyside

platform

DSPdemand

sideplatform

広告主A

広告主B

──────────────────

ad a1

ad a2

ad b1

ad b2

auction

ad

──────────────────

¥a

¥b

広告を表示するサイト

どんな広告を(what)

誰に (who)

いつ (when)

幾らで(how much)

どこ{で,に} (where)

なぜ (why)メディア・ユーザ・広告主がハッピーになるためには決めなきゃいけないことたくさん

Page 9: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

• RTBにおいて学習したいもの:

行動を引き起こす5W1Hのモデル

2015/7/23 9

機械学習とRTB

𝑷 act user, ad, context )誰に (who)

どんな広告を(what)

いつ (when)

行動(クリック, CV etc.)

幾らで (how much)

決定

なぜ(why)

どこ{で,に} (where)

Page 10: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 10

機械学習とRTB

サンプル

特徴量

act学習アルゴリズム

予測モデル

user ad context

𝑷 act user, ad, context )未知サンプル

user ad context

予測結果

act

──────────────────

枠ad a1

──────────────────

ad a2

ad b1

ad c3

──────────────────

──────────────────

──────────────────

ad a1

教師データ

入札額(how much)

who, what,when, where

Page 11: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 11

• 事実ベース– 事前に定義可能な”セグメント”に対して配信

– e.g. リターゲティング※

• 広告主サイトに訪れたユーザに配信(刈り取り)

– e.g. オーディエンスターゲティング• 性別・年齢・興味カテゴリなどの属性で指定して配信

• 属性は予測したものも含む

• 行動予測ベース– 広告をクリックしそうな人、コンバージョン(CV;

商品購入など)しそうな人を機械学習などで予測[3]

して配信

– e.g. ロジスティック回帰モデルによるクリック予測

Who:誰に広告を出すか?

※“リターゲティング”はマイクロアド社の登録商標です

Page 12: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 12

• 広告のコストパフォーマンスを最大化するには?

– →広告の影響を受ける人を見つけるモデル[4][5]

Who:誰に広告を出すか?

行動する 放っておいてもOK 広告の影響を受ける

行動しない あまのじゃく 何しても無駄

行動する 行動しない

広告を見た場合

広告を見なかった場合

ユーザのタイプの分類

Page 13: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 13

• インサイトの抽出:広告主が自身の顧客がどんな人たちかを知りたい– ⇒効いている特徴量で説明

• だいたいわけがわからない

– ⇒クラスタリングして名前を付ける• だいたいわけがわからない or 難しい

Who:広告に反応したのはどんな人か?

要は何?統計と意味の

Page 14: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 14

• どんな広告={広告主, 商材, クリエイティブ}– 広告主や商材(の種類)などは特徴量として学習される

– RTBでは広告主の意図(入札金額の大小)が入るので、常にユーザにとって最適な広告が出るわけでは無い

– ⇒ここではクリエイティブにfocus

• クリックしやすい広告・記憶しやすい広告– 位置, サイズ, アニメーション, 色, わかりやすさ etc.

[6]

– まだまだノウハウと感性の領域 ⇔ 解明する余地大• Deep Learning, 認知科学, 感性工学,・・・?

What:どんな広告を出すか?

Page 15: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 15

What:どんな広告を出すか?

• ダイナミッククリエイティブ– 複数商品の写真などを組み合わせて一

つのバナーを動的に生成

– どう組み合わせるか?e.g. 閲覧した商品+ユーザにおすすめの商品

• “ユーザにおすすめの商品”?– そのユーザが買いそう・気に入りそう

な商品を予測• Jaccard係数などによる商品相関

(“この商品を買った人はこんな商品も買っています”)

• 行列の穴埋め問題として行列分解(Matrixfactorization) [7]

Page 16: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 16

• どんなクリエイティブが効果的かを知る

– A/Bテスト

• どちら(どれ)がbetterな選択肢なのかを統計的な妥当性を担保して決定する

• 選択肢すべてを平等に試して比較⇒選択肢が膨大な場合無駄打ち大=コスト大

– Multi Armed Bandit

• なるべく少ないコストで有望な選択肢を決める手法

• e.g. (ダイナミッククリエイティブのように)多様な組み合わせからベストなものを選ぶ [8]

– 色, 配置, 形, パターンなど

What:どんな広告を出すか?

Page 17: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 17

• どこに=どの枠(ドメイン, サイト, ページ内の位置)に– 効果の高い枠は?

• 特徴量として学習

– そもそもそこは出すべき面か?:ad verification• 見えない場所に表示しても意味が無い(viewability) [9]

• 不正(ad fraud; botによるクリックetc.)が無いか

• ブランドにとって不適切なコンテンツでないか

• 広告の意図にマッチした内容かどうか– e.g. 飛行機事故の記事に航空会社の広告は・・・

• ⇒自動 vs. 手動

• どこで=ユーザの位置情報– モバイル+Online-to-Offline(O2O)などでの活用

• e.g. Shufoo! http://www.shufoo.net/

Where:どこ{に,で}広告を出すか?

Page 18: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 18

• どんなタイミングで提示すれば受け入れやすいか?– 適切な間隔 (frequency, recency, 時刻 etc.)

• あまり大量に/頻繁に同じ広告を出されるとウザい etc.

– ユーザの状態(センシング情報などから推定)に応じて変化する [10]

• CRM的な観点での広告利用– e.g. 以前買った洗剤がちょうどなくなるころにおす

すめ(imp)する

– e.g. サービスのリマインド

When:いつ広告を出すか?

Page 19: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 19

• ユーザの受け入れやすさに関わる(と思われる)– Golden circle的な意味でも

• が・・・– しつこいRT広告→わかっててもウザくなってくる

• 「この商品確かに見たけどさ!」

– 大量の手がかり(特徴量)をベースにする機械学習は”なぜ”をひねり出すのは苦手

• ⇒“なぜ”が問われない広告– 「あなたの友達の○○さんがいいね!しています」

– ネイティブ広告• メインコンテンツに違和感なく溶け込む

– 動画広告• コンテンツとして面白い

Why:なぜその広告が出たのか?

Page 20: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 20

• 理想の入札金額:アクション期待価値

– e.g. 目標CPC 100円 × クリック確率 0.1%→ 0.1円で入札

– sealed bid & second-price auctionにおいて理論上最適な戦略

• 実は入札金額で“誰に”出すかは決まる– e.g. 0円でbid=セグメント外

– ただし計算リソースの節約、予算消化の予測、広告主側の理解etc.によりセグメントを事前に作ることに意味はある

How much:いくらで広告を出すか?

𝑷 act user, ad, context )

広告主にとってのユーザのアクション価値(金額)

広告提示に対してアクションする確率

Page 21: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 21

• 発展形 [11]

– RTBのすべての事象を確率的にシミュレーションし、予算内でアクション(クリックやCV)数を最大化するような入札戦略 b() を学習

How much:いくらで広告を出すか?

どんなユーザがどんな頻度で枠

を見るか

impしたときにアクションする確率𝑷 act user, ad, context )

入札金額

入札の勝率

ad c3──────────────────

枠𝒙 =

Page 22: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 22

• 機械学習タスクとして– 大量データ

• 1011~トランザクション/月

– 大規模特徴量• e.g. 広告枠のドメイン数 105~

– 少数の正例• キャンペーンごとのCV数 数十~数百 だったり

• 時間方向の最適化 ⇒ 個人に寄り添った情報提供– e.g. Life Time Value最大化, 順番を考慮した情報提示

• “統計と意味の谷”の解消– エンドユーザ側 / 広告主側

これからの課題

Page 23: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 23

• 𝑷 act user, ad, context ) を頑張ってます

• 課題は山積み、やりがい特大

– エンドユーザも広告主も人間、技術だけ突き

詰めても(今は)限界が・・・

• 技術とビジネスが直結するexcitingな

領域です!

まとめ

Page 24: アドテクにおける機械学習技術 @Tokyo Data Night #tokyodn

2015/7/23 24

• [1] アドテク勉強会 http://goo.gl/vFqPRs

• [2] 「今さら聞けない ! 」マーケティング担当者のためのアドテクノロジー (1) アドテクノロジーの歴史 - アドネットワークの誕生まで | マイナビニュース http://goo.gl/PYQqxJ

• [3] Chapelle, O., et al., Simple and scalable response prediction for display advertising, ACMTIST, 2015.

• [4] Radcliffe, N. J., et al., Real-World Uplift Modelling with Significance-Based Uplift Trees,StocasticSolutions.com, 2011. http://goo.gl/GjSWN4

• [5] 里, Uplift Modelling 入門(1), 2012. http://goo.gl/h2F572

• [6] Nihel, Z., The Effectiveness of Internet Advertising through Memorization and Click on a Banner, Int. J. of Marketing Studies, 2013.

• [7] Koren, Y., et al., Matrix factorization techniques for recommender systems, Computer, 2009.

• [8] Auer, P., Using confidence bounds for exploitation-exploration trade-offs, JMLR, 2002.

• [9] The Importance of Being Seen, 2014. https://goo.gl/f6kWyQ

• [10] Pejovic, V., et al., InterruptMe : Designing Intelligent Prompting Mechanisms for Pervasive Applications, UbiComp, 2014.

• [11] Zhang, W., et al., Optimal Real-Time Bidding for Display Advertising, KDD, 2014.

• [12]クラウド技術を活用したリアルタイム広告 Logicad の入札・配信・ログ解析 #awssummithttp://goo.gl/uGVct

参考文献