6章 最適腕識別とA/Bテスト
機械学習プロフェッショナルシリーズ勉強会「バンディット問題の理論とアルゴリズム」発表担当 VOYAGE GROUP 中野智文
自己紹介•中野智文• VOYAGE GROUP•広告データの分析
•その前は•質問応答システム•検索ランキングアルゴリズム•教育のための機械学習・統計•将棋
最適腕識別と A/Bテスト•最適腕識別 (best arm identification)•累積報酬の最大化ではなく、(将来の)報酬が最大の腕を識別すること
•最適腕識別において、 K=2 (腕の数が 2)のとき、• A/Bテストとよぶ
•ただし一般の「バンディット問題」では最適腕識別を含むことがある
固定信頼度誤識別率が δ 以内であると確信できるまで。
を満たしつつを最小化する
次を満たす停止規則を設定する必要がある
6.1.1 累積報酬最大化との違い•累積報酬最大化:•選択の殆どが期待大と推定される腕に•誤識別率は Tに対して多項式オーダー
• A/Bテスト:•全ての腕に同程度•誤識別率は Tに対して指数オーダー
例 6.1参照
6.1.2 ε-最適腕識別•本質的に解決不可能•例 : μ = 0.501, 0.5
• ε最適腕識別 :•期待値が↓以上の腕を識別する
μ = 0.501, 0.5, 0.1 の例 メモ
0.501 と 0.5の誤識別率0.5 と 0.1のサンプルサイズ
n3は全体の
標本複雑度
必要なサンプルサイズ(本にはサンプル数とありますが…)
メモ•偶然 になる確率•ヘフディングの不等式によると、サンプルサイズが少なくとも
•ないと、 未満という仮説を棄却できない•それ以外も同様な話
6.3 最適腕識別の方策•信頼上限 (UCB; upper confidence bound)•信頼下限 (LCB; lower confidence bound)も使う•最も期待値の高い腕の信頼下限•よりそれ以外の全ての(信頼上限―
ε)が小さければ終了•より信頼上限が小さい腕は排除
•探索候補腕全試し
6.3.2 スコアに基づく方法• 1番手の下限と、 2番手の上限の差が広がるように、 1番手と 2番手のみを引く。
UGapE方策では、期待値が大きい方ばかり選ばれる可能性があるので、サンプルサイズの小さい方を選ぶ。
6.4 固定予算の設定
もし ならば、誤識別率を
で抑えることが出来るが、 Hεを知らない。つまり固定予算は未解決
雑感• LUCB方策で用いる信頼区間を変えたい•上下対称なので、修正Wald法や、Wilson score interval などにした方が良さそう
•動的な ABテストは現実的に厳しい•前の報酬が判明する前に次の腕を引く•ログの問題。広告であれば表示からクリックまでもタイムラグがある。
•開発コスト。Webであればクッキーを使った L7スイッチで実現したい。