19
データ解析のための統計モデルリング入門 第10章 階層ベイズモデル -GLMMのベイズモデル化- サイバーエージェント SAT勉強会資料 川端 貴幸

[読]データ解析のための統計モデリング入門10章

Embed Size (px)

Citation preview

データ解析のための統計モデルリング入門第10章

階層ベイズモデル-GLMMのベイズモデル化-

サイバーエージェント SAT勉強会資料 川端 貴幸

無情報事前分布と階層事前分布,

この2種類の事前分布を使って,,

GGLLMMMMをベイズ化する

おさらい 確率の基本法則

確率の基本法則加法定理(周辺化)

乗法定理

not click click広告A 950 50

広告B 1400 100X

Y

p(X=広告A) = p(X=広告A, Y=not click) + p(X=広告A, Y=click)

p(X=広告B, Y=click) = p(Y=click | X = 広告B) p(X = 広告B)

おさらい ベイズの定理

ベイズの定理

乗法定理および対称性p(X, Y) = p(Y, X)より

事後確率 ∝ 尤度 × 事前確率

推測されるCTR ∝ 観測データ × CTRは大体このくらい

ベイズモデルは、 推定するパラメータの不確実性を確率分布として表す

おさらい GLMのベイズ化①

おさらい GLMのベイズ化②

データ(目的変数) 各個体の種子数Y[i]個

データ(説明変数) 各個体のサイズX[i]

ポアソン分布 平均λ[i]

傾きbeta2

切片beta1

無情報事前分布 無情報事前分布

おさらい GLMM①

「人間が測定できない・測定しなかった個体差」を一般化線形モデル(GLM)に組み込んだもの

例えば, データ(説明変数上)のばらつきは二項分布・ポアソン分布

+ 個体のばらつきは正規分布

複数の確率分布を部品とする統計モデル

おさらい GLMM②

調査種子数Ni=8

生存種子数yi=6

個体iの生存確率qiは,

βは全個体共通のパラメータ

riは個体差,平均ゼロで標準偏差sの正規分布に従う

個体iの生存種子数yiは二項分布に従う

おさらい GLMM③

データ(目的変数) 種子8個中のY[i]個が生存

二項分布 生存確率q[i] 個体差 r[i]

全個体共通 beta 正規分布 標準偏差 s

本題 GLMMのベイズ化!!!①

データ(目的変数) 種子8個中のY[i]個が生存

二項分布 生存確率q[i] 個体差 r[i]

全個体共通 beta 正規分布 標準偏差 s

推定したい事後分布∝p(Y|β, {ri}) ×事前分布

本題 GLMMのベイズ化!!!②

データ(目的変数) 種子8個中のY[i]個が生存

二項分布 生存確率q[i] 個体差 r[i]

全個体共通 beta 正規分布 標準偏差 s

無情報事前分布 平均ゼロで標準偏差100の正規分布

事前分布

本題 GLMMのベイズ化!!!③

データ(目的変数) 種子8個中のY[i]個が生存

二項分布 生存確率q[i] 個体差 r[i]

全個体共通 beta 正規分布 標準偏差 s

事前分布

無情報事前分布 平均ゼロで標準偏差100の正規分布

本題 GLMMのベイズ化!!!④

データ(目的変数) 種子8個中のY[i]個が生存

二項分布 生存確率q[i] 個体差 r[i]

全個体共通 beta 正規分布 標準偏差 s

階層事前分布

無情報事前分布 0から104までの連続一様分布

超事前分布無情報事前分布

平均ゼロで標準偏差100の正規分布

無情報事前分布 平均ゼロで標準偏差100の正規分布

本題 GLMMのベイズ化!!!④

データ(目的変数) 種子8個中のY[i]個が生存

二項分布 生存確率q[i] 個体差 r[i]

全個体共通 beta 正規分布 標準編 s

階層事前分布

無情報事前分布 0から104までの連続一様分布

超事前分布

階層事前分布を使っているベイズ統計モデル 階層ベイズモデル

階層ベイズモデルの事後分布推定

RとWinBUGSを使ってMCMCサンプリング

-10 -5 0 5 10 0 2 4 6

βの事後分布 sの事後分布

-10 -5 0 5 10 -10 -5 0 5 10 -10 -5 0 5 10

個体差riの事後分布例

階層ベイズモデルの予測

パラメータの事後分布が推定されれば,区間推定が可能に

生存種子数y

個体数

0 2 4 6 8

05

1015

2025

ベイズモデルで使う事前分布

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

主観的な事前分布 無情報事前分布 階層事前分布

こう! わからない! sによって 変わる

sの超事前分布

パラメータの種類 説明する範囲 同じようなパラメータの個数

事前分布

全体に共通 大域的 少数 無情報事前分布

個体・グループごと 局所的 多数 階層事前分布

個体差+場所差の階層ベイズモデル

まとめ

• GLMMをベイズモデル化すると階層ベイズモデル

• 階層ベイズモデルとは,事前分布となる確率分布のパラメータにも事前分布を指定した統計モデル

• 「今どきのデータ解析なら、少なくともここまでは考慮しよう」