【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’) Hypothesis

Doing Bayesian Data Analysis Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’) Hypothesis 東京大学松尾研究室修士２年飯塚修平@tushuhei

2013/08/25 1

この章の内容

1.  パラメタ評価アプローチ (estimation) –  ひとつの事前確率 –  その値は信頼出来る？

2.  モデル比較アプローチ (model comparison) –  ふたつの事前確率 –  どちらのモデルが信頼出来る？

3.  それぞれのアプローチの注意点

2013/08/25 2

仮説検定についてベイジアンの立場から考えよう

彼ってどんな性格なの？どうしようもなく駄目なひとなのか、とても潔癖で近づきがたいひとなのか、それとも、その間のどこかなのかな。

導入 •  こういう悩みはつきない

–  これからコイントスで先行を決めるんだけど、このコインで大丈夫なのかな？ –  この新規開発した薬って本当に効くのかな？プラセボじゃないよね？ –  その他諸々の「A と B どっちがいいかな。」 à ベイジアン風に言うと「偏り θ = 0.5」という帰無仮説は棄却されるのか、それとも採用されるのか？

•  ベイジアンだと、伝統的統計学より進んだ考え方で検定することができる –  棄却 or 採用よりも 95% HDI を得られる方が情報量が多い –  事後確率分布を得ることで、パラメタと信頼度の関係を眺めることができる

•  今回取り上げる方法は 2 つ –  パラメタ評価アプローチ事後確率の 95% HDI の中に帰無値（null value, 仮説検定したい値）が入るか

–  モデル比較アプローチ「帰無値しか許さないモデル」 vs 「それ以外の値も広く許すモデル」

2013/08/25 3

パラメタ評価アプローチ

•  基本的な考え方 –  もし帰無値が事後確率の 95% HDI の外にあれば、その帰無値は信頼できる値ではない。

–  もし帰無値が事後確率の 95% HDI の中にあれば、その帰無値は信頼できる値のひとつだと言える。

•  つまり、ひとつの事前確率から事後確率を算出し、帰無値の信頼性を評価する。

•  実際の例 –  キーボードゲーム（パラメタの値を評価する例） –  ホットハンド・ジンクス（パラメタの値の差を評価する例）

2013/08/25 4

【例】キーボードゲーム •  被験者に以下のようなゲームをプレイしてもらう。 •  被験者はディスプレイに表示された単語に対して適切なキーを叩く。 •  正解すると、報酬を得ることができる。ルールは図の通り。

2013/08/25 5

“radio” “ocean”

ディスプレイ “radio” “mountain”

キーボード F J F J

報酬報酬

【例】キーボードゲーム •  その後被験者に対して、これまでの学習からは正解がわからないテストを与える –  ディスプレイに “radio” とのみ表示する –  ディスプレイに ”ocean” と “mountain” の両方を表示する

•  それぞれのテストについて被験者の叩くキーが偏るか？

2013/08/25 6

[Prior] θ = (F が叩かれる回数 / J が叩かれる回数) とし、一様分布と仮定する。

[Likelihood] テストの結果得られた尤度。片方のキーに偏っている。

[Posterior] 事後確率の 95% HDI に θ = 0.5 が含まれなかった。すなわち、被験者は 50:50 でキーを選択するのではなく、いずれかに偏っていた。

【例】ホットハンド・ジンクス •  バスケットボールのジンクス：シュートに成功した後の方が、失敗した後よりもシュートが決まりやすくなる。à すなわち θ_AfterSuccess と θ_AfterFailure で違いがあるのか？

•  θ_AfterSuccess - θ_AfterFailure = 0 が 95% HDI 内に入っている。 à ジンクスなんてなかった

2013/08/25 7

相関するパラメタの場合 •  それぞれの場合のθの分布に着目しても、パラメタ間の関係は見えない。 •  相関の正負は、パラメタの差（この場合 θ1 - θ2）の分布の幅に現れる。

–  正の相関à近似直線（line of equality）の幅が狭い à 0 を 95% HDI に含まず、θ1 と θ2 が異なることを示している。

–  負の相関à近似直線の幅が広い

2013/08/25 8

θ1 とθ2 が相関する場合 θ1 とθ2 が逆相関する場合

95% HDI 0.0279 < (θ1 – θ2) < 0.206 狭い; 0 を HDI に含まない

95% HDI -0.26 < (θ1 – θ2) < 0.494 広い; 0 を HDI に含む

ROPE の導入

•  Region of Practical Equivalence •  ROPE を導入することで、実用的な範囲内で帰無値が信頼できるか否かを判断できるようになる。 –  幅を持たせることで、実用上十分なのに棄却してしまう可能性を減らす。

•  基本的な考え方 –  ROPE 全体が事後確率の 95% HDI の外にあれば、その帰無値は用いることが出来ない [1]

–  ROPE が事後確率の 95% HDI 全体を完全に含んでいれば、その帰無値は採用できる [2]

2013/08/25 9

ROPE 95% HDI 95% HDI ROPE [1] [2]

【例】コインは偏ってるか？

•  理想的なコイン: 表が出る確率 θ = 0.5 ß 帰無値 •  ROPE: θ = [0.45, 0.55] •  10,000 回コインを投げて 5,200 回表が出た。 •  à 95% HDI = [0.51, 0.53] •  帰無値は HDI に含まれないが、HDI は十分 ROPE 内に収まっている。 •  実用上、θ = 0.5 として扱って OK

2013/08/25 10

0.45 0.55 ROPE 0.51 0.53

95% HDI

0.50

帰無値

モデル比較アプローチ

•  次に、モデル比較として帰無値の信頼性を考える。 •  帰無モデル (null model): M_null

–  帰無値のみを許すモデル

•  対立モデル (alternative model): M_alt –  パラメタを広い範囲で許すモデル

•  この２つのモデルの比較として、仮説検定問題を捉え直す。

2013/08/25 11

M_null (θ1=θ2) M_alt (一様)

【例】ふたつのコインは同じ？ •  ふたつのコインの表が出る確率はそれぞれ θ1, θ2

•  M_null: θ1 = θ2 (ふたつのコインは同じという帰無仮説）

•  M_alt: 一様分布

•  コイントスの回数 N = 7 •  表が出た回数 z1 = 5, z2 = 2

•  p(D|M_null) = 1.94*10^(-5) •  p(D|M_alt) = 3.54*10^(-5) •  p(M_null) = p(M_alt) = 0.5

2013/08/25 12

M_alt がわずかながら勝利だが、Bayer’s Factor の値は小さい →棄却は難しい

【例】記憶力を高める BGM は？

•  被験者にある BGM がかかっている部屋の中で 20 個の単語を暗記してもらう。

•  θ_ij: 被験者 i が BGM j の元で単語を暗記できる割合 –  思い出せる or 思い出せない（二値）なので、ベータ関数で表すことが可能

θ_ij = beta(θ_ij|μ_j, κ_j, (1-μ_j)κ_i)

•  BGM の種類 (平均値) 1.  ヘビメタ (11.85) 2.  バッハ (9.85) 3.  ベートーベン (9.50) 4.  モーツァルト (9.60) à 何かを覚える時はクラシックよりもヘビメタ！

à では、この４つのグループに差があると言えるのか？「差がある」という帰無仮説は棄却されるのか？

2013/08/25 13

【例】記憶力を高める BGM は？ •  まずはパラメタ評価アプローチに戻って、それぞれのグループ間のパラメタに差があるか仮説検定を行う。 –  ホットハンド・ジンクスの例を参照

•  パラメタ μ_j の差をとって比較すると、各グループを [[1], [2, 3, 4]] と分けることができる。特にグループ 1 と 3, 4 の間の差が大きい。

2013/08/25 14

【例】記憶力を高める BGM は？ •  モデル比較アプローチでは、以下２つのモデルの比較として問題を捉え直す。 –  SameMu: ４つのグループ間で差がないとするモデル（帰無モデル） –  DiffMu: ４つのグループ間で差があるとするモデル（対立モデル）

•  MCMC で見てみると、SameMu の方が勝っている。 à ４つのグループには差がない？？

2013/08/25 15

【例】記憶力を高める BGM は？

•  結局、４つのグループは同じなの？違うの？ •  【モデル比較アプローチ】４つのパラメタをすべてのグループが共有するモデルと、それぞれのグループが異なるパラメタを持つモデルの比較では、前者の方が良かった。が、ベストではない。

•  【パラメタ評価アプローチ】４つのモデルで異なるパラメタを持たせて比較した結果、[[1], [2, 3, 4]] とグルーピングできた。

•  à グループ 1 とグループ 2, 3, 4 でパラメタを分ける 2-パラメタモデルが実は最も優秀である (Ex 12.1 で確認すべし)

2013/08/25 16

彼ってどんな性格なの？どうしようもなく駄目なひとなのか、とても潔癖で近づきがたいひとなのか、それとも、その間のどこかなのかな。

注意点パラメタ評価アプローチ •  ROPE と HDI の幅の比は、帰無値が正しい確率を表しているのではない。パラメタが帰無値に等しい確率を表しているのだ。

•  十分に比が大きい時のみ、この値は意味を持つ。何故なら、データが十分でないとき、HDI の幅が大きくなってこの比が小さくなる可能性があるからだ。

モデル比較アプローチ •  あくまで帰無モデルの信頼性は相対的なもの。

–  記憶と BGM の例を参照。

•  そのため、対立モデルは十分に吟味された、うまくいきそうなモデルを採用すべきである。 –  慣習だからといって、何も考えずに一様分布モデルを採用するのは危険。 –  ベストなモデルがその過程で見過ごされてしまう可能性がある。

•  そのためには、事前知識を駆使して妥当なモデルを考えること。

2013/08/25 17

Education

【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’) Hypothesis