2018年6月19日@統計モデリング
担当:田中冬彦
統計モデリング第九回 配布資料
文献:a) A. J. Dobson and A. G. Barnett:An Introduction to Generalized Linear Models 3rd ed., CRC Press, 2008.
配布資料の一部は以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8
b) J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models.,(Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.
ベイズ統計の基本と事後分布の数値的なサンプリング方法を学んだ
前回までの内容
ベイズ解析で再アプローチ
第八回と第九回では, これまでの知識を前提としてさまざまなモデルとベイズ解析の例をみていく
参考:
7/3: 第二回 グループ発表
7/10: 基礎工入試で休講
1. Gibbs Sampling と階層モデル
2. 一般化線形モデルでのベイズ的なアプローチ
第8,9 回でとりあげるテーマ
第九回一般化線形モデルのベイズ解析
第十回 グループ発表2
x
y
第十一回スパースモデリング1・因子分析
第十二回スパースモデリング2・GLM
今後の予定:10, 11は入れ替え予定
今日の内容
1.信用区間2.線形モデルのベイズ分析3.ロジスティック回帰モデル(ロジット回帰モデル)4.一般化線形モデルのベイズ分析5.3値以上のカウントデータ6.ロジスティック回帰モデルの拡張
本日の主役
ロジット回帰モデル
1 2 3
ijij
i i i
φξ
φ φ φ=
+ +
*ロジスティック, ロジットは同じ意味ですが混同して使います.
( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ
3322110)log( ijijijjij xxx ββββφ +++=
),6(~ ii qBinY ii
i xq
q211
log ββ +=−
多項ロジット回帰モデル
1. 信用区間
学部1年の教材から
例題:妖怪ウオッカの町内会視聴率
標本視聴率 ...2333.0307==
問:町内の子供がいる世帯全体での視聴率はどれくらい? (30世帯だと不確実さが大きい)
とある町内会
日本のアニメ「妖怪ウオッカ」が子供に大人気
町内で子供がいる世帯(500世帯以上!)→ ランダムに30世帯選んで調査→ 7世帯が視聴
信頼区間【復習】
各モデルについて公式代入【学部1年】
npppR )ˆ1(ˆ
96.1ˆ −+=
例:二項モデル( )の場合),(~ pnBinX
npppL )ˆ1(ˆ
96.1ˆ −−=
信頼区間 (Confidence Interval)
統計モデルのパラメータに幅をもたせた推定;
区間推定ともよぶ.
nXp =ˆ ← 単純平均で推定(第八回参照)
← 簡単のため 95% 信頼区間で固定
信頼区間の問題点
次にベイズ統計の場合を見てみる
例:二項モデル( )の場合),(~ pnBinX
0086.0 <−=L
問題点
1. 二項モデル → n 大の近似式!
2. では問題あり!(下の例)
3. 解釈が難しく, 誤解が蔓延!
1;10 == Xn
0ˆ ≈p
95%信用区間
パラメータの信用区間 (Credible Interval)事後分布で確率 95% の区間
複数パラメータの信用域 (Credible Region)
事後分布で確率 95% となる領域
利点 (分析者による事前分布の設定は必要だが)
・ 正確な式!
・ でも問題なし!
・ 解釈が容易!
0ˆ ≈p
[ ]
* 説明しやすいように, 95% で固定(99%, 90% etc. でも全く同様)
事後分布
これを
定義: 信用域と信用区間
{ }05.0)|(:: kxC ≥= θπθπ
)|( xθπ
)](),([ xRxLC πππ =
以下のパラメータ集合を HPD-95% 信用域という
95.0)|( =∈ xCπθπただし,
特に1次元パラメータで事後分布が単峰なら閉区間
HPD-95 % 信用区間という
HPD 95%信用区間
HPD = Highest Posterior Density
cf) 頻度論での95%信頼区間はパラメータが区間に入る確率95%という解釈ではなかった
信用区間を分位点(quantile) を用いて求めるケース
)](~),(~[~ xRxLC =π
1次元パラメータで事後分布が単峰の場合, 上側 2.5%点, 下側 2.5% 点 を求めるケースもあり (求め方が簡単)
分位点を利用した95%信用区間
1.単峰で対称な分布の場合, 両者は一致.
2.HPDは区間幅が最小 (ただし, 計算がめんどう.)
%5.2)|()(~ =∫
+∞θθπ dx
xR%5.2)|()(~
=∫ ∞−θθπ dx
xL
分位点(quantile) とHPDの違い
二項分布+ベータ分布【再掲】
),(~ qnBinX統計モデル=二項モデル(n回の試行)
事前分布=ベータ分布【共役事前分布】
n回試行, x回成功した場合の事後分布
)1,1(~ Betaq
)1)(,1(~ +−+ xnxBetaq
n=10, x=1 の場合で95% 信用区間を見てみる
0.0 0.2 0.4 0.6 0.8 1.0
01
23
4
Prior and Posterior
q
Den
sity
PriorPosterior
計算例
10回試行, 1回成功の時の事後分布 (推定値 0.1)
91 )1()10,2(
1)1|( qqB
xq −==π
理解度チェック:信用区間
95%信頼区間の公式は統計モデルの仮定や近似の下で導出されており、使用が適切でない場合もある
95%信頼区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が95%という意味である.
信用区間は、共役事前分布が存在する統計モデルでしか使えない
95%信用区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が95%という意味である.
2. 線形モデルのベイズ分析
回帰分析(B-2/C-2資料より)【第二回より】
O大学 新入生のみずほさんは賃貸情報をネットで検索. 以下のようなデータを得ました.
例題: みずほの部屋探し
最寄り駅からの距離 (徒歩):一カ月の賃料 (万円): 8 7.3 6.2 4 4.2 3.5
豊中キャンパス近くの賃貸物件(1K)
問 徒歩で1分増えると家賃がどのくらい安くなりますか。
幅をもたせて答えてください
3 5 6 10 11 17
6,,2,1 =i
x: 最寄駅からの距離(分:徒歩換算),y:一か月の家賃 (万円)
線形モデル【第二回】
),0(~ vNiεiii xY εββ ++= 21
モデルのパラメータ, v;, 21 ββ
線形モデル(回帰モデル)
0 5 10 15 20
02
46
810
Kaiki
Min Walk
10^4
YE
N
ベイズ分析では これらに事前分布をいれる
線形モデルの事前分布 (1/2)設定例1
固定パラメータ sa,,, 2*
1* ββ
),(~ 1−saIGv
【共役事前分布】
),(~| 1*
1 vNv ββ
← 逆ガンマ分布
vが十分大きい場合, としてよい.
),(~| 2*
2 vNv ββ
* *1 2 0β β= =
事後分布がかなり煩雑な形になるので、簡単化した例で考える
vsa
a
evs
asaIG /
11
)(1),( −
+−
Γ↔
注: 上で, v はハイパーパラメータではない(WHY?)
設定例2(簡単バージョン)
注意
( )σ
σπσ 1~ =
( ) 1~ =jj βπβ
← スケールフリー
事前分布 → 積分発散! (確率になってない)事後分布 → 確率分布
事後分布の計算例と分析結果を紹介(細かい式は気にしなくてよい)
2,1=j
線形モデルの事前分布 (2/2)
v=2σ
分析例
),|( 2 yxβπ
∑=
−=n
ii xxUV
1
222 )(/:
ii
n
iii xyyy
nU 21
1
22 ˆˆ:ˆ,)ˆ(2
1: ββ +=−−
= ∑=
← 自由度 n-2 のt 分布
一般の回帰分析でも同様 (MCMCは不要だが計算が煩雑)
21
222
/)ˆ(1'
−−
−+=
n
xxnSESC ββ
∑=
−=n
iixx xx
nS
1
2)(1:
21)2(
2
222 )ˆ()2(
+−−
−
+−=
n
VnC ββ
-0.5 -0.4 -0.3 -0.2 -0.1
02
46
810
12
Posterior of coefficient
beta_2
Pos
t.
回帰係数の推定値と95%信用区間
推定値: -0.34, 95%信用区間= [-0.43, -0.26]
iii xY εββ ++= 21
回帰係数の事後分布
同時確率密度(簡単バージョン)
参考:線形モデルの事後分布(1/2)
( )( ) ( ) ESAn eeCyx
T2
12 2
1ˆˆ2
11,|, σ
ββββσσσβπ
−−−−+−
−
=
: TA X X= 1ˆ : TA X yβ −=
ijxX =: [ ]
2 ˆˆ ˆ: , :ES y y y X β= − =
ni ,,2,1 =
),0(~ 2σε Ni
iippii xxY εββ +++= 11
線形モデル(回帰モデル)
εβ += XY ni ,,2,1 =pj ,,2,1 =
11 =ix
積分公式
( ) ( ) ( ) 22
1 ˆˆ1',|
−−
−
−−+=
nT
ESACyx βββββπ
←多次元 t 分布
回帰係数の周辺確率密度
−Γ= +−∞ −
+−∫ 122
1 12/
0
1 2 nbde nb
n σσ σ
誤差分散の周辺確率密度
( ) 221,| σσσπES
np eDyx−
+−=
2σ=v とおくと
−−
ESpnIGv 2,2
2~ ← 逆ガンマ分布
参考:線形モデルの事後分布(2/2)
3. ロジスティック回帰モデル(ロジット回帰モデル)
-5 0 5 10 15 20 25 300.
00.
20.
40.
60.
81.
0
Damaged O rings vs Temp
Temperature(C)
Pro
b of
dam
age
Oリング破損数と気温の関係 (再掲)
破損数 破損率 摂氏温度5 5/6 11.6
・・・・・・・・
1 1/6 23.8・・・・
0 0/6 27.2
iy ix
第一回で紹介したデータ・Oリング: スペースシャトルに6つ搭載・毎回の打ち上げ時, 6つのうちいくつか破損
/ 6iy
ix
23件
問 適当なモデルを設定し, 摂氏 -0.56 度で破損確率を推定しなさい. ただし, 幅をもたせて答えること.
23,,2,1 =i
統計モデルの導入
),(~ iii qnBinY
目的変数 ( i 番目の打ち上げで破損するOリングの数)
最初のアイディア
→ 上限ありのカウントデータなので二項分布で表現
(今回は )
各 i 番目の打ち上げにおける と説明変数(打ち上げ時気温)をどう結び付けるか 【 第八回 のモデルとの違いは?】
工夫を要する点
iq
6=in
ロジスティック回帰モデル
モデルのパラメータ, kββ ,,1
一般的な形
ni ,,2,1 =),(~ iii qnBinY
∑=
=−
k
jijj
i
i xq
q11
log β
i 番の説明変数, ( )ikii xxx ,,1 = 11 =ix
Oリングの場合
モデルのパラメータ, 21,ββ
統計モデル
23,,2,1 =i),6(~ ii qBinY
ii
i xq
q211
log ββ +=−
無情報事前分布の例 (共役事前分布はない)
)10,0(~),10,0(~ 62
61 NN ββ
気温(C)ix iq Oリングの破損率
事後分布をMCMCで
(a) MCMCサンプルの例),( 21 ββ
(b) MCMCサンプルを用いたベイズ分析
-4.251900 -0.4722423-4.251900 -0.4722423-4.251900 -0.4722423-3.967638 -0.4631124-3.710819 -0.4088345-3.710819 -0.4088345-3.739178 -0.4965064-3.455387 -0.3499806
.... -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
Random Walk Monte Carlo
beta1be
ta2
1. パラメータ の推定値と信用区間(線形モデルと同様)2. 曲線へのあてはめのよさの視覚化3. 摂氏 -0.56度での破損確率と信用区間
),( 21 ββ
プログラム例ilogit <- function(y){ exp(y)/(1+exp(y) );}; # logit関数の逆関数を定義plot(damage/6 ~ temp, orings_new_org, xlim=(c(25,85)-32)*5/9, ylim=c(0,1), xlab="Temperature(C)", ylab="Prob of damage", main="Fitted Curve by Logit Regression");for( j in (Nsim-500):Nsim){ curve(ilogit(beta[j,1] + beta[j,2]*(x - mean_temp ) ), add=T, col=rgb(1,0,1, alpha=0.1));}curve(ilogit(beta_mle[1] + beta_mle[2]*(x - mean_temp ) ), add=T, col="blue", lwd=3);
標準偏差 1, 0.2 でRW青線: MLEでの推定値ピンク(透過色): MCMC4000のうち最後の500サンプル
・気温が低い所→ データがないため曲線のばらつきが大きい
・気温が高い所→ データがあり、曲線のばらつきが小さい
曲線へのあてはめ
最尤推定値(MLE)による曲線を太線; モンテカルロサンプルを透過色で重ねて書く
あてはめのよさの視覚化
視覚的にわかること
(a) 摂氏 度で打ち上げる場合
C
C
x
x
eeq
21
21
1)( ββ
ββ
β +
+
+=
(b) 事後分布を用いたベイズ推定値は以下の積分でかける
56.0−=CxOリングの破損確率 を を用いてかくとq Cx,, 21 ββ
∫= 2)|()()(ˆ
RdDqq ββπββ
(c) MCMCサンプル(*) を用いた (b) の近似値は
∑=
≈M
ttq
Mq
1)( )(1)(ˆ ββ
)()2()1( ,,, Mβββ
摂氏 -0.56度での予測(1/2)
*前半のサンプルを捨てて, 番号を付けなおしている.
プログラム例 (一部抜粋)L_NUM <- 100; INTERVAL <- seq(from=0, to=1, length.out=L_NUM);L <- array(0, L_NUM);for (j in 1:(L_NUM-1) ){
L[j] <- sum( ( INTERVAL[j] < p_sample ) & (p_sample <= INTERVAL[j+1]) )/length(p_sample) ;}
# L の要素を大きい順に並べ替えて逐次足していく → ぎりぎり95%となる最大の番号(MAX_INTE)を見つけるMAX_INTE <- sum( cumsum(sort(L, decreasing=TRUE)) < 0.95 );
# 大きい順に 番号(MAX_INTE) の値以上の確率をもつLの番号を調べる(連続した値)which( L >= sort(L, decreasing=TRUE)[MAX_INTE]);
# 大きい順に 番号(MAX_INTE) の値以上の確率をもつ Lに対応する INTERVAL(左端の値)を調べるINTERVAL[ L >= sort(L, decreasing=TRUE)[MAX_INTE] ];
*ベイズ推定値は40000サンプル発生して後半20000 を利用.3ケタ目以降は安定しないので, 2ケタで表示
破損確率と95%信用区間
ベイズ*: 破損確率: 0.98, 95%信用区間= [0.93, 1.00]
摂氏 -0.56度での予測(2/2)
理解度チェック:線形モデルとロジット回帰1.みずほさんの調べたデータでは、徒歩1分 につき、家賃はどのくらい安くなりましたか?
2.線形モデルのベイズ分析ではMCMC法は必要ですか。理由をつけて答えなさい。
3. 以下のモデル式を書いてきた学生がいます。何が問題ですか。
),(~ iii qnBinY 1 2i iq xβ β= +
)10,0(~),10,0(~ 62
61 NN ββ
2600円~4300円
共役事前分布が使えるので必ずしも必要ではない.
q がマイナスになってしまう.
4. 一般化線形モデルのベイズ分析
ここでの目標
GLMのベイズ分析として, これまでの話を整理
一般化線形モデル
線形モデル
ポアソン回帰モデル (第三回)
ロジスティック回帰モデル
etc.
1.Yの分布
iiY µ=][E
一般化線形モデル (Generalized Linear Model)
リンク関数
∑=
+=p
jijji xg
1)( βαµ
)(µg
指数型分布族
2.X, Yを結び付ける関係式 (モデルの解釈や計算の都合で設定)
指数型分布族:正規分布, 二項分布、ポアソン分布などを含む広い確率分布のクラス(色々と性質が良い)
*Nelder and Wedderburn (1972)
ただし,
一般化線形モデル【再掲】
リンク関数の例
(1)
µµµ−
=1
log)(g
][E ii Y=µ
(← (絶対)連続確率変数の累積分布関数で狭義単調増加なら, 逆関数を利用可)
∞<<∞− iµ (実数全体)
を実数全体に1:1でうつすことがポイント
10 ≤≤ iµ
)(1 µ−Φ
ロジット関数
プロビット:標準正規分布の累積分布関数の逆関数
(2) 0≥iµ
µµ log)( =g
(3)
µµ =)(g
まとめ:GLMのベイズ分析
および他のパラメータに事前分布を導入βベイズによる方法
ベイズ解析の流れ【復習】
∑=
=p
jijji xg
1)( βµ
Step. 1: 統計モデルの設定 【 モデル式 】
Step. 2: 事前分布の設定 【 モデル式 】
Step. 3: 事後分布の計算 (MCMCサンプリング)
Step. 4: 事後分布 (MCMCサンプル)を用いた分析
ここが目標
グループワークなどで評価
5. 3値以上のカウントデータ
本日のデータ
アンケート調査:車の購入で何を重視するか
性別: 男・女年代: 18-23, 24-40, 41-回答: 「エアコンとパワステ」をセットにして,
1.あまり重視しない, 2. 重視, 3. とても重視 (3段階)
・パワーステアリング(Power Steering)の略; 自動車の運転でハンドルを切るのを楽にする機構 (普通の車にはついてる)
パワステ
* M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42 (2000), 676—682.
エアコン・エアコンディショナー(Air Conditioner) の略;
ここでは自動車に搭載されているエアコンのこと(普通の車にはついてる)
回答
性別 年齢層 重視しない
重視 とても重視
合計
女性 18-23 26 12 7 4524-40 9 21 15 45> 40 5 14 41 60
男性 18-23 40 17 8 6524-40 17 15 12 44> 40 8 15 18 41
全体 105 94 101 300
整理したデータアンケート結果 (Dobson & Barnett (2008) 表8-1; オリジナルは文献(a) )
(a) M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42(2000), 676—682.
エアコンとパワステ男女別(左:女性, 右:男性)に比較;年齢が上がるとエアコンとパワステ重視の比率が増える傾向がみえる
実線: 重視しない緑点線: 重視青点線: とても重視
freq <- array(0, c(6,3)); freq[,1] <- c(26,9,5,40,17,8); freq[,2] <- c(12,21,14,17,15,15); freq[,3] <- c(7,15,41,8,12,18);rel_freq <- freq/apply(freq, 1, sum);rel_freq_f <- rel_freq[1:3,]; rel_freq_m <- rel_freq[4:6,]; # 男女別にする# 女性のプロット (男性も同様)plot(rel_freq_f[,1], type="b", lwd=2, ylim=c(0, 0.8), main="Car Preferences of Woman", xlab="Age", ylab="Proportion", xaxt="n");points(rel_freq_f[,2], type="b", lwd=2, lty=2, col=3); points(rel_freq_f[,3], type="b", lwd=2, lty=3, col=4);axis(side=1, at = 1:3, labels=c("18-23", "24-40", "Over40"));
0.0
0.2
0.4
0.6
0.8
Car Preferences of Woman
Age
Pro
porti
on
18-23 24-40 Over40
0.0
0.2
0.4
0.6
0.8
Car Preferences of Man
Age
Pro
porti
on
18-23 24-40 Over40
プログラム例
分析の課題
男女・年齢層による、エアコン・パワステ重視度の違いを定量的に検討せよ(どのようなモデルを用いればよいか?)
統計モデリングの課題
6. ロジスティック回帰モデルの拡張
→ ロジット回帰, ポアソン回帰など
今回のデータの難しさ
例:Oリングデータ(Oリングの1つ1つが破損, 破損してない)二択アンケート(YES/NO)
例:三択アンケート (YES/NO / どちらともいえない)3種類のラーメンの注文数 (みそ/しお/とんこつ)Amazonの点数評価 (1,2,3,4,5)
目的変数が2値のカウントデータ
目的変数が3値以上のカウントデータ
→
多項モデル【第二回】
ツボの中に k 色の小さいボールを大量に入れる (N個).
その比率は
多項モデル
意味:
kξξξ ,,, 21
121 =+++ kξξξ
m (<< N)個のボールを取り出す試行を考えるとき, 各色のボールの個数を
kXXX ,,, 21
とする.
),,;(~),,,( 121 kk mMXXX ξξ
),,;( 1 kmM ξξ
1 2( )kX X X m+ + + =
考えてみよう次の三択アンケートは、多項分布でモデル化できる.問
車をもっているO大学の学生のうち100人を無作為抽出して、
車の購入でパワステ・エアコンをどれくらい重視するか三択で答えてもらった.
1.重視しない 2. 重視 3.とても重視
1は30人, 2は25人、3は45人だった。
多項分布の各記号は、何に対応していると考えられるか?
k
m
kξξξ ,,, 21
選択肢の数 ( 3 )
無作為抽出された学生の数 ( 100 )
O大学の学生全体での真の比率
多項分布を用いたモデル化
多項分布を用いたモデル
( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ
6,,2,1 =i
次に, 上の を説明変数と結びつけるiξ
i 番目のグループのアンケート結果
調査対象の属性
性別:男・女年代:18-23, 24-40, 41-
6種類の母集団と考える
名目ロジット回帰(多項ロジット回帰)
各 i=1,2,...,n
∑=
=S
sissjij x
1)log( βφ
∑=
= k
jij
ijij
1φ
φξ
一般的な形
*他にも対数線形モデルなどがある (交互作用項をみる場合に使う)
kj ,,2,1 =
ijφ11 ≡iφ
kj ,,2 =
Ssxis ,,2,1; = i 番目のグループの説明変数(年収、職業 etc.)
i 番目のグループが選択肢 j を選ぶ重みパラメータ (0以上)
(基準化)
( )1 1, , ~ ( ; , , )i ik i i ikY Y M m ξ ξ
カテゴリカル説明変数の扱い
・連続変数・順序つきカテゴリカル変数・順序なしカテゴリカル変数
一般の説明変数の分類
説明変数の例 (ダミー変数の使用例)
年代3通り → 2値変数を2つ用意 ( k通りの分類なら k-1個の2値変数)
=01
1ix
=01
2ix
男性
女性
24~40歳 41歳~
i 番目のグループの説明変数(共変量)は以下で設定 【今回の場合】
それ以外
=01
3ixそれ以外
最終的な統計モデルと事前分布
3322110)log( ijijijjij xxx ββββφ +++=
∑=
= 3
1jij
ijij
φ
φξ
名目ロジット回帰モデル (6グループ, 3択回答)
3,2=j11 ≡iφ エ・パ重視しない (j=1)
2iφ3iφ
エ・パ重視 (j=2)
エ・パとても重視 (j=3)
重み
【本来はいろいろ試すべき】
3,2=j)10,0(~,,, 43210 Njjjj ββββ
無情報事前分布
WinBUGSを利用した結果を紹介 (詳細は別資料)
( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ 6,,2,1 =i
モデルの意味を考えてみよう
Q1. 例にならって次の場合に重みパラメータを書き出してみよ.
例: 18-23歳, 女性のグループ i が, 「3. とても重視」を選ぶ重み
3 03log( )iφ β=
a) 18-23歳, 男性のグループ i が, 「3. とても重視」を選ぶ重み
3 03 13log( )iφ β β= +
b) 41歳以上, 男性のグループ i が, 「3. とても重視」を選ぶ重み
3 03 13 33log( )iφ β β β= + +
Q2. 4つのグループ(男,女)× (18-23, 41-) について, とても重視と重視しないの相対的な比率(オッズ比)をパラメータの式で表すと以下のようになる. 空欄を埋めよ.
「3. とても重視」の比率
「1. 重視しない」の比率
3iφ =
03 13 33eβ β β+ +
3iφ=
03 33eβ β+
18-23歳, 女性のグループ03eβ
03 13eβ β+18-23歳, 男性のグループ
41歳以上, 女性のグループ
41歳以上, 男性のグループ
モデルの意味を考えてみよう
オッズ比 推定値(事後平均)
95%信用区間(事後分布から計算)
0.70 (0.350,1.23)3.32 (1.65,6.23)5.35 (2.16,10.7)
0.457 (0.240,0.818)4.90 (2.14,10.2)21.6 (8.42,49.7)
分析結果オッズ比の推定値と信用区間 (Dobson & Barnett (2008) 表14-4と似た結果)
32βe
22βe
12βe
33βe
23βe
13βe
分析結果について考察せよ. (結果は非ベイズでも同様になる.)たとえばエアコンとパワステを重視する度合いは、男女の違いと年齢の違い、どちらの影響が大きいだろうか.
まとめ:多項ロジット回帰のベイズ分析
1.重みパラメータを設定; 説明変数と関連づける2.カテゴリカル変数(性別、年代、職業 etc. )は, ダミー変数3.オッズ比によって、推定パラメータの解釈がしやすくなる
モデル構築の要点
ベイズ統計は今回で終了; 次回からスパースモデリング
名目尺度 (Nominal Scale)データ
k種類の値に順序はなくラベルを張り替えられるようなデータ※今回は三段階評価だが簡単のため名目尺度で扱った.
→ 多項ロジット回帰 【今回】
k種類の値に自然な順序がつけられるデータ (成績評価など)
順序尺度 (Ordinal Scale)データ
→ 潜在変数モデルの導入(難)
参考:順序尺度データの場合
分類を表す添え字 i は省略
]),(( 1 jjj CCZP −∈=ξ
潜在変数モデル (Latent Variable Model)
潜在変数Zの分布, カットポイントと説明変数Xの対応付けはGLMとは大きく異なるため本講義の範囲外 (累積ロジットモデルなどがある )
← 観測できない連続変数Z (潜在変数)によって決まる;
+∞=−∞= − kk CCCC ,,,, 110
← k-1個のカットポイントがパラメータ
*実際には(5段階評価でも)連続データとみなして解析することが多い【← 理論的には望ましいとは限らないが】
例: S, A, B, C, F ))5.49,(( −∞∈= ZPFξ
)),105[( ∞∈= ZPSξ