Download pdf - 統計モデリング第九回配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/sm18_9_haifu.pdf設定例2（簡単バージョン）注意 ( ) σ

２０１８年６月１９日＠統計モデリング

担当：田中冬彦

統計モデリング第九回配布資料

文献:a) A. J. Dobson and A. G. Barnett:An Introduction to Generalized Linear Models 3rd ed., CRC Press, 2008.

配布資料の一部は以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8

b) J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models.,(Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.

ベイズ統計の基本と事後分布の数値的なサンプリング方法を学んだ

前回までの内容

ベイズ解析で再アプローチ

第八回と第九回では, これまでの知識を前提としてさまざまなモデルとベイズ解析の例をみていく

参考：

7/3：第二回グループ発表

7/10: 基礎工入試で休講

1. Gibbs Sampling と階層モデル

2. 一般化線形モデルでのベイズ的なアプローチ

第8,9 回でとりあげるテーマ

第九回一般化線形モデルのベイズ解析

第十回グループ発表２

x

y

第十一回スパースモデリング１・因子分析

第十二回スパースモデリング２・GLM

今後の予定：10, 11は入れ替え予定

今日の内容

１．信用区間２．線形モデルのベイズ分析３．ロジスティック回帰モデル（ロジット回帰モデル）４．一般化線形モデルのベイズ分析５．３値以上のカウントデータ６．ロジスティック回帰モデルの拡張

本日の主役

ロジット回帰モデル

1 2 3

ijij

i i i

φξ

φ φ φ=

+ +

＊ロジスティック, ロジットは同じ意味ですが混同して使います.

( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ

3322110)log( ijijijjij xxx ββββφ +++=

),6(~ ii qBinY ii

i xq

q211

log ββ +=−

多項ロジット回帰モデル

１. 信用区間

学部１年の教材から

例題：妖怪ウオッカの町内会視聴率

標本視聴率 ...2333.0307==

問：町内の子供がいる世帯全体での視聴率はどれくらい？（３０世帯だと不確実さが大きい）

とある町内会

日本のアニメ「妖怪ウオッカ」が子供に大人気

町内で子供がいる世帯（５００世帯以上！）→ ランダムに３０世帯選んで調査→ ７世帯が視聴

信頼区間【復習】

各モデルについて公式代入【学部１年】

npppR )ˆ1(ˆ

96.1ˆ −+=

例：二項モデル( )の場合),(~ pnBinX

npppL )ˆ1(ˆ

96.1ˆ −−=

信頼区間 (Confidence Interval)

統計モデルのパラメータに幅をもたせた推定;

区間推定ともよぶ.

nXp =ˆ ← 単純平均で推定（第八回参照）

← 簡単のため 95% 信頼区間で固定

信頼区間の問題点

次にベイズ統計の場合を見てみる

例：二項モデル( )の場合),(~ pnBinX

0086.0 <−=L

問題点

１．二項モデル → n 大の近似式！

２．では問題あり！（下の例）

３．解釈が難しく, 誤解が蔓延！

1;10 == Xn

0ˆ ≈p

95%信用区間

パラメータの信用区間 (Credible Interval)事後分布で確率９５％の区間

複数パラメータの信用域 (Credible Region)

事後分布で確率９５％となる領域

利点 (分析者による事前分布の設定は必要だが)

・正確な式！

・でも問題なし！

・解釈が容易！

0ˆ ≈p

[ ]

* 説明しやすいように, 95% で固定(99%, 90% etc. でも全く同様)

事後分布

これを

定義：信用域と信用区間

{ }05.0)|(:: kxC ≥= θπθπ

)|( xθπ

)](),([ xRxLC πππ =

以下のパラメータ集合を HPD-95% 信用域という

95.0)|( =∈ xCπθπただし,

特に１次元パラメータで事後分布が単峰なら閉区間

HPD-95 % 信用区間という

HPD 95%信用区間

HPD = Highest Posterior Density

cf) 頻度論での95%信頼区間はパラメータが区間に入る確率95%という解釈ではなかった

信用区間を分位点(quantile) を用いて求めるケース

)](~),(~[~ xRxLC =π

１次元パラメータで事後分布が単峰の場合, 上側 2.5%点, 下側 2.5% 点を求めるケースもあり (求め方が簡単)

分位点を利用した95%信用区間

１．単峰で対称な分布の場合, 両者は一致.

２．HPDは区間幅が最小 (ただし, 計算がめんどう.)

%5.2)|()(~ =∫

+∞θθπ dx

xR%5.2)|()(~

=∫ ∞−θθπ dx

xL

分位点(quantile) とHPDの違い

二項分布＋ベータ分布【再掲】

),(~ qnBinX統計モデル＝二項モデル（n回の試行）

事前分布＝ベータ分布【共役事前分布】

n回試行, x回成功した場合の事後分布

)1,1(~ Betaq

)1)(,1(~ +−+ xnxBetaq

n=10, x=1 の場合で95% 信用区間を見てみる

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

Prior and Posterior

q

Den

sity

PriorPosterior

計算例

10回試行, 1回成功の時の事後分布（推定値 0.1）

91 )1()10,2(

1)1|( qqB

xq −==π

理解度チェック：信用区間

９５％信頼区間の公式は統計モデルの仮定や近似の下で導出されており、使用が適切でない場合もある

９５％信頼区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が９５％という意味である.

信用区間は、共役事前分布が存在する統計モデルでしか使えない

９５％信用区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が９５％という意味である.

２. 線形モデルのベイズ分析

回帰分析（B-2/C-2資料より）【第二回より】

O大学新入生のみずほさんは賃貸情報をネットで検索. 以下のようなデータを得ました.

例題：みずほの部屋探し

最寄り駅からの距離 (徒歩)：一カ月の賃料 (万円)： 8 7.3 6.2 4 4.2 3.5

豊中キャンパス近くの賃貸物件（１K）

問徒歩で１分増えると家賃がどのくらい安くなりますか。

幅をもたせて答えてください

3 5 6 10 11 17

6,,2,1 =i

x: 最寄駅からの距離(分：徒歩換算),y:一か月の家賃 (万円)

線形モデル【第二回】

),0(~ vNiεiii xY εββ ++= 21

モデルのパラメータ, v;, 21 ββ

線形モデル（回帰モデル）

0 5 10 15 20

02

46

810

Kaiki

Min Walk

10^4

YE

N

ベイズ分析ではこれらに事前分布をいれる

線形モデルの事前分布 (1/2)設定例１

固定パラメータ sa,,, 2*

1* ββ

),(~ 1−saIGv

【共役事前分布】

),(~| 1*

1 vNv ββ

← 逆ガンマ分布

vが十分大きい場合, としてよい.

),(~| 2*

2 vNv ββ

* *1 2 0β β= =

事後分布がかなり煩雑な形になるので、簡単化した例で考える

vsa

a

evs

asaIG /

11

)(1),( −

+−

Γ↔

注: 上で, v はハイパーパラメータではない(WHY?)

設定例２（簡単バージョン）

注意

( )σ

σπσ 1~ =

( ) 1~ =jj βπβ

← スケールフリー

事前分布 → 積分発散！（確率になってない）事後分布 → 確率分布

事後分布の計算例と分析結果を紹介（細かい式は気にしなくてよい）

2,1=j

線形モデルの事前分布 (2/2)

v=2σ

分析例

),|( 2 yxβπ

∑=

−=n

ii xxUV

1

222 )(/:

ii

n

iii xyyy

nU 21

1

22 ˆˆ:ˆ,)ˆ(2

1: ββ +=−−

= ∑=

← 自由度 n-2 のt 分布

一般の回帰分析でも同様（MCMCは不要だが計算が煩雑）

21

222

/)ˆ(1'

−−

−+=

n

xxnSESC ββ

∑=

−=n

iixx xx

nS

1

2)(1:

21)2(

2

222 )ˆ()2(

+−−

−

+−=

n

VnC ββ

-0.5 -0.4 -0.3 -0.2 -0.1

02

46

810

12

Posterior of coefficient

beta_2

Pos

t.

回帰係数の推定値と９５％信用区間

推定値: -0.34, ９５％信用区間= [-0.43, -0.26]

iii xY εββ ++= 21

回帰係数の事後分布

同時確率密度（簡単バージョン）

参考：線形モデルの事後分布(1/2)

( )( ) ( ) ESAn eeCyx

T2

12 2

1ˆˆ2

11,|, σ

ββββσσσβπ

−−−−+−

−

=

: TA X X= 1ˆ : TA X yβ −=

ijxX =: [ ]

2 ˆˆ ˆ: , :ES y y y X β= − =

ni ,,2,1 =

),0(~ 2σε Ni

iippii xxY εββ +++= 11

線形モデル（回帰モデル）

εβ += XY ni ,,2,1 =pj ,,2,1 =

11 =ix

積分公式

( ) ( ) ( ) 22

1 ˆˆ1',|

−−

−

−−+=

nT

ESACyx βββββπ

←多次元 t 分布

回帰係数の周辺確率密度

−Γ= +−∞ −

+−∫ 122

1 12/

0

1 2 nbde nb

n σσ σ

誤差分散の周辺確率密度

( ) 221,| σσσπES

np eDyx−

+−=

2σ=v とおくと

−−

ESpnIGv 2,2

2~ ← 逆ガンマ分布

参考：線形モデルの事後分布(2/2)

３. ロジスティック回帰モデル(ロジット回帰モデル)

-5 0 5 10 15 20 25 300.

00.

20.

40.

60.

81.

0

Damaged O rings vs Temp

Temperature(C)

Pro

b of

dam

age

Oリング破損数と気温の関係 (再掲)

破損数破損率摂氏温度5 5/6 11.6

・・・・・・・・

1 1/6 23.8・・・・

0 0/6 27.2

iy ix

第一回で紹介したデータ・Oリング: スペースシャトルに６つ搭載・毎回の打ち上げ時, 6つのうちいくつか破損

/ 6iy

ix

23件

問適当なモデルを設定し, 摂氏 -0.56 度で破損確率を推定しなさい. ただし, 幅をもたせて答えること.

23,,2,1 =i

統計モデルの導入

),(~ iii qnBinY

目的変数 ( i 番目の打ち上げで破損するOリングの数)

最初のアイディア

→ 上限ありのカウントデータなので二項分布で表現

（今回は）

各 i 番目の打ち上げにおけると説明変数(打ち上げ時気温)をどう結び付けるか【第八回のモデルとの違いは？】

工夫を要する点

iq

6=in

ロジスティック回帰モデル

モデルのパラメータ, kββ ,,1

一般的な形

ni ,,2,1 =),(~ iii qnBinY

∑=

=−

k

jijj

i

i xq

q11

log β

i 番の説明変数, ( )ikii xxx ,,1 = 11 =ix

Oリングの場合

モデルのパラメータ, 21,ββ

統計モデル

23,,2,1 =i),6(~ ii qBinY

ii

i xq

q211

log ββ +=−

無情報事前分布の例 (共役事前分布はない)

)10,0(~),10,0(~ 62

61 NN ββ

気温(C)ix iq Oリングの破損率

事後分布をMCMCで

(a) MCMCサンプルの例),( 21 ββ

(b) MCMCサンプルを用いたベイズ分析

-4.251900 -0.4722423-4.251900 -0.4722423-4.251900 -0.4722423-3.967638 -0.4631124-3.710819 -0.4088345-3.710819 -0.4088345-3.739178 -0.4965064-3.455387 -0.3499806

.... -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

Random Walk Monte Carlo

beta1be

ta2

1. パラメータの推定値と信用区間（線形モデルと同様）2. 曲線へのあてはめのよさの視覚化3. 摂氏 -0.56度での破損確率と信用区間

),( 21 ββ

プログラム例ilogit <- function(y){ exp(y)/(1+exp(y) );}; # logit関数の逆関数を定義plot(damage/6 ~ temp, orings_new_org, xlim=(c(25,85)-32)*5/9, ylim=c(0,1), xlab="Temperature(C)", ylab="Prob of damage", main="Fitted Curve by Logit Regression");for( j in (Nsim-500):Nsim){ curve(ilogit(beta[j,1] + beta[j,2]*(x - mean_temp ) ), add=T, col=rgb(1,0,1, alpha=0.1));}curve(ilogit(beta_mle[1] + beta_mle[2]*(x - mean_temp ) ), add=T, col="blue", lwd=3);

標準偏差 1, 0.2 でRW青線： MLEでの推定値ピンク（透過色）： MCMC４０００のうち最後の５００サンプル

・気温が低い所→ データがないため曲線のばらつきが大きい

・気温が高い所→ データがあり、曲線のばらつきが小さい

曲線へのあてはめ

最尤推定値(MLE)による曲線を太線；モンテカルロサンプルを透過色で重ねて書く

あてはめのよさの視覚化

視覚的にわかること

(a) 摂氏度で打ち上げる場合

C

C

x

x

eeq

21

21

1)( ββ

ββ

β +

+

+=

(b) 事後分布を用いたベイズ推定値は以下の積分でかける

56.0−=CxOリングの破損確率をを用いてかくとq Cx,, 21 ββ

∫= 2)|()()(ˆ

RdDqq ββπββ

(c) MCMCサンプル(*) を用いた (b) の近似値は

∑=

≈M

ttq

Mq

1)( )(1)(ˆ ββ

)()2()1( ,,, Mβββ

摂氏 -0.56度での予測(1/2)

*前半のサンプルを捨てて, 番号を付けなおしている.

プログラム例 (一部抜粋)L_NUM <- 100; INTERVAL <- seq(from=0, to=1, length.out=L_NUM);L <- array(0, L_NUM);for (j in 1:(L_NUM-1) ){

L[j] <- sum( ( INTERVAL[j] < p_sample ) & (p_sample <= INTERVAL[j+1]) )/length(p_sample) ;}

# L の要素を大きい順に並べ替えて逐次足していく → ぎりぎり９５％となる最大の番号(MAX_INTE)を見つけるMAX_INTE <- sum( cumsum(sort(L, decreasing=TRUE)) < 0.95 );

# 大きい順に番号(MAX_INTE) の値以上の確率をもつLの番号を調べる（連続した値）which( L >= sort(L, decreasing=TRUE)[MAX_INTE]);

# 大きい順に番号(MAX_INTE) の値以上の確率をもつ Lに対応する INTERVAL（左端の値）を調べるINTERVAL[ L >= sort(L, decreasing=TRUE)[MAX_INTE] ];

*ベイズ推定値は40000サンプル発生して後半20000 を利用.3ケタ目以降は安定しないので, 2ケタで表示

破損確率と９５％信用区間

ベイズ*: 破損確率: 0.98, ９５％信用区間= [0.93, 1.00]

摂氏 -0.56度での予測(2/2)

理解度チェック：線形モデルとロジット回帰１．みずほさんの調べたデータでは、徒歩１分につき、家賃はどのくらい安くなりましたか？

２．線形モデルのベイズ分析ではMCMC法は必要ですか。理由をつけて答えなさい。

３．以下のモデル式を書いてきた学生がいます。何が問題ですか。

),(~ iii qnBinY 1 2i iq xβ β= +

)10,0(~),10,0(~ 62

61 NN ββ

2600円～4300円

共役事前分布が使えるので必ずしも必要ではない.

q がマイナスになってしまう.

4. 一般化線形モデルのベイズ分析

ここでの目標

GLMのベイズ分析として, これまでの話を整理

一般化線形モデル

線形モデル

ポアソン回帰モデル (第三回)

ロジスティック回帰モデル

etc.

１．Yの分布

iiY µ=][E

一般化線形モデル (Generalized Linear Model)

リンク関数

∑=

+=p

jijji xg

1)( βαµ

)(µg

指数型分布族

２．X, Yを結び付ける関係式 (モデルの解釈や計算の都合で設定)

指数型分布族:正規分布, 二項分布、ポアソン分布などを含む広い確率分布のクラス(色々と性質が良い)

*Nelder and Wedderburn (1972)

ただし,

一般化線形モデル【再掲】

リンク関数の例

(1)

µµµ−

=1

log)(g

][E ii Y=µ

(← （絶対）連続確率変数の累積分布関数で狭義単調増加なら, 逆関数を利用可)

∞<<∞− iµ (実数全体)

を実数全体に１：１でうつすことがポイント

10 ≤≤ iµ

)(1 µ−Φ

ロジット関数

プロビット：標準正規分布の累積分布関数の逆関数

(2) 0≥iµ

µµ log)( =g

(3)

µµ =)(g

まとめ：GLMのベイズ分析

および他のパラメータに事前分布を導入βベイズによる方法

ベイズ解析の流れ【復習】

∑=

=p

jijji xg

1)( βµ

Step. 1: 統計モデルの設定【モデル式】

Step. 2: 事前分布の設定【モデル式】

Step. 3: 事後分布の計算 (MCMCサンプリング)

Step. 4: 事後分布 (MCMCサンプル)を用いた分析

ここが目標

グループワークなどで評価

5. ３値以上のカウントデータ

本日のデータ

アンケート調査：車の購入で何を重視するか

性別：男・女年代： 18-23, 24-40, 41-回答：「エアコンとパワステ」をセットにして,

1.あまり重視しない, 2. 重視, 3. とても重視（３段階）

・パワーステアリング(Power Steering)の略; 自動車の運転でハンドルを切るのを楽にする機構 (普通の車にはついてる)

パワステ

* M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42 (2000), 676—682.

エアコン・エアコンディショナー(Air Conditioner) の略;

ここでは自動車に搭載されているエアコンのこと（普通の車にはついてる）

回答

性別年齢層重視しない

重視とても重視

合計

女性 18-23 26 12 7 4524-40 9 21 15 45> 40 5 14 41 60

男性 18-23 40 17 8 6524-40 17 15 12 44> 40 8 15 18 41

全体 105 94 101 300

整理したデータアンケート結果 (Dobson & Barnett (2008) 表8-1; オリジナルは文献(a) )

(a) M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42(2000), 676—682.

エアコンとパワステ男女別(左：女性, 右：男性)に比較；年齢が上がるとエアコンとパワステ重視の比率が増える傾向がみえる

実線: 重視しない緑点線：重視青点線：とても重視

freq <- array(0, c(6,3)); freq[,1] <- c(26,9,5,40,17,8); freq[,2] <- c(12,21,14,17,15,15); freq[,3] <- c(7,15,41,8,12,18);rel_freq <- freq/apply(freq, 1, sum);rel_freq_f <- rel_freq[1:3,]; rel_freq_m <- rel_freq[4:6,]; # 男女別にする# 女性のプロット (男性も同様)plot(rel_freq_f[,1], type="b", lwd=2, ylim=c(0, 0.8), main="Car Preferences of Woman", xlab="Age", ylab="Proportion", xaxt="n");points(rel_freq_f[,2], type="b", lwd=2, lty=2, col=3); points(rel_freq_f[,3], type="b", lwd=2, lty=3, col=4);axis(side=1, at = 1:3, labels=c("18-23", "24-40", "Over40"));

0.0

0.2

0.4

0.6

0.8

Car Preferences of Woman

Age

Pro

porti

on

18-23 24-40 Over40

0.0

0.2

0.4

0.6

0.8

Car Preferences of Man

Age

Pro

porti

on

18-23 24-40 Over40

プログラム例

分析の課題

男女・年齢層による、エアコン・パワステ重視度の違いを定量的に検討せよ（どのようなモデルを用いればよいか？）

統計モデリングの課題

６. ロジスティック回帰モデルの拡張

→ ロジット回帰, ポアソン回帰など

今回のデータの難しさ

例：Oリングデータ(Oリングの１つ１つが破損, 破損してない)二択アンケート(YES/NO)

例：三択アンケート (YES/NO / どちらともいえない)３種類のラーメンの注文数 (みそ/しお/とんこつ)Amazonの点数評価 (1,2,3,4,5)

目的変数が2値のカウントデータ

目的変数が3値以上のカウントデータ

→

多項モデル【第二回】

ツボの中に k 色の小さいボールを大量に入れる (N個).

その比率は

多項モデル

意味：

kξξξ ,,, 21

121 =+++ kξξξ

m （<< N）個のボールを取り出す試行を考えるとき, 各色のボールの個数を

kXXX ,,, 21

とする.

),,;(~),,,( 121 kk mMXXX ξξ

),,;( 1 kmM ξξ

1 2( )kX X X m+ + + =

考えてみよう次の三択アンケートは、多項分布でモデル化できる.問

車をもっているO大学の学生のうち１００人を無作為抽出して、

車の購入でパワステ・エアコンをどれくらい重視するか三択で答えてもらった.

１．重視しない 2. 重視 3.とても重視

1は３０人, 2は２５人、3は４５人だった。

多項分布の各記号は、何に対応していると考えられるか？

k

m

kξξξ ,,, 21

選択肢の数 ( 3 )

無作為抽出された学生の数 ( 100 )

O大学の学生全体での真の比率

多項分布を用いたモデル化

多項分布を用いたモデル

( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ

6,,2,1 =i

次に, 上のを説明変数と結びつけるiξ

i 番目のグループのアンケート結果

調査対象の属性

性別：男・女年代：18-23, 24-40, 41-

６種類の母集団と考える

名目ロジット回帰(多項ロジット回帰)

各 i=1,2,...,n

∑=

=S

sissjij x

1)log( βφ

∑=

= k

jij

ijij

1φ

φξ

一般的な形

*他にも対数線形モデルなどがある (交互作用項をみる場合に使う)

kj ,,2,1 =

ijφ11 ≡iφ

kj ,,2 =

Ssxis ,,2,1; = i 番目のグループの説明変数（年収、職業 etc.）

i 番目のグループが選択肢 j を選ぶ重みパラメータ（０以上）

(基準化)

( )1 1, , ~ ( ; , , )i ik i i ikY Y M m ξ ξ

カテゴリカル説明変数の扱い

・連続変数・順序つきカテゴリカル変数・順序なしカテゴリカル変数

一般の説明変数の分類

説明変数の例 (ダミー変数の使用例)

年代３通り → 2値変数を2つ用意 ( k通りの分類なら k-1個の2値変数)

=01

1ix

=01

2ix

男性

女性

２４～４０歳４１歳～

i 番目のグループの説明変数（共変量）は以下で設定【今回の場合】

それ以外

=01

3ixそれ以外

最終的な統計モデルと事前分布

3322110)log( ijijijjij xxx ββββφ +++=

∑=

= 3

1jij

ijij

φ

φξ

名目ロジット回帰モデル (6グループ, 3択回答)

3,2=j11 ≡iφ エ・パ重視しない (j=1)

2iφ3iφ

エ・パ重視 (j=2)

エ・パとても重視 (j=3)

重み

【本来はいろいろ試すべき】

3,2=j)10,0(~,,, 43210 Njjjj ββββ

無情報事前分布

WinBUGSを利用した結果を紹介 (詳細は別資料)

( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ 6,,2,1 =i

モデルの意味を考えてみよう

Q1. 例にならって次の場合に重みパラメータを書き出してみよ.

例: 18-23歳, 女性のグループ i が, 「3. とても重視」を選ぶ重み

3 03log( )iφ β=

a) 18-23歳, 男性のグループ i が, 「3. とても重視」を選ぶ重み

3 03 13log( )iφ β β= +

b) 41歳以上, 男性のグループ i が, 「3. とても重視」を選ぶ重み

3 03 13 33log( )iφ β β β= + +

Q2. ４つのグループ（男,女)× (18-23, 41-）について, とても重視と重視しないの相対的な比率(オッズ比)をパラメータの式で表すと以下のようになる. 空欄を埋めよ.

「3. とても重視」の比率

「1. 重視しない」の比率

3iφ =

03 13 33eβ β β+ +

3iφ=

03 33eβ β+

18-23歳, 女性のグループ03eβ

03 13eβ β+18-23歳, 男性のグループ

41歳以上, 女性のグループ

41歳以上, 男性のグループ

モデルの意味を考えてみよう

オッズ比推定値（事後平均）

95%信用区間（事後分布から計算）

0.70 (0.350,1.23)3.32 (1.65,6.23)5.35 (2.16,10.7)

0.457 (0.240,0.818)4.90 (2.14,10.2)21.6 (8.42,49.7)

分析結果オッズ比の推定値と信用区間 (Dobson & Barnett (2008) 表14-4と似た結果)

32βe

22βe

12βe

33βe

23βe

13βe

分析結果について考察せよ. (結果は非ベイズでも同様になる.)たとえばエアコンとパワステを重視する度合いは、男女の違いと年齢の違い、どちらの影響が大きいだろうか.

まとめ：多項ロジット回帰のベイズ分析

１．重みパラメータを設定; 説明変数と関連づける２．カテゴリカル変数（性別、年代、職業 etc. ）は, ダミー変数３．オッズ比によって、推定パラメータの解釈がしやすくなる

モデル構築の要点

ベイズ統計は今回で終了; 次回からスパースモデリング

名目尺度 (Nominal Scale)データ

k種類の値に順序はなくラベルを張り替えられるようなデータ※今回は三段階評価だが簡単のため名目尺度で扱った.

→ 多項ロジット回帰【今回】

k種類の値に自然な順序がつけられるデータ (成績評価など)

順序尺度 (Ordinal Scale)データ

→ 潜在変数モデルの導入（難）

参考：順序尺度データの場合

分類を表す添え字 i は省略

]),(( 1 jjj CCZP −∈=ξ

潜在変数モデル (Latent Variable Model)

潜在変数Zの分布, カットポイントと説明変数Xの対応付けはGLMとは大きく異なるため本講義の範囲外 (累積ロジットモデルなどがある）

← 観測できない連続変数Z (潜在変数)によって決まる;

+∞=−∞= − kk CCCC ,,,, 110

← k-1個のカットポイントがパラメータ

*実際には（５段階評価でも）連続データとみなして解析することが多い【← 理論的には望ましいとは限らないが】

例: S, A, B, C, F ))5.49,(( −∞∈= ZPFξ

)),105[( ∞∈= ZPSξ

Download pdf - 統計モデリング 第九回配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/sm18_9_haifu.pdf設定例2（簡単バージョン） 注意 ( ) σ

Download pdf - 統計モデリング第九回配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/sm18_9_haifu.pdf設定例2（簡単バージョン）注意 ( ) σ