Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
計量経済学 講義第 29 回 順序選択モデル
2018 年 1 月 26 日(金)1 限担当教員: 唐渡 広志
研究室: 経済学研究棟4階432号室
email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/
1
講義の目的
順序尺度のデータを目的変数とする場合の回帰分析について学びます。
より高度な計量経済分析を行うために総合的な統計分析ソフト R の基本的な使い方を,学びます。
keywords:順序プロビットモデル,順序ロジットモデル,
2
R の準備 (1)1. data.csv (1月5日以降に使うデータ(csv) )をダウンロー
ドしておく。
2. ダウンロードした data.csv の置き場所を覚えておく。
3. Rを起動する。
4. ファイル >> ディレクトリの変更( data.csv を置いてあるフォルダ)
5. エディタの起動
新規に作る場合
ファイル >> 新しいスクリプト(エディタを起動)
前回のものを引き継ぐ場合
ファイル >> スクリプトを開く(***.R または ***.rを開く)
3
R の準備 (2)
data<- read.csv(“data.csv”)
attach(data)
n<- dim(data)[1]
str(data)
4
本日の分析を進めるために必要なコード
コードが書き終わったら,名前を付けて data.csv と同じ場所に保存
順序尺度質的変数
名義尺度 block, pref, commute, industry など
順序尺度 st51, st52, op51 など
5
34 st51現在の生活面で,「家計状態」について満足していますか?
1 満足2 どちらかといえば満足3 どちらともいえない4 どちらかといえば不満5 不満
st51 = {1,2,3,4,5} : 値の大小関係に意味があるデータ。足し算や引き算に意味はないので,平均の概念は使えない(中央値やモードは使える)。順序尺度のデータを被説明変数として最小2乗推定を行うことはできるが,計算結果の解釈は困難。
例
順序の変更
6
1524334251
51st
5 満足
4 どちらかといえば満足
3 どちらともいえない
2 どちらかといえば不満
1 不満
y1<- 6-st51
y2<- 6-op58
x1<- cbind(data,y1,y2)
data2<- data.frame(x1)
【変更内容】値が大きいほど満足度が高くなる• st51 家計状態の満足度
値が大きいほど賛成の度合いが高くなる• op58 再分配政策の賛否
潜在変数による順序の選択
7
iii
i
uXy
jjy*:
5,4,3,2,1:
推定モデル
順序尺度
50
5*
4
4*
3
3*
2
2*
1
1*
0
*
,5
4
3
2
1
ii
ii
ii
ii
ii
ii
yy
yy
yy
yy
yy
yy
ならば
ならば
ならば
ならば
ならば
の値が選択されるがとる値によってただし,潜在変数
504321 ,sbreakpoint,,, とよぶ。を区切り点ここで,
(ゼータの小文字)zeta:
区切り点と順序の選択確率
8
ijiij
ijij
XuX
jyy
1
*1 なのでならば
1 X 2 X 3 X 4 Xy 1 y 2 y 3 y 4 y 5
正規分布誤差項 u の分布
1|2
2|3
3|4
4|5
XFXFy
34
4Pr
4
5PrXF
y
XFy
1
1Pr
順序選択モデルの推定 (1)
9
XFXFjy
XXjy
jj
jj
1
1
Pr:
Pr
順序プロビットモデル
順序ロジットモデル:
正規分布の累積確率
累積確率ロジスティック分布の
::
F
多項分布
尤度関数
最尤推定
polr(as.ordered(y)~X,method="probit")
uXy*
順序選択モデルの推定 (2) : 順序プロビット
10
library(MASS)
eq<- polr(as.ordered(y1)~ factor(sex) + age.sf + factor(income.hh),
data=data2, method="probit")
summary(eq)順序選択モデルを推定するために MASS というパッケージを利用する(追加ダウンロード・インストールの必要なし)
MASS: Modern Applied Statistics with S順序選択モデルを推定するために,polr 関数を利用する。
順序プロビットの場合: method=“probit”順序ロジットの場合: method=“logit”
y1(家計状態の満足度)が順序尺度であることを定義するためにas.ordered(y1) とする。
uy
432 432
*
階級年収ダミー階級年収ダミー階級年収ダミー
年齢女性ダミー
順序選択モデルの推定 (3) : 順序プロビット
11
Value Std. Error t value女性ダミー factor(sex)2 0.03954 0.045878 0.8619年齢 age.sf 0.01852 0.001737 10.6600年収階級2ダミー factor(income.hh)2 0.23327 0.066142 3.5268年収階級3ダミー factor(income.hh)3 0.35156 0.067431 5.2137年収階級4ダミー factor(income.hh)4 0.77058 0.072794 10.5858
Intercepts:Value Std. Error t value
1|2 -0.1383 0.1251 -1.10522|3 0.7370 0.1251 5.89343|4 1.7478 0.1276 13.69654|5 2.5309 0.1310 19.3244
Residual Deviance: 6250.595 AIC: 6268.595
区切り点の推定値
AIC = −2LL+2(k + kz)LL: 対数尤度, k: 説明変数の数, kz: 区切り点の数
deviance = 2(LLS−LL)LLS: 飽和モデルの対数尤度
順序選択モデルの限界効果 (1) : 順序プロビット
12
XfXfX
jyjj 1
Pr順序プロビットモデル
XfMEjXfXfMEjXfXfMEjXfXfMEj
XfMEj
45
434
323
212
11
54321
数正規分布の確率密度関:f
説明変数が1単位変化するときの「家計状態」について「満足 y=5」である確率の変動
順序選択モデルの限界効果 (2) : 順序プロビット
13
opme1 opme2 opme3 opme4 opme5factor(sex)2 -0.0055 -0.0072 -0.0013 0.0060 0.0080age.sf -0.0026 -0.0034 -0.0006 0.0028 0.0037factor(income.hh)2 -0.0324 -0.0423 -0.0079 0.0354 0.0472factor(income.hh)3 -0.0488 -0.0637 -0.0120 0.0533 0.0712factor(income.hh)4 -0.1069 -0.1397 -0.0262 0.1168 0.1560
限界効果の計算結果
• 女性は男性に比べて「家計状態」について「不満」である確率が0.55%低い (opme1)「どちらかといえば不満」である確率が0.72%低い (opme2)「どちらかともいえない」である確率が0.13%低い (opme3)「どちらかといえば満足」である確率が0.60%高い (opme4)「満足」である確率が0.80%高い (opme5)
順序選択モデルの限界効果 (3) : 順序プロビット
14
• 年齢が1歳上昇すると「家計状態」について「不満」である確率が0.26%下がる (opme1)「どちらかといえば不満」である確率が0.34%下がる (opme2)「どちらかともいえない」である確率が0.06%下がる (opme3)「どちらかといえば満足」である確率が0.28%上がる (opme4)「満足」である確率が0.37%上がる (opme5)
• 年収階級2の人は年収階級1の人と比べて「家計状態」について「不満」である確率が3.24%低い (opme1)「どちらかといえば不満」である確率が4.23%低い (opme2)「どちらかともいえない」である確率が0.79%低い (opme3)「どちらかといえば満足」である確率が3.54%高い (opme4)「満足」である確率が4.72%高い (opme5)
• 年収階級3の人は年収階級1の人と比べて「家計状態」について「不満」である確率が4.88%低い (opme1)「どちらかといえば不満」である確率が6.37%低い (opme2)「どちらかともいえない」である確率が1.20%低い (opme3)「どちらかといえば満足」である確率が5.33%高い (opme4)「満足」である確率が7.12%高い (opme5)
順序選択モデルの限界効果 (4) : 順序プロビット
phat<- eq$fit
kzeta<- length(eq$zeta)
cdf<- array(0,c(eq$n,kzeta))
cdf[,1]<- phat[,1]
cdf[,2]<- phat[,1] + phat[,2]
cdf[,3]<- phat[,1] + phat[,2] + phat[,3]
cdf[,4]<- phat[,1] + phat[,2] + phat[,3] + phat[,4]
pdf<- dnorm(qnorm(cdf))
mpdf<- apply(pdf,2,mean)
bhat<- eq$coef
opme1<- bhat*(-mpdf[1])
opme2<- bhat*(mpdf[1]-mpdf[2])
opme3<- bhat*(mpdf[2]-mpdf[3])
opme4<- bhat*(mpdf[3]-mpdf[4])
opme5<- bhat*(mpdf[4])
OPME<- cbind(opme1,opme2,opme3,opme4,opme5)
round(OPME,4) # 順序プロビット限界効果
15
順序ロジット推定
16
eq<- polr(as.ordered(y1)~ factor(sex) + age.sf + factor(income.hh),
data=data2, method=“logit")
summary(eq)
推定値 標準誤差 t値 y = 1 2 3 4 5factor(sex)2 0.0395 0.0459 0.86 -0.0028 -0.0048 -0.0010 0.0042 0.0043 age.sf 0.0185 0.0017 10.66 -0.0013 -0.0022 -0.0005 0.0020 0.0020 factor(income.hh)2 0.2333 0.0661 3.53 -0.0162 -0.0282 -0.0059 0.0248 0.0255 factor(income.hh)3 0.3516 0.0674 5.21 -0.0245 -0.0425 -0.0088 0.0374 0.0384 factor(income.hh)4 0.7706 0.0728 10.59 -0.0537 -0.0931 -0.0194 0.0819 0.0842
Intercepts:1|2 -0.1383 0.1251 -1.11 2|3 0.7370 0.1251 5.89 3|4 1.7478 0.1276 13.70 4|5 2.5309 0.1310 19.32
限界効果
順序ロジットモデルの限界効果 (1)
17
XXX
jyjj 1
Prトモデル)限界効果(順序ロジッ
密度関数ロジスティック分布の:
XMEjXXMEjXXMEjXXMEj
XMEj
45
434
323
212
11
54321
順序ロジットモデルの限界効果 (2)phat<- eq$fit
kzeta<- length(eq$zeta)
cdf<- array(0,c(eq$n,kzeta))
cdf[,1]<- phat[,1]
cdf[,2]<- phat[,1] + phat[,2]
cdf[,3]<- phat[,1] + phat[,2] + phat[,3]
cdf[,4]<- phat[,1] + phat[,2] + phat[,3] + phat[,4]
pdf<- dlogis(qlogis(cdf))
mpdf<- apply(pdf,2,mean)
bhat<- eq$coef
olme1<- bhat*(-mpdf[1])
olme2<- bhat*(mpdf[1]-mpdf[2])
olme3<- bhat*(mpdf[2]-mpdf[3])
olme4<- bhat*(mpdf[3]-mpdf[4])
olme5<- bhat*(mpdf[4])
OLME<- cbind(olme1,olme2,olme3,olme4,olme5)
round(OLME,4) # 順序ロジット限界効果
18
練習問題
19
op58 再分配政策の賛否について,以下の変数を利用して順序プロビットモデルを推定しなさい。また,限界効果を求めて推定結果について報告しなさい。
賛成
どちらかといえば賛成
どちらともいえない
どちらかといえば反対
反対
目的変数
54321
2: y
)(参照基準:階層が上自身の社会階層ダミー
)(参照基準:小学校卒学歴(本人)ダミー
)(参照基準:年収階級世帯年収ダミー
年齢
(参照基準:男性)女性ダミー説明変数
1
練習問題(推定結果)
20
推定値 標準誤差 t値 y2 = 1 2 3 4 5factor(sex)2 -0.1114 0.0491 -2.27 0.0057 0.0112 0.0242 -0.0046 -0.0365 age.sf 0.0068 0.0019 3.60 -0.0004 -0.0007 -0.0015 0.0003 0.0022 factor(income.hh)2 -0.0628 0.0692 -0.91 0.0032 0.0063 0.0136 -0.0026 -0.0206 factor(income.hh)3 -0.1029 0.0716 -1.44 0.0053 0.0104 0.0223 -0.0043 -0.0338 factor(income.hh)4 -0.2162 0.0789 -2.74 0.0111 0.0218 0.0469 -0.0089 -0.0709 factor(edu.sf)2 -0.2121 0.1783 -1.19 0.0109 0.0214 0.0460 -0.0088 -0.0696 factor(edu.sf)3 -0.1528 0.1740 -0.88 0.0079 0.0154 0.0331 -0.0063 -0.0501 factor(edu.sf)4 -0.1795 0.1835 -0.98 0.0093 0.0181 0.0389 -0.0074 -0.0589 factor(edu.sf)5 -0.3252 0.1791 -1.82 0.0168 0.0328 0.0705 -0.0134 -0.1067 factor(op53)2 0.3719 0.2655 1.40 -0.0192 -0.0375 -0.0807 0.0154 0.1220 factor(op53)3 0.5312 0.2603 2.04 -0.0274 -0.0536 -0.1152 0.0219 0.1742 factor(op53)4 0.8257 0.2627 3.14 -0.0426 -0.0833 -0.1791 0.0341 0.2708 factor(op53)5 1.0383 0.2787 3.73 -0.0535 -0.1047 -0.2252 0.0429 0.3405
Intercepts:1|2 -1.4234 0.3513 -4.05 2|3 -0.7510 0.3490 -2.15 3|4 0.3840 0.3488 1.10 4|5 1.2429 0.3492 3.56