48
俺の計量経済学 しんめー 2019 12 24

俺の計量経済学datascience-blog.com/.../uploads/2019/12/MyEconometrics.pdf1 はじめに この資料は,2016 年頃,私が慶應義塾大学の修士課程で計量経済学(以下,エコノメ)

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

俺の計量経済学

しんめー

2019年 12月 24日

目次

1 はじめに 3

2 回帰分析って面白い 4

2.1 最小二乗法の表記方法 3種類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 単回帰モデルのスカラー表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.2 重回帰モデルのベクトル表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.3 重回帰モデルの行列表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 最小二乗推定量の性質 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.1 仮定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.2 線形性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

ベクトル表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

行列表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.3 不偏性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

ベクトル表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

行列表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.4 一致性 (ベクトル表記) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2.5 なんかおもろい性質 (行列表記) . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.6 推定量の分散 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

行列表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

ベクトル表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.7 誤差の分散 σ2 の推定 (行列表記) . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.8 漸近的正規性 (ベクトル表記) . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 過少定式化 15

3.1 不偏性のなさ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 一致性のなさ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 不均一分散 16

4.1 不均一分散 (Heteroskedasticity)とは? . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2 一般化最小二乗法:GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2.1 ベクトル表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2.2 行列表記 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Seemingly Unrelated Regression (SUR) 19

5.1 SURに GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.2 SURに最尤法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6 測定誤差と操作変数法 24

6.1 測定誤差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1

6.1.1 単回帰の測定誤差モデル (スカラー表記) . . . . . . . . . . . . . . . . . . . . . 24

6.1.2 重回帰の測定誤差モデル (行列表記) . . . . . . . . . . . . . . . . . . . . . . . 26

6.2 内生性の問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.3 似てるけど違う,操作変数法と二段階最小二乗法 . . . . . . . . . . . . . . . . . . . 28

6.3.1 操作変数の条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.3.2 操作変数法 (Instrumental Variable) . . . . . . . . . . . . . . . . . . . . . . . 29

6.3.3 二段階最小二乗法 (Two stage least square) . . . . . . . . . . . . . . . . . . . 30

6.4 参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

7 離散選択モデルを扱おう 31

7.1 2値選択モデルの一般型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

7.2 最尤法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

7.3 Probitモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

7.4 Logitモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

8 分布が途中で切れてたら大変だ 34

8.1 3種類の打ち切り方 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

8.1.1 単純な切断 (Truncation) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

8.1.2 検閲 (Censored) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

8.1.3 付随的切断:サンプルセレクションの問題 . . . . . . . . . . . . . . . . . . . . 34

8.2 切断正規分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

8.3 Tobitモデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

8.4 へーキットモデル (サンプルセレクション) . . . . . . . . . . . . . . . . . . . . . . 38

8.4.1 へーキットモデルの考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

8.5 証明の補足 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

8.6 参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

9 Appendix 41

9.1 A:行列の性質 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

9.2 B:統計のいろいろ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

9.3 C:分布について . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

9.3.1 確率密度関数と累積密度関数 . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

9.3.2 正規分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

9.3.3 標準正規分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

9.3.4 多変量正規分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

9.3.5 ベルヌーイ分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

9.4 D:確率論の定義や定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2

1 はじめにこの資料は,2016年頃,私が慶應義塾大学の修士課程で計量経済学 (以下,エコノメ)を専攻していた際に自主的に作成したものである。エコノメの一般的な手法について,それぞれの推定量を数学的に導出する内容となっている。

対象とする読者• エコノメの手法のについて網羅的に知識はあるが,その数学的な背景については詳しくない。• 線形代数,微分積分,統計の知識がある。

を共に満たす人々である。操作変数法を例に挙げれば,「説明変数とは相関があって誤差項とは相関がないような変数を用意して回帰を行う」という知識を持っていても,「操作変数法ではなくOLSで推定した場合にどんな問題が起こるか」や「操作変数を用いることでどのように数学的にその問題を解決できるのか」について答えられない人もいるだろう。そういった人が対象である。したがって,エコノメの知識が全くない人や,エコノメの神みたいな人は対象ではない。

本稿がカバーする手法• 回帰分析• 不均一分散と GLS

• Seemingly Unrelated Regression (SUR)

• 測定誤差と操作変数法• 離散選択モデル (Logit, Probit)

• トービットモデル & ヘーキットモデル

本稿の傑作は 5章の Seemingly Unrelated Regressionである。世界中のどのテキストよりも丁寧に推定量の導出を行っている自信がある。残念ながら時系列データやパネルデータのモデルには対応していない。本稿の巻末には本編で必要となる行列の性質や確率論の定理など載せている。

本稿の長所と短所推定量の導出を数学的に端折っていないのが本稿の長所である。Amazon に転がるエコノメのテキスト達はあまりにも数式を端折っており,読者に全く優しくない。エコノメ界の重鎮,Greene

やWooldridgeの教科書でさえそうである。本稿は,線形代数,微分積分,統計の知識がありさえすれば,必ず読み進められる。短所は日本語による説明が乏しい箇所,日本語が下手な箇所がいくつかあるで点ある。私が私のために書き溜めた証明が積み重なったものなので,私だけがわかるように表現されている箇所があるかもしれない。同時に,教科書としては相応しくないカジュアルな表現も所々ある。

3

2 回帰分析って面白い2.1 最小二乗法の表記方法 3種類

計量経済学や統計学の教科書には必ず回帰分析の推定量の導出が載っているが,本によって表記方法がベクトルであったり,行列であったり,まちまちである。ここでは 3種類,単回帰モデルのスカラー表記,重回帰モデルのベクトル表記,重回帰モデルの行列表記による推定量導出を行う。

2.1.1 単回帰モデルのスカラー表記最もシンプルなサンプルサイズ nの単回帰モデルにおいて,最小二乗法を用いて推定量を導出していく。モデルは

yi = α+ βxi + ei (1)

適当な予測式をyi = α+ βxi (2)

と置くと,実際の値 yi と予測値 yi との差が残差として表せ,

ei = yi − yi

= yi − α− βxi (3)

となる。この残差を二乗して*1各観測点について足し合わせた残差二乗和を最小にするようなパラメータ αと β を導く。残差二乗和 S(α,β)は

S(α,β) =n∑

i=1

e2i =∑

(yi − α− βxi)2 (4)

一階の条件 (First Order Condition)は,

正規方程式

⎧⎪⎨

⎪⎩

∂S(α,β)

∂α=

∑(yi − α− βxi) =

∑ei = 0 · · · (i)

∂S(α,β)

∂β=

∑xi(yi − α− βxi) =

∑eixi = 0 · · · (ii)

となる。(i),(ii)の 2本の連立方程式を解いて,最終的に得られる結果が

α = y − βx (5)

β =

∑(xi − x)(yi − y)∑

(xi − x)2(6)

となる。β の分母分子を nで割ることで,以下のように表せる。

β =1n

∑(xi − x)(yi − y)1n

∑(xi − x)2

=sxysx

(7)

*1 二乗せずに各観測点について足しあわせてしまうと,残差の和が 0になるため,距離として表せるよう二乗する必要がある。絶対値でも良いが,数学的に面観測点倒なため二乗する。

4

2.1.2 重回帰モデルのベクトル表記標本数を n,変数の個数を k とする重回帰モデルを考える。観測点 iについてのモデルは以下のように書ける。

yi = x1iβ1 + x2iβ + · · ·+ xkiβk + ei (8)

以下のベクトルを用意する。

xik×1

=

⎜⎜⎜⎝

x1i

x2i...

xki

⎟⎟⎟⎠, β

k×1=

⎜⎜⎜⎝

β1

β2...βk

⎟⎟⎟⎠(9)

yi と ei はスカラーである。ベクトル表記でモデルを表すと以下のようになる。

yi = x′iβ + ei (10)

観測点 iの残差 ei はei = yi − x′

iβ (11)

である。全ての観測点の残差の和である残差二乗和 S(β)は

S(β) =n∑

i=1

e2i =n∑

i=1

(yi − x′iβ)

2 (12)

となり,この S(β)を最小にするような β を導く。S(β)を式変形すると (面倒なので β からハットは除く)

S(β) =n∑

i=1

(yi − x′iβ)

2

=∑

(y2i − yix′iβ − x′

iβyi + x′iβx

′iβ)

yiがスカラーかつ x′i

1×k· βk×1

= β′

1×k· xik×1より

=∑

(y2i − 2β′xiyi + β′xix′iβ)

=∑

y2i − 2β′∑

xiyi + β′(∑

xix′i)β (13)

残差二乗和の FOC(First Order Condition)は

∂S(β)

∂β= 0 (14)

(13),(14)式と行列の性質 (A12),(A13)より最小二乗推定量は

∂S(β)

∂β= −2

∑xiyi + ((

∑xix

′i) + (

∑xix

′i)

′)β = 0

⇔ 2∑

xiyi = 2(∑

xix′i)β

∴β = (∑

xix′i)

−1(∑

xiyi) (15)

5

2.1.3 重回帰モデルの行列表記標本数を n,変数の個数を kとする重回帰モデルを考える。観測点ごとのモデルを 1本ずつ並べると以下のように書ける。

y1 = x11β1 + x21β2 + · · ·+ xk1βk + e1

y2 = x12β1 + x22β2 + · · ·+ xk2βk + e2...

yn = x1nβ1 + x2nβ2 + · · ·+ xknβk + en

以下の行列を用意する。

Yn×1

=

⎜⎜⎜⎝

y1y2...yn

⎟⎟⎟⎠, X

n×k=

⎜⎜⎜⎝

x11 x21 · · · xk1

x12 x22 · · · xk2...

.... . .

...x1n x2n · · · xkn

⎟⎟⎟⎠, β

k×1=

⎜⎜⎜⎝

β1

β2...βk

⎟⎟⎟⎠, e

n×1=

⎜⎜⎜⎝

e1e2...en

⎟⎟⎟⎠

ちなみにベクトル表記と行列表記の関係性として,以下のように書ける。

X ′X =n∑

i=1

xix′i (16)

これらの行列を用いるとモデルと残差は以下のように表せる。

Y = Xβ + e (17)

e = Y −Xβ (18)

と表せ,残差二乗和 S(β)は

S(β) = e′1×n

· en×1

= (Y −Xβ)′(Y −Xβ) (19)

残差二乗和を最小にするような β を導く。S(β)を式変形すると,(簡単に β からハットは除く)

S(β) = (Y −Xβ)′(Y −Xβ)

行列の性質 (A1), (A2)より= (Y ′ − β′X ′)(Y −Xβ)

= Y ′Y − Y ′Xβ − β′X ′Y + β′X ′Xβ

スカラー = スカラーの転置より= Y ′Y − β′X ′Y − β′X ′Y + β′X ′Xβ

= Y ′Y − 2β′X ′Y + β′X ′Xβ (20)

残差二乗和の FOC(First Order Condition)は

∂S(β)

∂β= 0 (21)

(20),(21)式と行列の性質 (A12),(A13)より最小二乗推定量は

∂S(β)

∂β= −2X ′Y + (X ′X + (X ′X)′)β = 0

⇔ 2X ′Y = 2X ′Xβ

∴β = (X ′X)−1(X ′Y ) (22)

6

2.2 最小二乗推定量の性質

2.2.1 仮定以下の仮定を置いて議論を進めていく。

⎧⎪⎪⎪⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎪⎪⎪⎩

仮定 1 E[e|X] = 0

仮定 2 xi : i.i.d

仮定 3 E[e2i ] < ∞仮定 4 E[x2

ij ] < ∞仮定 5 E[xix′

i]−1 : positive definite (逆行列を持つ)

計量の教科書などで誤差項の分散が均一 (Homoskedastic) の仮定を置くことがあるが,基本的には必要ない。確かに,均一分散の時,最小分散 (ガウス=マルコフの定理) を満たし推定量がBLUE(Best Linear Unbiased Estimator)となるが,そんな仮定を置かなくてもGLS(Generalized

Least Square:一般化最小二乗法) で最小分散は得られる。したがってここでは Homoskedastic

の仮定は置かずに進める。

2.2.2 線形性最小二乗推定量は,モデルの線形性から,真のパラメータの部分 (β)と,その他の部分に分けることができる。

ベクトル表記最小二乗推定量をベクトルで表す (15)式にモデル (10)式を代入すると以下のように表せる。

β = (∑

xix′i)

−1(∑

xiyi)

= (∑

xix′i)

−1(∑

xi(x′iβ + ei))

= (∑

xix′i)

−1(∑

xix′i)β + (

∑xix

′i)

−1(∑

xiei)

= β + (∑

xix′i)

−1(∑

xiei) (23)

行列表記最小二乗推定量を行列で表す (22)式にモデル (17)式を代入すると以下のように表せる。

β = (X ′X)−1(X ′Y )

= (X ′X)−1X ′(Xβ + e)

= (X ′X)−1(X ′X)β + (X ′X)−1X ′e

= β + (X ′X)−1X ′e (24)

7

2.2.3 不偏性不偏性とは,推定量 (β)の期待値が真のパラメータ (β)に一致する性質を指す。例えば,100回サンプルを抽出したとして,100個の推定量を求めたとする。その 100個の推定量の平均が真のパラメータに近づく性質が不偏性である。

ベクトル表記(23)式に式に X の条件付き期待値を取ると,

E[β|X] = β + E[(∑

xix′i)

−1(∑

xiei)|X]

= β + (∑

xix′i)

−1(∑

xiE[ei|X]=0(仮定 1)

)

= β (25)

両辺にもう一度期待値を取ると,E[E[β|X]] = E[β]

(C1)繰り返し期待値の法則よりE[β] = β (26)

よって,最小二乗推定量は不偏推定量である。

行列表記(24)式に X の条件付き期待値を取ると,

E[β|X] = β + E[(X ′X)−1X ′e|X]

= β + (X ′X)−1X ′ E[e|X]=0(仮定 1)

= β (27)

両辺にもう一度期待値を取ると,E[E[β|X]] = E[β]

(C1)繰り返し期待値の法則よりE[β] = β (28)

よって,最小二乗推定量は不偏推定量である。

8

2.2.4 一致性 (ベクトル表記)

一致性とは,サンプルサイズを∞に増やすことで,推定量が真のパラメータに近似する性質を指す。(23)式で表される最小二乗推定量 β が n → ∞でどこに飛ぶのかを導く。証明に使う定理は,大数の法則と連続写像定理である。(Appendixを参照)

β = β + (∑

xix′i)

−1(∑

xiei)

= β + (1

n

∑xix

′i)

−1

(i)

(1

n

∑xiei)

(ii)

(29)

(i) 1n

∑xix′

i について考える。

xix′iが iid(a)

でかつ E|xix′i| < ∞(b)

であれば大数の法則が成立する。

⎧⎨

(a) 仮定 2より xiは i.i.dであり,i.i.dのいかなる変換も i.i.dなので,xix′iも i.i.dである

(b) コーシー・シュワルツの不等式より,E|xix′i| ≤

√E|xi|2

<∞ (仮定 4)

·√E|x′

i|2<∞ (仮定 4)

< ∞

よって,大数の法則が成立し, 1n

∑xix′

ip−→ E[xix′

i]となる。ところで,(29)式では, 1

n

∑xix′

i の逆行列になっている。したがって連続写像定理により( 1n

∑xix′

i)−1 p−→ E[xix′

i]−1 となる。仮定 5より E[xix′

i]−1 は存在する。

(ii) 1n

∑xiei について考える。

xieiが iid(a)

でかつ E|xiei| < ∞(b)

であれば大数の法則が成立する。

⎧⎨

(a) 仮定 2より xiは i.i.dであり,i.i.dのいかなる変換も i.i.dなので,xieiも i.i.dである(b) コーシー・シュワルツの不等式より,E|xiei| ≤

√E|xi|2

<∞ (仮定 4)

·√E|ei|2

<∞ (仮定 3)

< ∞

よって,大数の法則が成立し, 1n

∑xiei

p−→ E[xiei]となる。繰り返し期待値の法則と仮定 1 (E[e|X] = 0)より,

E[xiei] = E[E[xiei|xi]]

= E[x · E[ei|xi]]

= 0

したがって 1n

∑xiei

p−→ 0となる。

以上 (i), (ii)より,(29)式の確率収束は以下のようになる。

β = β + (1

n

∑xix

′i)

−1(1

n

∑xiei)

p−→ β + E[xix′i]−1 · 0 = β

よって,β は一致推定量である。

9

2.2.5 なんかおもろい性質 (行列表記)

以下のように表せた残差 eに最小二乗推定量 β を代入することで面白い性質を得られる。

β = (X ′X)−1(X ′Y )

e = Y −Xβ

残差に代入すると,

e = Y −X(X ′X)−1(X ′Y )

= [I −X(X ′X)−1X ′

=M とおく]Y

となり,M はM = I −X(X ′X)−1X ′ (30)

と表せる。eに真のモデル Y = Xβ + eを代入すると,

e = MY

= M(Xβ + e)

= MXβ +Me

= (I −X(X ′X)−1X ′)Xβ +Me

= Xβ −Xβ +Me

= Me (31)

となる。またM 面白い性質を持っており,まずM の転置は

M ′ = (I −X(X ′X)−1X ′)′

行列の性質 (A1), (A3)より = I ′ − (X ′)′((X ′X)−1)′X ′

= I −X(X ′X)−1X

= M (32)

また,Mの二乗は

M ·M = (I −X(X ′X)−1X ′)(I −X(X ′X)−1X ′)

= I −X(X ′X)−1X ′ −X(X ′X)−1X ′X(X ′X)−1X ′ ·X(X ′X)−1X ′

= I −X(X ′X)−1X ′ −X(X ′X)−1X ′ +X(X ′X)−1X ′

= I −X(X ′X)−1X ′

= M (33)

となり,べき等行列である。

10

2.2.6 推定量の分散行列表記(24)式に,(27)式を代入し移項すると以下の式が得られる。

β − E[β|X] = (X ′X)−1X ′e (34)

β の X の条件付き分散は,分散の定義より,

V ar(β|X) = E[(β − E[β|X])(β − E[β|X])′|X]

(34)式より= E[(X ′X)−1X ′e · ((X ′X)−1X ′e)′|X]

行列の性質 (A3)(A4)より= E[(X ′X)−1X ′e · e′X(X ′X)−1|X]

= (X ′X)−1X ′ · E[e · e′|X]⋆

·X(X ′X)−1 (35)

と表せる。ここで ⋆を細かく見てみる。

E[ en×1

· e′1×n

|X] = E

⎢⎢⎢⎣

⎜⎜⎜⎝

e21 e1e2 · · · e1ene2e1 e22 · · · e2en...

.... . .

...ene1 ene2 · · · e2n

⎟⎟⎟⎠|X

⎥⎥⎥⎦

=

⎜⎜⎜⎝

E[e21|x1] E[e1e2|X] · · · E[e1en|X]E[e2e1|X] E[e22|x2] · · · E[e2en|X]

......

. . ....

E[ene1|X] E[ene2|X] · · · E[e2n|xn]

⎟⎟⎟⎠

i = j のとき E[eiej |X] = E[ei|X]=0(仮定 1)

E[ej |X] = 0=0(仮定 1)

i = j のとき E[eiej |X] = E[e2i |X] = σ2iと置くと,対角成分だけ残り

=

⎜⎜⎜⎝

σ21 0 0

σ22 0

0. . .

0 0 σ2n

⎟⎟⎟⎠

=D とおく

(36)

したがって,β の分散は一般的に以下のように表せる。

V ar(β|X) = (X ′X)−1X ′ ·D ·X(X ′X)−1 (37)

特殊な状況として均一分散 (Homoskedastic)が考えられる。σ21 = · · · = σ2

n = σ2 と置くと

D =

⎜⎜⎜⎝

σ2 0 0σ2 0

0. . .

0 0 σ2

⎟⎟⎟⎠= σ2I (38)

V ar(β|X) = (X ′X)−1X ′ · σ2I ·X(X ′X)−1

= σ2(X ′X)−1 (39)

11

ベクトル表記(23)式に,(25)式を代入し移項すると以下の式が得られる。

β − E[β|X] = (∑

xix′i)

−1(∑

xiei) (40)

V ar(β|X) = E[(β − E[β|X])(β − E[β|X])′|X]

= E[(∑

xix′i)

−1(∑

xiei)

⎧⎨

⎩(∑

xix′i)

−1

k×k 対称行列

(∑

xiei)

⎫⎬

|X]

= E[(∑

xix′i)

−1(∑

xiei)(∑

xiei)′(∑

xix′i)

−1|X]

= (∑

xix′i)

−1E[(∑

xiei)(∑

xiei)′|X]

(∑

xix′i)

−1 (41)

と表せる。⋆を表現するため,まず (∑

xiei)を行列に展開してみる。(9)式の xi の定義から

n∑

i=1

xiei =

k×1⎛

⎜⎜⎜⎝

∑x1iei∑x2iei...∑xkiei

⎟⎟⎟⎠=

k×n⎛

⎜⎜⎜⎝

x11 x12 · · · x1n

x21 x22 · · · x2n...

.... . .

...xk1 xk2 · · · xkn

⎟⎟⎟⎠

=X′

n×1⎛

⎜⎜⎜⎝

e1e2...en

⎟⎟⎟⎠

=e

= X ′e

⋆ = E[X ′e · (X ′e)′|X]

= E[X ′ee′X|X]

= X ′E[ee′|X]X

(49)式と同様に, E[ee′|X] = D なので= X ′DX

=

k×n⎛

⎜⎜⎜⎝

x11 x12 · · · x1n

x21 x22 · · · x2n...

.... . .

...xk1 xk2 · · · xkn

⎟⎟⎟⎠

n×n⎛

⎜⎜⎜⎝

σ2 0 0σ2 0

0. . .

0 0 σ2

⎟⎟⎟⎠

n×k⎛

⎜⎜⎜⎝

x11 x21 · · · xk1

x12 x22 · · · xk2...

.... . .

...x1n x2n · · · xkn

⎟⎟⎟⎠

=

⎜⎜⎜⎝

σ21x11 σ2

2x12 · · · σ2nx1n

σ21x21 σ2

2x22 · · · σ2nx2n

......

. . ....

σ21xk1 σ2

2xk2 · · · σ2nxkn

⎟⎟⎟⎠

⎜⎜⎜⎝

x11 x21 · · · xk1

x12 x22 · · · xk2...

.... . .

...x1n x2n · · · xkn

⎟⎟⎟⎠

=

⎜⎜⎜⎝

∑σ2i x1ix1i

∑σ2i x1ix2i · · ·

∑σ2i x1ixki∑

σ2i x2ix1i

∑σ2i x2ix2i · · ·

∑σ2i x2ixki

......

. . ....∑

σ2i xkix1i

∑σ2i xkix2i · · ·

∑σ2i xkixki

⎟⎟⎟⎠

=n∑

i=1

σ2i xix

′i (42)

∴ V ar(β|X) = (∑

xix′i)

−1(n∑

i=1

σ2i xix

′i)(

∑xix

′i)

−1

ただし (49)式より σ2i = E[e2i |X]

12

2.2.7 誤差の分散 σ2 の推定 (行列表記)

回帰モデルに均一分散 (Homoskedastic)を仮定した時,最小二乗推定量 β の分散は (39)式よりσ2(X ′X)−1 と表せる。推定値の分散の節より,この σ2 は,

σ2 = E[e2|X]

= E[(e− E[e|X]=0(仮定 1)

)2|X]

= V ar(e)

と表せるように,観測できない誤差 eの分散なので,残差 eの分散を用いて推定する必要がある。eの標本分散は 1

n e2i = 1

n e′eとなる。この期待値が σ2 になってくれると嬉しい。e′eに期待値は,

(31)式を用いて

E[e′e] = E[(Me)′Me]

= E[e′M ′Me]

(32)式 M ′ = M より = E[e′MMe]

(33)式 MM = M より = E[ e′1×n

· Mn×n

· en×1

]

スカラーなので tr つけて OK = E[tr(e′Me)]

行列の性質 (A8)より= E[tr(Mee′)]

= tr(M · E[ee′])

(38)式 E[ee′] = σ2I より= tr(M · σ2I)

= σ2 · tr(M · I)= σ2 · tr(M)

(30)式 M = I −X(X ′X)−1X ′ より= σ2 · tr(In −X(X ′X)−1X ′)

= σ2tr(In)− tr(X(X ′X)−1X ′)

行列の性質 (A8)より

= σ2

tr(In)− tr(X ′X

k×k(X ′X)−1

k×k)

= σ2 tr(In)− tr(Ik)トレースの定義より tr(Ip) = p

= σ2(n− k)

よって,単純な残差の標本分散に期待値をとると

E[1

ne′e] =

n− k

nσ2 (43)

となり,不偏性を満たしておらず,0 < n−kn < 1なので,過少推定することになる。不偏推定量に

なるような推定値はs2 =

1

n− k

∑e2i =

1

n− ke′e (44)

となる。

13

2.2.8 漸近的正規性 (ベクトル表記)

n → ∞の時の β の分布が知りたいよ。証明に使う定理は大数の法則と連続写像定理と中心極限定理である。(29)式の β を左辺に移行して

β − β = (1

n

∑xix

′i)

−1(1

n

∑xiei)

両辺に√nをかけて

√n(β − β) = (

1

n

∑xix

′i)

−1

(i)

(1√n

∑xiei)

(ii)

(45)

(i) 1n

∑xix′

i について考える。

xix′iが iid(a)

でかつ E|xix′i| < ∞(b)

であれば大数の法則が成立する。

⎧⎨

(a) 仮定 2より xiは i.i.dであり,i.i.dのいかなる変換も i.i.dなので,xix′iも i.i.dである

(b) コーシー・シュワルツの不等式より,E|xix′i| ≤

√E|xi|2

<∞ (仮定 4)

·√E|x′

i|2<∞ (仮定 4)

< ∞

よって,大数の法則が成立し, 1n

∑xix′

ip−→ E[xix′

i]となる。ところで,(29)式では, 1

n

∑xix′

i の逆行列になっている。したがって連続写像定理により( 1n

∑xix′

i)−1 p−→ E[xix′

i]−1 となる。仮定 5より E[xix′

i]−1 は存在する。

(ii) 1√n

∑xiei について考える。

xieiが iid(a)

でかつ E|xiei|2 < ∞(b)

であれば中心極限定理が成立する。

⎧⎨

(a) 仮定 2より xiは i.i.dであり,i.i.dのいかなる変換も i.i.dなので,xieiも i.i.dである(b) コーシー・シュワルツの不等式より,E|xiei|2 ≤

√E|xi|4

<∞ (仮定 4)

·√E|ei|4

<∞ (仮定 3)

< ∞

よって,中心極限定理が成立し, 1√n

∑xiei

d−→ N(0, E[e2ixix′i])となる。

以上 (i), (ii)より,(45)式の分布収束は以下のようになる。

√n(β − β) = (

1

n

∑xix

′i)

−1(1√n

∑xiei)

d−→ E[xix′i]−1 ·N(0, E[e2ixix

′i]) (46)

Q = E[xix′i],また Ω = E[e2ixix′

i]とおくと,最終的に以下のようにまとめられる。

√n(β − β)

d−→ Q−1 ·N(0,Ω)

= N(0, Q−1ΩQ−1) (47)

14

3 過少定式化本来真のモデルに入っている説明変数を除いて推定すると,不偏性と一致性が得られなくなる。真のモデルを

Y = X1β1 +X2β2 + e (48)

とする。仮定とし,E[e|X1, X2] = 0とする。ここで X2 が観測できず,X1 のみを説明変数としOLSで推定した場合,β1 の推定値は

β1 = (X ′1X1)

−1(X ′1Y )

3.1 不偏性のなさ

この推定値に真のモデルである (48)式を代入する。

β1 = (X ′1X1)

−1(X ′1Y )

= (X ′1X1)

−1(X ′1(X1β1 +X2β2 + e))

= β1 + (X ′1X1)

−1(X ′1X2)β2 + (X ′

1X1)−1(X ′

1e)

この式に X期待値を取ると,

E[β1|X] = β1 + E[(X ′1X1)

−1(X ′1X2)β2] + E[(X ′

1X1)−1(X ′

1e)]

= β1 + E[(X ′1X1)

−1(X ′1X2)β2] + (X ′

1X1)−1X ′E[e|X]

=0 (仮定)

= β1 + E[(X ′1X1)

−1]E[(X ′1X2)]β2

欠落変数バイアス

よって,β2 = 0もしくは,E[(X ′1X2)] = 0つまり X1, X2 が無相関でなければ,過少定式化の場

合に不偏性が得られない。もし X1, X2 が正の相関で,かつ β2 > 0であれば,バイアスは正の方向に働く。逆に X1, X2 が負の相関で,かつ β2 > 0であれば,バイアスは負の方向に働く。

3.2 一致性のなさ

X1 のみ観測できる場合,X2 の項は誤差項に含まれてしまう。新しい誤差項を v とすると,

v = X2β2 + e

となり,推定するモデルはY = X1β1 + v

となる。一致推定量になるためには,E[X1v] = 0となる必要があるが,実際は

E[X1v] = E[X1(X2β2 + e)]

= E[X1X2β2] + E[X1e]=0(仮定)

= E[X1X2]β2

よって,一致性が得られない。

15

4 不均一分散4.1 不均一分散 (Heteroskedasticity)とは?

前章で最小二乗推定量の分散が (35)式より以下のように表せることを導いた。

V ar(β|X) = (X ′X)−1X ′ · E[e · e′|X] ·X(X ′X)−1

また,右辺の真ん中にある E[e · e′|X]は,E[e2i |xi] = σ2i と置くことで,以下のように表せた。

E[e · e′|X] =

⎜⎜⎜⎝

E[e21|x1] 0 0E[e22|x2] 0

0. . .

0 0 E[e2n|xn]

⎟⎟⎟⎠=

⎜⎜⎜⎝

σ21 0 0

σ22 0

0. . .

0 0 σ2n

⎟⎟⎟⎠= D (49)

古典的な回帰モデルでは σ21 = · · · = σ2

n = σ2 という仮定を起き,ガウスマルコフの定理により,OLSで最小分散が得られることが証明されている (本稿では面倒だからしてない)。しかし,このような仮定が満たされることは滅多になく,iごとの誤差項の分散は均一でないことが多い。これを不均一分散 (Heteroskedasticity)と呼ぶ。不均一分散のときは,最小分散が得られない。そのため,一般化最小二乗法:GLS (Generalized Least Square)を行い,無理やり分散を均一にする必要がある。

4.2 一般化最小二乗法:GLS

4.2.1 ベクトル表記モデルは従来通り yi = x′

iβ + ei である。GLSのポイントは,このモデルの両辺を誤差 ei の標準偏差 σi で割ることで,誤差の分散を一定にする点である。

yiσi

= (x′i

σi)β +

eiσi

(50)

新しい誤差項を, eiσi

= vi と置くと,vi の分散は

E[v2i |xi] = E[e2iσ2i

|xi] =1

σ2i

E[e2i |xi] =仮定より

1

σ2i

σ2i = 1 (51)

となり,全ての iについて誤差の分散が 1で一定となり,均一分散が実現できる。(50)式からOLS

によって得られる推定量は

βGLS = (∑

(xi

σi)(xi

σi

′))−1(

∑(xi

σi)(yiσi

))

= (∑

σ−2i xix

′i)

−1(∑

σ−2i xiyi)

= (∑

σ−2i xix

′i)

−1(∑

σ−2i xi(x

′iβ + ei))

= (∑

σ−2i xix

′i)

−1(β∑

σ−2i xix

′i +

∑σ−2i xiei)

= β + (∑

σ−2i xix

′i)

−1(∑

σ−2i xiei)

証明は省くが,βGLS は不偏性も一致性もともに満たす。

16

4.2.2 行列表記ベクトル表記と同様の展開を行列表記でも見ていく。モデルは従来通り Y = Xβ + e である。両辺に誤差の標準偏差を左から割りたい。誤差の分散は E[ee′|X] = D であるため,標準偏差はD1/2 となる。両辺を左からこの D1/2 で割るということは,両辺に左から D−1/2 を掛けるということに等しいので,

D− 12Y = D− 1

2Xβ +D− 12 e (52)

となる。新しい誤差項を,D− 12 e = V と置くと,V の分散は

E[V V ′|X] = E[D− 12 ee′D− 1

2 |X]

= D− 12E[ee′|X]

=D

D− 12

= D− 12 ·D ·D− 1

2

= I

となり,分散を一定となり,均一分散が実現できる。(52)式の残差は

D− 12 e = D− 1

2Y −D− 12Xβ (53)

となる。よって残差二乗和は

(D− 12 e)′(D− 1

2 e) = (D− 12Y −D− 1

2Xβ)′(D− 12Y −D− 1

2Xβ)

e′D−1e = (D− 12 (Y −Xβ))′(D− 1

2 (Y −Xβ))

= (Y −Xβ)′ ·D− 12 ·D− 1

2

=D−1

· (Y −Xβ)

= (Y −Xβ)′ ·D−1 · (Y −Xβ) (54)

のように,マハラノビス距離で表すことができる。残差二乗和を微分して最適解を見つけるのは面倒くさいので,(22)式をリサイクルする。(52)式が少し見づらいので,D− 1

2Y = Y ∗,またD− 1

2X = X∗ とおくと,Y ∗ = X∗β + V (55)

と表せる。この式からから OLSによって得られる推定量は

βGLS = (X∗′X∗)−1(X∗′

Y ∗)

もとに戻して =(D− 1

2X)′D− 12X

−1 (D− 1

2X)′D− 12Y

D は対称行列 = (X ′D− 12D− 1

2X)−1(X ′D− 12D− 1

2Y )

D− 12D− 1

2 = D−1より = (X ′D−1X)−1(X ′D−1Y ) (56)

と表せる。この式にいつもの様に Y = Xβ + eを代入すると

βGLS = β + (X ′D−1X)−1(X ′D−1e) (57)

17

期待値をとってみると

E[βGLS |X] = β + (X ′D−1X)−1(X ′D−1 E[e|X]=0(仮定 1)

) = β

よって不偏性を満たす。また,推定量 βGLS の分散は

V ar(βGLS |X) = E[(βGLS − β)(βGLS − β)′|X]

= E[(X ′D−1X)−1X ′D−1e ·(X ′D−1X)−1X ′D−1e

′ |X]

= E[(X ′D−1X)−1X ′D−1e · e′D−1X(X ′D−1X)−1|X]

= (X ′D−1X)−1X ′D−1E[e · e′|X]=D

D−1X(X ′D−1X)−1

= (X ′D−1X)−1X ′D−1DD−1X(X ′D−1X)−1

= (X ′D−1X)−1(X ′D−1X)(X ′D−1X)−1

= (X ′D−1X)−1

となる。当然のことながら,OLSより分散が小さくなる (証明略)。

18

5 Seemingly Unrelated Regression (SUR)

これまでの議論では,基本的に 1本の回帰式を推計してきたが,複数本の回帰モデルを考える。このモデルで最も重要なポイントは,異なる観測点間では誤差項に相関がないが,同じ観測点の異なる方程式間の誤差項は相関しているという点である。オリジナルの論文である Zeller(1962) の表記法を用いて,モデルのセッティングを見ていく。基本的には行列表記である。サンプルサイズは T で,M 本の方程式のモデルを考える。

Y1 = X1β1 + e1

Y2 = X2β2 + e2...

YM = XMβM + eM

1本方程式を取り除いてみてみると,

Yi = Xiβi + ei i = 1, ...,M (58)

YiT×1

=

⎜⎜⎜⎝

yi1yi2...

yiT

⎟⎟⎟⎠, Xi

T×k=

⎜⎜⎜⎝

x11 x21 · · · xk1

x12 x22 · · · xk2...

.... . .

...x1T x2T · · · xkT

⎟⎟⎟⎠, βi

k×1=

⎜⎜⎜⎝

β1

β2...βk

⎟⎟⎟⎠, ei

T×1=

⎜⎜⎜⎝

ei1ei2...

eiT

⎟⎟⎟⎠

という風に,通常の形と全く同じ様式で表せる。このセッティングの下,SURでは方程式間の以下の関係性を仮定して考える。

SURにおける誤差項の仮定 仮定:異なる観測点間で誤差項が無相関,同じ観測点の異なる方程式間の誤差項は相関。t, s ∈ 観測点,i, j ∈ 方程式に対し,

E[eitejs|X = X1, X2, ..., XM] =

σij  t = s0  otherwise

σij:観測点 tの第 i方程式と第 j 方程式の共分散 このとき,第 i方程式と第 j 方程式間の誤差項の共分散 E[ei · e′j |X]は

E[ei · e′j |X]T×T

= E[

⎜⎜⎜⎝

ei1ei2...

eiT

⎟⎟⎟⎠(ej1, ej2, · · · , ejT

)|X] = E

⎢⎢⎢⎣

⎜⎜⎜⎝

ei1ej1 ei1ej2 · · · ei1ejTei2ej1 ei2ej2 · · · ei2ejT

......

. . ....

eiT ej1 eiT ej2 · · · eiT ejT

⎟⎟⎟⎠|X

⎥⎥⎥⎦

仮定より対角成分のみσij

=

⎜⎜⎜⎝

σij 0 0σij 0

0. . .

0 0 σij

⎟⎟⎟⎠= σijIT (59)

したがって,以下のようになる。(ちなみに i = j のとき,今までの分散共分散行列 D である。)

E[ei · e′j |X] = σijIT (60)

19

2本の方程式間の誤差項の相関を考えた。次に,全M 方程式の誤差項 eについて考える。

eMT×1

=

⎜⎜⎜⎝

e1e2...

eM

⎟⎟⎟⎠, e′

1×MT=

(e′1, e

′2, · · · , e′M

)

ei は T × 1の縦ベクトルで,それをM 個縦に並べた eはMT × 1行列となる。この eの分散共分散行列は

E[ e · e′MT×MT

|X] = E

⎢⎢⎢⎣

⎜⎜⎜⎝

e1e′1 e1e′2 · · · e1e′Me2e′1 e2e′2 · · · e2e′M...

.... . .

...eMe′1 eMe′2 · · · eMe′M

⎟⎟⎟⎠|X

⎥⎥⎥⎦

=

⎜⎜⎜⎝

E[e1e′1|X] E[e1e′2|X] · · · E[e1e′M |X]E[e2e′1|X] E[e2e′2|X] · · · E[e2e′M |X]

......

. . ....

E[eMe′1|X] E[eMe′2|X] · · · E[eMe′M |X]

⎟⎟⎟⎠

(60)式より,E[eie′j |X] = σijIT

=

⎜⎜⎜⎝

σ11IT σ12IT · · · σ1MITσ21IT σ22IT · · · σ2MIT

......

. . ....

σM1IT σM2IT · · · σMMIT

⎟⎟⎟⎠

クロネッカー積で表せて

=

⎜⎜⎜⎝

σ11 σ12 · · · σ1M

σ21 σ22 · · · σ2M...

.... . .

...σM1 σM2 · · · σMM

⎟⎟⎟⎠⊗ IT = Ωとおく

また以下のように置く。

Σ =

⎜⎜⎜⎝

σ11 σ12 · · · σ1M

σ21 σ22 · · · σ2M...

.... . .

...σM1 σM2 · · · σMM

⎟⎟⎟⎠(61)

Ωの式に代入すると,Ω = Σ ⊗ I (62)

また,クロネッカー積の性質 (A10)式より,

Ω−1 = Σ−1 ⊗ I (63)

と表せる。

20

M 本の各方程式 1本 1本は,古典的な回帰モデルである。1本ずつ OLSで推計すれば,効率性は得られないが,不偏性と一致性は得られる。ここで,全M 方程式すべて積み上げたモデルを考える。以下のように行列を構える。

Y⎡

⎢⎢⎢⎣

Y1

Y2...

YM

⎥⎥⎥⎦

MT×1

=

X⎡

⎢⎢⎢⎣

X1 0 · · · 00 X2 · · · 0...

. . ....

0 0 · · · XM

⎥⎥⎥⎦

MT×Mk

β⎡

⎢⎢⎢⎣

β1

β2...

βM

⎥⎥⎥⎦

Mk×1

+

e⎡

⎢⎢⎢⎣

e1e2...

eM

⎥⎥⎥⎦

MT×1

(64)

すると,全方程式のモデルは

Y = Xβ + e, E[e · e′|X] = Ω (65)

と表せる。β の推定量を求める方法は GLS,最尤法,GMMの 3種類が挙げられる。

5.1 SURに GLS

Zellnerは 1962年の論文で,GLS推定量が効率的推定量であることを示している。前章 GLSの (56)式をリサイクルすると,このモデルの推定量は

β = (X′Ω−1X)−1 · X′Ω−1Y

(63)式 Ω−1 = Σ−1 ⊗ I より = (X′(Σ−1 ⊗ I)X)−1 · X′(Σ−1 ⊗ I)Y

となる。Σ はほとんどの場合,既知ではないため,推計する必要がある。つまり,Feasible GLS

を行う必要がある。

21

5.2 SURに最尤法

最尤法を用いるためには,全 T 観測点を考慮したM 本の方程式 Y = Xβ + eのうち,観測点 t

のみを持ってきて表記する必要がある。⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨

⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

YtM×1

  : YMT×1

から観測点tのみ

XtM×Mk

: XMT×Mk

から観測点tのみ

β : (65)式と同様にMk × 1行列

etM×1

: eMT×1

から観測点tのみ

et の分散が欲しいため,細かく見てみる。

etM×1

=

⎜⎜⎜⎝

e1te2t...

eMt

⎟⎟⎟⎠, e′t

1×M=

(e1t, e2t, · · · , eMt

)

E[et · e′tM×M

] = E

⎢⎢⎢⎣

⎜⎜⎜⎝

e1te1t e1te2t · · · e1teMt

e2te1t e2te2t · · · e2teMt...

.... . .

...eMte1t eMte2t · · · eMte1Mt

⎟⎟⎟⎠

⎥⎥⎥⎦=

仮定より

⎜⎜⎜⎝

σ11 σ12 · · · σ1M

σ21 σ22 · · · σ2M...

.... . .

...σM1 σM2 · · · σMM

⎟⎟⎟⎠= Σ

(66)

以上を用いると,観測点 tに関する全M 方程式をまとめたモデルは以下になる。誤差項は正規分布に従うと仮定する。

Yt = Xtβ + et, et ∼ N(0,Σ) (67)

尤度関数を考えていく。観測点 tに関して,Yt = yt となる尤度 Lt は,

Lt =

= f(Yt = yt)

= f(Xtβ + et = yt)

= f(et = yt − Xtβ)

多変量正規分布の同時密度関数の定義から

=1

(√2π)M

√|Σ|

exp (−1

2(et − E[et]

=0

)′Σ−1(et − E[et]=0

))

=1

(2π)M2 |Σ| 12

exp (−1

2e′tΣ

−1et)

対数尤度は

logLt = −(log (2π)M2 + log |Σ| 12 )− 1

2e′tΣ

−1et

= −M

2log 2π − 1

2log |Σ|− 1

2e′tΣ

−1et

22

全観測点の対数尤度は,logLt を T まで足し合わせればいいので,

logL =T∑

t=1

logLt

=T∑

t=1

(−M

2log 2π − 1

2log |Σ|− 1

2e′tΣ

−1et)

= −MT

2log 2π − T

2log |Σ|− 1

2

T∑

t=1

(e′tΣ−1et)

(68)

⋆の部分がトレースを用いて変形できる。

⋆ =∑

( e′t1×M

· Σ−1

M×M· et)M×1

スカラーなのでトレースをとれる=

∑tr(e′tΣ

−1et)

行列の性質 (A8)より =∑

tr(Σ−1ete′t)

= tr[Σ−1 ·∑

ete′t]

= T · tr[Σ−1 · 1T

∑ete′t]

W =1

T

T∑

t=1

ete′tとおくと = T · tr(Σ−1W )

と表せる。これを logLに代入すると

logL = −T

2(M log 2π + log |Σ|+ tr(Σ−1W )) (69)

この対数尤度を Σ について微分する。行列の微分の公式 (A14)と (A15)を用いると,

∂ΣlogL = −T

2(Σ−1)′ − (Σ−1WΣ−1)′

= −T

2(Σ−1 −Σ−1WΣ−1)

= −T

2(I −Σ−1W )Σ−1

= −T

2Σ−1(Σ −W )Σ−1 = 0

より,最尤推定量は Σ = W のとき成立する。この解を対数尤度関数 (69)に代入して得られる集約対数尤度 (Concentrated Likelihood Function)は

logLc = −T

2(M log 2π + log |W |+ tr(W−1W

=IM

))

= −T

2(M log 2π + log |W |+M)

= −T

2(M(1 + log 2π) + log |W |) (70)

よって,最尤推定量 β は以下のように表せる。

β = max − 1

2log |W |

= min1

2log |W | (71)

23

6 測定誤差と操作変数法6.1 測定誤差

一般的な回帰モデルでは,被説明変数 y に誤差が含まれることを考慮し,uという誤差項を右辺に含める。一方で,ある状況において説明変数 xにも誤差が含まれることがある。例えば,聞き取り調査から得られたデータには調査員の記入ミスがあると考えられる。このような誤差を測定誤差といい,errors-in-variable と呼ばれるモデルで記述することができる。測定誤差がある状態でOLSを行うと一致性が得られない。以下では測定誤差のモデルと,OLSによって一致性が失われる過程を見ていく。

6.1.1 単回帰の測定誤差モデル (スカラー表記)

真のモデルの説明変数は x∗ であるが,実際観察できる変数 xは測定誤差 eを含んでいる。モデルは以下のように書ける。

y = β0 + β1x∗ + u (72)

x観測値

= x∗

真値+ e測定誤差

(73)

一般的な回帰モデルと同様に真の説明変数 x∗ と誤差項 uの間に相関がないと仮定し,また観測値xと誤差項 uも無相関であると仮定すると,

仮定: E[u|x∗] = 0(B4)(B6) より−−−−−−−−−→

E[u] = 0Cov(u, x∗) = 0

仮定: E[u|x] = 0(B4)(B6) より−−−−−−−−−→

Cov(u, x) = 0Cov(u, e) = 0

また古典的な測定誤差のモデル Classical Errors-in-variable(CEV)では,真値 x∗ と測定誤差 eに相関がないと仮定する。

Cov(x∗, e) = 0 (CEV assumption)

CEV assumptionを置くことで,観測値 xと測定誤差 eが相関することが導かれる。

Cov(x, e) = Cov(x∗ + e, e)

(B1)より = Cov(x∗, e) + Cov(e, e)

(CEV assumption)より = 0 + V ar(e)=σ2

eとおく

= σ2e (74)

この結果が問題であるとは直感的に想像しづらいものがあるが,観測値 xで回帰を行うと,この結果が問題であることがわかる。(72)式に (73)式を代入し得られるモデルが

y = β0 + β1(x− e) + u

= β0 + β1x+ (u− β1e) (75)

一般的に,単回帰の最小二乗推定量は大数の法則を用いて以下のように書ける。

β =1n

∑(xi − x)(yi − y)1n

∑(xi − x)2

大数の法則−−−−−−→ plim β =Cov(x, y)

V ar(x)(76)

24

(75)式を (76)式に適応することで,β の飛ぶ先を確認する。

plim β1 =Cov(x, y)

V ar(x)

=Cov(x,β0 + β1x+ (u− β1e))

V ar(x)

(B1)より =Cov(x,β0) + Cov(x,β1x) + Cov(x, u− β1e)

V ar(x)

(B3)より =β1 · V ar(x) + Cov(x, u− β1e)

V ar(x)

= β1 +Cov(x, u− β1e)

V ar(x)

(B1)より = β1 +Cov(x, u) + Cov(x,−β1e)

V ar(x)

(B3)より = β1 +Cov(x, u)− β1Cov(x, e)

V ar(x)

仮定 Cov(x, u) = 0 と (74)式 Cov(x, e) = σ2eより

= β1 +0− β1 · σ2

e

V ar(x)

V ar(x) = V ar(x∗ + e)より

= β1 −β1 · σ2

e

V ar(x∗ + e)

= β1 −β1 · σ2

e

V ar(x∗) + 2Cov(x∗, e) + V ar(e)

CEV assumptionの Cov(x∗, e) = 0より

= β1 −β1 · σ2

e

σ2x∗ + σ2

e

= β1 · (σ2x∗

σ2x∗ + σ2

e

) < β1 (77)

よって,β はサンプルサイズを増やしても真のパラメータより過少に推定されてしまうことがわかる。これを Attenuation Biasという。

25

6.1.2 重回帰の測定誤差モデル (行列表記)

1章で取り上げた重回帰モデルの行列表記と同様に,モデルを表していく。ただし,誤差項は e

でなく uで表記する。Cameronのテキストを参考にしている。真の変数 X∗ を含むモデルは,

Y = X∗β + u (78)

実際の観測される変数 X は測定誤差 V を含むので,

X = X∗ + V (79)

(78)に (73)を代入して得られるモデルが,

Y = Xβ + (u− V β) (80)

uと V と X∗ に関して,以下の 5つの仮定を置く。

仮定 1 : V ∼ [0,ΣV V ] −→

ΣV V = V ar(V ) = E[ V ′k×n

Vn×k

]

E[V ] = 0

仮定 2 : X∗ ∼ [0,ΣX∗X∗ ] −→

ΣX∗X∗ = V ar(X∗) = E[X∗′

k×nX∗n×k

]

E[X∗] = 0

仮定 3 : E[u|X∗] = 0(B4)(B6) より−−−−−−−−−→

E[X∗′

u] = 0Cov(X∗,u) = 0

仮定 4 : E[V |u] = 0(B4)(B6) より−−−−−−−−−→

E[V ′u] = 0Cov(V,u) = 0

仮定 CEV : E[V |X∗] = 0(B4)(B6) より−−−−−−−−−→

E[X∗′

V ] = 0Cov(X∗, V ) = 0

仮定 1は測定誤差に関する仮定である。測定誤差の期待値が 0になるというのは,直感的にも正しそうである。仮定 2では,真値の期待値が 0という無茶な仮定であるが,これがないと E[X] > 0

となり式展開が複雑になるため,仕方がない。仮定 3は古典的な回帰モデルの「説明変数と誤差項に相関なし」という仮定である。仮定 4は,前節 (スカラー表記)における 2つめの仮定と見た目は違うが等しい (導出 1で証明)。仮定 5は Classical errors-in-variableの仮定で,真値と測定誤差に相関がないというものである。これらの仮定から,以下の 3つの関係性が導出できる。⎧⎪⎪⎨

⎪⎪⎩

導出 1 Cov(X,u) = 0

導出 2 X ∼ [0,ΣX∗X∗ +ΣV V ]

導出 3 Cov(X,V ) = ΣV V

導出 1の証明

Cov(X,u) = Cov(X∗ + V,u)

(B1)より = Cov(X∗,u)=0(仮定 3)

+ Cov(V,u)=0(仮定 4)

= 0

26

導出 2の証明

E[X] = E[X∗ + V ]

仮定 1, 2より = 0

V ar(X) = V ar(X∗ + V )

行列版 (B1)より= V ar(X∗)

=ΣX∗X∗ (仮定 2)

+ Cov(X∗, V )=0(仮定 CEV )

+ Cov(V,X∗)=0(仮定 CEV )

+ Cov(V,u)=ΣV V (仮定 1)

= ΣX∗X∗ +ΣV V

導出 3の証明

Cov(X,V ) = Cov(X∗ + V, V )

(B1)より = Cov(X∗, V )=0(仮定 CEV )

+ Cov(V, V )=ΣV V (仮定 1)

= ΣV V

以上の関係性を用いて,β の不一致性を確認することができる。まず β は (80)式を代入して以下のように表せる。

β = (X ′X)−1(X ′Y )

= (X ′X)−1(X ′(Xβ + (u− V β)))

= β + (X ′X)−1X ′(u− V β)

= β + (1

nX ′X)−1(

1

nX ′(u− V β)) (81)

大数の法則によって 1nX

′X と 1nX

′(u− V β)が飛ぶ先をそれぞれ見ていく。

plim1

nX ′X = E[X ′X]

= E[(X − E[X]=0(導出 2)

)′(X − E[X]=0(導出 2)

)]

= V ar(X)

導出 2より = ΣX∗X∗ +ΣV V (82)

plim1

nX ′(u− V β) = E[X ′(u− V β)]

仮定 1, 3と導出 2より = E[(X − E[X])′(u− V β − E[u− V β])]

= Cov(X,u− V β)

= Cov(X,u) + Cov(X,−V β)

= Cov(X,u)=0(導出 1)

− Cov(X,V )=ΣV V (導出 3)

β

= −ΣV V β (83)

以上より,β の極限は以下のように表せる。

βp−→ β + (ΣX∗X∗ +ΣV V )

−1(−ΣV V β)

したがって,一致性を満たさない。

27

6.2 内生性の問題

測定誤差の問題を上で取り扱った。問題点を要約すると,「説明変数と誤差項が相関する (仮定 1

が満たされない) ことで,パラメータが一致性を得られない」ということである。一言で言うと,内生性の問題である。説明変数が外生的でなく,内生的に決まってしまうということである。この問題をもう一度一般的なセッティングによって行列表記で書き直してみる。

Y = Xβ + e, E[e|X] = 0, V ar(e) = σ2In (84)

(24)式より,β は以下のように表せる。

β = β + (1

nX ′X)−1(

1

nX ′e) (85)

本来であれば仮定 1と大数の法則より 1nX

′eが 0に近づいたが,内生性の問題により,仮定 1を満たさないため,この項の極限を以下のように表す。

plim1

nX ′e = plim

1

n

n∑

i=1

(xiei)

大数の法則より = E[xiei]

繰り返し期待値の法則より = E[E[xiei|xi]]

= E[xi · E[ei|xi]=0

]

= MXeとおく (86)

またplim

1

nX ′X = MXX (87)

と置くと,β の極限は大数の法則より

βp−→ β +M−1

XX ·MXe (88)

より,一致性を満たさない。こんな時は操作変数法を使う。

6.3 似てるけど違う,操作変数法と二段階最小二乗法

6.3.1 操作変数の条件内生性の問題を解決する方法を 2つ提示する。モデルは上と同じである。

Y = Xβ + e, E[e|X] = 0, V ar(e) = σ2In (89)

以下の 2つの条件を満たす n× l行列の操作変数 Z を用意する。

(1) E[e|Z] = 0 誤差項と無相関

(2) E[X|Z] = 0 説明変数と相関

これらの条件より,(B5)式と大数の法則を用いて以下のことが導ける。

(1)′ E[Z ′e] = 0 → plim 1nZ

′e = 0

(2)′ E[Z ′X] = 0 → plim 1nZ

′X = MZX

28

6.3.2 操作変数法 (Instrumental Variable)

モデルの両辺に左から Z ′ をかける。

Z ′Y = Z ′Xβ + Z ′e (90)

これを新しいモデルとして見なす。Z ′eを新しい誤差項と考えると,Z で条件付けた分散は

V ar(Z ′e|Z) = E[(Z ′e− E[Z ′e|Z])(Z ′e− E[Z ′e|Z])′|Z]

= E[(Z ′e− Z ′ · E[e|Z]=0 (1) より

)(Z ′e− Z ′ · E[e|Z]=0 (1) より

)′|Z]

= E[Z ′e(Z ′e)′|Z]

= E[Z ′ee′Z|Z]

= Z ′ · E[ee′|Z]=V ar(e)

· Z

= σ2Z ′Z (91)

この誤差項の分散を用いて GLSを行うのが操作変数法 (IV)である。(56)式の GLSパラメータを用いると,操作変数推定量 βIV は以下のようになる。

βIV = βGLS

= (Z ′X)′ · (V ar(Z ′e|Z))−1 · Z ′X−1(Z ′X)′ · (V ar(Z ′e|Z))−1 · Z ′Y = (Z ′X)′ · (σ2Z ′Z)−1 · Z ′X−1(Z ′X)′ · (σ2Z ′Z)−1 · Z ′Y

σ2は打ち消して= (X ′Z · (Z ′Z)−1 · Z ′X)−1X ′Z · (Z ′Z)−1 · Z ′Y (92)

これを一般に操作変数推定量と呼ぶが,Z が n × k 行列の時,(X ′Z)−1 が存在するので,以下のように表す形を操作変数推定量と呼ぶ人もいる。行列の性質 (A6)より,

βIV = (Z ′X)−1 · ((Z ′Z)−1)−1 · (X ′Z)−1 ·X ′Z · (Z ′Z)−1 · Z ′Y

= (Z ′X)−1 · (Z ′Z)(Z ′Z)−1 · Z ′Y

= (Z ′X)−1Z ′Y (93)

と,シンプルに表せる。これらの操作変数推定量はちゃんと一致性を満たす。以下証明。複雑な方の推定量 (92)式にモデル Y = Xβ + eを代入して変形すると

βIV = β + (X ′Z(Z ′Z)−1Z ′X)−1 ·X ′Z(Z ′Z)−1Z ′e

= β + ( 1nZ ′X)′(

1

nZ ′Z)−1(

1

nZ ′X)−1 · ( 1

nZ ′X)′(

1

nZ ′Z)−1(

1

nZ ′e) (94)

(1)′,(2)′ の条件に加え,plim 1nZ

′Z = MZZ とおくと,操作変数推定量の極限は

plim βIV = (M ′ZX ·MZZ ·MZX)−1(M ′

ZX ·MZZ · 0)= β (95)

よって一致性を満たす。

29

6.3.3 二段階最小二乗法 (Two stage least square)

操作変数を用いた二段階最小二乗法でも,操作変数推定量と全く同じ結果を導くことができる。手順は以下である。

一段階目 : X を Z で回帰してXを得る

二段階目 : X の代わりにXを用いて OLS

一段階目X を Z で回帰するときの係数を γ,誤差項を v とすると,

X = Zγ + v (96)

γ の最小二乗推定量 γ はγ = (Z ′Z)−1Z ′X (97)

理論値は普通に X = Zγ なので,これに γ を代入すると,

X = Zγ = Z(Z ′Z)−1Z ′X (98)

二段階目X を回帰に用いる。モデルに代入すると,

Y = Xβ + e (99)

β の二段階最小二乗推定量 β2SLS は

β2SLS = (X ′X)−1(X ′Y )

X = Z(Z ′Z)−1Z ′X を代入して= (Z(Z ′Z)−1Z ′X)′ · (Z(Z ′Z)−1Z ′X)−1((Z(Z ′Z)−1Z ′X))′ · Y = X ′Z(Z ′Z)−1Z ′Z(Z ′Z)−1Z ′X−1X ′Z(Z ′Z)−1Z ′Y

= (X ′Z(Z ′Z)−1Z ′X)−1X ′Z(Z ′Z)−1Z ′Y

= βIV (100)

よって,二段階最小二乗推定量と操作変数推定量は完全に一致する。

6.4 参考文献

• Cameron, Trivedi.2005. Microeconometrics (Methods and applications). Cambridge

University Press

• 難波明生,2015,計量経済学講義,日本評論社

30

7 離散選択モデルを扱おう被説明変数が 0, 1 という 2 値をとる離散選択モデルを考える。まず確率密度関数などを一般的に表記して,そのあと分布を特定した Probitモデル,Logitモデルを扱う。

7.1 2値選択モデルの一般型

非説明変数が「ある = 1」「なし = 0」のような二つの選択肢のみというモデルはよくある。消費行動を例に取ってみても,「買う = 1」「買わない = 0」という非説明変数を,消費者の年齢や所得などの説明変数でモデル化したくなるだろう。表面的なデータとしては「買う = 1」「買わない = 0」が現れるが,実際の購買行動を考えた場合,購入で消費者にとっての利益がプラスであれば買うことを選択し,マイナスであれば買わない選択を潜在的に行っていると考えられる。具体的には,その利益を y∗(潜在変数とよぶ)としたとき,y∗ は消費者の頭の中に潜在的にあり,頭の中で y∗ > 0となれば「買う = 1」を選択していると言える。これをベクトル表記でモデル化する。

yi =

1  if y∗i = x′

iβ + ϵi > 00  if y∗i = x′

iβ + ϵi ≤ 0(101)

yi = 1となる確率 Pr(yi = 1)は

Pr(yi = 1) = Pr(y∗ > 0)

= Pr(x′iβ + ϵi > 0)

= Pr(ϵi > −x′iβ)

ϵiが左右対称の分布に従う時 (下図参照)

= Pr(ϵi < x′iβ)

= F (x′iβ) (102)

図 1 左右対称の分布

yi = 0となる確率 Pr(yi = 0)は Pr(yi = 1)の余事象なので

Pr(yi = 0) = 1− Pr(yi = 1)

= 1− F (x′iβ) (103)

31

7.2 最尤法

(107)式のパラメータ β を推計するために最尤法を用いる。観測点 iが Yi = yi をとる確率は,ベルヌーイ分布に従うので

Pr(Yi = yi) = Pr(yi = 1)yi · Pr(yi = 0)1−yi

(102)式と (103)式を代入すると= F (x′

iβ)yi · 1− F (x′iβ)1−yi (104)

尤度関数 Lは全ての観測点の同時確率で表せて,また yi が i.i.dであると仮定すると,

L = Pr(Y1 = y1, Y2 = y2, ..., Yn = yn)

= Pr(Y1 = y1)× Pr(Y2 = y2)× · · ·× Pr(Yn = yn)

=n∏

i=1

F (x′iβ)yi · 1− F (x′

iβ)1−yi (105)

和で表記するために対数をとった対数尤度関数 logLは

logL = log n∏

i=1

F (x′iβ)yi · 1− F (x′

iβ)1−yi

=n∑

i=1

yi log(F (x′iβ)) + (1− yi) log(1− F (x′

iβ)) (106)

と表せる。この対数尤度関数が最大になるように統計ソフトはパラメータを推計している。

7.3 Probitモデル

ここまで確率密度関数を特定せず一般的に述べてきた。(107)式のモデルの誤差項 ϵi が平均 0,分散 σ2 正規分布に従うモデルを Probit モデルという。標準正規分布の確率密度関数は φ(·),累積分布関数は Φ(·)で表す。モデルをもう一度セッティングし直すと

yi =

1  if y∗i = x′

iβ + ϵi > 00  if y∗i = x′

iβ + ϵi ≤ 0ϵ ∼ N(0,σ2) (107)

yi = 1となる確率 Pr(yi = 1)は先ほど似たような手順で,

Pr(yi = 1) = Pr(y∗ > 0)

= Pr(x′iβ + ϵi > 0)

= Pr(ϵi > −x′iβ)

ϵiが左右対称の正規分布に従うので = Pr(ϵi < x′iβ)

平均 0,標準偏差σで割ると (標準化) = Pr(ϵiσ

<x′iβ

σ)

ϵiσは標準正規分布に従うので = Φ(

x′iβ

σ) (108)

対数尤度関数は先程と同様に (導出略)

logL =n∑

i=1

yi log(Φ(x′iβ

σ)) + (1− yi) log(Φ(

x′iβ

σ)) (109)

32

7.4 Logitモデル

(107)式のモデルの誤差項 ϵi がロジスティック分布に従う場合を Logitモデルという。確率変数z がロジスティック分布に従う時,累積分布関数であるロジスティック関数 ∧(·)は

∧(z) = 1

1 + e−z=

ez

1 + ez(110)

今までと同じ 2値選択のセッティングを Logitモデルに置き換えると,F (x′iβ)を ∧(x′

iβ)に置き換えればよいだけなので,yi = 1となる確率 Pr(yi = 1)は (102)式より

Pr(yi = 1) = ∧(x′iβ) =

ex′iβ

1 + ex′iβ

(111)

yi = 0となる確率 Pr(yi = 0)は Pr(yi = 1)の余事象なので

Pr(yi = 0) = 1− Pr(yi = 1)

= 1− ∧(x′iβ)

= 1− ex′iβ

1 + ex′iβ

=1

1 + ex′iβ

(112)

対数尤度関数は

logL =n∑

i=1

yi log(∧(x′iβ)) + (1− yi) log(∧(x′

iβ))

=n∑

i=1

yi log(ex

′iβ

1 + ex′iβ) + (1− yi) log(

1

1 + ex′iβ)

33

8 分布が途中で切れてたら大変だここでは,連続値をとる被説明変数の分布が途中で切れている場合のモデルを扱う。

8.1 3種類の打ち切り方

8.1.1 単純な切断 (Truncation)

単純な切断とは,分布が単純にある点で切断されている状態である。切断分布の形のイメージとしては,確率密度関数の積分値が 1であることをキープするために,全体的に上に膨らむ必要がある (次ページの図 3 切断正規分布のような感じ)。切断分布の例として,学校の入学者のみから集めた入学試験の点数の分布が考えられる。点数の分布は入学者最低点を境に分布の左側が切断されていると想像できるだろう。この場合,当然ながら入学していない人間の点数はデータに含まれていない。被説明変数が切断分布の場合,切断分布モデルを用いて推定を行う (今回は扱わない)。

8.1.2 検閲 (Censored)

検閲は切断に似ている。切断の場合,切断部分の外側の観測値は値を取らないが,検閲の場合,切断部分より外の観測値は,全て切断部の値を取ることになる。切断部は離散分布で,その他の観測可能部分は連続分布である。例えば,ある街の全ての家庭の車の購入金額の分布は検閲になる。つまり,車を購入した家庭の購入金額は連続値で分布するが,車を買っていない家庭の購入金額は0になる。被説明変数の分布が検閲されている場合,Tobitモデルで対応できる。下図が検閲分布である。

図 2 検閲分布

8.1.3 付随的切断:サンプルセレクションの問題ある変数の切断が,他の要因に伴って付随的に行われているような場合,付随的切断と呼ぶ。賃金と労働時間など。

34

8.2 切断正規分布

このあとのトービットモデルに必要な切断正規分布の密度関数を示す。連続確率変数 xに関し,x ∼ N(µ,σ2) とする。aを定数とし,xが aより大きい場合の切断分布 f(x|x > a)を考える。φ

は標準正規分布の確率密度関数であり,Φは累積分布関数である。切断後の分布 f(x|x > a)の積分値を 1にするために,切断される前の分布 f(x)を観測値が切断の範囲に入る確率 Pr(x > a)で割って確率密度のスケールを変える。

f(x|x > a) =f(x)

Pr(x > a)(113)

=f(x)

Pr(x−µσ > a−µ

σ )(114)

=f(x)

1− Φ(a−µσ )

(115)

=1√

2πσ2exp (− (x−µ)2

2σ2 )

1− Φ(a−µσ )

(116)

=1σ

1√2π

exp (− ( x−µσ )2

2 )

1− Φ(a−µσ )

(117)

=1σφ(

x−µσ )

1− Φ(a−µσ )

(118)

図 3 切断正規分布

切断正規分布のモーメント上と同様の設定で,正規分布の左側が切断されている時の分布の平均は以下のように表せる。

E[x|x > a] = µ+ σφ(α)

1− Φ(α)(119)

ただし,α = a−µσ である。証明は章の最後の補足にある。

35

8.3 Tobitモデル

Tobitモデルとは,以下の様なセッティングの回帰モデルを指す。

Tobitモデル y∗i = x′

iβ + ϵi ϵi ∼ N(0,σ2)

yi =

y∗i  (y∗i > 0)0  (y∗i ≤ 0)

このセッティングのもとで,以下のように表せる母回帰式 (yi の条件付き期待値 E[yi|xi])を導出していく。

E[yi|xi] = Pr(Y ∗i > 0)(i)

× E[yi = y∗i |y∗i > 0, xi](ii)

+ Pr(Y ∗i ≤ 0)

(iii)

× E[yi = 0] (120)

(i): Pr(Y ∗i > 0)

Pr(Y ∗i > 0) = Pr(x′

iβ + ϵi > 0)

= Pr(ϵi > −x′iβ)

= Pr(ϵiσ

>−x′

σ)

= Φ(x′iβ

σ) (121)

(iii): Pr(Y ∗i ≤ 0)は Pr(Y ∗

i > 0)の余事象なので

Pr(Y ∗i ≤ 0) = 1− Φ(

x′iβ

σ) (122)

(ii): E[yi = y∗i |y∗i > 0, xi]に,切断正規分布の平均の公式 (119)式と以下の 2点を用いる。

• E[y∗i ] = E[x′iβ + ϵi] = x′

• V ar[y∗i ] =√E[(y∗i − E[y∗i ])

2] =√E[ϵ2i ] = σ2

E[yi = y∗i |y∗i > 0, xi] = E[y∗i ] + sd[y∗i ]×φ( 0−E[y∗

i ]sd[y∗

i ])

1− Φ(0−E[y∗

i ]sd[y∗

i ])

= x′iβ + σ

φ(−x′iβ

σ )

1− Φ(−x′

iβσ )

正規分布の左右対称の性質より

= x′iβ + σ

φ(x′iβσ )

Φ(x′iβσ )

(123)

以上 (i),(ii),(iii)より,(120)式は以下のように表せる。

E[yi|xi] = Φ(x′iβ

σ)× (x′

iβ + σφ(x

′iβσ )

Φ(x′iβσ )

)

= x′iβΦ(

x′iβ

σ) + σφ(

x′iβ

σ) (124)

36

Marginal Effect

TobitモデルのMarginal Effect (Partial Effect) ∂E[yi|xi]∂xi

を求めてみる。上で得られた E[yi|xi] = x′

iβΦ(x′iβσ ) + σφ(x

′iβσ )を xi で微分する。

∂E[yi|xi]

∂xi= βΦ(

x′iβ

σ) + x′

iβ∂

∂xiΦ(

x′iβ

σ) + σ

∂xiφ(

x′iβ

σ)

= βΦ(x′iβ

σ) + x′

iβφ(x′iβ

σ)β

σ+ σ(−x′

σ)φ(

x′iβ

σ)β

σ

= βΦ(x′iβ

σ) (125)

37

8.4 へーキットモデル (サンプルセレクション)

サンプルセレクションのモデル wi =

w∗

i = x′iβ + ϵ1i  (yi = 1 if y∗i = z′iγ + ϵ0i > 0)

not observed

(ϵ0ϵ1

)∼ N

[(00

),

(σ20 σ01

σ10 σ21

)]

母回帰式 E[wi|yi = 1, xi]を求める。2変量正規分布における切断分布の期待値の公式 (証明めんどい)を用いる。

2変量正規分布における切断分布 変数 y0 と y1 の平均と分散が以下のように表せる時

(y0y1

)∼ N

[(µ0

µ1

),

(σ20 σ01

σ10 σ21

)]

切断 y0 > aにおける y1 の期待値は以下のように表せる

E[y1|y0 > a] = µ1 +σ01

σ0λL

= µ1 + ρσ1λL

ただし ρ =σ01√σ21σ

20

, λL =φ(a−µ0

σ0)

1− Φ(a−µ0

σ0)

E[wi|yi = 1, xi] = E[wi|y∗i = z′iγ + ϵ01 > 0, xi]

= E[x′iβ + ϵ1i|ϵ0i > −z′iγ, xi]

= x′iβ + E[ϵ1i|ϵ0i > −z′iγ]

2変量正規分布における切断分布の期待値の公式から

= x′iβ + E[ϵ1i] +

σ01

σ0

φ(−z′iγ−E[ϵ0i]

σ0)

1− Φ(−z′

iγ−E[ϵ0i]σ0

)

= x′iβ +

σ01

σ0

φ(−z′iγ

σ0)

1− Φ(−z′

iγσ0

)

= x′iβ +

σ01

σ0

φ( z′iγσ0

)

Φ(z′iγσ0

)(126)

8.4.1 へーキットモデルの考察単純に,観察された w∗

i = x′iβ + ϵ1i の式で OLSを行うと,不偏性を得られなくなる。なぜなら

ば,実際の母回帰式は (126)式であり,第二項 (逆ミルズ比)が欠落変数になってしまうからである。解決策としては,各 iごとの逆ミルズ比を計算し,w∗

i = x′iβ + ϵ1i に説明変数として加える必

要がある。

38

8.5 証明の補足

左片側切断正規分布の平均を導出する証明。E[x|x > a] = µ+ σ φ(α)1−Φ(α) を示す。

連続確率変数の平均の定義から

E[x|x > a] =

∫ ∞

axf(x|x > a)dx (127)

(118)式から

=

∫ ∞

ax

1σφ(

x−µσ )

1− Φ(a−µσ )

(128)

=1

σ(1− Φ(a−µσ ))

∫ ∞

axφ(

x− µ

σ)dx (129)

a− µ

σ= αとおくと

=1

σ(1− Φ(α))

∫ ∞

axφ(

x− µ

σ)dx (130)

複雑なので置換する。x− µ

σ= z とおき,以下の 3点を代入する。

x = σz + µdz

dx=

1

σより,dx = σdz

x : a → ∞より,z :a− µ

σ→ ∞である。a− µ

σ= αより,z : α → ∞

=1

σ(1− Φ(α)

∫ ∞

α(σz + µ)φ(z)σdz (131)

=1

1− Φ(α)

∫ ∞

ασzφ(z)dz +

∫ ∞

αµφ(z)dz

(132)

φ′(z) = −zφ(z)より

=1

1− Φ(α)

σ

∫ ∞

α−φ′(z)dz + µ

∫ ∞

αφ(z)dz

(133)

=1

1− Φ(α)−σ[φ(z)]∞α + µ[Φ(z)]∞α (134)

=1

1− Φ(α)−σ(φ(∞)− φ(α)) + µ(Φ(∞)− Φ(α)) (135)

φ(∞) = 0,Φ(∞) = 1より

=1

1− Φ(α)−σ(0− φ(α)) + µ(1− Φ(α)) (136)

=1

1− Φ(α)σφ(α) + µ(1− Φ(α)) (137)

= µ+ σφ(α)

1− Φ(α)(138)

39

8.6 参考文献

• G.S Maddala(著) . 佐伯親良 (訳),2004年,マダラ計量経済分析の方法 (改訂 3版),エコノミスト社

• 蓑谷千凰彦,2007年,計量経済学大全,東洋経済新報社• Jeffrey Wooldridge, 2013, Introductory Econometrics: A Modern Approach(5th edi-

tion), South-western Cengage Learning

40

9 Appendix

9.1 A:行列の性質

(A+B)′ = A′ +B′ (A1)

(AB)′ = B′A′ (A2)

(ABC)′ = ((AB)C)′ = C ′(AB)′ = C ′B′A (A3)

(X ′)−1 = (X−1)′ (A4)

対称行列 : X = X ′ (A5)

(A1 ·A2 · · ·Ak)−1 = A−1

k ·A−1k−1 · · ·A

−12 ·A−1

1 (A6)

トレース (跡)

行列 Aの固有値を λ1,λ2, ...λn とする時,tr(A) =∑

λi と表す。以下の性質がある。

tr(A′) = tr(A) (A6)

tr(AB) = tr(BA) (A7)

tr(ABC) = tr(CAB) = tr(BAC) (A8)

クロネッカー積A = (aij)をm× n行列,B = (bkl)を p× q 行列とすると,クロネッカー積 A⊗B は

A⊗B =

⎜⎝a11B · · · a1nB...

. . ....

am1B · · · amnB

⎟⎠ (A9)

というmp× nq 行列となる。また,以下のような性質がある。

(A⊗B)−1 = A−1 ⊗B−1 (A10)

(A⊗B)′ = A′ ⊗B′ (A11)

行列の微分

∂x(a′x) =

∂x(x′a) = a (A12)

∂x(x′Ax) = (A+A′)x (A13)

∂A(log|A|) = (A−1)′ (A14)

∂A(tr(A−1M)) = −(A−1MA−1)′ (A15)

41

9.2 B:統計のいろいろ

Cov(x, y + z) = Cov(x, y) + Cov(x, z) (B1)

証明 Cov(x, y + z) = E[(x− E[x])(y + z − E[y + z])]

= E[(x− E[x]) (y − E[y]) + (z − E[z])]= E[(x− E[x])(y − E[y]) + (x− E[x])(z − E[z])]

= E[(x− E[x])(y − E[y])] + E[(x− E[x])(z − E[z])]

= Cov(x, y) + Cov(x, z) 証明終

Cov(X,Y ) = E[XY ]− E[X]E[Y ] (B2)

証明 Cov(X,Y ) = E[(X − E[X])(Y − E[Y ])]

= E[XY −XE[Y ]− Y E[X] + E[X]E[Y ]]

= E[XY ]− E[X]E[Y ]− E[X]E[Y ] + E[X]E[Y ]

= E[XY ]− E[X]E[Y ] 証明終

Cov(X, aY ) = a · Cov(X,Y ) (B3)

証明 Cov(X, aY ) = E[(X − E[X])(aY − E[aY ])]

= a · E[(X − E[X])(Y − E[Y ])]

= a · Cov(X,Y ) 証明終

E[x|y] = のとき,E[x] = 0 (B4)

証明繰り返し期待値の法則より

E[E[x|y]] = E[x]

仮定よりE[0] = E[x]

∴ E[x] = 0 証明終

42

E[x|y] = 0のとき,E[xy] = 0 (B5)

証明繰り返し期待値の法則より

E[xy] = E[E[xy|y]]= E[y · E[x|y]]

仮定より= E[y · 0]= 0 証明終

E[x|y] = 0のとき,Cov(x, y) = 0 (B6)

証明 仮定より (B2)を適用できCov(x, y) = E[xy]− E[x]E[y]

仮定より (B4)(B5)を適用でき= 0− 0 · E[Y ]

= 0 証明終

43

9.3 C:分布について

9.3.1 確率密度関数と累積密度関数確率変数 z に対し,確率密度関数 (pdf) を F (z),累積密度関数 (cdf) を F (z) とする。本稿では,基本的に左右対称な釣鐘型の正規分布とロジスティック分布を扱う。

図 4 確率密度関数 図 5 累積分布関数

累積分布関数を微分したものが確率密度関数であり,逆を言えば確率密度関数を (−∞,∞)の範囲の範囲で積分したものが累積分布関数になる。

d

dzF (z) = f(z) (139)

∫ ∞

−∞f(z)dz = F (z) (140)

z がある定数 aより小さい値を取る確率 Pr(z < a)は,確率密度関数を (−∞, a]の範囲で積分したものなので

Pr(z < a) =

∫ a

−∞f(z)dz = F (a) (141)

と表せる。

9.3.2 正規分布平均 µ,分散 σ の正規分布に従う確率変数 x の確率密度関数 f(x) は一般に以下のように表される。

f(x) =1√2πσ2

exp (− (x− µ)2

2σ2)

44

9.3.3 標準正規分布平均 0,分散 1の標準正規分布に従う確率変数 xの確率密度関数 φ(x),累積密度関数 Φ(x)は一般に以下のように表される。

φ(x) =1√2π

exp (−x2

2)

標準正規分布は次の性質を持つ。φ′(x) = −x · φ(x) (142)

証明φ′(x) =

d

dx 1√

2πexp (−x2

2)

=1√2π

(−x2

2)′ exp (−x2

2)

=1√2π

(−1

2· 2 · x) exp (−x2

2)

= −x · 1√2π

exp (−x2

2)

= −x · φ(x) 終

9.3.4 多変量正規分布平均 µ = (µ1, µ2, ..., µm)のm次元正規分布の同時密度関数

f(x) =1

(√2π)m

√|Σ|

exp (−1

2(x− µ)′Σ−1(x− µ)) (143)

ただし,Σ は分散共分散行列である。

9.3.5 ベルヌーイ分布pの確率で 1を取り,1− pの確率で 0をとる確率変数 xを考える。

Pr(X = 1) = p

Pr(X = 0) = 1− p

確率密度関数はf(X = x) = px(1− p)1−x (x = 0, 1) (144)

45

9.4 D:確率論の定義や定理

繰り返し期待値の法則 (Law of Iterated Expectations) EY [EX [X|Y ]] = E[X] (C1)

証明*2

EY [EX [X|Y ]] =

∫ (∫xf(x|y)dx

)fY (y)dy

=

∫ (∫xf(x, y)

fY (y)dx

)fY (y)dy

=

∫x

(∫f(x, y)dy

)dx

=

∫xfX(x)dx

= E[X] 確率収束の定義 (Convergence in Probability) 確率変数 zn ∈ R が n → ∞とともに cに収束する

def⇐⇒ limn→∞

Pr(|zn − c| ≤ δ) = 1 for δ∀ > 0

⇐⇒ znp−→ c

⇐⇒ plimn→∞

zn = c

大数の法則 (Law of Large Number) コイン投げを数多く繰り返すことによって表の出る回数が 1/2に近くなど、数多くの試行を重ねることにより事象の出現回数が理論上の値に近づく定理のこと。

zini=1 : i.i.d, E|zi| < ∞ ⇒ 1

n

n∑

i=1

zip−→ E[zi]

ただし |zi| =

⎧⎪⎨

⎪⎩

絶対値  |zi|がスカラー√a21 + a22 + · · ·+ a2k  |zi|がベクトル√∑

ij a2ij |zi|が行列

*1 http://ur0.link/y3jU より引用

46

連続写像定理 (Continuous Mapping Theorem) zn

p−→ cn→∞

, f(·) is continuous at c ⇒ f(zn)p−→ f(c)

n→∞ コーシー・シュワルツの不等式 (CauchySchwarz inequality) ユークリッド空間 Rn において

(n∑

i=1

uivi)2 ≤ (

n∑

i=1

u2i )(

n∑

i=1

v2i )

証明は wikipediaとか見たら載ってる 分布収束の定義 (Convergence in Distribution) 確率変数の列Wn が,ある確率変数 D へと分布収束する

def⇐⇒ Wnd−→ D

⇐⇒ c.d.f of Wn → c.d.f of D 中心極限定理 (Central Limit Theorem) 任意の確率分布に従う母集団から抽出された標本の数が十分多い場合,標本平均の分布は正規分布に従う。

zini=1 : i.i.d, E|zi|2 < ∞, E[zi] = 0本来不必要。見やすさのため。

⇒√nz =

1√n

n∑

i=1

zid−→ N(0, E[ziz

′i])

47