Download pdf - 重回帰分析 - ec.kansai-u.ac.jp · 重回帰モデル（数式，推定法） •データが得られるメカニズムは以下の式で表される． 3 (3.1) y i D E 1 x

重回帰分析

被説明（目的）変数を、２つ以上の説明変数を用いて説明する。

単回帰ではそれぞれ１つだけ。

重回帰モデルの例

• 家計の消費水準を，可処分所得と消費者物価により説明する．

• 一人当り賃金上昇率を，消費者物価上昇率と失業率により説明する．

• 株価水準の変動を内外金利水準や鉱工業生産指数，為替レート等の変動や，金融的変数の変動で説明したりする．

• 説明変数が複数あるということは、思わぬ問題を引き起こす。詳しくは、計量経済学で。

2

重回帰モデル（数式，推定法）

• データが得られるメカニズムは以下の式で表される．

3

iKiKiii xxxy 2211)1.3(

2

2211

1

)()2.3( KiKii

n

i

i xxxy

推定値は最小２乗法，つまり以下の式を最小にするものとして得られる．

回帰モデルの選択の例

• ある会社の株価収益率の平均（目的変数）を予想したい．

• 株価は会社の成長性，安定性，収益性などの要素で決まると言われる．

• 成長性の指標として，昨年の売上高成長率を採用するのか，それとも，５年間の平均を採用するのか．

• あるいは，経常利益を考えるのか？

• それとも，両方を採用するか？

4

推定値・残差

パラメータの推定値を次のように表そう．

5

Kbbbba ,,,,, 321

すると各観測の推定値は，

KiKiii xbxbxbay 2211ˆ)4.3(

(3.5) ei yi ˆ y i , ei 0i1

n

残差は，

回帰モデルの候補は数えきれない

• 説明変数として何を採用するのか？

• 説明変数をいくつ採用するのか？

• 競合する回帰モデルの優劣を示す数値（基準）が必要になる．

–決定係数は、モデルの優劣をきめるものとは言えない。

• その一つが，修正決定係数である．

6

決定係数の弱点

（モデルの説明力を示すものとしての意味は依然として持つが）

)2(

)1(

2211

11

iii

ii

xxy

xy

)'2()(min 2

2211,,

2

21iiibbai xbxbaye

2

2

2

)(1

1

1

yyn

enR

i

i

7

)'1()(min 2

11,

2

1iibai xbaye

(1’)と(2’)のうち、(２’)の方が必ず小さくなる。

決定係数

修正決定係数の定義－単回帰

22

1

)(min)( ayyy ia

n

i

i

)1()(

)2(1

)1()(

)2()ˆ(1

2

1

2

2

1

2

2

nyy

ne

nyy

nyyR

n

i

i

n

i

i

ii

2

2

2

)(1

1

1

yyn

enR

i

i

8

)1(11 ii xy

2

11,

2 )(min1 iibai xbaye

修正決定係数：説明変数が２つのとき、

22

1

)(min)( ayyy ia

n

i

i

2

2

2

)(1

1

1

yyn

enR

i

i

)1()(

)3(1

)1()(

)3()ˆ(1

2

1

2

2

1

2

2

nyy

ne

nyy

nyyR

n

i

i

n

i

i

ii

9

)2(2211 iii xxy

2

2211,,

2 )(min21 iiibbai xbxbaye

修正決定係数：説明変数がＫ個のとき、

10

重回帰分析の場合には、修正決定係数の利用が強く求められる。

)1()(

)1(1

)1()(

)1()ˆ(1

2

1

2

2

1

2

2

nyy

Kne

nyy

KnyyR

n

i

i

n

i

i

ii

重回帰分析の例

都道府県別平均寿命を説明する

平均寿命を決定する要因

• 自然要因

–暮らし易さ（気温、霜、積雪、日照、公園、汚染）

• 社会文化的要因

–教育、犯罪、人口、医療、食習慣、慣習

–豊かさ、活気

–個人に影響を与える。

• 生活習慣（嗜好品、運動、趣味）

• 友人家族

特性要因図にすると、

アメリカの例では、

• 目的（被説明、従属）変数として、– Life Expectancy(寿命）→LEXP

• 説明（独立）変数として、– 人口（Population)→POP

– 収入(Income)→IN

– 文盲率（Ｉｌｌiteracy)→ILL

– 殺人率（Murder)→MUR

– 高校卒業率（HS Grad)→HSG

– 霜の日数(Frost)→FRO

– 面積(Area)→AREA

• 変数のペア毎の相関関係を観察する

相関係数を眺める

• 相関係数の符号及び絶対値とグラフの関係と観察する．

• 直線的な関係であることを確認する．

単回帰モデルならば

• 相関係数の絶対値が最も大きい，MURDER を用いるとよい．

MURLEXP MUR

しかし，単回帰モデルが重回帰モデルよりも良いという保証はない．また逆も言える。

重回帰モデル

• 殺人率、高校卒業率、霜の日数を含む重回帰モデルが比較的良好なモデルとなる。

FROS

HSGMURLEXP

FROS

HSGMUR

• 説明変数を選ぶことは、小さな会社の従業員を選ぶことと似ている。

• 数が多いと、人件費が嵩む。

• 役割分担がある。

• 相性がある。

JMPで重回帰分析を行う

２．割り当て

１．[分析]→[モデルのあてはめ]を選択

３．修正決定係数を見て、他のモデルとの比較を行う。

日本でも同様に考えると、

• 目的変数は、都道府県別寿命• 説明変数は、都道府県別：

– 離婚率

– 出生率

– 大学進学率

– 犯罪率

– 乳児死亡率

– 霜の降りる期間（日数）

– 面積

– 20-34歳人口比、等

回帰モデルを当てはめる前に観察を行う

• まず、寿命の分布を見る。

• さまざまな単回帰モデルを考える。

–最も当てはまりのよい単回帰モデルを見つけるには、相関係数を見ればよい。

–相関係数の符合と大きさを観察する。

目的変数は、男女どちらかの寿命としよう（男女比較をしてもよい）。

ここでは、男性を例にとろう。

最初の変数の候補は、最も相関の高い変数

• ここでは、大学進学率（男）であるので、単回帰モデルを当てはめ、修正決定係数を確認する。

• 相関の強さが、どのようなメカニズムによって説明されるのかを考えてみよう。

• 説明変数は何かの代理変数である可能性あり。

次の変数は何を選べばよいかを考える。

• 説明変数が２つのモデルを当てはめてみる。

–候補となるモデルを予想し、実際に当てはめる。

–大学進学率とは相関の低いものを選ぶとよい。

１．さまざまな要因を入れてみる。

２．実行しては結果を記録し、再び、このウィンドウでモデルを実行する。

２つめの要因として離婚率を考えると

あまり良好ではない。

できれば、0.1（程

度）以下であることが望ましい。

てこ比プロットの見方

離婚率と、離婚率を除いたモデルの残差との関係

大学進学率（男）と、大学進学率（男）を除いたモデルの残差との関係

変数選択は厄介な問題だが、

• 試行錯誤を繰り返しつつ、最善のモデルを探すアプローチ

• JMPには、この操作を自動的に行う機能が組み込まれている。JMPのヘルプを参照し、変数増加、変数減少、変数増減を試してもよい。

• いくつかの重回帰モデルの候補を挙げ、その中から最も修正決定係数の大きなモデルを提案するアプローチ。

Snipping ツールを利用して、JMPの出力をWordに貼り付ける１．起動

２．[新規作成]から[四角形の領域切り取り]を選び、切り取る区間を指定する。

３．[コピー]をして、Word に貼り付ける。

Download pdf - 重回帰分析 - ec.kansai-u.ac.jp · 重回帰モデル（数式，推定法） •データが得られるメカニズムは以下の式 で表される． 3 (3.1) y i D E 1 x

Download pdf - 重回帰分析 - ec.kansai-u.ac.jp · 重回帰モデル（数式，推定法） •データが得られるメカニズムは以下の式で表される． 3 (3.1) y i D E 1 x