重回帰分析
被説明(目的)変数を、2つ以上の説明変数を用いて説明する。
単回帰ではそれぞれ1つだけ。
重回帰モデルの例
• 家計の消費水準を,可処分所得と消費者物価により説明する.
• 一人当り賃金上昇率を,消費者物価上昇率と失業率により説明する.
• 株価水準の変動を内外金利水準や鉱工業生産指数,為替レート等の変動や,金融的変数の変動で説明したりする.
• 説明変数が複数あるということは、思わぬ問題を引き起こす。詳しくは、計量経済学で。
2
重回帰モデル(数式,推定法)
• データが得られるメカニズムは以下の式で表される.
3
iKiKiii xxxy 2211)1.3(
2
2211
1
)()2.3( KiKii
n
i
i xxxy
推定値は最小2乗法,つまり以下の式を最小にするものとして得られる.
回帰モデルの選択の例
• ある会社の株価収益率の平均(目的変数)を予想したい.
• 株価は会社の成長性,安定性,収益性などの要素で決まると言われる.
• 成長性の指標として,昨年の売上高成長率を採用するのか,それとも,5年間の平均を採用するのか.
• あるいは,経常利益を考えるのか?
• それとも,両方を採用するか?
4
推定値・残差
パラメータの推定値を次のように表そう.
5
Kbbbba ,,,,, 321
すると各観測の推定値は,
KiKiii xbxbxbay 2211ˆ)4.3(
(3.5) ei yi ˆ y i , ei 0i1
n
残差は,
回帰モデルの候補は数えきれない
• 説明変数として何を採用するのか?
• 説明変数をいくつ採用するのか?
• 競合する回帰モデルの優劣を示す数値(基準)が必要になる.
–決定係数は、モデルの優劣をきめるものとは言えない。
• その一つが,修正決定係数である.
6
決定係数の弱点
(モデルの説明力を示すものとしての意味は依然として持つが)
)2(
)1(
2211
11
iii
ii
xxy
xy
)'2()(min 2
2211,,
2
21iiibbai xbxbaye
2
2
2
)(1
1
1
yyn
enR
i
i
7
)'1()(min 2
11,
2
1iibai xbaye
(1’)と(2’)のうち、(2’)の方が必ず小さくなる。
決定係数
修正決定係数の定義-単回帰
22
1
)(min)( ayyy ia
n
i
i
)1()(
)2(1
)1()(
)2()ˆ(1
2
1
2
2
1
2
2
nyy
ne
nyy
nyyR
n
i
i
n
i
i
ii
2
2
2
)(1
1
1
yyn
enR
i
i
8
)1(11 ii xy
2
11,
2 )(min1 iibai xbaye
修正決定係数:説明変数が2つのとき、
22
1
)(min)( ayyy ia
n
i
i
2
2
2
)(1
1
1
yyn
enR
i
i
)1()(
)3(1
)1()(
)3()ˆ(1
2
1
2
2
1
2
2
nyy
ne
nyy
nyyR
n
i
i
n
i
i
ii
9
)2(2211 iii xxy
2
2211,,
2 )(min21 iiibbai xbxbaye
修正決定係数:説明変数がK個のとき、
10
重回帰分析の場合には、修正決定係数の利用が強く求められる。
)1()(
)1(1
)1()(
)1()ˆ(1
2
1
2
2
1
2
2
nyy
Kne
nyy
KnyyR
n
i
i
n
i
i
ii
重回帰分析の例
都道府県別平均寿命を説明する
平均寿命を決定する要因
• 自然要因
–暮らし易さ(気温、霜、積雪、日照、公園、汚染)
• 社会文化的要因
–教育、犯罪、人口、医療、食習慣、慣習
–豊かさ、活気
–個人に影響を与える。
• 生活習慣(嗜好品、運動、趣味)
• 友人家族
特性要因図にすると、
アメリカの例では、
• 目的(被説明、従属)変数として、– Life Expectancy(寿命)→LEXP
• 説明(独立)変数として、– 人口(Population)→POP
– 収入(Income)→IN
– 文盲率(Illiteracy)→ILL
– 殺人率(Murder)→MUR
– 高校卒業率(HS Grad)→HSG
– 霜の日数(Frost)→FRO
– 面積(Area)→AREA
• 変数のペア毎の相関関係を観察する
相関係数を眺める
• 相関係数の符号及び絶対値とグラフの関係と観察する.
• 直線的な関係であることを確認する.
単回帰モデルならば
• 相関係数の絶対値が最も大きい,MURDER を用いるとよい.
MURLEXP MUR
しかし,単回帰モデルが重回帰モデルよりも良いという保証はない.また逆も言える。
重回帰モデル
• 殺人率、高校卒業率、霜の日数を含む重回帰モデルが比較的良好なモデルとなる。
FROS
HSGMURLEXP
FROS
HSGMUR
• 説明変数を選ぶことは、小さな会社の従業員を選ぶことと似ている。
• 数が多いと、人件費が嵩む。
• 役割分担がある。
• 相性がある。
JMPで重回帰分析を行う
2.割り当て
1.[分析]→[モデルのあてはめ]を選択
3.修正決定係数を見て、他のモデルとの比較を行う。
日本でも同様に考えると、
• 目的変数は、都道府県別寿命• 説明変数は、都道府県別:
– 離婚率
– 出生率
– 大学進学率
– 犯罪率
– 乳児死亡率
– 霜の降りる期間(日数)
– 面積
– 20-34歳人口比、等
回帰モデルを当てはめる前に観察を行う
• まず、寿命の分布を見る。
• さまざまな単回帰モデルを考える。
–最も当てはまりのよい単回帰モデルを見つけるには、相関係数を見ればよい。
–相関係数の符合と大きさを観察する。
目的変数は、男女どちらかの寿命としよう(男女比較をしてもよい)。
ここでは、男性を例にとろう。
最初の変数の候補は、最も相関の高い変数
• ここでは、大学進学率(男)であるので、単回帰モデルを当てはめ、修正決定係数を確認する。
• 相関の強さが、どのようなメカニズムによって説明されるのかを考えてみよう。
• 説明変数は何かの代理変数である可能性あり。
次の変数は何を選べばよいかを考える。
• 説明変数が2つのモデルを当てはめてみる。
–候補となるモデルを予想し、実際に当てはめる。
–大学進学率とは相関の低いものを選ぶとよい。
1.さまざまな要因を入れてみる。
2.実行しては結果を記録し、再び、このウィンドウでモデルを実行する。
2つめの要因として離婚率を考えると
あまり良好ではない。
できれば、0.1(程
度)以下であることが望ましい。
てこ比プロットの見方
離婚率と、離婚率を除いたモデルの残差との関係
大学進学率(男)と、大学進学率(男)を除いたモデルの残差との関係
変数選択は厄介な問題だが、
• 試行錯誤を繰り返しつつ、最善のモデルを探すアプローチ
• JMPには、この操作を自動的に行う機能が組み込まれている。JMPのヘルプを参照し、変数増加、変数減少、変数増減を試してもよい。
• いくつかの重回帰モデルの候補を挙げ、その中から最も修正決定係数の大きなモデルを提案するアプローチ。
Snipping ツールを利用して、JMPの出力をWordに貼り付ける1.起動
2.[新規作成]から[四角形の領域切り取り]を選び、切り取る区間を指定する。
3.[コピー]をして、Word に貼り付ける。