View
478
Download
4
Category
Preview:
Citation preview
構造方程式モデルによる因果探索と非ガウス性
清水昌平
大阪大学産業科学研究所
数学協働プログラム 確率的グラフィカルモデル電気通信大学 2015年3月
https://sites.google.com/site/sshimizu06/indexj
応用例はココ: https://sites.google.com/site/sshimizu06/home/lingampapers#applications
Abstract
• 因果探索– 介入のないデータから因果グラフを推定
• 課題– 時間情報なし
– 潜在共通原因による疑似相関
• セミパラメトリックアプローチ– 関数形には仮定: 線形性 (or 非線形加法的)
– 分布は非ガウス(連続)
– 「適度な」仮定の下, データ分布の情報を全て利用して課題にタックル
2
使い方その1:
因果方向に関する仮説を比較
• 抑うつ気分と睡眠障害 (Rosenström+, 2012)
• TV視聴時間と腹囲 (Helajärvi+, 2014)
• VAAAとPAAP (von Eye+, 2012)
3
抑うつ気分
睡眠障害
抑うつ気分
睡眠障害
?
or
どれ?
データ行列X
推定抑うつ気分
睡眠障害
人1, 人2, …, 人1689
疫学調査 抑うつ気分
睡眠障害
or
使い方その2:背景知識がない時に因果仮説を探索
• 2つの条件で違うのはどこ?(Mill-Finnerty+ 2014, NeuroImage)
• 因果仮説の構築支援
4
VMPFC DLPFC
Ant. Cing
Caudate Accumbens
Insula
VMPFC DLPFC
Ant. Cing
Caudate Accumbens
Insula
異なる条件で異なる因果構造
Positive framing Negative framing
fMRI
脳活動計測
使い方その3:背景知識がない時に因果仮説を探索
• 原因変数選択 (cf. Maathuis+, 10; Campomanes+, 14; Bottou+, 14)
• 「説明」変数を原因系, 結果系, 無関係に3分
– lassoは原因と結果を区別しない(疑似相関も区別しない)
5
変数11
ターゲット変数
変数200
変数1
変数30 変数20
変数150
原因系結果系
変数3
変数300無関係
因果探索では
何を問題にしているか?
チョコレート消費量とノーベル賞受賞者数には正の相関
7
Chocolate Consumption, Cognitive Function, and Nobel Laureates
Franz H. Messerli, (2012), New England Journal of Medicine (Occasional Notes)
2002-2011チョコレートの消費量
ノーベル賞受賞者の数 相関係数: 0.791
P値 < 0.0001
Messerli論文の散布図(Fig.1)
著者の主張8
Chocolate Consumption, Cognitive Function, and Nobel Laureates
Franz H. Messerli, (2012), New England Journal of Medicine
チョコ消費量
受賞者の数
ConclusionsChocolate consumption enhances cognitive function, …
相関係数: 0.791
P値 < 0.0001
データ
チョコレートをたくさん食べさせれば受賞者が増えるのか?(因果関係)
• 飛躍しすぎ (Maurage et al., 2013, J. Nutrition)
9
チョコ 賞 ?チョコ 賞
orGDP GDP
チョコ 賞
orGDP
相関係数 0.791
P値 < 0.001
複数の因果関係がそのような相関関係を与えるギャップ
チョコ
賞
潜在共通原因 潜在共通原因 潜在共通原因
(相関関係)
ギャップが埋まる場合はある?
10
「3つのうち, どれがよいか」データから言える場合はある?
チョコ 賞 ?チョコ 賞
orGDP GDP
チョコ 賞
orGDP
潜在共通原因 潜在共通原因 潜在共通原因
3つのモデルは, 相関係数は同じかも, しかしそれ以外に違うところがあるのでは?
どんな仮定が必要?
データ分布の情報をすべて利用
因果探索のフレームワーク
チョコ 賞
GDP潜在共通原因
yy
xx
efxgy
efgx
,,
,
構造方程式モデル
構造方程式モデル (SEM) (Bollen, 1989; Pearl, 2000)
• データ生成過程を記述する道具
12
y x
f
yy
xx
efxgy
efgx
,,
,
データ生成過程
1. どういう関数で決まるか
ey ex式で
2. 外生変数はどういう分布か
ex,ey, f の分布
y
x
観測変数の分布
構造方程式モデル
yxp ,
分布決まる
注: 概念的には、どっちかというと構造方程式モデルからグラフを描きます
因果効果(介入効果)(Rubin, 1974; Pearl, 2000)
• xの値をcからdに(外的に)変化させた時に、yの値が平均的にどのくらい変化するか
13
y x
f
ey ex
cxdoyEdxdoyE ||:)( 因果効果平均
cd -線形の場合
yy
xx
efxy
efx
xy
b
b b
注: yをxに回帰しても, 回帰係数 ≠ b (潜在共通原因fを無視してはだめ)
因果探索の基本問題14
潜在共通原因 f 潜在共通原因f 潜在共通原因f
yy
xx
efgy
efygx
,
,,
yy
xx
efxgy
efgx
,,
,
yy
xx
efgy
efgx
,
,
データ行列x
y~i.i.d. p x, y( )
obs.1
仮定: どれかがデータを生成
問題: どれが生成したかを推定
obs.nobs.2 …
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構造方程式モデル
構造方程式モデル
構造方程式モデル
因果方向推定: 3つのアプローチ1. ノンパラ
– 関数形にも分布にも仮定おかず どれかわからない
2. パラメトリック
– 線形+ガウス分布 どれかわからない
3. セミパラ
– 線形+非ガウス分布 どれからデータ生成したかわかる
15
潜在共通原因f 潜在共通原因f 潜在共通原因f
yy
xx
efgy
efygx
,
,,
yy
xx
efxgy
efgx
,,
,
yy
xx
efgy
efgx
,
,
y x
f
y x
f
y x
f
ey ex ey ex ey ex
ex,ey, f の分布ex,ey, f の分布 ex,ey, f の分布
構造方程式モデル
構造方程式モデル
構造方程式モデル
適用イメージ: 思春期の攻撃性
• 入力: 質問紙調査のデータ (Finkelstein+, 1994)
• 因果方向推定 (Shimizu & Bollen 2014; Shimizu, 2015)
• Python code 公開 (今夏)
– 係数bの事後分布, ベイズ因子, 事後予測p値
16
データ行列(介入なし)
Verbal Aggression Against Adults (VAAA)
Physical Aggression Against Peers (PAAP)
114 boys and girls in UK
VAAA PAAP
…
VAAA PAAP
…
<周辺尤度
b b
多変数の場合も役立つ
• 多変数の場合の課題
–因果グラフの候補が膨大
• ペアごとに分析して候補の数を減らせる
–計算も助かる(貪欲法回避; パソコンで可?)
17
x1
x2x4
x3
f1
f3
x1 x2
x3 x4
ペアごとに分析
候補の絞り込み
x1
x2x4
x3
f1
f3
完全グラフ
あとは辺の有無を評価
Talk outline
1.動機とフレームワーク: Done!
2.因果方向推定の基本アイデア
– 潜在共通原因「なし」の場合を例に
3.潜在共通原因「あり」の場合の因果方向推定
18
因果方向推定の基本アイデア
潜在共通原因が「ない」場合を例に
• 2つのモデルを比較(因果方向が反対):
– x1とx2どちらが先に生成されたか知らない
• モデル1と2が識別可能な条件 (Dodge+, 00; Shimizu+, 2006)
– e1 or e2が非ガウス
– e1 と e2が独立 (潜在共通原因なし)
と は外生(誤差)変数(連続)
時間情報なし20
or
21212
11
exbx
ex
22
12121
ex
exbx
モデル1: モデル2:
x1 x2
e1 e2
1e 2e
x1 x2
e1 e2
識別可能: 方向が違えば分布が違う
𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス(一様分布)
モデル1:
モデル2:
x1
x2
x1
x2
e1
e2
x1
x2
e1
e2
x1
x2
x1
x2
x1
x2
212
11
8.0 exx
ex
22
121 8.0
ex
exx
1varvar 21 xx
,021 eEeE
21
相関係数はどれも0.8
• Linear Non-Gaussian Acyclic Model (LiNGAM) (Shimizu+, 2006)
• データXから因果方向, 係数, 切片が識別可能(一意に推定可能)
LiNGAMモデル
22
i
ij
jijii exbx
x1 x2
x3
21b
23b13b
2e
3e
1e
-非巡回
-非ガウス外生変数(誤差) ei
- ei は互いに独立(潜在共通原因なし)
外生変数の独立性がどう役立つか?23
21212
11
exbx
ex
モデル 1:
x1
x2
e1
e2
真
結果x2を原因x1に回帰 原因x1を結果x2に回帰
2
1212
1
1
122
)1(
2)var(
),cov(
e
xbx
xx
xxxr
は独立と )1(
211 )( rex
残差
)var(
var
)var(
),cov(1
)var(
),cov(
2
1211
2
2121
2
2
211
)2(
1
x
xbe
x
xxb
xx
xxxr
はと )2(
121212 )( reebx
2e
従属
021 bガウスだと無相関=独立
独立性最大=非ガウス性最大
• 相互情報量の差=非ガウス性の差 (Hyvarinen+, 2013)
• Hを最大エントロピー近似 (Hyvarinen, 1999)
• 多変数でも同様に可
– 「ペアごとに評価し, どのペアでも原因系の変数はroot
node」 (Shimizu et al., 2011)
24
)()(
)()(),(),(
)2(
1
)2(
12)1(
2
)1(
21
)2(
12
)1(
21rsd
rHxH
rsd
rHxHrxIrxI
2変数の独立性でなく、各変数のエントロピー(1次元)
を評価すればいい (計算が楽)
• 「非線形+加法の外生変数」のモデル
• いくつかの非線形性と外生変数の分布を除いて識別可能(Zhang & Hyvarinen, 2009; Peters et al., 2014)
• Open problem: どこまで緩められるか?
非線形+加法の外生変数
iiiii
iiii
i
x
kki
exffx
exfx
exfxi
の親
の親
の親
1,
1
2,
-- Hoyer et al. (2008)
-- Zhang et al. (2009)
1.
2.
25
3.
-- Imoto et al. (2002)
巡回モデル(Lacerda et al., 2008; Hyvarinen & Smith, 2013)
• モデル:
• 識別性の十分条件
– Bの固有値の絶対値が1以下(平衡状態にある)
– ループが交わらない
– 自己ループなし
x1
x2
e1
e2
x5 e5
x4e4
x3e3
26
i
ij
jijii exbx
時系列(Hyvarinen et al., 2008;2010)
• LiNGAM+自己回帰モデル
– 瞬間的因果構造:LiNGAM
– 時間的決定関係:自己回帰モデル
– 測定間隔と相互作用のスピード
– 計量経済学• 構造型ベクトル自己回帰モデル
(Swanson & Granger, 1997)
)()()(0
tttk
exBx
x1(t)x1(t-1)
x2(t-1) x2(t)
e1(t-1)
e2(t-1)
e1(t)
e2(t)
27
仮定の評価
• ガウス性の検定– 観測変数や外生変数(誤差)の非ガウス性チェッ
(Moneta+, 13)
• 外生変数(誤差)間の独立性検定– 従属 潜在共通原因あり (Entner+ 2011; 2012)
• 全体的な適合度– カイ二乗検定 (Shimizu & Kano, 2008)
• 参考: 統計的信頼性評価– ブートストラップ (Komatsu, Shimizu & Shimodaira, 2010)
28
Talk outline
1. 動機とフレームワーク: Done!
2. 因果方向推定の基本アイデア: Done!
– 潜在共通原因「なし」の場合を例に
3. 潜在共通原因「あり」の場合の因果方向推定
29
潜在共通原因がある場合
• 潜在共通原因 を追加 (非ガウス)
i
ij
jij
Q
q
qiqii exbfx 1
潜在共通原因がある場合のLiNGAMモデル (Hoyer, Shimizu+, 2008)
31
ただし は独立),,1( Qqfq
qf
x1 x2 2e1e
1f 2f
2121
1
222
1
1
111
exbfx
efx
Q
q
Q
q
独立としても一般性を失わない
独立な潜在共通原因
i
ij
jij
Q
q
qiqii exbfx 1
32
x1 x2 2e1e
1fe
2fe
x1 x2 2e1e
1
:1 fef
2
:2 fef
1f 2f
従属な潜在共通原因
2
1
2221
11
2221
11
2
100
2
1
f
f
aa
a
e
e
aa
a
f
f
f
f
識別可能: 方向が違えば分布が違う
• Hoyer, Shimizu, Kerminen and Palviainen (2008)
• 忠実性
33
x1 x2
f1
x1 x2
orfQ f1 fQ
… …
2e1e2e1e
2121
1
222
1
1
111
exbfx
efx
Q
q
Q
q
2
1
222
1212
1
111
efx
exbfx
Q
q
Q
q
1x1x
2x2x
推定アプローチ その1
• 潜在共通原因を陽にモデリングしてモデル選択
–最尤推定 or ベイズ推定 (Hoyer+, 2008; Henao & Winther,
2011)
–潜在共通原因の数を特定する必要 – 大変
34
x1 x2
f1 fQ…
2e1e
2121
1
222
1
1
111
exbfx
efx
Q
q
Q
q
潜在共通原因を陽にモデリングしないアプローチ
S. Shimizu and K. Bollen.
Journal of Machine Learning Research,
15: 2629-2652, 2014.
推定アプローチ その2
)(
2
m
観測は, 切片 が異なるかもしれないLiNGAMモデルから生成される
)(
22
m
)1(
1x)1(
2x
)(
2
mx)1(
1x
)(
2
)(
121
1
)(
22
)(
2
mmQ
q
m
m exbfx
Key idea (1/2)
• 潜在共通原因ありのLiNGAMの別の見方:
36
x1 x2
f1 fQ…
2e1e
)1(
2e)1(
1e
)(
2
me)(
1
me
……
21b
21b
21b)(
22
m
)1(
22
m-番目の観測:
Key idea (2/2)
• 潜在共通原因の和を, 観測固有の切片としてモデル化:
• 潜在共通原因を陽にモデリングしない
–潜在共通原因の数Qも係数 も推定不要
37
)(
2
m
)(
2
)(
121
1
)(
22
)(
2
mmQ
q
m
m exbfx
m-番目の観測:
q2
観測固有の切片
線形の場合は, 潜在共通原因fqの影響が切片の違いとして現れる
• 因果方向の異なるモデルを周辺尤度で比較:
• 追加パラメータたくさん
– 混合モデル(やマルチレベルモデル)と同様
• 観測固有の切片 に事前分布 (informative)
• 他パラメータ not very informative: 分散の大きいガウス
• p(e1), p(e2): 後の実験ではラプラスで固定
)()(
121
)(
22
)(
2
)(
1
)(
11
)(
1
m
i
mmm
mmm
exbx
ex
ベイズでモデル選択38
),,1;2,1()( nmim
i
)(m
i
Model 3 (x1 x2)
)(
2
)(
22
)(
2
)(
1
)(
212
)(
11
)(
1
mmm
mmmm
ex
exbx
Model 4 (x1 x2)
v
観測固有の切片の事前分布の一例
• 動機: 中心極限定理
– よりたくさんの独立な変数の和は, よりガウスに
• ベル型の分布で近似
– 後の実験では自由度 は6に固定
• ハイパーパラメータも周辺尤度で選択: 経験ベイズ
–
• 小さい : 切片が似てる
39
Q
q
m
mQ
q
m
m ff1
)(
2
)(
2
1
)(
1
)(
1 ,
~)(
2
)(
1
m
m
t-分布 (標準偏差 , 相関 , 自由度 )12
21, v
)},(sd0.1,),(sd2.0,0{ lll xx }9.0,,1.0,0{12
21,
(t-分布の代わりにガウス分布を使っても構いません)
社会学データで評価実験
社会学データ
• Source: General Social Survey (n=1380)
– Non-farm background, ages 35-44, white,
male, in the labor force, no missing data for
any of the covariates, 1972-2006
41
Status attainment model(Duncan et al., 1972)
x2: Son’s Income
潜在共通原因を陽にモデリングするアプローチと比較
Known (temporal)
orderings of 15 pairs
42
Son’s
Education
Father’s
Education
Son’s
Income
Father’s
Education
Son’s
Income
Son’s
Occupation
……
まとめ
• 因果分析の難しさ: 潜在共通原因
• 潜在共通原因があっても,
因果グラフを推定可能な場合がある– 線形, 非巡回, 非ガウス潜在共通原因なしの場合のような拡張はおそらく可能?
• Open problems:– 関数形をどこまで緩められるか?
– 離散の場合はどうなる? (プロビット? Cf. Muthen 02, BHMK)
• もっと適用例– Python code順次公開予定 (今夏)
43
Recommended