Rで学ぶ観察データでの因果推定
2012/03/10
Tokyo.R #21
Hiro_macchan
自己紹介• Hiroki Matsui(RPT,MPH)
• 出身:琵琶湖 住まい:千葉 職場:都内赤門
• 御嫁様候補探しています。
• 専門:リハビリテーション、臨床疫学・医療経済学
• 元理学療法士(リハビリ屋)→研究者
• Rは趣味程度に利用→現在は、仕事で利用
• Twitter: Hiro_macchan未熟者ですので間違い等は指摘して下さい。(できれば、お手柔らかに。。)
2012/03/10 TokyoR #21 2
前回のあらすじ
• TokyoR #18 LT枠
• アウトカムリサーチに触れる。
• 操作変数に関する説明を行う。
• あえなく撃沈
↓
• 焼き土下座
2012/03/10 TokyoR #21 3Fig.1: 当時の心境
本日お伝えしたいこと
Rを使って
2012/03/10 TokyoR #21 4
本日お伝えしたいこと
Rを使って
前回よりも、もう少し体系的に
2012/03/10 TokyoR #21 5
本日お伝えしたいこと
Rを使って
前回よりも、もう少し体系的に
観察データのバイアスを調整した上で
2012/03/10 TokyoR #21 6
本日お伝えしたいこと
Rを使って
前回よりも、もう少し体系的に
観察データのバイアスを調整した上で
因果効果を推計したい!!
2012/03/10 TokyoR #21 7
本日お伝えしたいこと
Rを使って
前回よりも、もう少し体系的に
観察データのバイアスを調整した上で
因果効果を推計したい!!
んだけどなぁ。。。
2012/03/10 TokyoR #21 8
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 9
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 10
• ある対象群への、ある介入の効果を考える。
2012/03/10 TokyoR #21 11
因果効果って?
同一対象
介入した場合の効果
介入しなかった場合の効果
現実的には測定不可能
因果効果:
因果効果って?
2012/03/10 TokyoR #21 12
曝露群(z=1)
曝露結果
非曝露結果
非曝露群(z=0)
曝露結果
非曝露結果
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 13
介入研究と観察研究
• 介入研究– 実際に対象に介入を行う。
– 介入方法は実験者が決定できる。
– 無作為割り付けなどランダム化が可能。
– お高い、倫理面での配慮が必要
• 観察研究– 対象者の調査観察データを取得する。
– ランダム化不可能
– (介入研究に比べて、)お安い、倫理面配慮は小さくてすむ。
2012/03/10 TokyoR #21 14
介入研究と観察研究
2012/03/10 TokyoR #21 15
介入を行う群(z=1)
介入した場合の結果
介入しなかった場合の結果(欠測)
介入を行わない群(z=0)
介入した場合の結果(欠測)
介入しなかった場合の結果
介入研究と観察研究
2012/03/10 TokyoR #21 16
曝露群(z=1)
曝露結果
非曝露結果
非曝露群(z=0)
曝露結果
非曝露結果
介入研究と観察研究
2012/03/10 TokyoR #21 17
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 18
観察研究におけるバイアス調整
• 観察研究で因果効果を検証する場合、共変量によるバイアスは常に問題になる。
Out(Exposure)
年齢
性別
年収
Etc…
Out(Reference)
年齢
性別
年収
Etc…
様々な背景因子がそもそも異なる
2012/03/10 TokyoR #21 19
観察研究におけるバイアス調整
2012/03/10 TokyoR #21 20
観察研究におけるバイアス調整
• “強く無視できる割り当て”条件
– 割り当てはあくまで共変量のみに依存し、結果変数には依存しない。
• Unmeasured confounder の問題
– 未測定の共変量が存在した場合、この条件を満たさないため、推計はバイアスされる。
2012/03/10 TokyoR #21 21
Instrumental Variable(操作変数)
操作変数を用いて、未知の交絡因子などを調整
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 22
操作変数
• 外生的に決定• 検証するExposureと関連• 検証するExposureを介する以外にはOutcome と関連しない
計量経済分野でずいぶん昔から使われている手法。
操作変数
Outcome Exposure
2012/03/10 TokyoR #21 23
様々な操作変数
• お薬←RCTでの無作為割り付け
• リハビリ時期←脳梗塞発症曜日
• 専門医治療←症例居住地の周辺専門医分布
• 薬のCM←地域単位での薬のCM/全CM
2012/03/10 TokyoR #21 24
操作変数を使たOutcome推計
X:共変量
Y:Outcome
Z:Exposure
w:操作変数
2012/03/10 TokyoR #21 25
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 26
Rでの実行例
• Rで2SLSをやってみましょう!
• パッケージはsem(CRANにあります。)
• 関数はTSLS()を使いましょう。
こちらのサイトを参考にしています。EconWiki(Rを使って計量経済分析)
http://sugi-shun.com/econwiki/index.php?EconWiki
Econometric analysis of cross section and panel data(著:Jeffrey M. Wooldridge)の演習問題を解いています。
2012/03/10 TokyoR #21 27
Rでの実行例
dat <- read.csv(“card2.csv”)
attach(dat)
#最初に、OLSをやってみる。
#教育年数を増やせば時給は増えるのか?
#教育年数に関連する個人の能力が測定できていない。
#教育年数を増やせば、時給が上がるかはわからない。
summary(lm(lwage ~ educ + exper + expersq + black + south
+ smsa + reg661 +reg662+reg663+reg664+reg665
+ reg666+ reg667+ reg668+ smsa66))
2012/03/10 TokyoR #21 28
Rでの実行例
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 4520654 325451 13.890 < 2e-16 ***educ 52784 15917 3.316 0.000924 ***exper 62347 30140 2.069 0.038671 *
・・・(略)・・・smsa66 -139095 88486 -1.572 0.116071 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1694000 on 2994 degrees of freedomMultiple R-squared: 0.009425, Adjusted R-squared: 0.004462 F-statistic: 1.899 on 15 and 2994 DF, p-value: 0.01912
2012/03/10 TokyoR #21 29
Rでの実行例
#次に操作変数を使ってみる。
summary(tsls(lwage ~ educ + exper + expersq + black + south
+ smsa + reg661 + reg662+reg663+reg664+reg665
+ reg666+reg667+reg668+smsa66,
~ nearc4 + exper + expersq + black + south + smsa + reg661
+ reg662+reg663+reg664+reg665+reg666+reg667
+reg668+smsa66))
2012/03/10 TokyoR #21 30
Rでの実行例2SLS Estimates
Model Formula: lwage ~ educ + exper + expersq + black + south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66
Instruments: ~nearc4 + exper + expersq + black + south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66
・・・・(略)・・・・・・Estimate Std. Error t value Pr(>|t|)
(Intercept) 5597534 4088944 1.36894 0.1711educ -10586 240381 -0.04404 0.9649
・・・・(略)・・・・・reg668 85977 221783 0.38766 0.6983smsa66 -130494 94504 -1.38083 0.1674
Residual standard error: 1698340.0224 on 2994 degrees of freedom
2012/03/10 TokyoR #21 31
操作変数を利用する上で
• Weak instrument の問題– 操作変数と介入(z)の間の関連が弱い場合、推計がうまく行
かない。
– 相関の確認や、モデルの特定化テスト等でチェックが必要?
• 操作変数の汚染(?)について– 操作変数がアウトカムと関連してしまうと、推計がうまく
行かない。– こちらのチェックは難しい。
• 2SLSは連続変数に対応– Bivariate probit model など(R でもパッケージ有り)
• 操作変数の発見について– これが一番難しい。– パネルデータがあるなら、そっちを使った方が正解かも。
2012/03/10 TokyoR #21 32
使いどころについて
• 介入研究が行いにくい領域に於いて利用する。
• 値段の問題
– 大きすぎて介入研究を行いにくい政策運用など
• 倫理的問題
– すでに手法が定着してしまった治療法
– 中々切れない取引先の効果
2012/03/10 TokyoR #21 33
Agenda
• 因果効果とは
• 介入研究と観察研究
• 観察研究のバイアス調整
• 操作変数法の紹介
• Rでの実行例
• Reference
2012/03/10 TokyoR #21 34
Reference
1.DTCの広告効果Liu Q, Gupta S. The Impact of Direct-to-Consumer Advertising of Prescription Drugs on Physician Visits and Drug Requests: Empirical Findings and Public Policy Implications. SSRN eLibrary [Internet]. [cited 2011 Oct 20];Available from: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1804854
2. ベイズ使った操作変数法Kleibergen F, Zivot E. Bayesian and classical approaches to instrumental variable regression. Journal of Econometrics. 2003;114(1):29–72.
3. 操作変数使った早期リハビリのアウトカム(拙著)Matsui H, Hashimoto H, Horiguchi H, Yasunaga H, Matsuda S. An exploration of the association between very early rehabilitation and outcome for the patients with acute ischaemic stroke in Japan: a nationwide retrospective cohort survey. BMC health services research. 2010;10(1):213.
4. 参考図書崇宏星野. 調査観察データの統計科学―因果推論・選択バイアス・データ融合. 岩波書店; 2009. 245 p.
2012/03/10 TokyoR #21 35
Reference
5.傾向スコアに関する里さんの資料http://www.slideshare.net/yokkuns/r-9387843
6.EconWiki(Rを使って計量経済分析)http://sugi-shun.com/econwiki/index.php?EconWiki
7. Econometric analysis of cross section and panel data(2nd Ed)
Jeffrey M. Wooldridge
2012/03/10 TokyoR #21 36