36
Rで学ぶ 観察データでの因果推定 2012/03/10 Tokyo.R #21 Hiro_macchan

Rで学ぶ観察データでの因果推定

Embed Size (px)

DESCRIPTION

20120310 TokyoR#21 で発表した資料です。誤りや不正確な部分がありましたら、twitter ID: Hiro_macchan までご連絡下さい。当該資料は、いくつかのサイトの資料を引用しています。参考文献はスライドの最後に記載しました。

Citation preview

Page 1: Rで学ぶ観察データでの因果推定

Rで学ぶ観察データでの因果推定

2012/03/10

Tokyo.R #21

Hiro_macchan

Page 2: Rで学ぶ観察データでの因果推定

自己紹介• Hiroki Matsui(RPT,MPH)

• 出身:琵琶湖 住まい:千葉 職場:都内赤門

• 御嫁様候補探しています。

• 専門:リハビリテーション、臨床疫学・医療経済学

• 元理学療法士(リハビリ屋)→研究者

• Rは趣味程度に利用→現在は、仕事で利用

• Twitter: Hiro_macchan未熟者ですので間違い等は指摘して下さい。(できれば、お手柔らかに。。)

2012/03/10 TokyoR #21 2

Page 3: Rで学ぶ観察データでの因果推定

前回のあらすじ

• TokyoR #18 LT枠

• アウトカムリサーチに触れる。

• 操作変数に関する説明を行う。

• あえなく撃沈

• 焼き土下座

2012/03/10 TokyoR #21 3Fig.1: 当時の心境

Page 4: Rで学ぶ観察データでの因果推定

本日お伝えしたいこと

Rを使って

2012/03/10 TokyoR #21 4

Page 5: Rで学ぶ観察データでの因果推定

本日お伝えしたいこと

Rを使って

前回よりも、もう少し体系的に

2012/03/10 TokyoR #21 5

Page 6: Rで学ぶ観察データでの因果推定

本日お伝えしたいこと

Rを使って

前回よりも、もう少し体系的に

観察データのバイアスを調整した上で

2012/03/10 TokyoR #21 6

Page 7: Rで学ぶ観察データでの因果推定

本日お伝えしたいこと

Rを使って

前回よりも、もう少し体系的に

観察データのバイアスを調整した上で

因果効果を推計したい!!

2012/03/10 TokyoR #21 7

Page 8: Rで学ぶ観察データでの因果推定

本日お伝えしたいこと

Rを使って

前回よりも、もう少し体系的に

観察データのバイアスを調整した上で

因果効果を推計したい!!

んだけどなぁ。。。

2012/03/10 TokyoR #21 8

Page 9: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 9

Page 10: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 10

Page 11: Rで学ぶ観察データでの因果推定

• ある対象群への、ある介入の効果を考える。

2012/03/10 TokyoR #21 11

因果効果って?

同一対象

介入した場合の効果

介入しなかった場合の効果

現実的には測定不可能

因果効果:

Page 12: Rで学ぶ観察データでの因果推定

因果効果って?

2012/03/10 TokyoR #21 12

曝露群(z=1)

曝露結果

非曝露結果

非曝露群(z=0)

曝露結果

非曝露結果

Page 13: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 13

Page 14: Rで学ぶ観察データでの因果推定

介入研究と観察研究

• 介入研究– 実際に対象に介入を行う。

– 介入方法は実験者が決定できる。

– 無作為割り付けなどランダム化が可能。

– お高い、倫理面での配慮が必要

• 観察研究– 対象者の調査観察データを取得する。

– ランダム化不可能

– (介入研究に比べて、)お安い、倫理面配慮は小さくてすむ。

2012/03/10 TokyoR #21 14

Page 15: Rで学ぶ観察データでの因果推定

介入研究と観察研究

2012/03/10 TokyoR #21 15

介入を行う群(z=1)

介入した場合の結果

介入しなかった場合の結果(欠測)

介入を行わない群(z=0)

介入した場合の結果(欠測)

介入しなかった場合の結果

Page 16: Rで学ぶ観察データでの因果推定

介入研究と観察研究

2012/03/10 TokyoR #21 16

曝露群(z=1)

曝露結果

非曝露結果

非曝露群(z=0)

曝露結果

非曝露結果

Page 17: Rで学ぶ観察データでの因果推定

介入研究と観察研究

2012/03/10 TokyoR #21 17

Page 18: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 18

Page 19: Rで学ぶ観察データでの因果推定

観察研究におけるバイアス調整

• 観察研究で因果効果を検証する場合、共変量によるバイアスは常に問題になる。

Out(Exposure)

年齢

性別

年収

Etc…

Out(Reference)

年齢

性別

年収

Etc…

様々な背景因子がそもそも異なる

2012/03/10 TokyoR #21 19

Page 20: Rで学ぶ観察データでの因果推定

観察研究におけるバイアス調整

2012/03/10 TokyoR #21 20

Page 21: Rで学ぶ観察データでの因果推定

観察研究におけるバイアス調整

• “強く無視できる割り当て”条件

– 割り当てはあくまで共変量のみに依存し、結果変数には依存しない。

• Unmeasured confounder の問題

– 未測定の共変量が存在した場合、この条件を満たさないため、推計はバイアスされる。

2012/03/10 TokyoR #21 21

Instrumental Variable(操作変数)

操作変数を用いて、未知の交絡因子などを調整

Page 22: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 22

Page 23: Rで学ぶ観察データでの因果推定

操作変数

• 外生的に決定• 検証するExposureと関連• 検証するExposureを介する以外にはOutcome と関連しない

計量経済分野でずいぶん昔から使われている手法。

操作変数

Outcome Exposure

2012/03/10 TokyoR #21 23

Page 24: Rで学ぶ観察データでの因果推定

様々な操作変数

• お薬←RCTでの無作為割り付け

• リハビリ時期←脳梗塞発症曜日

• 専門医治療←症例居住地の周辺専門医分布

• 薬のCM←地域単位での薬のCM/全CM

2012/03/10 TokyoR #21 24

Page 25: Rで学ぶ観察データでの因果推定

操作変数を使たOutcome推計

X:共変量

Y:Outcome

Z:Exposure

w:操作変数

2012/03/10 TokyoR #21 25

Page 26: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 26

Page 27: Rで学ぶ観察データでの因果推定

Rでの実行例

• Rで2SLSをやってみましょう!

• パッケージはsem(CRANにあります。)

• 関数はTSLS()を使いましょう。

こちらのサイトを参考にしています。EconWiki(Rを使って計量経済分析)

http://sugi-shun.com/econwiki/index.php?EconWiki

Econometric analysis of cross section and panel data(著:Jeffrey M. Wooldridge)の演習問題を解いています。

2012/03/10 TokyoR #21 27

Page 28: Rで学ぶ観察データでの因果推定

Rでの実行例

dat <- read.csv(“card2.csv”)

attach(dat)

#最初に、OLSをやってみる。

#教育年数を増やせば時給は増えるのか?

#教育年数に関連する個人の能力が測定できていない。

#教育年数を増やせば、時給が上がるかはわからない。

summary(lm(lwage ~ educ + exper + expersq + black + south

+ smsa + reg661 +reg662+reg663+reg664+reg665

+ reg666+ reg667+ reg668+ smsa66))

2012/03/10 TokyoR #21 28

Page 29: Rで学ぶ観察データでの因果推定

Rでの実行例

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 4520654 325451 13.890 < 2e-16 ***educ 52784 15917 3.316 0.000924 ***exper 62347 30140 2.069 0.038671 *

・・・(略)・・・smsa66 -139095 88486 -1.572 0.116071 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1694000 on 2994 degrees of freedomMultiple R-squared: 0.009425, Adjusted R-squared: 0.004462 F-statistic: 1.899 on 15 and 2994 DF, p-value: 0.01912

2012/03/10 TokyoR #21 29

Page 30: Rで学ぶ観察データでの因果推定

Rでの実行例

#次に操作変数を使ってみる。

summary(tsls(lwage ~ educ + exper + expersq + black + south

+ smsa + reg661 + reg662+reg663+reg664+reg665

+ reg666+reg667+reg668+smsa66,

~ nearc4 + exper + expersq + black + south + smsa + reg661

+ reg662+reg663+reg664+reg665+reg666+reg667

+reg668+smsa66))

2012/03/10 TokyoR #21 30

Page 31: Rで学ぶ観察データでの因果推定

Rでの実行例2SLS Estimates

Model Formula: lwage ~ educ + exper + expersq + black + south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66

Instruments: ~nearc4 + exper + expersq + black + south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66

・・・・(略)・・・・・・Estimate Std. Error t value Pr(>|t|)

(Intercept) 5597534 4088944 1.36894 0.1711educ -10586 240381 -0.04404 0.9649

・・・・(略)・・・・・reg668 85977 221783 0.38766 0.6983smsa66 -130494 94504 -1.38083 0.1674

Residual standard error: 1698340.0224 on 2994 degrees of freedom

2012/03/10 TokyoR #21 31

Page 32: Rで学ぶ観察データでの因果推定

操作変数を利用する上で

• Weak instrument の問題– 操作変数と介入(z)の間の関連が弱い場合、推計がうまく行

かない。

– 相関の確認や、モデルの特定化テスト等でチェックが必要?

• 操作変数の汚染(?)について– 操作変数がアウトカムと関連してしまうと、推計がうまく

行かない。– こちらのチェックは難しい。

• 2SLSは連続変数に対応– Bivariate probit model など(R でもパッケージ有り)

• 操作変数の発見について– これが一番難しい。– パネルデータがあるなら、そっちを使った方が正解かも。

2012/03/10 TokyoR #21 32

Page 33: Rで学ぶ観察データでの因果推定

使いどころについて

• 介入研究が行いにくい領域に於いて利用する。

• 値段の問題

– 大きすぎて介入研究を行いにくい政策運用など

• 倫理的問題

– すでに手法が定着してしまった治療法

– 中々切れない取引先の効果

2012/03/10 TokyoR #21 33

Page 34: Rで学ぶ観察データでの因果推定

Agenda

• 因果効果とは

• 介入研究と観察研究

• 観察研究のバイアス調整

• 操作変数法の紹介

• Rでの実行例

• Reference

2012/03/10 TokyoR #21 34

Page 35: Rで学ぶ観察データでの因果推定

Reference

1.DTCの広告効果Liu Q, Gupta S. The Impact of Direct-to-Consumer Advertising of Prescription Drugs on Physician Visits and Drug Requests: Empirical Findings and Public Policy Implications. SSRN eLibrary [Internet]. [cited 2011 Oct 20];Available from: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1804854

2. ベイズ使った操作変数法Kleibergen F, Zivot E. Bayesian and classical approaches to instrumental variable regression. Journal of Econometrics. 2003;114(1):29–72.

3. 操作変数使った早期リハビリのアウトカム(拙著)Matsui H, Hashimoto H, Horiguchi H, Yasunaga H, Matsuda S. An exploration of the association between very early rehabilitation and outcome for the patients with acute ischaemic stroke in Japan: a nationwide retrospective cohort survey. BMC health services research. 2010;10(1):213.

4. 参考図書崇宏星野. 調査観察データの統計科学―因果推論・選択バイアス・データ融合. 岩波書店; 2009. 245 p.

2012/03/10 TokyoR #21 35

Page 36: Rで学ぶ観察データでの因果推定

Reference

5.傾向スコアに関する里さんの資料http://www.slideshare.net/yokkuns/r-9387843

6.EconWiki(Rを使って計量経済分析)http://sugi-shun.com/econwiki/index.php?EconWiki

7. Econometric analysis of cross section and panel data(2nd Ed)

Jeffrey M. Wooldridge

2012/03/10 TokyoR #21 36