22
生存時間分析について: 打ち切りデータのヒストグラム C 大学 M2 K.A. 1 11/24/2012 改訂版

打ち切りデータのヒストグラム

  • Upload
    ko-abe

  • View
    1.955

  • Download
    2

Embed Size (px)

DESCRIPTION

昨日の勉強会での発表ですが、シミュレーションが思いっきり間違っていたことに気づきました。お恥ずかしい限りです。なので修正版を作ってみました。 たぶん予備知識なしでも分かるような内容です(というつもり)。

Citation preview

Page 1: 打ち切りデータのヒストグラム

生存時間分析について:

打ち切りデータのヒストグラム

C 大学 M2

K.A.

1

11/24/2012

改訂版

Page 2: 打ち切りデータのヒストグラム

自己紹介

K.A.

• 経歴

– S 県生まれ

–C 大学(K 研究室) M2

– T 大学 R 学部 S 学科卒

2

Page 3: 打ち切りデータのヒストグラム

研究内容紹介:本発表の動機

• 修士論文テーマ(※今日はこの話はしません)

『生存時間分析によるシール断面画像データの分析』

• シール断面の亀裂の長さを推定したい

• データに顕微鏡写真の視野による打ち切りがある

– 生存時間分析手法を用いる

• 熱によってシールしているため,温度の影響を知りたい

– 温度を説明変数にしたパラメトリックモデル

溶着

非溶着 打ち切り

? ?

打ち切り

シール断面画像データ

線分の 真の長さは 分からない

3

Page 4: 打ち切りデータのヒストグラム

ヒストグラム

ヒストグラムはデータの特性を見るためのインフォーマルなツールとして重要である.(中略)ヒストグラムは適

切なパラメトリックモデルの選択に使える. (拙訳)

― Huzubazar (2004)

今日はヒストグラムの話をします.

4

Page 5: 打ち切りデータのヒストグラム

R: MASS パッケージ truehist の紹介

“This plots a true histogram, a density estimate of total area 1.” とヘルプに書かれている.

hist():ビンの数を『スタージェスの公式』によって決める truehist():ビンの幅を『スコットの選択』によって決める

hist(x) truehist(x) この密度関数に従う 乱数 x を生成

※ グラフは R-tips からのデッドコピー

#この色はデフォルト

5

Page 6: 打ち切りデータのヒストグラム

打ち切りデータのヒストグラム

準備

• 生存時間に対応する確率変数を T とする.

• 重複を除いた死亡時間の実現値を ti, i=1,…,r とする.

• ヒストグラムの各階級の右端点を で表す(ここで ).

Huzurbazar (2005) によれば,

打ち切りデータのヒストグラムは:

1. Kaplan-Meier 推定量により,生存率 を求める

2. Total probability を求める

3. Total probability をビンの幅で割ったものを,ビンの

高さとする

)(ˆitS

wjt j ,...,0,~

)~

(ˆ)~

(ˆ1 jj tStS

0~0 t

6

Page 7: 打ち切りデータのヒストグラム

打ち切りデータのヒストグラム

• ビンの幅の決め方については明記されていないが,

『スコットの選択』(truehistの方法)を採用した.

– 『スタージェスの公式』(histの方法)では正規分布から離れると当てはめが悪くなるようなので.

ti di

5 1 0.933333 6 1 0.866667 7 0 0.866667 : : :

28 0 0.361111 29 1 0.180556 43 1 0

TP 15 0.566667 30 0.252778 45 0.180556

1. 生存率( di : death indicator)

2. Total Probability

3. ヒストグラム

jt~

)(ˆitS

7

Page 8: 打ち切りデータのヒストグラム

コーディング:cdh

8

Page 9: 打ち切りデータのヒストグラム

検証:シミュレーション

• こうして作成した,打ち切りを考慮したヒストグラムを描く関数cdhと,打ち切りを考慮しない(つまり普通の)ヒストグラムを描くtruehistを比較する.

• シミュレーションを用いる理由:

1. シミュレーションで仮定した真の密度と,ヒストグラムとのずれを比較できる.

2. 都合の良い(公開されている)データがなかった.

truehist cdh

9

Page 10: 打ち切りデータのヒストグラム

10

シミュレーションで仮定した状況

1. 患者の到着が,レート λ の定常ポアソン過程であると仮定する.

• このとき到着間隔はパラメータ λ の指数分布に従う.

• 今回は λ =1とした.

2. 患者の生存時間はワイブル分布に従うと仮定する.

3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る • t = 20 とした

Page 11: 打ち切りデータのヒストグラム

0

シミュレーションのイメージ

到着間隔 ~ exponential

生存時間 ~ Weibull

1.

2.

3.

t2-t1を 出力

0 t

t1 t2

time cens

[1,] 2.540674 1

[2,] 2.828103 1

[3,] 2.072715 1

[4,] 1.521291 0

時間

[1,]

[2,] [3,]

[4,]

11

Page 12: 打ち切りデータのヒストグラム

打ち切りを考慮しない; 打ち切りを考慮した;

※truehistはやや左によっている (underestimate)

truehist cdh

横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 )

結果の比較(サンプルサイズ n = 59610 )

12

Page 13: 打ち切りデータのヒストグラム

打ち切りを考慮しない; 打ち切りを考慮した;

※truehistはやや左によっている (underestimate)

truehist cdh

横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 )

結果の比較(サンプルサイズ n = 60225 )

13

Page 14: 打ち切りデータのヒストグラム

• もう一つ別のシミュレーションを行った

– こちらのほうが修士論文テーマ『生存時間分析によるシール断面画像データの分析』の状況に近い

検証:シミュレーション 2

14

Page 15: 打ち切りデータのヒストグラム

シミュレーションで仮定した状況 2

1. 患者の到着が,レート λ の定常ポアソン過程であると仮定する.

• このとき到着間隔はパラメータ λ の指数分布に従う.

• 今回は λ =1とした.

2. 患者の生存時間はワイブル分布に従うと仮定する. 3. 観察期間を t とし,t を超えた生存時間は観測されない

• t を超えた部分を打ち切る. 4. 観測開始時点 o 以前に到着した患者の,o からの生存時間

も観測されているとする. • 「十分遠い位置」にしたいので o=1000m とした. (m : T の平均)

o t

観測値 ?

4. の状況

15

Page 16: 打ち切りデータのヒストグラム

0

シミュレーションのイメージ

1.

2.

3.

4.

o o + t

出力

t1 t2

到着間隔 ~ exponential

生存時間 ~ Weibull

時間

16

Page 17: 打ち切りデータのヒストグラム

結果の比較(サンプルサイズ n = 67515 )

打ち切りを考慮しない; 打ち切りを考慮した; truehist cdh

※truehistは左によっているが,cdhはやや右によっている (overestimate)

横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 )

17

Page 18: 打ち切りデータのヒストグラム

結果の比較(サンプルサイズ n = 78289 )

打ち切りを考慮しない; 打ち切りを考慮した; truehist cdh

横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 )

18

Page 19: 打ち切りデータのヒストグラム

20

結果の比較(サンプルサイズ n = 78289 )

打ち切りを考慮しない;

truehist

19

最大値20:これは t の長さと等しい (両側打ち切り)

o o + t

このような状態

Page 20: 打ち切りデータのヒストグラム

なぜこうなるのか?

• なぜこうなるのかは Laslett (1982) 等を参照.

• ご清聴ありがとうございました.

20

Page 21: 打ち切りデータのヒストグラム

• Gill, Richard D., Keiding, Niels, (2010) Product-limit estimators of the gap time distribution of a renewal process under different sampling patterns. Lifetime Data Anal, 16: pp.571-579

• Huzurbazar, Aparna V., (2005): A Censored Data Histogram. Communications in Statistics - Simulation and Computation, 34 : pp. 113-120

• Laslett, G. M., (1982) The Survival Curve Under Monotone Density Constraints With Application to two-Dimensional Line Segment Processes. Biometrika, 69: pp. 153-160

• デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェアラーク東京

• 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r-tips/r/61.html

参考文献

21

Page 22: 打ち切りデータのヒストグラム

22

質疑応答(11/24/2012)

Q. shape を変えても同じ結果になるか?

A. やってみます(やってみました.このスライドには shape=0.5 の場合を載せてあります).

Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては?

A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はない

ように思う.(今後,左打ち切りと右打ち切りを区別して扱えるように拡張したいので,そのときは使うかもしれない.)

Q.その 「拡張」はプログラミング的にはむずかしいのか?

A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわからない」というのが正直なところ)

Q. 結論というか,この研究の目的は?

A. パラメトリックモデルを選択する際にヒストグラムを使おうと思った.ひとまずcdhは使えそうだということが分かった.グラフを描くこと自体が目的では

ない.

Q. 定常ポアソンの仮定がどう効いてくるのか?

A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点 o 以前

に到着した場合,生存時間の分布が変化する」というような議論をする予定で,そのときは定常ポアソン過程でないと困る.