Upload
ko-abe
View
1.955
Download
2
Embed Size (px)
DESCRIPTION
昨日の勉強会での発表ですが、シミュレーションが思いっきり間違っていたことに気づきました。お恥ずかしい限りです。なので修正版を作ってみました。 たぶん予備知識なしでも分かるような内容です(というつもり)。
Citation preview
生存時間分析について:
打ち切りデータのヒストグラム
C 大学 M2
K.A.
1
11/24/2012
改訂版
自己紹介
K.A.
• 経歴
– S 県生まれ
–C 大学(K 研究室) M2
– T 大学 R 学部 S 学科卒
2
研究内容紹介:本発表の動機
• 修士論文テーマ(※今日はこの話はしません)
『生存時間分析によるシール断面画像データの分析』
• シール断面の亀裂の長さを推定したい
• データに顕微鏡写真の視野による打ち切りがある
– 生存時間分析手法を用いる
• 熱によってシールしているため,温度の影響を知りたい
– 温度を説明変数にしたパラメトリックモデル
溶着
非溶着 打ち切り
? ?
打ち切り
シール断面画像データ
線分の 真の長さは 分からない
3
ヒストグラム
ヒストグラムはデータの特性を見るためのインフォーマルなツールとして重要である.(中略)ヒストグラムは適
切なパラメトリックモデルの選択に使える. (拙訳)
― Huzubazar (2004)
今日はヒストグラムの話をします.
4
R: MASS パッケージ truehist の紹介
“This plots a true histogram, a density estimate of total area 1.” とヘルプに書かれている.
hist():ビンの数を『スタージェスの公式』によって決める truehist():ビンの幅を『スコットの選択』によって決める
hist(x) truehist(x) この密度関数に従う 乱数 x を生成
※ グラフは R-tips からのデッドコピー
#この色はデフォルト
5
打ち切りデータのヒストグラム
準備
• 生存時間に対応する確率変数を T とする.
• 重複を除いた死亡時間の実現値を ti, i=1,…,r とする.
• ヒストグラムの各階級の右端点を で表す(ここで ).
Huzurbazar (2005) によれば,
打ち切りデータのヒストグラムは:
1. Kaplan-Meier 推定量により,生存率 を求める
2. Total probability を求める
3. Total probability をビンの幅で割ったものを,ビンの
高さとする
)(ˆitS
wjt j ,...,0,~
)~
(ˆ)~
(ˆ1 jj tStS
0~0 t
6
打ち切りデータのヒストグラム
• ビンの幅の決め方については明記されていないが,
『スコットの選択』(truehistの方法)を採用した.
– 『スタージェスの公式』(histの方法)では正規分布から離れると当てはめが悪くなるようなので.
ti di
5 1 0.933333 6 1 0.866667 7 0 0.866667 : : :
28 0 0.361111 29 1 0.180556 43 1 0
TP 15 0.566667 30 0.252778 45 0.180556
1. 生存率( di : death indicator)
2. Total Probability
3. ヒストグラム
jt~
)(ˆitS
7
コーディング:cdh
8
検証:シミュレーション
• こうして作成した,打ち切りを考慮したヒストグラムを描く関数cdhと,打ち切りを考慮しない(つまり普通の)ヒストグラムを描くtruehistを比較する.
• シミュレーションを用いる理由:
1. シミュレーションで仮定した真の密度と,ヒストグラムとのずれを比較できる.
2. 都合の良い(公開されている)データがなかった.
truehist cdh
9
10
シミュレーションで仮定した状況
1. 患者の到着が,レート λ の定常ポアソン過程であると仮定する.
• このとき到着間隔はパラメータ λ の指数分布に従う.
• 今回は λ =1とした.
2. 患者の生存時間はワイブル分布に従うと仮定する.
3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る • t = 20 とした
0
シミュレーションのイメージ
到着間隔 ~ exponential
生存時間 ~ Weibull
1.
2.
3.
t2-t1を 出力
0 t
t1 t2
time cens
[1,] 2.540674 1
[2,] 2.828103 1
[3,] 2.072715 1
[4,] 1.521291 0
時間
[1,]
[2,] [3,]
[4,]
11
打ち切りを考慮しない; 打ち切りを考慮した;
※truehistはやや左によっている (underestimate)
truehist cdh
横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 )
結果の比較(サンプルサイズ n = 59610 )
12
打ち切りを考慮しない; 打ち切りを考慮した;
※truehistはやや左によっている (underestimate)
truehist cdh
横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 )
結果の比較(サンプルサイズ n = 60225 )
13
• もう一つ別のシミュレーションを行った
– こちらのほうが修士論文テーマ『生存時間分析によるシール断面画像データの分析』の状況に近い
検証:シミュレーション 2
14
シミュレーションで仮定した状況 2
1. 患者の到着が,レート λ の定常ポアソン過程であると仮定する.
• このとき到着間隔はパラメータ λ の指数分布に従う.
• 今回は λ =1とした.
2. 患者の生存時間はワイブル分布に従うと仮定する. 3. 観察期間を t とし,t を超えた生存時間は観測されない
• t を超えた部分を打ち切る. 4. 観測開始時点 o 以前に到着した患者の,o からの生存時間
も観測されているとする. • 「十分遠い位置」にしたいので o=1000m とした. (m : T の平均)
o t
観測値 ?
4. の状況
15
0
シミュレーションのイメージ
1.
2.
3.
4.
o o + t
出力
t1 t2
到着間隔 ~ exponential
生存時間 ~ Weibull
時間
16
結果の比較(サンプルサイズ n = 67515 )
打ち切りを考慮しない; 打ち切りを考慮した; truehist cdh
※truehistは左によっているが,cdhはやや右によっている (overestimate)
横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 )
17
結果の比較(サンプルサイズ n = 78289 )
打ち切りを考慮しない; 打ち切りを考慮した; truehist cdh
横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 )
18
20
結果の比較(サンプルサイズ n = 78289 )
打ち切りを考慮しない;
truehist
19
最大値20:これは t の長さと等しい (両側打ち切り)
o o + t
このような状態
なぜこうなるのか?
• なぜこうなるのかは Laslett (1982) 等を参照.
• ご清聴ありがとうございました.
20
• Gill, Richard D., Keiding, Niels, (2010) Product-limit estimators of the gap time distribution of a renewal process under different sampling patterns. Lifetime Data Anal, 16: pp.571-579
• Huzurbazar, Aparna V., (2005): A Censored Data Histogram. Communications in Statistics - Simulation and Computation, 34 : pp. 113-120
• Laslett, G. M., (1982) The Survival Curve Under Monotone Density Constraints With Application to two-Dimensional Line Segment Processes. Biometrika, 69: pp. 153-160
• デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェアラーク東京
• 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r-tips/r/61.html
参考文献
21
22
質疑応答(11/24/2012)
Q. shape を変えても同じ結果になるか?
A. やってみます(やってみました.このスライドには shape=0.5 の場合を載せてあります).
Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては?
A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はない
ように思う.(今後,左打ち切りと右打ち切りを区別して扱えるように拡張したいので,そのときは使うかもしれない.)
Q.その 「拡張」はプログラミング的にはむずかしいのか?
A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわからない」というのが正直なところ)
Q. 結論というか,この研究の目的は?
A. パラメトリックモデルを選択する際にヒストグラムを使おうと思った.ひとまずcdhは使えそうだということが分かった.グラフを描くこと自体が目的では
ない.
Q. 定常ポアソンの仮定がどう効いてくるのか?
A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点 o 以前
に到着した場合,生存時間の分布が変化する」というような議論をする予定で,そのときは定常ポアソン過程でないと困る.