セミパラメトリック推論の基礎

セミパラメトリック推論の基礎の復習

Daisuke Yoneoka

September 29, 2014

Notations

基本的に Tsiatis,2006に従う. わかんなかったら自分で調べてね!ベクトルも行列も太字にしてないけど,そこは自分で補ってください.

! データは i.i.dで Zi = (Zi1, . . . , Zim) ∈ Rm

! サンプルサイズは n人. i.e., Z1, . . . , Zn

! φ(Z)は影響関数

! u(Zi, θ)は推定関数

! 下付き字の eff は (漸近)有効 (efficient)という意味

セミパラメトリック推論とは？

! Ziの密度関数がセミパラメトリックモデルに従うとはS = {p(z : θ, η)|θ ∈ Θ ⊂ Rr, η ∈ H}

! θは有限次元の興味あるパラメタで, ηは無限次元のどうでもいいパラメタ (局外 (nuisance) パラメーター).

! セミパラメトリック推論: このもとで θの最良の推定量 (RAL推定量) をもとめること

影響関数

! θはなんでもいいから最良を見つけるというのは無理ゲー → クラスを限定してそこで見つける! (統計ではよくやるよね)

! 影響関数: 推定量 θ̂の影響関数とは, (モーメントに制約がある)√n(θ̂ − θ) =

1√n

!ni=1 φ(Zi, θ, η) + op(1)を満たすベクトル値関数.

! θ̂は漸近線形推定量と呼び n → ∞で一致性と漸近正規性がある√n(θ̂ − θ) → N

"0, E[φ(Zi, θ, η)φ(Zi, θ, η)

T ]#

! イメージ的にはあるデータがどれだけ推定に影響を与えているかを表現したもの

推定関数とM推定! 推定方程式

!ni=1 u(Zi, θ)$ %& '推定関数

= 0の解として得られるものをM推定量

と呼ぶ. よく見る score関数なんかもコレ.

! ただし, E[φ(Zi, θ)] = 0$ %& '期待値は 0

, E[∥φ(Zi, θ)∥2] < ∞$ %& '分散的なものは発散しない

.

あともう少しだけ条件ある.

! 一致性と漸近正規性を持つ√n(θ̂ − θ) =

1√n

n!

i=1

"E[

∂u(Zi, θ)

∂θ]

#−1

u(Zi, θ)

$ %& 'ここが影響関数になっている

+op(1)

→ N

(0,

"E[

∂u(Zi, θ)

∂θ]

#−1

E[u(Zi, θ)u(Zi, θ)T ]

"E[

∂u(Zi, θ)

∂θ]

#−T

]

)

! この漸近分散の推定量をサンドイッチ推定量と呼んだりする

RAL推定量

! 漸近線系推定量はなんか良さそう！でも super efficiencyの問題(Hodges)が残る！

! Super efficiency: 漸近的に Cramer-Raoの下限よりも良いものができる問題のこと

! この問題を解決したのが RAL (Regular asymptotic linear) 推定量.

! その正則条件は極限分布が LDGP (local data generating process)に依存しないこと (詳しくは Tsiatis, 2006)

! セミパラ推論はこの RAL推定量の影響関数を求めることを考える

Parametric submodel

セミパラメトリックモデル Sの各点に対し

p(z; θ, η) ∈ Ssub ⊂ S

を満たすパラメトリックモデル

Ssub = {p(z; θ, γ)|θ ∈ Θ ⊂ Rr, γ ∈ Γ ⊂ Rs, s ∈ N}

をパラメトリックサブモデルと呼ぶ.

Nuisance tangent space (局外接空間)

セミパラメトリックモデル Sの各点に対し, パラメトリックサブモデルSsubの局外接空間を

TNθ,γ(Ssub) = {BT sγ(z, θ, γ)|B ∈ Rs}

とする. γは p(z; θ, η)に対応するもので sγ(z, θ, γ) =∂

∂γlog p(z; θ, γ)で

表される nuisance score関数. この線形空間はこの nuisance score vectorによって張られている.このとき

TNθ,η(S) =

(

Ssub

TNθ,γ(Ssub)

を S上の点 p(z; θ, η)における局外接空間とよぶ. ちなみに, 内は内側の集合に関して closureをとる演算子.Note:この空間は大切で後に, RAL推定量の影響関数はこの空間に直交した空間に属することが重要になってくる！

線形部分空間への射影の幾何とピタゴラスの定理

RAL推定量の影響関数の重要な定理

セミパラメトリック RAL推定量 βの影響関数 φ(Z)は以下の条件を満足する.

Corollary1E[φ(Z)sβ ] = E[φ(Z)sTefficient(Z,β0, η0)] = I.

ただし, sはスコア関数で, sTefficientは有効スコア関数

Corollary2φ(Z)は局外接空間に直交している.

有効影響関数は上の 2つの条件を満たし,その分散行列は, 効率限界を達成しそれは

φeffi(Z,β0, η0) =)E[seff (Z,β0, η0)s

Teff (Z,β0, η0)]

*−1seff (Z,β0, η0)

セミパラ接空間の定理

パラメトリックサブモデルの場合の RAL推定量の影響関数と接空間との関係はTsiatis, 2006の Ch4.3あたりを見てね！定理 1RAL推定量の影響関数は {φ(Z) + TN

θ,η(S)⊥}という空間に含まれる.

ただし, φ(Z)は任意の RAL推定量の影響関数で, TNθ,η(S)

⊥ はセミパラメトリック接空間の直交補空間

定理 2セミパラメトリック有効な推定量は,その影響関数が一意に well-definedで決定され,φefficient = φ(Z)−

+{φ(Z)|TN

θ,η(S)⊥}の要素.

ちなみに,+(h|U)は projection of h ∈ H(内積を導入したヒルベルト空間) onto

the space U (線形空間)

GEEについてのRemarks

Liang-Zegerの GEEのセミパラメトリックモデル (制約モーメントモデル:1次と 2次のモーメントにだけ制約を置いたモデル)は以下の特徴をもつ.

! 局所 (漸近有)効推定量: 分散関数の仮定が正しければ, 有効推定量! Robustness: 無限次元のパラメータ推定が必要だが, 分散関数を

misspecifyしたとしても一致性と漸近正規性は保持! GEEの本を読めばわかるけど, Working covariance matrixを間違えても有効性は失われるが,その他の好ましい性質 (漸近正規性と一致性)は保持できるってこと

Data & Analytics

セミパラメトリック推論の基礎