Upload
wilma
View
65
Download
0
Embed Size (px)
DESCRIPTION
本节课内容. MLE 的性质 MLE 很流行是因为 MLE 有一些很好的性质. MLE 的性质. MLE 的一些性质( 为参数的真值) 一致性: 同变 性:若 是 的 MLE ,则 是 的 MLE 渐近正态: 渐近有效 / 最优:在所有的无偏估计中, MLE 的方差最小 近似于贝叶斯估计(在贝叶斯推理部分讲述) 这些只在满足 正则条件 下成立,正则条件度量 的平滑性。. MLE 的一致性. - PowerPoint PPT Presentation
Citation preview
1
本节课内容 MLE 的性质
MLE 很流行是因为 MLE 有一些很好的性质
2
MLE 的性质 MLE 的一些性质( 为参数的真值)
一致性: 同变性:若 是 的 MLE ,则 是 的 MLE 渐近正态: 渐近有效 / 最优:在所有的无偏估计中, MLE 的方差最
小 近似于贝叶斯估计(在贝叶斯推理部分讲述)
这些只在满足正则条件下成立,正则条件度量 的平滑性。
*ˆ Pnq q¾¾®
n̂q q ( )n̂g q ( )g q
( ) µ( ) ( )*ˆ ˆ 0,1n nse Nq q q-
( );f x q
*q
3
MLE 的一致性 一致性: 依概率收敛于真值 ,即
为了证明这一性质,引入 KL 散度 /KL 距离
n̂q *ˆ Pnq q¾¾®*q
4
相对熵: KL 散度 若 f 和 g 为两个 pdf ,它们之间的 KL 散度 / 距离
(Kullback-Leibler Divergence) 定义为
KL 散度的性质 通常情况下
我们用 来表示
( ) ( )( )( )
, logf x
D f g f x dxg x
æ ö÷ç ÷= ç ÷ç ÷÷çè øò
( ), 0D f g ³
( ), 0D f f =( ) ( ), ,D f g D g f¹
( )1 2,D q q ( ) ( )( )1 2; , ;D f x f xq q
5
可识别性 (Identifiability)
如果 意味着 ,我们说模型 是可识别的
这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。
连续型分布通常是可识别的,而离散型分布有时是不可识别的。
( )1 2, 0D q q >1 2q q¹ F
6
MLE = Minimizing KL Divergence
令 表示 的真值。极大化 等价于极大化:
相对 是一个常数。
( ) ( )( )*
1n nl l
nq q= -
( )*nl q
*q q ( )nl q
( )( )( )1 *
;1log
;
ni
ni i
f XM
n f X
q=
= å
q
7
MLE 的一致性 根据大数定律, 收敛于
,在 时取极大值 因为 ,且当 时,
因此 ,在 时取极大值 根据 MLE 的定义,当 时, 取极大值 所以可以猜测 MLE 是一致估计:
( )( )( )
( )( )
( )* *
* *
; ;log log ;
; ;i
i
f X f xM f x dx
f X f xq
q qq q
q q
æ ö÷ç ÷= ç =÷ç ÷÷çè øòE
( )( )
( )**
;log ;
;
f xf x dx
f x
q=- ò
( )*,D q q=-
( )nM q( )
( )( )1 *
;1log
;
ni
ni i
f XM
n f X
q=
= å
( ) ( )*,M Dq q q=-
*q q¹*q
( )* *, 0D q q- = ( )*, 0D q q- <
( ) ( )*,nM Dq q q» - *q
n̂q q= ( )nM q
*ˆ Pnq q¾¾®
8
MLE 的一致性 9.13 定理:令 表示的真实值,定义
且 假设
并且对任意
令 表示极大似然估计,则
( ) ( )*,M Dq q q=-
0e>
n̂q *ˆ Pnq q¾¾®
( )( )( )1 *
;1log
;
ni
ni i
f XM
n f X
q=
= å
( ) ( )sup 0PnM M
qq q
Î Q- ¾¾®
( ) ( )*
*:sup M M
q q q eq q
- ³<
*q
9
MLE 的同变性 等价性:令 是 的一个一一映射函数。令
是 的 MLE ,则 是 的 MLE 。
证明:令 表示函数 g 的反函数,则 对 ,有
其中 。 则 ,有
( )gt q= q n̂q( )ˆˆn ngt q= t
1h g -= ( )ˆ ˆn nhq t=
t"
( ) ( )( ) ( ) ( )1 1
; ;n n
n i i ni i
f X h f Xt t q q= =
= = =Õ ÕL L
( )hq t=
( ) ( ) ( ) ( )ˆ ˆn n n n n nt q q t= £ =L L L L
t"
q
10
MLE 的等价性 例 9.15 :令 , 则 的 MLE 为 令 ,则 的 MLE 为eqt =
q ˆnn Xq =
ˆˆ n
n eqt =
( )1,..., ~ ,1nX X N q
t
随机变量变换的 MLE 的点估计
11
MLE 的渐近正态性 渐近正态性:
可以给出渐进方差
为了证明这一性质,引入记分函数和 Fisher 信息
当记分函数和 Fisher 信息的形式比较简单时,可解析求解
若解析计算困难,可用参数 bootstrap 方法计算
( ) µ( ) ( )*ˆ ˆ 0,1n nse Nq q q-
µse
12
Fisher 信息 记分函数 (score function) 定义为
用来估计 θ
Fisher 信息定义为
告诉记分数里包含了 θ 的多少信息
( )( )log ;
;f X
s Xq
¶=
¶
( ) ( )1
;n
n ii
I s Xqq q=
æ ö÷ç= ÷ç ÷ç ÷è øåV
( )( )1
;n
ii
s Xq q=
=å V
Sir Ronald Aylmer Fisher (1890-1962)
13
记分函数 vs. 似然函数 再定义一个总记分函数:记分函数在样本上的和
似然函数为
所以
即总记分函数为似然函数的一阶导数,表示似然函数的变化率
对MLE ,
( ) ( )( )
1 1
log ;;
n ni
n ii i
f Xs s X
qq q
q= =
¶= =
¶å å
( ) ( )1
log ;n
n ii
l f Xq q=
=ål
( )( )n
n
ls
q
¶=
¶
l
( ) ( )ˆ
ˆ0 0n n
n n
ls
q
¶= Þ =
¶
l
14
记分函数的性质 记分函数的期望为 0 : 证明:
( )( ); 0s Xq q =E
( )( ) ( )( )
log ;; ;
f xs X f x dxq
qq q
q
¶=
¶òE
( )
( )( )
;
;;
f x
f x dxf x
qq qq
¶¶=ò
( );f xdx
q
q
¶=
¶ò
( );f x dxqq
¶=
¶ ò (假设q
¶¶和ò 可交换)
( )1 0q
¶= =
¶
15
记分函数的性质 (1) 经验总记分函数为 0 : (2) 总记分函数的期望为 0 :
当与 和 匹配时,对 求期望才为 0 所以当总记分函数为 0 是的 会产生的一个一致估计
( )ˆ 0n ns q =
( )ns q ( );f x q
( )( ) ( ) ( )( )1
; ; 0n
n ii
s s X n s Xq q qq q q=
æ ö÷ç= = =÷ç ÷÷çè øåE = E E
( );f x q
n̂q
16
Fisher 信息 用于计算某个估计量的方差
告诉了记分函数包含了的多少信息 Fisher 信息:记分函数的方差
其中 为当 n= 1 时的 Fisher 信息
( ) ( ) ( )( ) ( )1 1
; ;n n
n i ii i
I s X s X nIq qq q q q= =
æ ö÷ç= = =÷ç ÷÷çè øå åV V
( )I q
( ) ( )( );I s Xqq q= V
( )( )
2
2
log ;;
f xf x dx
q
¶=-
¶ò
( )2
2
log ;f Xq
q
q
æ ö¶ ÷ç ÷=- ç ÷ç ÷ç ¶è øE 容易计算
17
Fisher 信息
所以要证明
转换为证明
( ) ( )( );I s Xqq q= V
( )( ) ( )( )22
; ;s X s Xq qq qé ùé ù= - ê úë û ë ûE E ( )( )( ) ; 0s Xq q =Q E
( )( )2;s Xq qé ù= ë ûE
( )( )
( )2
2
log ;;
f xI f x dx
qq q
q
¶=-
¶ò
( )( ) ( )( )
22
2
log ;; ;
f xs X f x dxq
qq q
q
¶é ù =-ë û ¶òE
18
证明:( ) ( )
( )
( )
2
2
;log ; log ;
;
f xf x f x
f x
qq q q
q q q q q
æ ö¶ ÷ç ÷çæ ö ÷¶ ¶¶ ¶ ç ÷÷ ¶ç ç ÷÷= =ç ç ÷÷ç ÷÷ç ç¶ ¶ ¶ ¶è ø ÷ç ÷ç ÷çè ø
( ) ( ) ( )
( )
22
2
2
; ;;
;
f x f xf x
f x
q qq
q q
q
é ù¶ ¶ê ú- ê ú¶ ¶ë û=é ùë û
( )
( )
( )
( )
22
2
; ;
; ;
f x f x
f x f x
q qq qq q
é ù¶ ¶ê úê ú¶ ¶= - ê úê úê úë û
( )
( )( )
2
22
;log ;
;
f xf x
f x
qqq
q q
¶é ù¶¶ ê ú= - ê ú¶ë û
( )
( )( )
2
2 2
;
;;
f x
s Xf x
qq qq
¶¶ é ù= - ë û
19
证明(续): ( )
( )
( )( )
2
22 2
2
;log ;
;;
f xf x
s Xf x
qq q q
q q
¶¶ ¶ é ù= - ë û¶
所以( )
( )( )( )
( )
2
22
22
;log ;
;;
f xf X
s Xf xq q q
qq qq
q q
æ ö¶ ÷ç ÷çæ ö ÷¶ ç ÷÷ç ¶ç ÷÷- = -ç ç ÷÷ç ÷÷ çç ¶è ø ÷ç ÷ç ÷÷çè ø
E E E
( )( )( )
( )( )
2
22
;
; ;;
f x
s X f x dxf xq
qqq qq
æ ö¶ ÷ç ÷ç ÷ç ÷¶ç ÷= - ç ÷÷ç ÷ç ÷ç ÷÷çè ø
òE
( )( ) ( )22
2
;;
f xs X dxq
q
æ ö¶ ÷ç ÷= - ç ÷ç ÷ç ¶è øòE
( )( ) ( )2
22
; ;s X f x dxq q qq
¶= -
¶ òE
( )( )2 ;s Xq q=E
20
Fisher 信息
二阶导数 度量了 的曲率
即当变化时,似然函数的平滑程度
曲率越大,信息越多
信息越多,曲率越大(越不平滑 / 陡峭), MLE 越确定,估计的方差越小
( )( )
( )2
2
log ;;
f xI f x dx
qq q
q
¶=-
¶ò( )2
2
log ;f x q
q
¶
¶( )log ;f x q
( )( )2
2
log ;f XI q
q
æ ö¶ ÷ç ÷=- ç ÷ç ÷ç ¶è øE
( ) ( ) ( )( )2
21 1
log ;log ; ,
n ni
n i ni i
f Xl f X l
qq q q
q= =
¶¢¢= =
¶å ål l
( ) ( )1
n̂nI
=V
21
渐近正态性 令 ,在满足合适的正则条件下,
换句话说,
用标准方差的估计值 代替 se ,该结论仍然成立,即
因此对任意极大似然估计量,我们可以近似其置信区间。
( ) ( )ˆ ˆn nse q q= V
( )( ) ( )
2 1ˆ ˆ, ,n nn
N se NI
q q q qq
æ öæ ö ÷ç÷ç ÷» = ç÷ ÷ç ç÷ç ÷è ø ÷çè ø
µse
( ) ( )ˆ 1 ,n nse Iq q= ( )ˆ
0,1n Nse
q q-
µ( ) ( )ˆ ˆ1 ,n n nse Iq q=µ( )
( )ˆ
0,1 ,ˆ
n
n
Nse
q q
q
- µ( )( )2
ˆ ˆ,n nN seq q qæ ö÷ç» ÷ç ÷çè ø
22
证明:
( ) ( )1
log ;n
n ii
l f Xq q=
=ål
( )( )
( )1
log ;ni
n ni
f Xs l
qq q
q=
¶¢= =
¶å l
n̂q 为的MLE,所以 ( ) ( )ˆ ˆ 0n n n ns lq q¢= =l 。
在处对 ( )ˆn ns q 进行 Taylor展开,得到
( ) ( ) ( ) ( ) ( )ˆ ˆ ˆ0 n n n n n ns s s Opq q q q q q q¢= = + - + -
忽略高阶无穷小,得到
( ) ( )
( )( )( )
ˆˆ
n nn
nn n
s s
ls
q qq q
qq- =- =-
¢¢¢
23
证明(续):先考虑分子: ( ) ( )1
;n
n ii
s s Xq q=
=å ,
根据 CLT, ( )ns q 的渐近分布为正态分布
由于 ( )( ) ( )( ) ( ); 0, ;i is X s X Iq qq q q= =E V
所以 ( ) ( )( )0, ns N nIq q» 。
再考虑分母: ( )( )2
21 1
log ;n ni
n ii i
f Xl Z
q= =
¶¢¢- =- = -
¶å å
其中( )
( ) ( )2
2
log ;, i
i i
f XZ Z Iq
q
¶= - =
¶E ,
根据大数定理,
所以 ( ) ( )Pnl nIq q¢¢- ¾¾®
24
证明(续):
综合:( ) ( )
( )( )( )
ˆˆ
n nn
nn n
s s
ls
q qq q
qq- =- =-
¢¢¢
( ) ( )( )0, ns N nIq q» ,
( ) ( )Pnl nIq q¢¢- ¾¾® ,
所以( ) ( )1ˆ 0, n N
nIq q
q
æ ö÷ç ÷- » ç ÷ç ÷÷çè ø,
即( )
( )ˆ1
, 0,1nse NnI se
q qq
-= » 。
25
证明(续):
假设 ( )I q 为θ 的连续函数,由于 ˆ Pnq q¾¾®
根据 Slutsky定理(e), ( ) ( )ˆ PnI Iq q¾¾®
µ ( ) ( ) ( ) ( ) ( )
( )ˆ 1 1ˆ ˆ
ˆ ˆn
n n
n n
I
nIse nI I
qq qq q q q
qq q
-= - = - ´
( )
( )ˆ
ˆn
n
I
se I
qq q
q
-= ´
由于 ( )ˆ
0,1n Nse
q q-» ,
( )
( )1
ˆP
n
I
I
q
q¾¾® ,
所以 µ ( )ˆ
0,1n Nse
q q-» 。
26
渐近正态置信区间 令 则当 时, 即 为 置信区间。
例: ,所以 95% 置信区间为
µ( ) µ( )( )2 2ˆ ˆ ˆ ˆ,n n n n nC z se z sea aq q q q= - +
n ® ¥ ( ) 1nCq q aÎ ® -P
nC 1 a-
20.05, 1.96 2zaa = = »µ( )ˆ ˆ2n nseq q±
27
多维参数模型 令 , MLE 为 则
定义 Fisher 信息矩阵为
为 的逆矩阵。
( )1, , Kq q q= ¼ ( )1ˆ ˆ ˆ, , Kq q q= ¼
( ) ( )2 2
2
log ; log ;, i i
jj jkj j k
f X f XH H
q q
q q q
¶ ¶= =
¶ ¶ ¶
( )
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
11 12 1
21 22 2
1 2
...
...
...
K
K
K K KK
H H H
H H H
H H H
I
q q q
q q q
q q q
q
é ù- - -ê úê ú- - -ê ú= ê úê úê ú- - -ê úë û
M M M M
E E E
E E E
E E E
( ) ( )1J Iq q-= ( )I q
28
多维参数模型 在合适的正则条件下,
同时,若 为 的第 j 个成分,则
其中 为矩阵 的第 j 个对角线上的元素
和 的协方差近似为
( ) ( )ˆ 0, nNq q- J
ˆjq jq
( ) µ( )2ˆ 0, jj j N seq q-
µ ( )2
,j nse j jJ=nJ
ˆjq k̂q ( ) ( )ˆ ˆ, ,j k nCov j kq q » J
29
例: Bernoulli 分布 例 9.20 :令 1 、
1, , ~ ( )nX X Bernoulli pK
( ) ( )1; 1
xxf x p p p-
= -
( ) ( ) ( )log ; log 1 log 1f x p x p x p= + - -
( )( )log ; 1
;1
f X p X Xs X p
p p p
¶ -= = -
¶ -
( ) ( )1 1
1;
1
n ni i
n ii i
X Xs p s X p
p p= =
æ ö- ÷ç= = - ÷ç ÷ç ÷-è øå å
( )1
1ˆ 0
n
n n i ni
s p X Xn =
= Þ =å
30
例: Bernoulli 分布(续) 例 9.20 (续) 2 、
3 、 95% 置信区间为
( )( )log ; 1
;1
f X p X Xs X p
p p p
¶ -= = -
¶ -
( )( )22
; 1
1is X p X X
p p p
¶ -=- -
¶ -
( )( )
( ) ( )22
; 1 1
11i
p p
s X p X XI p
p p p pp
æ öæ ö¶ - ÷ç÷ç ÷ç÷= - = + =ç ÷÷ ç ÷ç ÷ç ç¶ -÷çè ø -è øE E
µ( ) ( )( )
1 2ˆ ˆ1
ˆ ˆ1 n nn n
p pse p nI p
n
ì ü-ï ïï ï= =í ýï ïï ïî þ
µ( )ˆ ˆ2n np se p±
31
例:正态分布 例 9.21 :令 1 、
( )21, , ~ ,nX X N msK
( ) ( )2
2
1 1; , exp
22f x xms m
sps
ì üï ïï ï= - -í ýï ïï ïî þ( ) ( )2
2
1log ; , log 2 log
2f x xms p s m
s=- - - -
( )
( )
( )
( )
( )
2
2
3
log ; , 1
; ,1 1log ; ,
f XX
s Xf X X
msm
m smsms m
s ss
æ ö¶ æ ö÷ç ÷ç÷ç - ÷÷ çç ÷÷¶ çç ÷÷ ç ÷ç= =÷ ç ÷÷ç ÷ç÷ç¶ ÷ç÷ç ÷- + -÷ çç ÷ç÷ è ø÷çè ø¶
( ) ( )( )
( )
21
21
31
1
, ; ,1 1
n
ini
n i ni
ii
X
s s X
X
ms
ms ms
ms s
=
=
=
æ ö÷ç - ÷ç ÷ç ÷ç ÷ç= = ÷÷ç ÷æ öç ÷÷ç ç ÷- + - ÷ç ç ÷÷ç ÷ç è øè ø
åå
å
( ) ( )2
1
1ˆ ˆˆ ˆ, 0 ,
n
n n n n n n i ni
s X X Xn
m s m s=
= Þ = = -å
32
例:正态分布(续) 例 9.21 (续) 2 、
( )
( ) ( )
( ) ( )
2
2
2
2
log ; , log ; ,
; ,log ; , log ; ,
i
f X f X
s Xf X f X
ms ms
m m sms
ms ms
m s s
æ ö¶ ¶ ÷ç ÷ç ÷ç ÷¶ ¶ ¶ç ÷ç ÷¢ = ÷ç ÷ç¶ ¶ ÷ç ÷ç ÷ç ÷÷ç ¶ ¶ ¶è ø
( )
( )
( )
( )
( )
2
2
3
log ; , 1
; ,1 1log ; ,
f XX
s Xf X X
msm
m smsms m
s ss
æ ö¶ æ ö÷ç ÷ç÷ç - ÷÷ çç ÷÷¶ çç ÷÷ ç ÷ç= =÷ ç ÷÷ç ÷ç÷ç¶ ÷ç÷ç ÷- + -÷ çç ÷ç÷ è ø÷çè ø¶
( )
( ) ( )
2 3
2
3 2 4
1 2
2 1 3
X
X X
ms s
m ms s s
æ ö÷ç - - - ÷ç ÷ç ÷ç ÷=ç ÷ç ÷ç ÷÷- - - -ç ÷çè ø
33
例:正态分布(续) 例 9.21 (续) 2 、
( )( )
( ) ( )
2 3
2
3 2 4
1 2
; ,2 1 3i
Xs X
X X
ms sms
m ms s s
æ ö÷ç - - - ÷ç ÷ç ÷ç¢ ÷=ç ÷ç ÷ç ÷÷- - - -ç ÷çè ø
( ) ( )( )( )
( ) ( )
2 3
, ,2
3 2 4
1 2
, ; ,2 1 3i
Xs X
X X
I ms ms
ms sms ms
m ms s s
æ ö÷ç - ÷ç ÷ç ÷ç¢ ÷= - = ç ÷ç ÷ç ÷÷- - + -ç ÷çè ø
E E
2
2
10
20
s
s
æ ö÷ç ÷ç ÷ç ÷ç ÷=ç ÷÷ç ÷ç ÷ç ÷çè ø
34
例:正态分布(续) 例 9.21 (续) 2 、
( )2
2
10
,2
0
I sms
s
æ ö÷ç ÷ç ÷ç ÷ç ÷=ç ÷ç ÷ç ÷÷ç ÷çè ø
( )
2
1 2
0,
02
J Is
ms s-
æ ö÷ç ÷ç ÷ç= = ÷ç ÷ç ÷ç ÷÷çè ø
µ( ) µ( )2 2
211 22ˆ ˆˆ ˆ
ˆ ˆ, 2
n nn nse u se
n n n n
s ss= = = =
J J
35
MLE 的最优性 在所有的无偏估计中, MLE 的方差最小
渐近相对有效性
36
相对有效性 假设 ,则 MLE 为 。 θ
的另一个合理的估计是样本的中值 。 MLE 满足
中值估计满足
二者都收敛于正确值,但中值的方差更大。
( )21,..., ~ ,nX X N q s
n̂ nXq =nq%
( ) ( )2ˆ 0,nn Nq q s-
( ) 2 0,2nn Np
q q sæ ö÷ç- ÷ç ÷çè ø
%( )
( )2
1 0,
2nn N
fq q
q
æ ö÷ç ÷ç ÷- ç ÷ç ÷é ùç ÷è øë û
%中值:
37
相对有效性 一般的,假设有两个估计 和 ,
且
U对 T 的渐近相对有效性 (asymptotic relative efficiency)定义为 。
在上述正态分布例子中, ,意味着中值估计只有效利用了 63% 的数据。 但中值估计比均值估计更鲁棒
鱼和熊掌不可兼得
nT nU
( ) ( )2 0,nn T N tq-
( ) ( )2 0,nn U N uq-
( ) 2 2,ARE T U t u=
( )ˆ , 2 0.63n nARE q q p= =%
38
MLE 的最优性 如果 为 MLE ,且 为另一个估计,则
因此 MLE 的(渐近)方差最小,我们称之为MLE 是有效的或是渐近最优的。
注意:所有的结果都是在基于模型是正确的基础之上预测的。 如果模型不正确, MLE 不一定是最优的
n̂q nq%
( )ˆ , 1n nARE q q £%
39
Delta 方法 令 ,其中 g 为一个平滑函数, 根据 MLE 的同变性, 的 MLE 为 Delta 方法的问题: 的分布?
( )gt q=
( )ˆˆn ngt q=t
ˆnt
40
Delta 方法 若 ,其中 g 为可微函数,且 则
其中
所以若 则当 时,
µ( ) ( ) µ( )ˆ ˆˆn n nse g set q q¢=
( )gt q= ( ) 0g q¢ ¹
µ( )( )
ˆ 0,1
ˆn
n
Nse
t t
t
-
( )ˆˆn ngt q=
µ( ) µ( )( )2 2ˆ ˆ ˆ ˆ,n n n n nC z se z sea at t t t= - +
n ® ¥ ( ) 1nCq t aÎ ® -P
41
Delta 方法 例 9.25 :设 Fisher 信息函数是 MLE 的标准差是 的MLE 是 由于 ,根据 delta 方法
所以, 95% 置信区间是
( ) ( ) ( )( )1,..., , log 1nX X Bernoulli p g p p py~ = = -
( ) ( )( )1 1I p p p= -µ
np µ µ( ){ }1 2
1n nse p p n= -
y µ µ( )log 1n np py = -
( ) ( )( )' 1 1g p p p= -
µ µ( ) µ( ) µ µ( )µ µ( )
' 1
1n n n
n n
se g p se pn p p
y = =-
µµ µ( )
2
1n
n nn p py ±
-
42
多维参数模型的 Delta 方法
令 , g 的导数为
假设 ,令 ,则
其中 , ,
( )ˆ 0ng qÑ ¹
( )ˆˆng g qÑ =Ñ
µ( )( )
ˆ 0,1
ˆn
n
Nse
t t
t
-
( )1, , Kgt q q= K1
K
g
g
g
q
q
æ ö¶ ÷ç ÷ç ÷ç¶ ÷ç ÷ç ÷ç ÷ç ÷Ñ = ÷ç ÷ç ÷ç ÷¶ç ÷ç ÷ç ÷÷ç¶è ø
M
( )ˆˆn ngt q=
µ( ) ( )ˆ ˆˆˆT
n nse g gJt = Ñ Ñ ( )ˆˆn n nq=J J
43
例:多维参数模型的 Delta 方法 9.29 例:令 则MLE 为
( ) ( )21, , ~ , , ,nX X N gms t ms ms= =K
( ) ( )2
1
1ˆ ˆ ˆˆ ˆ ˆ ˆ, , ,
n
n n n i n n n n n ni
X X X gn
m s t m s m s=
= = - = =å
( )
2 2
1 2 2
0 01
, , 0 0
2 2
n nJ I J
s sms s s
-
æ ö æ ö÷ ÷ç ç÷ ÷ç ç÷ ÷ç ç= = =÷ ÷ç ç÷ ÷ç ç÷ ÷ç ç÷ ÷÷ ÷ç çè ø è ø
2
1
g
gg
smm
ms
æ öæ ö¶ ÷ç÷ç - ÷÷ çç ÷÷ çç ÷¶ ÷ çç ÷÷ çÑ = = ÷ç ÷ ç ÷ç ÷ ç ÷¶ç ÷ ÷ç÷ç ÷ç÷ç ÷ ÷ç ÷çè ø è ø¶
µ( ) ( )2
4 2
ˆ1 1ˆ ˆˆˆˆ ˆ2
Tn
n nn n
se g gn
st
m m= Ñ Ñ = +J
44
其他一些与 MLE 相关的主题 MLE vs. 贝叶斯(贝叶斯推断)
MLE 与最小二乘法(回归)
MLE 假设统计模型为参数模型,模型假设的正确性检验 非形式化的,可画出数据的分布图(如直方图)
如有多个峰,则假设正态分布就有问题 形式化:假设检验
拟合优度检验 (goodness-of fit test)
45
下节课内容 MLE 的迭代计算
牛顿法 EM 算法
作业 Chp9 :第 2 、 3 、 4 、 7 、 9 题