本节课内容

1

本节课内容 MLE 的性质

MLE 很流行是因为 MLE 有一些很好的性质

2

MLE 的性质 MLE 的一些性质（为参数的真值）

一致性：同变性：若是的 MLE ，则是的 MLE 渐近正态：渐近有效 / 最优：在所有的无偏估计中， MLE 的方差最

小近似于贝叶斯估计（在贝叶斯推理部分讲述）

这些只在满足正则条件下成立，正则条件度量的平滑性。

*ˆ Pnq q¾¾®

n̂q q ( )n̂g q ( )g q

( ) µ( ) ( )*ˆ ˆ 0,1n nse Nq q q-

( );f x q

*q

3

MLE 的一致性一致性：依概率收敛于真值，即

为了证明这一性质，引入 KL 散度 /KL 距离

n̂q *ˆ Pnq q¾¾®*q

4

相对熵： KL 散度若 f 和 g 为两个 pdf ，它们之间的 KL 散度 / 距离

(Kullback-Leibler Divergence) 定义为

KL 散度的性质通常情况下

我们用来表示

( ) ( )( )( )

, logf x

D f g f x dxg x

æ ö÷ç ÷= ç ÷ç ÷÷çè øò

( ), 0D f g ³

( ), 0D f f =( ) ( ), ,D f g D g f¹

( )1 2,D q q ( ) ( )( )1 2; , ;D f x f xq q

5

可识别性 (Identifiability)

如果意味着，我们说模型是可识别的

这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。

连续型分布通常是可识别的，而离散型分布有时是不可识别的。

( )1 2, 0D q q >1 2q q¹ F

6

MLE = Minimizing KL Divergence

令表示的真值。极大化等价于极大化：

相对是一个常数。

( ) ( )( )*

1n nl l

nq q= -

( )*nl q

*q q ( )nl q

( )( )( )1 *

;1log

;

ni

ni i

f XM

n f X

qq

q=

= å

q

7

MLE 的一致性根据大数定律，收敛于

，在时取极大值因为，且当时，

因此，在时取极大值根据 MLE 的定义，当时，取极大值所以可以猜测 MLE 是一致估计：

( )( )( )

( )( )

( )* *

* *

; ;log log ;

; ;i

i

f X f xM f x dx

f X f xq

q qq q

q q

æ ö÷ç ÷= ç =÷ç ÷÷çè øòE

( )( )

( )**

;log ;

;

f xf x dx

f x

qq

q=- ò

( )*,D q q=-

( )nM q( )

( )( )1 *

;1log

;

ni

ni i

f XM

n f X

qq

q=

= å

( ) ( )*,M Dq q q=-

*q q¹*q

( )* *, 0D q q- = ( )*, 0D q q- <

( ) ( )*,nM Dq q q» - *q

n̂q q= ( )nM q

*ˆ Pnq q¾¾®

8

MLE 的一致性 9.13 定理：令表示的真实值，定义

且假设

并且对任意

令表示极大似然估计，则

( ) ( )*,M Dq q q=-

0e>

n̂q *ˆ Pnq q¾¾®

( )( )( )1 *

;1log

;

ni

ni i

f XM

n f X

qq

q=

= å

( ) ( )sup 0PnM M

qq q

Î Q- ¾¾®

( ) ( )*

*:sup M M

q q q eq q

- ³<

*q

9

MLE 的同变性等价性：令是的一个一一映射函数。令

是的 MLE ，则是的 MLE 。

证明：令表示函数 g 的反函数，则对，有

其中。则，有

( )gt q= q n̂q( )ˆˆn ngt q= t

1h g -= ( )ˆ ˆn nhq t=

t"

( ) ( )( ) ( ) ( )1 1

; ;n n

n i i ni i

f X h f Xt t q q= =

= = =Õ ÕL L

( )hq t=

( ) ( ) ( ) ( )ˆ ˆn n n n n nt q q t= £ =L L L L

t"

q

10

MLE 的等价性例 9.15 ：令，则的 MLE 为令，则的 MLE 为eqt =

q ˆnn Xq =

ˆˆ n

n eqt =

( )1,..., ~ ,1nX X N q

t

随机变量变换的 MLE 的点估计

11

MLE 的渐近正态性渐近正态性：

可以给出渐进方差

为了证明这一性质，引入记分函数和 Fisher 信息

当记分函数和 Fisher 信息的形式比较简单时，可解析求解

若解析计算困难，可用参数 bootstrap 方法计算

( ) µ( ) ( )*ˆ ˆ 0,1n nse Nq q q-

µse

12

Fisher 信息记分函数 (score function) 定义为

用来估计 θ

Fisher 信息定义为

告诉记分数里包含了 θ 的多少信息

( )( )log ;

;f X

s Xq

qq

¶=

¶

( ) ( )1

;n

n ii

I s Xqq q=

æ ö÷ç= ÷ç ÷ç ÷è øåV

( )( )1

;n

ii

s Xq q=

=å V

Sir Ronald Aylmer Fisher (1890-1962)

13

记分函数 vs. 似然函数再定义一个总记分函数：记分函数在样本上的和

似然函数为

所以

即总记分函数为似然函数的一阶导数，表示似然函数的变化率

对MLE ，

( ) ( )( )

1 1

log ;;

n ni

n ii i

f Xs s X

qq q

q= =

¶= =

¶å å

( ) ( )1

log ;n

n ii

l f Xq q=

=ål

( )( )n

n

ls

qq

q

¶=

¶

l

( ) ( )ˆ

ˆ0 0n n

n n

ls

qq

q

¶= Þ =

¶

l

14

记分函数的性质记分函数的期望为 0 ：证明：

( )( ); 0s Xq q =E

( )( ) ( )( )

log ;; ;

f xs X f x dxq

qq q

q

¶=

¶òE

( )

( )( )

;

;;

f x

f x dxf x

qq qq

¶¶=ò

( );f xdx

q

q

¶=

¶ò

( );f x dxqq

¶=

¶ ò （假设q

¶¶和ò 可交换）

( )1 0q

¶= =

¶

15

记分函数的性质 (1) 经验总记分函数为 0 ： (2) 总记分函数的期望为 0 ：

当与和匹配时，对求期望才为 0 所以当总记分函数为 0 是的会产生的一个一致估计

( )ˆ 0n ns q =

( )ns q ( );f x q

( )( ) ( ) ( )( )1

; ; 0n

n ii

s s X n s Xq q qq q q=

æ ö÷ç= = =÷ç ÷÷çè øåE = E E

( );f x q

n̂q

16

Fisher 信息用于计算某个估计量的方差

告诉了记分函数包含了的多少信息 Fisher 信息：记分函数的方差

其中为当 n= 1 时的 Fisher 信息

( ) ( ) ( )( ) ( )1 1

; ;n n

n i ii i

I s X s X nIq qq q q q= =

æ ö÷ç= = =÷ç ÷÷çè øå åV V

( )I q

( ) ( )( );I s Xqq q= V

( )( )

2

2

log ;;

f xf x dx

qq

q

¶=-

¶ò

( )2

2

log ;f Xq

q

q

æ ö¶ ÷ç ÷=- ç ÷ç ÷ç ¶è øE 容易计算

17

Fisher 信息

所以要证明

转换为证明

( ) ( )( );I s Xqq q= V

( )( ) ( )( )22

; ;s X s Xq qq qé ùé ù= - ê úë û ë ûE E ( )( )( ) ; 0s Xq q =Q E

( )( )2;s Xq qé ù= ë ûE

( )( )

( )2

2

log ;;

f xI f x dx

qq q

q

¶=-

¶ò

( )( ) ( )( )

22

2

log ;; ;

f xs X f x dxq

qq q

q

¶é ù =-ë û ¶òE

18

证明：( ) ( )

( )

( )

2

2

;log ; log ;

;

f xf x f x

f x

qq q q

q q q q q

æ ö¶ ÷ç ÷çæ ö ÷¶ ¶¶ ¶ ç ÷÷ ¶ç ç ÷÷= =ç ç ÷÷ç ÷÷ç ç¶ ¶ ¶ ¶è ø ÷ç ÷ç ÷çè ø

( ) ( ) ( )

( )

22

2

2

; ;;

;

f x f xf x

f x

q qq

q q

q

é ù¶ ¶ê ú- ê ú¶ ¶ë û=é ùë û

( )

( )

( )

( )

22

2

; ;

; ;

f x f x

f x f x

q qq qq q

é ù¶ ¶ê úê ú¶ ¶= - ê úê úê úë û

( )

( )( )

2

22

;log ;

;

f xf x

f x

qqq

q q

¶é ù¶¶ ê ú= - ê ú¶ë û

( )

( )( )

2

2 2

;

;;

f x

s Xf x

qq qq

¶¶ é ù= - ë û

19

证明（续）： ( )

( )

( )( )

2

22 2

2

;log ;

;;

f xf x

s Xf x

qq q q

q q

¶¶ ¶ é ù= - ë û¶

所以( )

( )( )( )

( )

2

22

22

;log ;

;;

f xf X

s Xf xq q q

qq qq

q q

æ ö¶ ÷ç ÷çæ ö ÷¶ ç ÷÷ç ¶ç ÷÷- = -ç ç ÷÷ç ÷÷ çç ¶è ø ÷ç ÷ç ÷÷çè ø

E E E

( )( )( )

( )( )

2

22

;

; ;;

f x

s X f x dxf xq

qqq qq

æ ö¶ ÷ç ÷ç ÷ç ÷¶ç ÷= - ç ÷÷ç ÷ç ÷ç ÷÷çè ø

òE

( )( ) ( )22

2

;;

f xs X dxq

qq

q

æ ö¶ ÷ç ÷= - ç ÷ç ÷ç ¶è øòE

( )( ) ( )2

22

; ;s X f x dxq q qq

¶= -

¶ òE

( )( )2 ;s Xq q=E

20

Fisher 信息

二阶导数度量了的曲率

即当变化时，似然函数的平滑程度

曲率越大，信息越多

信息越多，曲率越大（越不平滑 / 陡峭）， MLE 越确定，估计的方差越小

( )( )

( )2

2

log ;;

f xI f x dx

qq q

q

¶=-

¶ò( )2

2

log ;f x q

q

¶

¶( )log ;f x q

( )( )2

2

log ;f XI q

qq

q

æ ö¶ ÷ç ÷=- ç ÷ç ÷ç ¶è øE

( ) ( ) ( )( )2

21 1

log ;log ; ,

n ni

n i ni i

f Xl f X l

qq q q

q= =

¶¢¢= =

¶å ål l

( ) ( )1

n̂nI

qq

=V

21

渐近正态性令，在满足合适的正则条件下，

换句话说，

用标准方差的估计值代替 se ，该结论仍然成立，即

因此对任意极大似然估计量，我们可以近似其置信区间。

( ) ( )ˆ ˆn nse q q= V

( )( ) ( )

2 1ˆ ˆ, ,n nn

N se NI

q q q qq

æ öæ ö ÷ç÷ç ÷» = ç÷ ÷ç ç÷ç ÷è ø ÷çè ø

µse

( ) ( )ˆ 1 ,n nse Iq q= ( )ˆ

0,1n Nse

q q-

µ( ) ( )ˆ ˆ1 ,n n nse Iq q=µ( )

( )ˆ

0,1 ,ˆ

n

n

Nse

q q

q

- µ( )( )2

ˆ ˆ,n nN seq q qæ ö÷ç» ÷ç ÷çè ø

22

证明：

( ) ( )1

log ;n

n ii

l f Xq q=

=ål

( )( )

( )1

log ;ni

n ni

f Xs l

qq q

q=

¶¢= =

¶å l

n̂q 为的MLE，所以 ( ) ( )ˆ ˆ 0n n n ns lq q¢= =l 。

在处对 ( )ˆn ns q 进行 Taylor展开，得到

( ) ( ) ( ) ( ) ( )ˆ ˆ ˆ0 n n n n n ns s s Opq q q q q q q¢= = + - + -

忽略高阶无穷小，得到

( ) ( )

( )( )( )

ˆˆ

n nn

nn n

s s

ls

q qq q

qq- =- =-

¢¢¢

23

证明（续）：先考虑分子： ( ) ( )1

;n

n ii

s s Xq q=

=å ，

根据 CLT， ( )ns q 的渐近分布为正态分布

由于 ( )( ) ( )( ) ( ); 0, ;i is X s X Iq qq q q= =E V

所以 ( ) ( )( )0, ns N nIq q» 。

再考虑分母： ( )( )2

21 1

log ;n ni

n ii i

f Xl Z

qq

q= =

¶¢¢- =- = -

¶å å

其中( )

( ) ( )2

2

log ;, i

i i

f XZ Z Iq

qq

q

¶= - =

¶E ，

根据大数定理，

所以 ( ) ( )Pnl nIq q¢¢- ¾¾®

24

证明（续）：

综合：( ) ( )

( )( )( )

ˆˆ

n nn

nn n

s s

ls

q qq q

qq- =- =-

¢¢¢

( ) ( )( )0, ns N nIq q» ，

( ) ( )Pnl nIq q¢¢- ¾¾® ，

所以( ) ( )1ˆ 0, n N

nIq q

q

æ ö÷ç ÷- » ç ÷ç ÷÷çè ø，

即( )

( )ˆ1

, 0,1nse NnI se

q qq

-= » 。

25

证明（续）：

假设 ( )I q 为θ 的连续函数，由于 ˆ Pnq q¾¾®

根据 Slutsky定理(e)， ( ) ( )ˆ PnI Iq q¾¾®

µ ( ) ( ) ( ) ( ) ( )

( )ˆ 1 1ˆ ˆ

ˆ ˆn

n n

n n

I

nIse nI I

qq qq q q q

qq q

-= - = - ´

( )

( )ˆ

ˆn

n

I

se I

qq q

q

-= ´

由于 ( )ˆ

0,1n Nse

q q-» ，

( )

( )1

ˆP

n

I

I

q

q¾¾® ，

所以 µ ( )ˆ

0,1n Nse

q q-» 。

26

渐近正态置信区间令则当时，即为置信区间。

例：，所以 95% 置信区间为

µ( ) µ( )( )2 2ˆ ˆ ˆ ˆ,n n n n nC z se z sea aq q q q= - +

n ® ¥ ( ) 1nCq q aÎ ® -P

nC 1 a-

20.05, 1.96 2zaa = = »µ( )ˆ ˆ2n nseq q±

27

多维参数模型令， MLE 为则

定义 Fisher 信息矩阵为

为的逆矩阵。

( )1, , Kq q q= ¼ ( )1ˆ ˆ ˆ, , Kq q q= ¼

( ) ( )2 2

2

log ; log ;, i i

jj jkj j k

f X f XH H

q q

q q q

¶ ¶= =

¶ ¶ ¶

( )

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

11 12 1

21 22 2

1 2

...

...

...

K

K

K K KK

H H H

H H H

H H H

I

q q q

q q q

q q q

q

é ù- - -ê úê ú- - -ê ú= ê úê úê ú- - -ê úë û

M M M M

E E E

E E E

E E E

( ) ( )1J Iq q-= ( )I q

28

多维参数模型在合适的正则条件下，

同时，若为的第 j 个成分，则

其中为矩阵的第 j 个对角线上的元素

和的协方差近似为

( ) ( )ˆ 0, nNq q- J

ˆjq jq

( ) µ( )2ˆ 0, jj j N seq q-

µ ( )2

,j nse j jJ=nJ

ˆjq k̂q ( ) ( )ˆ ˆ, ,j k nCov j kq q » J

29

例： Bernoulli 分布例 9.20 ：令 1 、

1, , ~ ( )nX X Bernoulli pK

( ) ( )1; 1

xxf x p p p-

= -

( ) ( ) ( )log ; log 1 log 1f x p x p x p= + - -

( )( )log ; 1

;1

f X p X Xs X p

p p p

¶ -= = -

¶ -

( ) ( )1 1

1;

1

n ni i

n ii i

X Xs p s X p

p p= =

æ ö- ÷ç= = - ÷ç ÷ç ÷-è øå å

( )1

1ˆ 0

n

n n i ni

s p X Xn =

= Þ =å

30

例： Bernoulli 分布（续）例 9.20 （续） 2 、

3 、 95% 置信区间为

( )( )log ; 1

;1

f X p X Xs X p

p p p

¶ -= = -

¶ -

( )( )22

; 1

1is X p X X

p p p

¶ -=- -

¶ -

( )( )

( ) ( )22

; 1 1

11i

p p

s X p X XI p

p p p pp

æ öæ ö¶ - ÷ç÷ç ÷ç÷= - = + =ç ÷÷ ç ÷ç ÷ç ç¶ -÷çè ø -è øE E

µ( ) ( )( )

1 2ˆ ˆ1

ˆ ˆ1 n nn n

p pse p nI p

n

ì ü-ï ïï ï= =í ýï ïï ïî þ

µ( )ˆ ˆ2n np se p±

31

例：正态分布例 9.21 ：令 1 、

( )21, , ~ ,nX X N msK

( ) ( )2

2

1 1; , exp

22f x xms m

sps

ì üï ïï ï= - -í ýï ïï ïî þ( ) ( )2

2

1log ; , log 2 log

2f x xms p s m

s=- - - -

( )

( )

( )

( )

( )

2

2

3

log ; , 1

; ,1 1log ; ,

f XX

s Xf X X

msm

m smsms m

s ss

æ ö¶ æ ö÷ç ÷ç÷ç - ÷÷ çç ÷÷¶ çç ÷÷ ç ÷ç= =÷ ç ÷÷ç ÷ç÷ç¶ ÷ç÷ç ÷- + -÷ çç ÷ç÷ è ø÷çè ø¶

( ) ( )( )

( )

21

21

31

1

, ; ,1 1

n

ini

n i ni

ii

X

s s X

X

ms

ms ms

ms s

=

=

=

æ ö÷ç - ÷ç ÷ç ÷ç ÷ç= = ÷÷ç ÷æ öç ÷÷ç ç ÷- + - ÷ç ç ÷÷ç ÷ç è øè ø

åå

å

( ) ( )2

1

1ˆ ˆˆ ˆ, 0 ,

n

n n n n n n i ni

s X X Xn

m s m s=

= Þ = = -å

32

例：正态分布（续）例 9.21 （续） 2 、

( )

( ) ( )

( ) ( )

2

2

2

2

log ; , log ; ,

; ,log ; , log ; ,

i

f X f X

s Xf X f X

ms ms

m m sms

ms ms

m s s

æ ö¶ ¶ ÷ç ÷ç ÷ç ÷¶ ¶ ¶ç ÷ç ÷¢ = ÷ç ÷ç¶ ¶ ÷ç ÷ç ÷ç ÷÷ç ¶ ¶ ¶è ø

( )

( )

( )

( )

( )

2

2

3

log ; , 1

; ,1 1log ; ,

f XX

s Xf X X

msm

m smsms m

s ss

æ ö¶ æ ö÷ç ÷ç÷ç - ÷÷ çç ÷÷¶ çç ÷÷ ç ÷ç= =÷ ç ÷÷ç ÷ç÷ç¶ ÷ç÷ç ÷- + -÷ çç ÷ç÷ è ø÷çè ø¶

( )

( ) ( )

2 3

2

3 2 4

1 2

2 1 3

X

X X

ms s

m ms s s

æ ö÷ç - - - ÷ç ÷ç ÷ç ÷=ç ÷ç ÷ç ÷÷- - - -ç ÷çè ø

33

例：正态分布（续）例 9.21 （续） 2 、

( )( )

( ) ( )

2 3

2

3 2 4

1 2

; ,2 1 3i

Xs X

X X

ms sms

m ms s s

æ ö÷ç - - - ÷ç ÷ç ÷ç¢ ÷=ç ÷ç ÷ç ÷÷- - - -ç ÷çè ø

( ) ( )( )( )

( ) ( )

2 3

, ,2

3 2 4

1 2

, ; ,2 1 3i

Xs X

X X

I ms ms

ms sms ms

m ms s s

æ ö÷ç - ÷ç ÷ç ÷ç¢ ÷= - = ç ÷ç ÷ç ÷÷- - + -ç ÷çè ø

E E

2

2

10

20

s

s

æ ö÷ç ÷ç ÷ç ÷ç ÷=ç ÷÷ç ÷ç ÷ç ÷çè ø

34

例：正态分布（续）例 9.21 （续） 2 、

( )2

2

10

,2

0

I sms

s

æ ö÷ç ÷ç ÷ç ÷ç ÷=ç ÷ç ÷ç ÷÷ç ÷çè ø

( )

2

1 2

0,

02

J Is

ms s-

æ ö÷ç ÷ç ÷ç= = ÷ç ÷ç ÷ç ÷÷çè ø

µ( ) µ( )2 2

211 22ˆ ˆˆ ˆ

ˆ ˆ, 2

n nn nse u se

n n n n

s ss= = = =

J J

35

MLE 的最优性在所有的无偏估计中， MLE 的方差最小

渐近相对有效性

36

相对有效性假设，则 MLE 为。 θ

的另一个合理的估计是样本的中值。 MLE 满足

中值估计满足

二者都收敛于正确值，但中值的方差更大。

( )21,..., ~ ,nX X N q s

n̂ nXq =nq%

( ) ( )2ˆ 0,nn Nq q s-

( ) 2 0,2nn Np

q q sæ ö÷ç- ÷ç ÷çè ø

%( )

( )2

1 0,

2nn N

fq q

q

æ ö÷ç ÷ç ÷- ç ÷ç ÷é ùç ÷è øë û

%中值：

37

相对有效性一般的，假设有两个估计和 ,

且

U对 T 的渐近相对有效性 (asymptotic relative efficiency)定义为。

在上述正态分布例子中，，意味着中值估计只有效利用了 63% 的数据。但中值估计比均值估计更鲁棒

鱼和熊掌不可兼得

nT nU

( ) ( )2 0,nn T N tq-

( ) ( )2 0,nn U N uq-

( ) 2 2,ARE T U t u=

( )ˆ , 2 0.63n nARE q q p= =%

38

MLE 的最优性如果为 MLE ，且为另一个估计，则

因此 MLE 的（渐近）方差最小，我们称之为MLE 是有效的或是渐近最优的。

注意：所有的结果都是在基于模型是正确的基础之上预测的。如果模型不正确， MLE 不一定是最优的

n̂q nq%

( )ˆ , 1n nARE q q £%

39

Delta 方法令，其中 g 为一个平滑函数，根据 MLE 的同变性，的 MLE 为 Delta 方法的问题：的分布？

( )gt q=

( )ˆˆn ngt q=t

ˆnt

40

Delta 方法若，其中 g 为可微函数，且则

其中

所以若则当时，

µ( ) ( ) µ( )ˆ ˆˆn n nse g set q q¢=

( )gt q= ( ) 0g q¢ ¹

µ( )( )

ˆ 0,1

ˆn

n

Nse

t t

t

-

( )ˆˆn ngt q=

µ( ) µ( )( )2 2ˆ ˆ ˆ ˆ,n n n n nC z se z sea at t t t= - +

n ® ¥ ( ) 1nCq t aÎ ® -P

41

Delta 方法例 9.25 ：设 Fisher 信息函数是 MLE 的标准差是的MLE 是由于，根据 delta 方法

所以， 95% 置信区间是

( ) ( ) ( )( )1,..., , log 1nX X Bernoulli p g p p py~ = = -

( ) ( )( )1 1I p p p= -µ

np µ µ( ){ }1 2

1n nse p p n= -

y µ µ( )log 1n np py = -

( ) ( )( )' 1 1g p p p= -

µ µ( ) µ( ) µ µ( )µ µ( )

' 1

1n n n

n n

se g p se pn p p

y = =-

µµ µ( )

2

1n

n nn p py ±

-

42

多维参数模型的 Delta 方法

令， g 的导数为

假设，令，则

其中，，

( )ˆ 0ng qÑ ¹

( )ˆˆng g qÑ =Ñ

µ( )( )

ˆ 0,1

ˆn

n

Nse

t t

t

-

( )1, , Kgt q q= K1

K

g

g

g

q

q

æ ö¶ ÷ç ÷ç ÷ç¶ ÷ç ÷ç ÷ç ÷ç ÷Ñ = ÷ç ÷ç ÷ç ÷¶ç ÷ç ÷ç ÷÷ç¶è ø

M

( )ˆˆn ngt q=

µ( ) ( )ˆ ˆˆˆT

n nse g gJt = Ñ Ñ ( )ˆˆn n nq=J J

43

例：多维参数模型的 Delta 方法 9.29 例：令则MLE 为

( ) ( )21, , ~ , , ,nX X N gms t ms ms= =K

( ) ( )2

1

1ˆ ˆ ˆˆ ˆ ˆ ˆ, , ,

n

n n n i n n n n n ni

X X X gn

m s t m s m s=

= = - = =å

( )

2 2

1 2 2

0 01

, , 0 0

2 2

n nJ I J

s sms s s

-

æ ö æ ö÷ ÷ç ç÷ ÷ç ç÷ ÷ç ç= = =÷ ÷ç ç÷ ÷ç ç÷ ÷ç ç÷ ÷÷ ÷ç çè ø è ø

2

1

g

gg

smm

ms

æ öæ ö¶ ÷ç÷ç - ÷÷ çç ÷÷ çç ÷¶ ÷ çç ÷÷ çÑ = = ÷ç ÷ ç ÷ç ÷ ç ÷¶ç ÷ ÷ç÷ç ÷ç÷ç ÷ ÷ç ÷çè ø è ø¶

µ( ) ( )2

4 2

ˆ1 1ˆ ˆˆˆˆ ˆ2

Tn

n nn n

se g gn

st

m m= Ñ Ñ = +J

44

其他一些与 MLE 相关的主题 MLE vs. 贝叶斯（贝叶斯推断）

MLE 与最小二乘法（回归）

MLE 假设统计模型为参数模型，模型假设的正确性检验非形式化的，可画出数据的分布图（如直方图）

如有多个峰，则假设正态分布就有问题形式化：假设检验

拟合优度检验 (goodness-of fit test)

45

下节课内容 MLE 的迭代计算

牛顿法 EM 算法

作业 Chp9 ：第 2 、 3 、 4 、 7 、 9 题

Documents

本节课内容