45
第第第第 第第第第第 第第第第第第第 [ESL] Chp2 第第第第 [ESL] Chp3 [Wasserman] Chp13 第第第第第第第 [ESL] Chp7/8 [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 第 “ The Elements of Statistical Leanring” 第第第 第第第第 第第第第 ,,, 第第第第—第第第第 第第第第第 第第第第第第第 2004

第三部分:统计学习基础

  • Upload
    jennis

  • View
    175

  • Download
    0

Embed Size (px)

DESCRIPTION

有监督学习概述 [ESL] Chp2 回归分析 [ESL] Chp3 [Wasserman] Chp13 模型评估与选择 [ESL] Chp7/8. 第三部分:统计学习基础. [ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “ The Elements of Statistical Leanring” ,范明,柴玉梅,昝红英译 《 统计学习基础 — 数据挖掘、推理与预测 》 , 电子工业出版社, 2004. 例:一个回归例子. 例: 然后对每个数据加上高斯噪声, 目标: - PowerPoint PPT Presentation

Citation preview

Page 1: 第三部分:统计学习基础

第三部分:统计学习基础 有监督学习概述

[ESL] Chp2

回归分析 [ESL] Chp3 [Wasserman] Chp13

模型评估与选择 [ESL] Chp7/8

[ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “ The Elements of Statistical Leanring” ,范明,柴玉梅,昝红英译《统计学习基础—数据挖掘、推理与预测》, 电子工业出版社, 2004

Page 2: 第三部分:统计学习基础

例:一个回归例子 例:

然后对每个数据加上高斯噪声,

目标:

通过最小化残差的平方和( RSS)

拟合 f

( ) 0.5 0.4sin(2 )y f x x 0.05

0 10

( , )M

M jM j

j

f x x x x

2

1

( ) ,n

i ii

RSS f x y

Page 3: 第三部分:统计学习基础

例:一个回归例子(续)

1 阶多项式拟合 3 阶多项式拟合拟合得到的曲线样本数据点

Page 4: 第三部分:统计学习基础

例:一个回归例子(续)

10 阶多项式拟合 训练正确率和测试误差

Page 5: 第三部分:统计学习基础

一些术语 有监督学习:

给定包含输入特征 和对应响应 的训练样本,学习 Y与 X之间的关系

对新的输入 x,预测其响应 y

如果输出值 Y的类型是连续值:回归 根据公司的业绩和经济学数据,预测今后 6个月的股票价格 根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量

如果输出值 Y 为离散值:分类 根据数字图像,识别手写的邮政编码数据 根据邮件中单词和字符的比例,识别 email是否为垃圾邮件

iXiY

Page 6: 第三部分:统计学习基础

目标根据训练数据, 正确预测未见过的测试样本 理解哪些输入影响输出 怎样评价预测的质量

Page 7: 第三部分:统计学习基础

哲学思想 理解各种技术背后的基本思想,以知道如何和在

什么情况采用这些技术

先理解比较简单的方法,以便掌握更复杂的技术

正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好 [ 简单的方法通常和那些很华丽时髦的方法工作得一样好! ]

Page 8: 第三部分:统计学习基础

一个例子

IR2 上从未知分布产生的200 点,其中类别 ={ 绿,红 }各 100 个点 。 我们能建立一个规则,预测将来的点的颜色的规则吗?

Page 9: 第三部分:统计学习基础

比较两种最简单的预测方法 线性回归 k近邻法( k - nearest neighbors, knn )

Page 10: 第三部分:统计学习基础

线性回归 输入 p维向量,扩展成 p+1 维:

向量均为列向量

类别 G=绿时, Y=0;否则 Y=1。

Y用 X 的线性函数来建模

最简单、也是最常用的模型

01

ˆ ˆˆp

Tj j

j

Y f X X X

11, , , pX X X

Page 11: 第三部分:统计学习基础

线性回归 利用最小二乘法,通过最小化残差的平方和( RSS)

得到

如果 是非奇异的,则唯一解为

则学习得到 f 的估计为

22

1 1

( )n n

TTi i i i

i i

RSS y f x y x

y X y X

ˆ ˆmin ( ) 0 TRSS

X y

1ˆ T T

X X X y

TX X

ˆ ˆTf x x

Page 12: 第三部分:统计学习基础

线性回归 对将来的点 的预测为

在训练集上错误率为 14% 比随机猜测强的多 但还是有很多错误

决策边界 是线性的

采用更灵活的模型能得到更好的结果?

0x 0 0 0ˆ ˆˆ Ty f x x

00

0

ˆ 0.5ˆ ˆ 0.5

if y xG x

if y x

红绿

: 0.5Tx x

Page 13: 第三部分:统计学习基础

knn

观察其邻居,采取投票的方式

其中 为 x0的邻域,由训练样本中最邻近x0的 k个点 xi 定义( k-近邻)

如果在观测 x邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票

0

0

1ˆi k

ix N x

Y x yk

0kN x

00

0

ˆ 0.5ˆ ˆ 0.5

if y xG x

if y x

红绿

Page 14: 第三部分:统计学习基础

15- 近邻分类:训练集上的错误率为 12%

Page 15: 第三部分:统计学习基础

过拟合 knn 比线性回归表现稍好 但我们应警惕过拟合 (overfitting) 问题

在训练集上模型工作得很好(有时甚至 100% 正确),但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情况(另外的测试集)工作欠佳

1nn?

Page 16: 第三部分:统计学习基础

1- 近邻分类。没有样本被误分,判决边界更加不规则

Page 17: 第三部分:统计学习基础

knn中 k 的选择? 在测试集上,哪个模型表现最佳?

k 的选择:偏差—方差折中 较小的 k :预测更灵活,但太灵活可能会导致过拟合,从而估

计方差更大 较大的 k :预测更稳定,但可能不够灵活,不灵活通常与偏差 / 不准确有关

方法 预测误差

训练集 测试集

线性回归 0.14 0.185

Knn(15) 0.12 0.175

Knn(1) 0.0 0.185

Page 18: 第三部分:统计学习基础

在前面 200 个点上训练,在 10,000 个数据上测试的结果

当 k 较小时,训练误差较小,但测试误差一般较大当 k 较大时,训练误差较大,但测试误差一般较小

Page 19: 第三部分:统计学习基础

统计决策理论 令 表示一个实值的随机输入向量,

表示实值的随机输出变量

损失函数: 对回归问题,常用平方误差损失

风险函数(损失函数的期望):

对每个输入 x,目标是使风险函数最小,得到:

为条件期望,亦称回归函数。

IR pX

,L Y f X

2,L Y f X Y f X

2

|, |XY X Y XR f L Y f X Y f X X E E E

|ˆ |Y Xf x Y X x E

IRY

Page 20: 第三部分:统计学习基础

统计决策理论 对分类问题,常用损失函数为 0-1损失函数

风险函数为

对每个输入 x,使风险函数最小

结果为最大后验估计( MAP ),亦称贝叶斯分类器

1 :

ˆ arg min , | arg min |

arg min 1 | arg max |

j

k

j j jg gj j g

g g

G x L g X x X x

g X x g X x

G G G

G G

G G GP P

P P

ˆ0ˆ ,1

G GL G G

otherwise

1

ˆ, |k

X j jj

L G X X

G GE P

, |ˆ ˆ ˆ, ,G X X G XR G L G G X L G G X E E E

Page 21: 第三部分:统计学习基础

贝叶斯最优分类器的结果

Page 22: 第三部分:统计学习基础

贝叶斯分类器 为什么不用贝叶斯分类器 ?

因为通常我们不知道

在上例中我们是已知数据产生的过程 每个类的概率密度为 10个高斯的均匀混合

对类别绿, k=1;对类别红, k=2 对类别绿, 10个均值从正态分布产生: 对类别红, 10个均值从正态分布产生: 方差

|g X xP

10

2

1

; ,k kll

f x x

~ 1,0 ,T

kl N I

2 1 5 ~ 0,1 ,

T

kl N I

ˆ arg max |g

G x g X x

G

P

Page 23: 第三部分:统计学习基础

贝叶斯分类器 knn 是贝叶斯分类器的直观实现

不知道 ,在 x附近的小邻域类别为 g 的数目

用频数近似概率 在点上取条件放宽为在目标点的邻域内取条件

如果取

则贝叶斯分类器与回归函数之间的关系为:

|g X xP

1

0

G gY

otherwise

| |G g X x Y X x P E

Page 24: 第三部分:统计学习基础

knn vs. 线性回归 当 且 时, knn的估计

即该估计是一致的。 但通常没有那么多样本

线性回归假设 的结构是线性的: 并最小化训练样本上的平均损失:

随着样本数目的增多, 收敛于 但模型受到线性假设的限制

,n k 0k n

|ˆ |Y Xf x Y X x E

f x Tf x X

1

TX X XY

E E 1ˆ T T

X X X y

Page 25: 第三部分:统计学习基础

knn vs. 线性回归 通过用样本均值来逼近数学期望, knn 和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同: 线性回归:假定 可以用一个全局线性函数很好近似 knn :假定 可以用一个局部常量函数很好近似

后者看上去更合理:可以逼近更多的函数类,但必须为这种灵活性付出高昂代价

f x

f x

Page 26: 第三部分:统计学习基础

knn

很多现代的学习过程是 knn 的变种 核平滑:每个样本的权重不是 0/1,而是随样本点到目标点的距离平滑减至 0

著名的支持向量机( support vector machine, SVM )与核平滑有许多相同之处

Page 27: 第三部分:统计学习基础

维数灾难 似乎有了合理大的训练数据集,使用 knn平均总能逼近理论上的最佳条件期望 我们能找到接近任意 x的相当大的观测值邻域,并对它们取平均

这样就不必考虑线性会回归了

但在高维空间中, knn法将失败 在目标点附近很难收集到 k个邻居: 维数灾难 (curse of

dimensionality)

Page 28: 第三部分:统计学习基础

维数灾难 “邻域不再是 局部的” :考虑输入在 p维单位超立方体上的均匀分布,选取目标点的超立方体的邻居,覆盖比例为 r ,则边长为:

当维数 p=10时,边长为 为了得到数据的 1%或 10%的覆盖,必须覆盖输入变量定义域的 63%或 80% “。这样的邻域不再是 局部的”

最近邻居的空间趋近于很大,从而估计是有偏的 而降低邻域的大小也无济于事,因为取平均值的观测值越少,拟合的方差会增大

但并不表示局部方法(如 knn )在高维空间中没有意义 因为通常数据在高维空间中是有结构的,如成团分布,即数据的本

质维数不高

1 ppl e r r

10 100.01 0.63, 0.1 0.80e e

Page 29: 第三部分:统计学习基础

维数灾难

1 ppe r r

r

e

Page 30: 第三部分:统计学习基础

函数逼近 考虑连续数据的回归问题:给定 X, Y 的最佳预测为回归

函数:

为了预测,我们需要知道 f ,但通常我们并不知道 f 有时科学知识(如物理化学定律)告诉我们 f 的形式 如胡克定律指出:在弹性限度内,弹簧的的形变 f 跟引起形变

的外力 x ,即

其中 为弹簧的初始长度, 为物质的弹性系数,由材料的性质所决定

对给定的弹簧,我们不知道其弹性系数,但我们可以通过测量不同外力下的形变来估计弹性系数

|f x Y X x E

0 1f x x

01

Page 31: 第三部分:统计学习基础

函数逼近 但测量会有误差 ,这样考虑统计模型的观点:

其中 且为随机误差,与 X独立 当有足够多的数据时,最小二乘能得到精确预测,并且我们

能正确(偏差小)、精确(方差小)地预测任意外力下的形变

如果科学知识告诉我们应该应该选择非线性模型,如sigmoid 模型,我们仍然可以用最小二乘法求解,只是计算可能稍复杂

经验告诉我们,当二元正态分布的相关系数为 0.5 时,意味着线性关系仍能工作得很好

事实上,有时候人们既没有从理论上,也没有从经验上分析就直接采用线性模型

Y f X

0 E

Page 32: 第三部分:统计学习基础

函数逼近 更通用的做法是选择一个函数族, 参数形式为

其中为参数集合 可以用最小二乘法求解,也可以用更一般的极

大似然法来求解 可能是一个封闭的解析解 也可能要通过数值计算的方法迭代计算得到

f x f x

Page 33: 第三部分:统计学习基础

函数逼近 但可能我们选定的函数族中的任何函数都不能很

好表示 f 如上述红绿点分类的例子中线性模型表现不够好,偏差

太大 或者是选择函数族太灵活

如红绿点分类的例子中 knn (k=1) 时,估计不够好,因为估计利用的数据太少(只利用了 k=1 个点)方差太大

问题:如何选择合适的函数族? 增加结构约束

Page 34: 第三部分:统计学习基础

结构化的回归模型 对任意函数 f ,考虑 RSS 准则

任何通过 的函数的 RSS=0 :有无穷多个解 当测试数据与训练数据不同时,该函数可能是一个非常糟糕的预测 只有当 n足够大时,样本均值才能趋于条件期望

为了得到对有限 n 有效的结果,需要将解限定在一个合理的较小函数集合:如参数模型

通常限制施加的是复杂性约束:通常这意味着在输入空间上小邻域上的规则,即对所有的输入点 x ,在某种度量下,它们都足够靠近, 显示出某种特殊的结构,如近似常数、线性或低阶多项式。

2

1

( )n

i ii

RSS f y f x

,i ix y

f

f

Page 35: 第三部分:统计学习基础

结构化的回归模型 约束的强度由邻域的大小决定:邻域越大,约束越强,并且解对约束的特定选择越敏感 knn :局部常数拟合

在无穷小的邻域中,局部常数拟合通常不再是约束 线性回归:全局线性拟合

在非常大的邻域中,局部线性拟合几乎是全局的线性模型,并且限制很强

局部线性回归:局部线性拟合 在邻域中用线性拟合

Page 36: 第三部分:统计学习基础

—偏差 方差折中 如在 knn 回归中:

模型为 ,其中 则在点 处的期望误差(亦称测试误差 /泛化误差)

当 k变化时,在偏差 -方差之间有一个折中 偏差为 k的增函数,而方差为 k的减函数 较小的 k ,模型较复杂,拟合精度高,偏差较小,但方差较大 模型选择:拟合精度与模型复杂度之间的平衡

Y f X 20, E V

0

0

i k

k ix N x

f x yk

0x

2

0 0 0ˆ ˆ |k kR f x Y f x X x

E

2 20 0

ˆ ˆk kbias f x f x V

2 2

20

1

1 k

ll

f x f xk k

Page 37: 第三部分:统计学习基础

当 k 较小时,训练误差较小,但测试误差一般较大当 k 较大时,训练误差较大,但测试误差一般较小

Page 38: 第三部分:统计学习基础

模型选择 目标:测试误差最小 测试误差:用训练误差估计

但训练误差不是测试误差的一个很好估计,因为训练误差不能很好地解释模型的复杂性

过拟合区域欠拟合区域

Page 39: 第三部分:统计学习基础

本章小结 有监督学习:给定训练数据 ,求使风险最小的 f ,即

当损失为平方误差损失,结果为

实际求解时,只能利用训练样本的信息,用样本均值近似期望 但不能以训练误差作为标准,因为样本均值只能在大样本情况下才能逼

近期望 目标为期望风险 / 测试误差最小,但测试集不可得,所以应该增加限制,即函数限制在一个合理的较小集合

不同的学习过程表现为对 施加不同的限制,这种限制通常为复杂性约束(在输入空间上小邻域上的规则)

模型选择:模型复杂度和训练误差之间的折中 / —偏差 方差折中

1 1, , , , ~ ,n n XYX Y X Y F x y

ˆˆ arg min arg min ,YXf x f x

Y f X R f L Y f X E Y f X

ˆ |f x Y X x E

f x

Page 40: 第三部分:统计学习基础

下节课内容 下节课内容:线性回归模型

[Wasserman] Chp13 [ESL] Chp3

Page 41: 第三部分:统计学习基础

第三部分实验 数据:前列腺癌数据

ESL 一书中回归分析的主要数据用例 实验内容:

实现回归模型中的两种 线性回归:必选 岭回归 LASSO 核回归 局部线性回归

并选择合适复杂度的模型 AIC/BIC 交叉验证 bootstrap

Page 42: 第三部分:统计学习基础

前列腺癌数据 考察第 9 列的前列腺癌特殊抗原水平( lpsa: log prostate specific antigen ) 与前 8 列临床指标之间的相关性

lcavol: log cancel volume (肿瘤体积) lweight: log prostate weight (前列腺重量) age :(年龄) lbph: log bengin prostatic hypcrplasia (良性前列腺增生量) svi: seminal vesicle invasion (精囊浸润) lcp: log of capsular penetration (包膜穿透) gleason: gleason score ( Gleason积分) pgg45: percent of Gleason scores 4 or 5 ( Gleason4/5所占百分比 )

共 97 个样本,第 10 列标记某个样本为训练样本还是测试样本 67 训练样本 30 个测试样本

Page 43: 第三部分:统计学习基础

维数灾难问题 2:大多数点都靠近样本的边界

考虑均匀分布在以原点为中心的 p维单位球内的 n个数据点,假设考虑最近邻。则从原点到最近数据点的中位数距离为:

当 n=500, p=10 时, ,超过到边界的一半 大部分样本更靠近样本空间的边界,而不是靠近其他数据

111

, 12

pn

d p n

, 0.52d p n

Page 44: 第三部分:统计学习基础

证明( 1) 考虑均匀分布在以原点为中心的 p维单位球上的

n个数据点,假设考虑最近邻。则从原点到最近数据点的距离的中位数为:

证明:令 表示以原点为中心,半径为 r的p维超球的体积,则

则一个数据点落入半径为 r的超球内的概率为

111

, 12

pn

d p n

pV r

2

2 1

pp

pV r rp

1

p

p

V rr

V一个数据点落入半径为 的超球内P

Page 45: 第三部分:统计学习基础

证明( 2) 令 R表示原点到最近数据点的距离,由于数据是随机的, R为随机变量。则 R的 CDF为:

1

1

1

1

F r R r r

r

r

r

r

最近

原点到最近数据点的距离

原点到 数据点的距离

原点到 数据点的距离

数据点到原点的距离

数据点半径为

没有

没 的超球内有

P P

P

P

P

P

1 1 1 11

nnp p

p

V rr

V

中位数: 111 1

1 1 12 2

pnnpF r r r