第三部分：统计学习基础

第三部分：统计学习基础有监督学习概述

[ESL] Chp2

回归分析 [ESL] Chp3 [Wasserman] Chp13

模型评估与选择 [ESL] Chp7/8

[ESL] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 “ The Elements of Statistical Leanring” ，范明，柴玉梅，昝红英译《统计学习基础—数据挖掘、推理与预测》，电子工业出版社， 2004

例：一个回归例子例：

然后对每个数据加上高斯噪声，

目标：

通过最小化残差的平方和（ RSS）

拟合 f

( ) 0.5 0.4sin(2 )y f x x 0.05

0 10

( , )M

M jM j

j

f x x x x

2

1

( ) ,n

i ii

RSS f x y

例：一个回归例子（续）

1 阶多项式拟合 3 阶多项式拟合拟合得到的曲线样本数据点

例：一个回归例子（续）

10 阶多项式拟合训练正确率和测试误差

一些术语有监督学习：

给定包含输入特征和对应响应的训练样本，学习 Y与 X之间的关系

对新的输入 x，预测其响应 y

如果输出值 Y的类型是连续值：回归根据公司的业绩和经济学数据，预测今后 6个月的股票价格根据患者血液的红外光谱，估计糖尿病患者血液中葡萄糖的含量

如果输出值 Y 为离散值：分类根据数字图像，识别手写的邮政编码数据根据邮件中单词和字符的比例，识别 email是否为垃圾邮件

iXiY

目标根据训练数据，正确预测未见过的测试样本理解哪些输入影响输出怎样评价预测的质量

哲学思想理解各种技术背后的基本思想，以知道如何和在

什么情况采用这些技术

先理解比较简单的方法，以便掌握更复杂的技术

正确评价方法的性能很重要，以便知道该方法在什么情况下工作得好，在什么情况下工作得不好 [ 简单的方法通常和那些很华丽时髦的方法工作得一样好！ ]

一个例子

IR2 上从未知分布产生的200 点，其中类别 ={ 绿，红 }各 100 个点。我们能建立一个规则，预测将来的点的颜色的规则吗？

比较两种最简单的预测方法线性回归 k近邻法（ k - nearest neighbors, knn ）

线性回归输入 p维向量，扩展成 p+1 维：

向量均为列向量

类别 G=绿时， Y=0；否则 Y=1。

Y用 X 的线性函数来建模

最简单、也是最常用的模型

01

ˆ ˆˆp

Tj j

j

Y f X X X

11, , , pX X X

线性回归利用最小二乘法，通过最小化残差的平方和（ RSS）

得到

如果是非奇异的，则唯一解为

则学习得到 f 的估计为

22

1 1

( )n n

TTi i i i

i i

RSS y f x y x

y X y X

ˆ ˆmin ( ) 0 TRSS

X y

1ˆ T T

X X X y

TX X

ˆ ˆTf x x

线性回归对将来的点的预测为

在训练集上错误率为 14% 比随机猜测强的多但还是有很多错误

决策边界是线性的

采用更灵活的模型能得到更好的结果？

0x 0 0 0ˆ ˆˆ Ty f x x

00

0

ˆ 0.5ˆ ˆ 0.5

if y xG x

if y x

红绿

: 0.5Tx x

knn

观察其邻居，采取投票的方式

其中为 x0的邻域，由训练样本中最邻近x0的 k个点 xi 定义（ k-近邻）

如果在观测 x邻域中某一类明显占优势，则观测样本也更可能属于该类。分类规则为邻域成员的多数票

0

0

1ˆi k

ix N x

Y x yk

0kN x

00

0

ˆ 0.5ˆ ˆ 0.5

if y xG x

if y x

红绿

15- 近邻分类：训练集上的错误率为 12%

过拟合 knn 比线性回归表现稍好但我们应警惕过拟合 (overfitting) 问题

在训练集上模型工作得很好（有时甚至 100% 正确），但忘记了训练集是一个随机过程的输出，从而训练好的模型可能在其它情况（另外的测试集）工作欠佳

1nn?

1- 近邻分类。没有样本被误分，判决边界更加不规则

knn中 k 的选择？在测试集上，哪个模型表现最佳？

k 的选择：偏差—方差折中较小的 k ：预测更灵活，但太灵活可能会导致过拟合，从而估

计方差更大较大的 k ：预测更稳定，但可能不够灵活，不灵活通常与偏差 / 不准确有关

方法预测误差

训练集测试集

线性回归 0.14 0.185

Knn(15) 0.12 0.175

Knn(1) 0.0 0.185

在前面 200 个点上训练，在 10,000 个数据上测试的结果

当 k 较小时，训练误差较小，但测试误差一般较大当 k 较大时，训练误差较大，但测试误差一般较小

统计决策理论令表示一个实值的随机输入向量，

表示实值的随机输出变量

损失函数：对回归问题，常用平方误差损失

风险函数（损失函数的期望）：

对每个输入 x，目标是使风险函数最小，得到：

为条件期望，亦称回归函数。

IR pX

,L Y f X

2,L Y f X Y f X

2

|, |XY X Y XR f L Y f X Y f X X E E E

|ˆ |Y Xf x Y X x E

IRY

统计决策理论对分类问题，常用损失函数为 0-1损失函数

风险函数为

对每个输入 x，使风险函数最小

结果为最大后验估计（ MAP ），亦称贝叶斯分类器

1 :

ˆ arg min , | arg min |

arg min 1 | arg max |

j

k

j j jg gj j g

g g

G x L g X x X x

g X x g X x

G G G

G G

G G GP P

P P

ˆ0ˆ ,1

G GL G G

otherwise

1

ˆ, |k

X j jj

L G X X

G GE P

, |ˆ ˆ ˆ, ,G X X G XR G L G G X L G G X E E E

贝叶斯最优分类器的结果

贝叶斯分类器为什么不用贝叶斯分类器 ?

因为通常我们不知道

在上例中我们是已知数据产生的过程每个类的概率密度为 10个高斯的均匀混合

对类别绿， k=1；对类别红， k=2 对类别绿， 10个均值从正态分布产生：对类别红， 10个均值从正态分布产生：方差

|g X xP

10

2

1

; ,k kll

f x x

~ 1,0 ,T

kl N I

2 1 5 ~ 0,1 ,

T

kl N I

ˆ arg max |g

G x g X x

G

P

贝叶斯分类器 knn 是贝叶斯分类器的直观实现

不知道，在 x附近的小邻域类别为 g 的数目

用频数近似概率在点上取条件放宽为在目标点的邻域内取条件

如果取

则贝叶斯分类器与回归函数之间的关系为：

|g X xP

1

0

G gY

otherwise

| |G g X x Y X x P E

knn vs. 线性回归当且时， knn的估计

即该估计是一致的。但通常没有那么多样本

线性回归假设的结构是线性的：并最小化训练样本上的平均损失：

随着样本数目的增多，收敛于但模型受到线性假设的限制

,n k 0k n

|ˆ |Y Xf x Y X x E

f x Tf x X

1

TX X XY

E E 1ˆ T T

X X X y

knn vs. 线性回归通过用样本均值来逼近数学期望， knn 和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同：线性回归：假定可以用一个全局线性函数很好近似 knn ：假定可以用一个局部常量函数很好近似

后者看上去更合理：可以逼近更多的函数类，但必须为这种灵活性付出高昂代价

f x

f x

knn

很多现代的学习过程是 knn 的变种核平滑：每个样本的权重不是 0/1，而是随样本点到目标点的距离平滑减至 0

著名的支持向量机（ support vector machine, SVM ）与核平滑有许多相同之处

维数灾难似乎有了合理大的训练数据集，使用 knn平均总能逼近理论上的最佳条件期望我们能找到接近任意 x的相当大的观测值邻域，并对它们取平均

这样就不必考虑线性会回归了

但在高维空间中， knn法将失败在目标点附近很难收集到 k个邻居：维数灾难 (curse of

dimensionality)

维数灾难 “邻域不再是局部的” ：考虑输入在 p维单位超立方体上的均匀分布，选取目标点的超立方体的邻居，覆盖比例为 r ，则边长为：

当维数 p=10时，边长为为了得到数据的 1%或 10%的覆盖，必须覆盖输入变量定义域的 63%或 80% “。这样的邻域不再是局部的”

最近邻居的空间趋近于很大，从而估计是有偏的而降低邻域的大小也无济于事，因为取平均值的观测值越少，拟合的方差会增大

但并不表示局部方法（如 knn ）在高维空间中没有意义因为通常数据在高维空间中是有结构的，如成团分布，即数据的本

质维数不高

1 ppl e r r

10 100.01 0.63, 0.1 0.80e e

维数灾难

1 ppe r r

r

e

函数逼近考虑连续数据的回归问题：给定 X， Y 的最佳预测为回归

函数：

为了预测，我们需要知道 f ，但通常我们并不知道 f 有时科学知识（如物理化学定律）告诉我们 f 的形式如胡克定律指出：在弹性限度内，弹簧的的形变 f 跟引起形变

的外力 x ，即

其中为弹簧的初始长度，为物质的弹性系数，由材料的性质所决定

对给定的弹簧，我们不知道其弹性系数，但我们可以通过测量不同外力下的形变来估计弹性系数

|f x Y X x E

0 1f x x

01

函数逼近但测量会有误差，这样考虑统计模型的观点：

其中且为随机误差，与 X独立当有足够多的数据时，最小二乘能得到精确预测，并且我们

能正确（偏差小）、精确（方差小）地预测任意外力下的形变

如果科学知识告诉我们应该应该选择非线性模型，如sigmoid 模型，我们仍然可以用最小二乘法求解，只是计算可能稍复杂

经验告诉我们，当二元正态分布的相关系数为 0.5 时，意味着线性关系仍能工作得很好

事实上，有时候人们既没有从理论上，也没有从经验上分析就直接采用线性模型

Y f X

0 E

函数逼近更通用的做法是选择一个函数族，参数形式为

其中为参数集合可以用最小二乘法求解，也可以用更一般的极

大似然法来求解可能是一个封闭的解析解也可能要通过数值计算的方法迭代计算得到

f x f x

函数逼近但可能我们选定的函数族中的任何函数都不能很

好表示 f 如上述红绿点分类的例子中线性模型表现不够好，偏差

太大或者是选择函数族太灵活

如红绿点分类的例子中 knn (k=1) 时，估计不够好，因为估计利用的数据太少（只利用了 k=1 个点）方差太大

问题：如何选择合适的函数族？增加结构约束

结构化的回归模型对任意函数 f ，考虑 RSS 准则

任何通过的函数的 RSS=0 ：有无穷多个解当测试数据与训练数据不同时，该函数可能是一个非常糟糕的预测只有当 n足够大时，样本均值才能趋于条件期望

为了得到对有限 n 有效的结果，需要将解限定在一个合理的较小函数集合：如参数模型

通常限制施加的是复杂性约束：通常这意味着在输入空间上小邻域上的规则，即对所有的输入点 x ，在某种度量下，它们都足够靠近，显示出某种特殊的结构，如近似常数、线性或低阶多项式。

2

1

( )n

i ii

RSS f y f x

,i ix y

f

f

结构化的回归模型约束的强度由邻域的大小决定：邻域越大，约束越强，并且解对约束的特定选择越敏感 knn ：局部常数拟合

在无穷小的邻域中，局部常数拟合通常不再是约束线性回归：全局线性拟合

在非常大的邻域中，局部线性拟合几乎是全局的线性模型，并且限制很强

局部线性回归：局部线性拟合在邻域中用线性拟合

—偏差方差折中如在 knn 回归中：

模型为，其中则在点处的期望误差（亦称测试误差 /泛化误差）

当 k变化时，在偏差 -方差之间有一个折中偏差为 k的增函数，而方差为 k的减函数较小的 k ，模型较复杂，拟合精度高，偏差较小，但方差较大模型选择：拟合精度与模型复杂度之间的平衡

Y f X 20, E V

0

0

1ˆ

i k

k ix N x

f x yk

0x

2

0 0 0ˆ ˆ |k kR f x Y f x X x

E

2 20 0

ˆ ˆk kbias f x f x V

2 2

20

1

1 k

ll

f x f xk k

当 k 较小时，训练误差较小，但测试误差一般较大当 k 较大时，训练误差较大，但测试误差一般较小

模型选择目标：测试误差最小测试误差：用训练误差估计

但训练误差不是测试误差的一个很好估计，因为训练误差不能很好地解释模型的复杂性

过拟合区域欠拟合区域

本章小结有监督学习：给定训练数据，求使风险最小的 f ，即

当损失为平方误差损失，结果为

实际求解时，只能利用训练样本的信息，用样本均值近似期望但不能以训练误差作为标准，因为样本均值只能在大样本情况下才能逼

近期望目标为期望风险 / 测试误差最小，但测试集不可得，所以应该增加限制，即函数限制在一个合理的较小集合

不同的学习过程表现为对施加不同的限制，这种限制通常为复杂性约束（在输入空间上小邻域上的规则）

模型选择：模型复杂度和训练误差之间的折中 / —偏差方差折中

1 1, , , , ~ ,n n XYX Y X Y F x y

ˆˆ arg min arg min ,YXf x f x

Y f X R f L Y f X E Y f X

ˆ |f x Y X x E

f x

下节课内容下节课内容：线性回归模型

[Wasserman] Chp13 [ESL] Chp3

第三部分实验数据：前列腺癌数据

ESL 一书中回归分析的主要数据用例实验内容：

实现回归模型中的两种线性回归：必选岭回归 LASSO 核回归局部线性回归

并选择合适复杂度的模型 AIC/BIC 交叉验证 bootstrap

前列腺癌数据考察第 9 列的前列腺癌特殊抗原水平（ lpsa: log prostate specific antigen ）与前 8 列临床指标之间的相关性

lcavol： log cancel volume （肿瘤体积） lweight： log prostate weight （前列腺重量） age ：（年龄） lbph： log bengin prostatic hypcrplasia （良性前列腺增生量） svi： seminal vesicle invasion （精囊浸润） lcp： log of capsular penetration （包膜穿透） gleason： gleason score （ Gleason积分） pgg45： percent of Gleason scores 4 or 5 （ Gleason4/5所占百分比）

共 97 个样本，第 10 列标记某个样本为训练样本还是测试样本 67 训练样本 30 个测试样本

维数灾难问题 2：大多数点都靠近样本的边界

考虑均匀分布在以原点为中心的 p维单位球内的 n个数据点，假设考虑最近邻。则从原点到最近数据点的中位数距离为：

当 n=500， p=10 时，，超过到边界的一半大部分样本更靠近样本空间的边界，而不是靠近其他数据

111

, 12

pn

d p n

, 0.52d p n

证明（ 1）考虑均匀分布在以原点为中心的 p维单位球上的

n个数据点，假设考虑最近邻。则从原点到最近数据点的距离的中位数为：

证明：令表示以原点为中心，半径为 r的p维超球的体积，则

则一个数据点落入半径为 r的超球内的概率为

111

, 12

pn

d p n

pV r

2

2 1

pp

pV r rp

1

p

p

V rr

V一个数据点落入半径为的超球内P

证明（ 2）令 R表示原点到最近数据点的距离，由于数据是随机的， R为随机变量。则 R的 CDF为：

1

1

1

1

F r R r r

r

r

r

r

最近

所

原点到最近数据点的距离

原点到数据点的距离

原点到数据点的距离

数据点到原点的距离

数据点半径为

有

没有

没的超球内有

P P

P

P

P

P

1 1 1 11

nnp p

p

V rr

V

中位数： 111 1

1 1 12 2

pnnpF r r r

Documents

第三部分：统计学习基础