核函数方法及其在过程控制中的应用研究 Studies on the kernel-based methods and its applications in process control

核函数方法及其在过程控制中的应用

核函数方法及其在过程控制中的应用研究 Studies on the kernel-based methods

and its applications in process control


主要内容 Kernel trick

Kernel-based methods– Kernel chemometric

• Kernel PCA, Kernel PCR

• Kernel PLS

• Kernel Fisher Discriminant

– Support vector machines• Support vector classification machines

• Support vector regression machines

Applications


研究背景

人类具有通过事例学习能力，并能举一反三。因此，希望在对机器智能的研究中，也希望它具有该能力。

传统方法及其局限性– 统计学在解决机器学习的问题中取基础作用– 传统统计学研究的主要是渐近理论，即当样本趋向无穷多时的

统计性质

Vapnik 等人系统地研究了有限样本情况下的机器学习问题，建立了统计学习理论（ SLT ）的基本体系。

SVM 在应用研究中展示了良好的性能


由于工业过程的复杂性，（多变量、非线性、时变、分布参数、信息不完全、信息冗余等）。基于过程机理的方法在应用研究中遇到困难。

过程控制借鉴了机器学习中的理论与方法，如 ANN 。取得了较丰富的成果。

ANN 的困境– 缺乏坚实的理论基础– 解决复杂问题表现出的局限性

• 过学习• 局部最小点• 模型结构何参数确定依赖于经验• 对样本容量与分布特性要求


SLT 与 SVM

– SLT 系统地研究了小样本情况下的机器学习问题。理论扎实

– SVM 是基于 SLT的通用机器学习方法– SVM 方法又促进了核函数方法的应用研究– SVM 与 BPNN 的比较，有一系列优点– 现有的研究表明， SVM在模式识别等领域的应用研究中，对于一些 Benchmark 问题，结果优于 ANN方法。

SVM 的特点，十分有利于处理过程控制中的复杂特性。


过程控制中广泛存在多变量问题，数据量大，信息冗余。线性多元特征提取方法应用较多。如基于 PCA 的过程状态监测与故障诊断。但很难提取非线性特性。

回归方法，如 PCR,PLS 等在过程建模上应用较多。它们本质上仍然属于线性方法。

用核函数方法改造传统线性 Chemometric 方法受到广泛重视。


Kernel trick

根据模式识别理论，低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分，而且在高维特征空间中再提取特征信息也会更容易。如函数型连接网络。

K节点输入

K节点输出kO

函数型

)( ki Of)(1 kOf )( kp Of

kO的函数展开

图 2 函数型连接网络


实际上很难单纯采用这种方法，因为存在如下几个难点：

非线性函数形式的确定。特征空间维数的确定。高维特征空间进行计算时的维数灾难。

核函数技术（ kernel tricks ）的基本思想是把非线性变换后的高维特征空间的内积运算转换为原始输入空间中的核函数的计算，即通过来实现的。)()(),( ii xxxxK

)(

把采用 kernel tricks 的方法称为核函数方法。


核函数方法的特点：避免了直接在变换后的特征空间的运算，大大减小了计算量，避免了“维数灾难”。采用核函数后，没有必要知道非线性变换函数的形式特征空间的维数甚至可以是无穷大。核函数的选择也不困难，满足Mercer条件的任意对称函数都可作核函数。

)(


)(x

+

*

+

+

+

+

++

* *

* **

**

*

**

*

*

*

*

*

*

*

++

+

+

+

+

+

+

+

+

*

输入空间特征空间

*

),( zxK

)(x

Tx)(=

图 3 Kernel tricks示意图


高斯核函数

指数型核函数多项式核函数感知器核函数

B样条核函数

)2

exp(),(2

2

i

i

xxxxK

)2

exp(),(2

ii

xxxxK

NdxxxxK dii ,,2,1,)1(),(

)tanh(),( bxxxK ii

常用核函数

) ( ) , (1 2i n ix x B x x K


SLT 与 SVM 的主要内容

统计学习理论就是研究小样本统计估计和预测的理论，主要内容包括四个方面 – 经验风险最小化准则下统计学习一致性的条件 – 在这些条件下关于统计学习方法推广性的界的结论 – 在这些界的基础上建立的小样本归纳推理准则 – 实现新的准则的实际方法 ( 算法 )

SLT 主要内容


SLT 与 SVM 的主要内容（续） VC 维

– 为了研究学习过程一致收敛的速度和推广性， SLT定义了一系列有关函数集学习性能的指标， VC 维是最重要的。

– 定义：对一个指示函数集，如果存在 h 个样本能够被函数集中的函数按所有可能的种形式分开，则称函数集能够把 h 个样本打散。函数集的 VC 维就是它能打散的最大样本数目 h 。

– VC 维反映了函数集的学习能力， VC 维越大则学习机器越复杂 ( 容量越大 )

– 目前尚没有通用的关于任意函数集 VC 维计算的理论

h2


SLT 与 SVM 的主要内容（续）推广性的界 SLT系统地研究了对于各种类型的函数集，经验风险和实际风险之间的关系，即推广性的界。对于两类分类问题，根据统计学习理论，对指示函数集中的所有函数（包括使经验风险最小的函数），经验风险和实际风险之间以至少 1－ η的概率满足以下关系：

这一结论从理论上说明了学习机器的实际风险由两部分组成：一是经验风险（训练误差），另一部分称作置信范围，它和学习机器的 VC维及训练样本数有关

n

hnhRR emp

)4/ln()1)/2(ln()()(

)(R )(empR

)/()()( nhRR emp


SLT 与 SVM 的主要内容（续）

在有限训练样本条件下，分类模型的 VC 维越高（复杂性越高）则置信范围越大，导致真实风险与经验风险之间可能的差别越大，这就是出现过学习的原因。

机器学习过程不但要使经验风险最小，还要使 VC 维尽量小以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性。


SLT 与 SVM 的主要内容（续）结构风险最小化

函数集子集VC 维：

321 SSS 321 hhh

图 4 结构风险最小化示意图



实现 SRM 原则可以有两种思路 – 在每个函数子集中求最小经验风险，然后选择使最小经验风险和置信范围之和最小的子集。当子集数目很大甚至是无穷时不可行

– 设计函数集的某种结构使每个子集中都能取得最小的经验风险（如使训练误差为 0 ），然后只需选择选择适当的子集使置信范围最小，则这个子集中使经验风险最小的函数就是最优函数。 SVM 即采用这种思路

传统方法，如 ANN ，选择模型和算法的过程即为调整置信范围。当确定后，再最小化经验风险。可惜上述选择和调整无理论指导，依赖设计者经验。



SVM 方法是从线性可分情况下的最优分类面提出的

所谓最优分类面，就是这样的分类超平面，它不但能够将所有训练样本正确分类，而且使训练样本中离分类面最近的点到分类面的距离 ( 定义为间隔 ) 最大

在线性不可分的情况下，通过非线性变换将输入空间变换到一个高维特征空间。在新的特征空间中求取最优线性分类面，而这个非线性变换是通过核函数实现的

支持向量是训练数据集合的子集

SVM 主要内容



0bwx1bwx

1bwx

winm

2arg

实心图形表示支持向量最优分类面

图 5 最优分类面


SLT 与 SVM 的主要内容（续）通过使间隔最大化来控制分类器的复杂度、进

而实现较好的推广能力正则化方法应用 kernel tricks 应用把优化问题转换为二次规划问题，因此避免了

局部最小化问题。用于模式识别的 SVC推广到实函数估计的 SVR


SVC 简介n

iii Rxliyx ,,,1},,{ }1,1{ iy

libwxy

wMinimize

ii ,...,2,101)(s.t.2

1 2

最优超平面：

已知数据集：

0)( bxw

支持向量到最优超平面的距离为 w/1

假设数据集可以被一个超平面没有错误地分开，则与两类样本点距离最大的分类超平面会获得最佳的推广能力。

求最优超平面的问题转化为如下最优化问题：

按照最优化理论中二次规划的解法，可把该问题转化为 Wolfe 对偶问题来求解。构造 Lagrange 函数：


libwxywbwL i

l

i

l

iiiii ,...,2,1,0,)(

2

1),(

1 1

2

α,

其中是 Lagrange乘子i

根据最优化原理有：

0),(

bwLw

α,

0),(

bwLb

α,

i

l

iii xy

1

w

01

i

l

ii y

即：


将两式代回 Lagrange 函数中，消去 w和 b ，经运算得到原最优化问题的 Wolfe 对偶问题：

li

yts

xxyyWMaxmize

i

l

iii

l

jijijii

l

ii j

,...,10

0..

2

1)(

1

,1

α

其解是原最优化问题的整体最优解。可采用优化算法解出；参数 b可根据 Karush-Kuhn-Tucker条件求出：

),0(, Cxwyb iiT

i

最后求得得最优超平面为： })(sgn{})sgn{()(

1

bxxybxwxfl

iiii

需要注意的是只有支持向量所对应的 Lagrange乘子才不是 0。i


对于线性不可分的分类问题，可以将输入 x 通过非线性函数映射到高维特征空间，在此空间再进行线性分类。最终结果为，以核函数代替上式中的。即

)(x),( xxK i

)( xxi

}),(sgn{)(1

bxxKyxfl

iiii

显然，在结构上它等效于三层前向神经网络。


图 6 SVM结构示意图

1x 2x 3x nx

),( 1 xxK ),( 2 xxK ),( xxK N

),,,( 21 nxxxx 输入向量

基于支持向量 Nxxx ,,, 21 的非线性变换

11y 22y NNy

)),(sgn(1

bxxKyyN

iiii

决策输出y

权值


表 1 前馈神经网络与 SVMs比较不同点前馈神经网络 SVMs

理论基础（优化原则）

经验风险最小化结构风险最小化

对训练数据要求大样本，数据质量要较高小样本，可处理稀疏数据

模型结构和参数确定

先确定模型结构，再确定模型参数，反复训练、试凑。经验影响较大

结构和参数可以通过训练由训练算法自动同时确定

优化的全局性可能陷入局部最小点全局优化

模型参数数量模型参数多模型参数较少

模型推广能力较差较好

模型训练难易程度通常较难相对较容易

计算复杂度取决于样本输入变量的维数和样本维数

与样本输入变量维数无关，取决于样本维数


设给定 l 个训练样本，其中是 n 维输入；是样本输出。非线性回归就是找到一个非线性函数 f ，能够逼近输入和输出之间的关系。采用与非线性分类支持向量机类似的方法，首先将输入通过非线性函数映射到高维特征空间 F ，将非线性函数回归问题转化为高维空间的线性回归。

liii yx 1},{

ni Rx Ryi

)(

SVR 简介

设所求逼近函数为：，

bxwxf iT )()( RbRw h ,

其中 h为高维特征空间维数， b为偏置量。由于是固定不变的，因此影响w的有经验风险的总和以及使函数 f在高维空间平滑的。因此有：

2

w

2

1

2))(()()(

l

iiiemp yXfeRR

其中 e(.)是损失函数，是正则化常数


最小化便得到用数据点表示的 w )(wR

)()(1

*i

l

iii x

其中和是最小化的解，综上所述有：i *i )(wR

bxxKbxxxf i

l

iiii

l

iii

),()())()(()()(

1

*

1

*

对不同的损失函数 e(.)，式（ 19 ）的优化问题有不同的形式。

常用的损失函数有 Vapnik －不灵敏度损失函数，二次－不灵敏度损失函数 Huber损失函数等。参数 b可根据 Karush-Kuhn-Tucker条件求出。


模型选择

SVMs 模型性能很大程度上取决于模型参数， SVMs

模型选择包括多个方面，正则化参数损失函数核的类型及核参数等


Kernel chemometric

Kernel PCA, Kernel PCR

Kernel PLS

Kernel Fisher Discriminant （ KFD ）


国内外研究现状研究主要集中在

– 各种改进型 SVM ，如 LS-SVM, v-SVM,Fuzzy SVM

– SVM 算法– SVM 应用，特别是模式识别问题

目前应用领域与成果– 模式识别– 回归估计– 数据挖掘– 工程应用研究– 结果令人满意


SVM算法SVMlight 为代表的分解算法在线训练算法序贯分类算法 SMO，适用于回归和函数估计

对多类分类问题，标准算法是对于 n 类问题构造 n 个两类分类器，第 i

个 SVM 用第 i 类中的训练样本作为正的训练样本，而将其它的样本作为负的训练样本，这种算法称为“一对多”（ one against all model ）。这样需要构造的 SVM 分类器的数目等于数据样本的模式数目。这种方式的缺点是对每个分类器的要求较高。第二种是“一对一”（ one against one mo

del ）策略，即为了对 n 个类的训练样本进行两两区分，分别构造 n(n+1)/

2 个 SVM 分类器。在测试时，使用成对的 SVM 进行鉴别比较，每一次淘汰一个 SVM 分类器，而优胜者间继续进行竞争淘汰，直到最后仅剩一个优胜者。该优胜 SVM分类器的输出决定测试数据的类别。



我国研究现状 80年代末，边肇祺等注意到该研究，但由于 SVM还

没提出，研究较少 90年代末，研究逐步增多，到 2000以后，迅速增多，

形成研究热点 2000年后，过程控制领域的应用开始见诸报道

– 软测量– 系统辨识但多数是仿真研究，工业应用研究报道较少。


本人工作介绍基于SVM和核函数方法的过程软测量建模研究

SVM软测量建模 PCA-SVM软测量建模， KPCA-SVM软测量建模核函数PCA、核函数PLS、核函数PCR等软测量建模基于SOM-SVM的多模型软测量建模

基于SVM的故障诊断方法研究故障诊断是典型的小样本问题，因此用SVM方法研究故障诊断问题是十分合

适的 SVM用于故障诊断：

直接建立故障诊断模型用于残差分析

分别采用SVM分类中的“一对多”和“一对一”策略，将复杂故障诊断问题分解，研究其基于SVM的递阶故障诊断方法


本人工作介绍（续）基于 SVM 的动态建模方法研究

研究适合于动态建模的核函数及参数选择策略提出 SVM-PLS 混合模型建模方法，并用于复杂工业过程动态建模

基于 SVM 的数据挖掘方法及其在过程控制中的应用研究基于 SVM 的数据挖掘方法在过程优化中的应用基于 SVM 的数据挖掘方法在状态监测中的应用

核函数 PCA 等方法在过程数据预处理中的应用数据校正去噪


主要参考数目与资源1 张学工 .关于统计学习理论与支持向量机 .自动化学报 [J] ， 2000,26(1):32-42.2 Vapnik V N, The Nature of Statistical Learning Theory[M], NY: Springer-Verlag,1998.3 Müller K-R., Mika S., Rätsch G., et al. An introduction to kernel-based learning algorithms, IEEE transactions on neural networks, 2001,12(2):181-202.4 J.K.A.Suykens, T.V.Gestel and J.D.Brabanter et al. Least Squares Support Vector Machines. Worle Scientific Publishing Co. Pte. Ltd. Singapore, 20025 Cristianini N., Shawe-Taylor J., An Introduction to Support Vector Machines, Cambridge University Press. 2000.6 Scholkopf,B, Smola,A.J. Learning with kernels. Cambridge,MA:MIT Press

www.kernel-machine.com


Documents

核函数方法及其在过程控制中的应用研究 Studies on the kernel-based methods and its applications in process control