支持向量机(SVM)原理及应用概述

更新时间：2023-10-30 13:22:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

支持向量机（SVM）原理及应用

一、SVM的产生与发展

自1995年Vapnik(瓦普尼克)在统计学习理论的基础上提出SVM作为模式识别的新方法之后，SVM一直倍受关注。同年，Vapnik和Cortes提出软间隔(soft margin)SVM，通过引进松弛变量?i度量数据xi的误分类(分类出现错误时?i大于0)，同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数)，SVM的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程；1996年，Vapnik等人又提出支持向量回归 (Support Vector Regression，SVR)的方法用于解决拟合问题。SVR同SVM的出发点都是寻找最优超平面(注：一维空间为点；二维空间为线；三维空间为面；高维空间为超平面。)，但SVR的目的不是找到两种数据的分割平面，而是找到能准确预测数据分布的平面，两者最终都转换为最优化问题的求解；1998年，Weston等人根据SVM原理提出了用于解决多类分类的SVM方法(Multi-Class Support Vector Machines，Multi-SVM)，通过将多类分类转化成二类分类，将SVM应用于多分类问题的判断：此外，在SVM算法的基本框架下，研究者针对不同的方面提出了很多相关的改进算法。例如，Suykens提出的最小二乘支持向量机 (Least Square Support Vector Machine，LS—SVM)算法，Joachims等人提出的SVM-1ight，张学工提出的中心支持向量机 (Central Support Vector Machine，CSVM)，Scholkoph和Smola基于二次规划提出的v-SVM等。此后，台湾大学林智仁(Lin Chih-Jen)教授等对SVM的典型应用进行总结，并设计开发出较为完善的SVM工具包，也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM是一个通用的SVM软件包，可以解决分类、回归以及分布估计等问题。

二、支持向量机原理

SVM方法是20世纪90年代初Vapnik等人根据统计学习理论提出的一种新的机器学习方法，它以结构风险最小化原则为理论基础，通过适当地选择函数子集及该子集中的判别函数，使学习机器的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器，对独立测试集的测试误差仍然较小。

支持向量机的基本思想：首先，在线性可分情况下，在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下，加入了松弛变量进行分析，通过使用非线性映射将低维输

入空间的样本映射到高维属性空间使其变为线性情况，从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。其次，它通过使用结构风险最小化原理在属性空间构建最优分类超平面，使得分类器得到全局最优，并在整个样本空间的期望风险以某个概率满足一定上界。

其突出的优点表现在：(1)基于统计学习理论中结构风险最小化原则（注: 所谓的结构风险

最小化就是在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制。）和VC维理论(注：VC维（Vapnik-Chervonenkis Dimension）的概念是为了研究学习过程一致收敛的速度和推广性，由统计学理论定义的有关函数集学习性能的一个重要指标。)，具有

良好的泛化能力，即由有限的训练样本得到的小的误差能够保证使独立的测试集仍保持小的误差。(2)支持向量机的求解问题对应的是一个凸优化问题，因此局部最优解一定是全局最优解。(3)核函数的成功应用，将非线性问题转化为线性问题求解。(4)分类间隔的最大化，使得支持向量机算法具有较好的鲁棒性。由于SVM自身的突出优势，因此被越来越多的研究人员作为强有力的学习工具，以解决模式识别、回归估计等领域的难题。 1．最优分类面和广义最优分类面

SVM是从线性可分情况下的最优分类面发展而来的，基本思想可用图1来说明。对于一维空间中的点，二维空间中的直线，三维空间中的平面，以及高维空间中的超平面，图中实心点和空心点代表两类样本，H为它们之间的分类超平面，H1，H2分别为过各类中离分类面最近的样本且平行于分类面的超平面，它们之间的距离△叫做分类间隔(margin)。

图1 最优分类面示意图

所谓最优分类面要求分类面不但能将两类正确分开，而且使分类间隔最大。将两类正确分开是为了保证训练错误率为0，也就是经验风险最小(为O)。使分类空隙最大实际上就是使推广性的界中的置信范围最小？，从而使真实风险最小。推广到高维空间，最优分类线就成为最优分类面。

设线性可分样本集为(xi,yi_),i?1,...,n,x?Rd,y?{?1,?1}是类别符号。d维空间中线性判别函数的一般形式为是类别符号。d维空间中线性判别函数的一般形式为g(x)?w?x?b（主：w代表Hilbert空间中权向量；b代表阈值。），分类线方程为w?x?b?0？。将判别函数进行归一化，使两类所有样本都满足|g(x)|?1，也就是使离分类面最近的样本的|g(x)|?1，此时分类间隔等于2/||w||？，因此使间隔最大等价于使||w|| (或||w||2)最小。要求分类线对所有样本正确分类，就是要求它满足

yi[(w?x)?b]?1?0,i?1,2,...,n （1-1）

满足上述条件(1-1)，并且使||w||2最小的分类面就叫做最优分类面，过两类样本中离分类面最近的点且平行于最优分类面的超平面H1，H2上的训练样本点就称作支持向量(support

vector)，因为它们“支持”了最优分类面。

利用Lagrange（拉格朗日）优化方法可以把上述最优分类面问题转化为如下这种较简单的对偶问题，即：在约束条件，

?y?ii?1ni ?0 （1-2a）

?i?0,i?1,2,...,n (1-2b)

下面对?i（主：对偶变量即拉格朗日乘子）求解下列函数的最大值：nQ（?）???1ni?i?12??i?jyiyj(xixj) ？ i,j?1若?*

为最优解，则w*n???*y?i i?1即最优分类面的权系数向量是训练样本向量的线性组合。注释（1-3）式由来：利用Lagrange函数计算如下， lL(w,b,?)?12w2???i(yi?((xi?w)?b)?1)

i?1 ? ?bL(w,b,?)?0??wL(w,b,?)?0

?llaiyi?0w?i?1??iyixi

lli?1

W(?)???i?12??i?jyiyj(xi?xj)i?1i,j?1 ?li?0,i?1,...,l,and??iyi?0 i?1l