基于支持向量机的概率密度估计及其在分布估计算法中的应用

更新时间:2023-09-06 21:59:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

概率密度分布相关文献,学习交流所用。

太原科技大学

硕士学位论文

基于支持向量机的概率密度估计及其在分布估计算法中的应用

姓名:徐玉兵

申请学位级别:硕士

专业:计算机应用技术

指导教师:谭瑛

20090701

概率密度分布相关文献,学习交流所用。

中文摘要

概率密度的估计既是传统的概率论与数理统计的重点,也是统计学习理论的重要研究内容。概率密度的估计具有广泛的应用,它不仅是信息熵理论的基础,还可以应用到音频及视频信号的无损压缩中。但实际应用中,概率密度服从的分布通常是未知的。我们可以得到的数据是由这些未知分布产生的样本点,可以用这些样本点对实际的概率密度进行估计预测。对概率密度的估计一般分为参数估计和非参数估计。参数估计是在知道样本点服从的分布的前提下对密度中的未知参数进行估计,它的准确性对分布函数具有强烈依赖性。此外,参数估计还具有其他的一些局限性。例如对高斯分布可以很好的估计未知参数,但对混合高斯分布的密度就得不到很好的结果。基于支持向量机的概率密度不仅能够解决以往估计基于大数样本的问题,而且克服了参数估计的局限性。

本文在统计学习理论和支持向量机的基础上,对一维基于支持向量机的概率密度估计进行扩展并结合不敏感损失函数的方法,求得仿真效果较好的二维概率密度。此外,还讨论了高维密度的求解模型。然后针对现在的分布估计算法的概率密度大多是基于高斯模型,而实际应用中样本的概率密度可能是任意的情况,本文将支持向量机求解并仿真测试过的概率密度应用到分布估计算法中。在分布估计算法中与支持向量机求解的概率密度相对应,本文将舍选法的维数进行扩展,并针对求得的概率密度可能存在局部最优值,对舍选法的上界条件进行调整。最后将二维情况下的基于支持向量机的分布估计算法的测试结果与相同情况下的标准微粒群算法进行了比较。关键词:参数估计;大数样本;小样本:统计学习理论;支持向量机;舍选法

概率密度分布相关文献,学习交流所用。

ABSTRACT

Probabilitydensityestimationisthefocusofthetraditionalprobabilitytheoryandmathematicalstatistics.ItiSalsoanimportantresearch

aofstatisticallearningtheory.Theestimationofprobabilitydensityhaswide

rangeofapplications.Itisthebasisofinformationentropytheoryanditisappliedtothelosslesscompressionofaudioandvideosignalstoo.ne

candistributionoftheprobabilitydensityisusuallyunknown,butthedensity

beestimatedbythesamplepointswhicharefromtheunknowndistribution.Densityestimationisgenerallydividedintoparameterandnon-parameter.Parameterestimationcaculatestheunknownparametersofthedensitywhenthedistributionofthesamplepointsisknown.Ithasastrongdependenceontheaccuracyofthedistributionfunction.Furthermore,parameterestimationalsohassomeotherlimitations.Such

parameterscanasGaussiandistributionofunknownnotget

onbeestimated,butitcangoodresultsofmixedGaussiandensity.Theprobabilitydensitybased

notonlysolvessupportvectormachineontheproblemthatthetraditionalestimationisbasedthesamplesoflargenumberbutalsoovercomesthelimitationsofparameterestimation.

ThispapercombinedwiththeinsensitivelOSS

onfunctionextendstheone-dimensionalprobabilitydensitybasedsupportvectormachinesto

two‘dimensionalandhasasimulationtestoftheresults.Furthermore,itdiscussesthemodelofhigh-dimensionaldensity.Nowtheestimationof

theGaussianmodel,whiletheprobabilitydensityalgorithmsarebasedon

actualdistributionofprobabilitydensitymayberandom.ThedensitythatissolvedbySupportVectorMachineandtestedisappliedtotheestimationof

ondistributionalgorithm.Intheestimationofdistributionalgorithmbased

supportvectormachinesolutioncorrespondstotheprobabilitydensity,thispaperhasextendedthedimensionofacceptance—rejectionmethodandadjusttheupperboundoftheprobabilitydensitythatmayexistlocaloptimization

概率密度分布相关文献,学习交流所用。

value.Finally,thetwo—dimensionalestimationofdistributionalgorithmbasedonsupportvectormachineiscomparedwiththestandardPSOalgorithminthesamecondition.

Keywords:Parameterestimation;Largenumberssamples;Smallsamples;Statisticallearningtheory;Supportvectormachine;Acceptance-rejectionmethod

概率密度分布相关文献,学习交流所用。

声尸明

本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。

作者签名:—塑翌誓盘—————二日期:—≠牟兰辱三立—一

关于学位论文使用权的说明

本人完全了解太原科技大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件、复印件与电子版;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。

作者签名:岔乏至日期:避生旦圣苎

导师签名:日期:掣:匕圭,主

概率密度分布相关文献,学习交流所用。

第一章绪论

第一章绪论

此章主要综述统计学习理论、支持向量机和分布估计算法的发展史,并一一介绍它们的研究现状。另外介绍本文的主要工作和意义。

1.1统计学习论与支持向量机发展

随着科学技术的发展,我们所面临的问题越来越复杂、维数越来越高。传统的统计学中的一些理论不能满足现代科学发展的需要,因此传统统计方法面临着巨大的挑战。统计是我们面对数据而又缺乏理论模型时最基本的分析手段。传统统计学研究的是渐进理论,即当样本的数目趋于无穷大时的极限特征,在概率统计中关于估计的一致性、无偏性和估计方差的界等都属于这种渐进特性。这些学习方法采用经验风险最小化准则¨1,其核心思想以学习机器的经验风险来代替真实风险,然而以经验风险代替真实风险缺乏充分的理论根据。实际应用中样本的数目通常是有限的,因此样本数目趋于无穷这种前提条件却往往得不到满足,当问题处于高维空间中尤其如此。这实际上是包含模式识别和神经网络等在内的现有机器学习理论和方法中的一个根本问题¨1。

在20世纪60年代,VladimirN.Vapnik等就开始研究有关有限样本的机器学习问题。早期的研究成果有很大局限性而且在数学上的描述比较晦涩,在90年代以前并没有提出能够将实现其理论的较好的方法,并且当时正处在其他学习方法快速发展的阶段,因此人们一直没有重视这种学习方法的研究与应用。有关有限样本的机器学习理论在90年代中期得以发展并形成了一个比较完善统计学习理论体系。1995年,统计学习理论体系得到巨大完善,它达到成熟标志是Vapnic的((TheNatureofStasticalLearningTheory,SLT))的出版。同时,神经网络等较新兴的的机器学习方法的研究则遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。统计学习理论提出了一种新的学习思想一结构风险最小化准则[1l,在这种准则下机器学习的真实风险由两部分组成:经验风险和置信范围。该种学习方法在使经验风险最小化的同时尽可能的缩小置信范围,使得经验风险尽可能接近真实风险,并对未知样本作出较好的预测。

近年来支持向量机的理论已取得了重大进展,它是在统计学习理论的基础上发展起来的新理论,其算法实现策略以及实际应用也发展迅速。它是Vapnic及其合作者在1995年提出来的,这种方法是在训练样本与估计值的差满足一定精度的条件

概率密度分布相关文献,学习交流所用。

基丁支持向量机的概率密度估计及其在分布估计算法中的应用

下,使得经验风险和置信范围的和达到最小,即采用结构风险最小化的方法。与传统的方法比较,支持向量机仅用小样本就可解决求解的问题,它引进的核函数的方法还解决了维数灾难和局部极小值问题,具有很强的处理非线性问题的能力。

在六十年代,V.Vapnik就开始研究统计学习理论的问题¨1,对函数集问题即模式识别问题,提出VC熵和VC维的概念。它们是这一新理论中重要基础,通过这些基础理论概念,发现了泛函空间的大数定律即频率一致收敛于其概率的充分必要条件,研究了它与学习过程的联系,并且得到了关于收敛速率的非渐进界的主要结论¨1;在1971年,VapnikandChervonenkis发表了这些工作的完全证明。所有的这些理论使得建立一个全新的归纳原则即结构风险最小化归纳原则成为可能,从而完成了模式识别学习理论。从1976年到1981年,最初针对指示函数集得到的这些结论推广到了实函数集,主要内容有:大数定律(均值一致收敛于其期望的充分必要条件)、完全有界的函数集和无界函数集一致收敛速度的界,以及结构风险最小化原则。Vapnik和Chervonenkis在1989年发现了经验风险最小化归纳原则和最大似然方法一致性的充分必要条件、完成了对经验风险最小化归纳推理的分析。1995年Vapnik系统地阐述了统计学习理论及支持向量机的概念和分类方法,这标志着统计学习理论体系开始成熟。

1.2分布估计算法发展简史

分布估计算法是进化计算领域中的一类新型的优化算法,不仅成为进化计算领域的研究热点而且也能有效解决地工程应用中的问题。分布估计算法的是在1996年提出f3】,并在以后几年内快速发展成进化计算领域的前沿内容,进化计算领域权威期刊EvolutionaryComputation在2005年出版了分布估计算法的专刊【4J。

分布估计算法采用了一种不同于以往进化算法的新的进化模式。遗传算法首先选择优化问题的一组候选解,这组解可以称为种群。用适应值函数计算种群中每个个体的适应值,然后模拟生物进化的过程按适应值对种群中的个体进行选择,将选择的个体编码之后两两进行交叉,对交叉后产生的新个体进行变异操作,如此反复进行实现问题的求解。与遗传算法的交叉、变异等操作不同,分布估计算法采用统计学习中支持向量机的方法建立解种群的概率分布模型,对这个概率分布进行数学采样产生新的群体,按上述方法反复进行直到终止条件,从而实现群体的进化

【31[5,61。

分布估计算法最早研究的是变量无关的模型,其代表性的算法有PBIL算法、

概率密度分布相关文献,学习交流所用。

第一章绪论

UMDA算法和cGA算法等。Baluja在1994年提出了解决二进制编码的优化问题的PBIL算法[71,该算法是最早的分布估计算法模型。在1996年,德国学者MAuhlenbein提出概率向量的更新算法不同于PBIL算法fl,勺UMDA算法IS]。美国UIUC大学的Harik等人提出了紧致遗传算法【91,它与以上两种算法相比的不同不仅概率模型的更新算法不同,而且eGA需要的种群数量较少,所需要内存容量也很小。分布估计算法关于变量相关性的对研究最早考虑的是双变量相关的算法。这些算法中比较有代表性的有MIMIC算法1101,OMIT算法…1和BMDA算法[12.131等。MIMIC算法是一种启发式优化算法,它的变量是链式相关的。COMIT算法被用来解决双变量相关的优化问题,它采用的概率模型是树状结构。在多变量相关的分布估计算法中变量之间的关系更加复杂,代表性的算法有ECGA算法[141、FDA算法[1Sl和BOAll6-1Sl等。在1998年,德国学者MAuhlenbein提出了可以解决多变量耦合问题的FDA算法。ECGA算法是对eGA算法的扩展。BOA算法是对选择后的优势群体作为样本集构造贝叶斯网络,然后对贝叶斯模型采样产生新一代群体,反复进行。分布估计算法的发展是一个由简单到复杂、有离散到连续的过程。由于连续空间概率模型的复杂性给设计有效的分布估计算法增加了难度,因此连续EDA的发展相对缓慢。UMDAc算法[191和PBILc算法【20】是比较有代表性的变量无关分布估计算法,它们采用了高斯分布作为描述连续解空间的概率模型。UMDAc算法和PBILc算法的不同在于采用了不同的构造方法更新高斯分布模型。除了高斯分布外,直方图分布是日本学者提出的另外一种描述连续解空间概率模型的有效方法。EMNA算法采用多变量的高斯模型表示解的概率分布,在进化过程中采用最大似然估计方法,对高斯分布的均值向量和协方差矩阵进行估计并根据当前群体重新构造高斯图网络结构[211。EMNA算法和EGNA算法采用的都是单峰的概率模型,因此存在一定局限性。IDEA算法1221一定程度上克服了EMNA算法和EGNA算法的缺点,但是IDEA算法也没有充分考虑变量之间的关系。连续域EDA算法的设计还面临很大困难,对于连续变量可以有无限个取值,因此它的搜索空间特别大;通过小样本构造连续空间的概率模型比较困难,因为随

分布估计算法的理论研究相对比较薄弱,它的研究在很多情况下通过试验分析时空复杂度等。Hohfeld等人通过对PBIL算法中概率向量变化过程的分析,得出PBIL出现局部极值。通过对种群规模无穷大的EDA算法进行数学建模,Q.Zhang等证明着维数的增加可能产生维数灾难。来进行。理论研究主要针对概率图模型比较简单的算法,涉及算法的收敛性分析和算法在二进制情况下能保证群体收敛至全局最优解,但对非线性问题该算法可能陷

概率密度分布相关文献,学习交流所用。

基丁.支持向量机的概率密度估计及其在分布估计算法中的应用

了在概率模型能精确反映已选群体的情况下,采用比例选择、截断选择或二个体锦标赛选择的EDA算法能收敛到全局最优。2004年,通过UMDA和FDA两种算法的对比,Q.Zhang得到了影响分布估计算法性能的高阶统计量,理论上证明了FDA算法可加性分解的优化问题能收敛于全局最优解1231。在种群规模无限大的情况下,R.Rastegar等给出了计算EDA算法收敛到全局最优所需要代数的方法。对空间复杂度的研究,YGao等人理论证明了种算法FDA和BOA的空间复杂性是随着问题规模呈指数级增长。在时间复杂度方面,通过研究BOA算法的可扩展性,Pelikan证明在解决可加性分解的黑箱优化问题时,BOA算法适应值函数的计算次数是问题规模的二次多项式或次二次多项式。熵理论成为分布估计算法的理论分析方面的一个重要工具。通过用最大熵逼近理论分析分布估计算法,MJkuhlenbein指出EDA算法通过最小化当前群体概率分布与目标概率分布之间的K.L距离来对实际概率分布作出估计。在2006年,人们给出了熵条件下的分布估计算法的收敛性度量,并给出了熵度量下的分布估计算法的终止判定方法【24】。以上分布估计算法的研究都是针对二进制编码,对连续域EDA算法的理论研究还很少。因此EDA算法的理论有待于进一步研究题。

1.3支持向量机及分布估计算法的应用前景

支持向量机越来越成熟,应用越来越广。支持向量机(SVM)是数据挖掘中的一个新方法,能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段,它广泛的应用于统计分类以及回归分析中。现在支持向量机已用于手写字符识别、图像识别,最著名的就是美国邮政手写字库中的数字识别11]。此外支持向量机还可应用于文本分类、语音识别和非线性系统的控制问题¨“。支持向量机在解决数据挖掘概率密度估计中也显示了良好性能。

分布估计算法可以用来解决工程的复杂优化问题141并且已经在众多领域得到了成功的应用【4】。例如,可以用EDA算法来优化的汽车齿轮机械结构的设计、不精确图形的模式匹配、基于EDA算法的软件测试、EDA算法在癌症分类中的应用、生物信息学中的特征提取等。分布估计算法已经应用到工程优化、机器学习、运筹学、模式识别和生物信息等众多领域。

概率密度分布相关文献,学习交流所用。

第一章绪论

1.4本文主要的工作及安排

概率密度的估计既是统计学中的一个基本问题也是分布估计算法的重要组成部分。密度估计一般分为参数估计和非参数估计,参数估计是在知道样本点服从的分布的前提下对概率密度中的未知参数进行估计。这种方法的准确性对分布函数具有强烈依赖性,一旦前提假设错误求得的结果很可能就是错误的。此外参数估计还具有其他的一些局限性。例如对高斯分布可以很好的估计未知参数,但对混合高斯密度就得不到很好的结果。由于参数估计的这些局限性,在很多情况下就不能使用参数估计而采用非参数估计。设Xl,X2,…,Xm是取自X的m个独立同分布样本,XN从某一概率密度函数f(x),在没有其他信息的条件下,由样本Xl,X2,…,Xm对f(x)进行估计,称之为非参数密度估计问题。在60年代,人们提出了非参数估计方法Parzen并建立了一套完善的渐近理论Ill,这种方法的目标是从较宽的函数集中估计密度,而不是局限于参数化的函数集。非参数估计是为解决密度估计和函数回归估计的问题发展起来的。

本文在统计学习理论和支持向量机的基础上对一维基于支持向量机的概率密度估计进行扩展,结合不敏感损失函数的方法求得可以较好的逼近实际概率密度的二维概率密度,并将基于支持向量机的一维和二维概率密度进行仿真测试,此外还讨论了高维密度的求解模型。然后针对现在的分布估计算法的概率密度大多是基于高斯模型的,而样本实际的概率密度可能是任意的,本文将支持向量机求解并仿真测试过的概率密度应用到分布估计算法中。在分布估计算法中与支持向量机求解的概率密度相对应,本文将舍选法的维数进行扩展并针对求得的概率密度可能存在局部最优值的情况,对舍选法的上界条件进行调整。最后将二维情况下的基于支持向量机的分布估计算法的测试结果与相同条件下的标准微粒群算法进行比较。

概率密度分布相关文献,学习交流所用。

第二章统计学习的基本理论

第二章统计学习的基本理论

2.1学习问题和学习方法

2.1.1学习问题的基本定义和学习问题的表示

可以把学习问题看作是利用有限数量的观测样本来寻找待求的依赖关系的问题。接下来描述的是学习的一般模型【11(图2.1):

学习模型有产生器(G)、训练器(S)和学习器(LM)其三部分组成。产生器是从固定但类型未知的概率分布函数F(x)中抽取独立随机向量XERn;训练器是根据未知的分布函数由输入向量X返回一个输出值y;学习机器是一系列类似函数f(x,a),a∈人,其中人是参数的集合。学习问题就是从函数集f(x,a),a∈人中选择出能够最好地逼近训练器响应的函数,训练集是由未知的分布产生的一系列的独立同分布样本点。

图2-1学习模型

Figure2—1learningmodel

为了从函数集中选择对训练器最好的逼近函数,就要度量在给定输入x下训练器响应Y与学习机器给出的响应f(x,a)之间的损失或差异L(y,f(x,a))。考虑损失函数的数学期望值:

R(a)=IL(y,f(x,))dF(x,”(2—1)

这就是风险泛函。学习器学习的目标就是在训练样本服从的概率分布未知、所有可用信息都包含在训练样本中的情况下,在函数集f(x,a)(a∈人)中找到一个函数f(x,口o)来使得风险泛函R(a)达到最小化。

学习问题主要有三种:模式识别、回归函数估计和概率密度估计。简单模式识别【11是在训练器的输my只有两种取值y={0,1},并令f(x,a),a∈人为指示函数集(指示函数是指值只取0或1的函数)的情况下考虑下面的损失函数:

概率密度分布相关文献,学习交流所用。

基于支持向量机的概率密度估计及其在分布估计算法中的应用

地舯胪譬舅主麓?p2,

根据这个损失函数,风险泛函(2.1)式确定了训练器的结果与指示函数f(x,a)所给出的结果不同的概率。指示函数给出的结果与训练器输出结果不同的情况叫做分类错误,学习问题就是在概率分布F(x,y)未知,但由分布产生的样本点己知的情况下,寻找使分类错误的概率最小的函数。回归估计是令训练器的输出y为实数值,并令f(x,a),a∈人为实函数集合,其中包含着回归函数

f(x,ao)=lydF(yIx)(2-3)

回归函数就是在损失函数

L(y,f(x,倪))=(y-f(x,a)广(2—4)

下使风险泛函(2.1)最小化的函数。即回归估计的问题就是在概率分布F(x,y)未知,但由分布产生的样本点已知的情况下,对采用(24)式损失函数的风险泛函(2—1)是最小化。概率密度估计是从密度函数集p(x,倪),仅∈人中估计概率密度函数的问题,这个问题考虑的损失函数是:

L(p(x,a))=-logp(x,口)(2—5)

从样本点估计密度函数的问题就是,在样本点服从的分布的概率密度未知的情况下使风险泛函最小化。

学习问题一般可以采用下面表示形式:设有定义在定义域Z上的概率分布函数F(z)。对损失函数的集合Q(z,a),a∈人,我们学习的目标是最小化风险泛函

R(a)=IQ(z,a)dF(z),g∈A.(2-6)

由于概率分布F(z)未知,但是给定了一些独立同分布样本

乞,Z2,…,乙(2—7)

这种问题就是在(2.7)是的基础上最小化风险泛函(2—6)式,其中Z代表数据对(x,y)。2.1.2学习方法

现在的很多复杂问题如利用DNA序列对蛋白质类型分类和对信用卡申请表分类等是不能用传统编程途径来解决,因为系统设计者无法精确指定从输入数据映射输出的具体函数表达式。解决这类问题的可采用的方法是让计算机从样例中学习从输入到输出的函数对应关系,就像儿奄学习辨认赛车的过程,给他们大量赛车的例子,而不是告诉他们赛车的精确规格说明。这种使用例子来合成计算机程序的过程

概率密度分布相关文献,学习交流所用。

第二章统计学习的基本理论

称为学习方法【271。

对于学习问题,当样本是输入和输出对的形式给出时称为监督学习。这些有关输入和输出的函数关系的样本就是训练数据。目标函数是输入到输出的内在函数。对目标函数,可以根据训练数据由学习算法进行估计来得到,这个结果就称为学习问题的解,这个估计结果在分类问题中有时被称为决策函数。假设集合或假设空间的选择问题是学习过程中的关键因素,而从训练数据中学习并从假设空间中选择假设的算法是第二个重要因素,它也称为学习算法。根据学习算法输出的结果的个数是两个和有限个可分为二类问题和多类问题,若学习算法输出的结果是实数则称为回归问题。

当学习问题的样本不包含输出时称为无监督学习,这类学习可以用来理解数据产生的过程。这种学习方法常用于概率密度估计、分布类型的学习和聚类等。还有一些学习模型考虑了学习器与其环境的复杂交互过程,在这种过程中影响学习器能力的方法被称为查询学习1271。

学习模型的另一方面问题是训练数据如何生成及如何输入到学习器。如批量学习和在线学习的区别在于:批量学习在一开始就把所有训练样本提供给学习器,而在线学习在学习开始时一次只接收一个训练样本,并在得到正确输出前给出自己对输出的估计。在线学习中学习器根据每个新的训练样本更新当前假设,学习器的质量由学习期间产生的总错误数量来衡量。然而学习产生的假设的质量如何衡量还不明确。早期的学习算法的主要研究是通过学习产生简单的符号表示,它由专家来理解和验证。学习器学习的目的是通过对训练样本的学习得到一个能正确分类训练集的假设并使该假设能对训练集外的样本做出正确预测,早期的学习目标也是寻找对数据的精确拟合,这样寻找到的假设称为一致假设。然而生成可验证的一致假设这一目标存在两个问题:一是待学习的目标函数可能没有简单表示,因此不能很容易地加以验证。二是训练数据通常是有噪声的,因此不能保证一个目标函数能够正确拟合训练样本集。学习器正确分类训练器之外数据的能力称为泛化性。

学习方法的优点:首先,可解决的应用问题范围很广。其次,避免了传统求解方法中复杂设计和编程,花费的代价只是收集一定数量的有输出值的数据,然后运行一个现有的算法来学习输入和输出的映射。最后,它促进了其他研究方法的发展。它同时存在着一些局限性和缺点:学习算法可能是低效的,比如出现局部最小值的情形。输出的假设规模可能大到不切实际。如果训练样本数目是有限的,则过大的假设函数类将导致过拟合及很差的泛化性。学习算法常常受到大量参数的控制,它

概率密度分布相关文献,学习交流所用。

基于支持向量机的概率密度估计及其在分布估计算法中的应用

们的选择往往是通过启发式的参数调节过程,使得系统的使用变得困难且不可靠。2.1.3VC理论

~个指示函数集Q(z,a),a∈人fl,勺vc维【2引,是能够被集合中的函数以所有可能的2“种方式分成两类的向量而,…,z,的最大数目为h(也就是能够被这个函数集打散的向量的最大数目)。如果对任意的rl,总存在r1个向量的集合可以被函数集Q(z,Q1,a∈人打散,那么函数集的VC维就是无穷大。实函数集的VC维定义为相应指示其集合的VC维,即用该实函数集中的元素作为特定的0.1函数集的输入,由这个特定0一l函数集的VC维作为实函数集Q(z,口),位∈A的VC维。下面给出一个具体定义:设A<Q(z,仗)-<B,a∈人是一个以A和B为界的实函数集合(A可以是一OO,B可以是+oo),定义Q(z,a),a∈人的指示器函数集如下:

I(z,a,∥)=0{Q(z,a)-卢},口∈人,卢∈(A,召)

其中,p(x)是分段函数(2-8)

吣,={o蓑菇

则I(z,a,卢),a∈A,卢∈(A,B)的VC维即是Q(z,a),a∈人的VC维。

函数集的VC维影响了学习机器的推广性能,它为解决维数灾难提供了一种有效的方法。

2.1.4经验风险最小化和结构风险最小化

在分布函数F(z)未知的情况下,可以采用下面的归纳原则来最小化(2.6)式的风险泛函:

根据训练集(2—7),可以用经验风险泛函来代替风险泛函R(a):

‰=÷∑Q(%a)(2—9)

采用使经验风险(2—9)式最小的函数Q(z,a,)逼近使风险泛函(2-6)式最小的函数Q(z,Qo),这一原则称为经验最小化(empiricalriskminimization)归纳原则,简称ERM原则。ERM原则在学习理论中扮演着重要角色并且具有广泛的应用,~些特殊的学习问题的许多传统的解决方法,比如回归估计问题中的最小二乘法、概率密度估计中的最大似然方法(ML法)等,从根本上都是采用ERM原则来实现的。学习问题的表示不仅使得我们能够考虑在任意给定的函数集中进行估计的问题,而且能够实现采用小样本解决问题的基本原则,即避免去解决不必要的一般性问题。基于经验数据

概率密度分布相关文献,学习交流所用。

第一二章统计学习的基本理论

的风险最小化的模式识别和回归估计的模型在本文中将不进行介绍,下面给出基于经验风险最小化的概率密度估计的模型。对于风险泛函:

R(a)2一IInp(t,a)dF(t)=一IPo(t)lnp(t,a)坊

在上式的右边加上一个与估计函数无关的项

c2IInPo(t)dF(t)

其中P。(r)和,(r)分别是待求的密度和它的概率分布函数。由此得到下式:

R’(a)=一fInp(t,a)卵(,)+fInP。(,)卵(f)

~『ln静以)at

上式右边就是Kullbaek.Leibler距离[11,在统计学中被用来度量估计的密度逼近于真实密度之间的距离。考虑下面的问题:用给定的样本在容许的密度函数集合中寻找离待求密度的Kullbazk.Leibler距离最近的函数。

经验风险最小化原则处理的大样本数问题。如果样本数较少,则不能保证经验风险值可以较好的逼近实际风险的值。为了解决经验风险的这个缺点,下面给出结构风险最小化(SRM)归纳原则。这一原则的目的是针对经验风险和置信范围这两项来最小化风险泛函。设函数Q(z,a),a∈人的集合S具有一定的结构,这一结构是由一系列嵌套的函数子集Sk={Q(z,a),a∈人。)组成的,它们满足:

Sc&c…c最…

其中结构的元素满足下面的性质:(2-10)

(1)每个函数集瓯@vc维玩是有限的,因此,曩≤吃≤…≤吃…。

(2)结构的的任何元素S或者包含一个完全有界函数的集合:

0≤Q(z,a)≤坟,a∈人女

或者包含对一定的(p,f。)满足下列不等式的函数集合;

aeAlksup—(I下Qp—(z,—o[)—dF-(z)lip≤f女,.>一(2-1)PSUp——1r—————————一Sf"‘L.>2IQ(z,a)dF(z)

这一结构称为容许结构[11。

对一个给定的观测集zI,…,z,,结构风险最小化原则在保证风险最小的子集瓯中选择使经验最小的函数Q(z,口j)。结构风险最小化原则就是在对给定数据逼近的精度和逼近函数的复杂性之间取得的一种折衷。随着自己序号n的增加,经验风险

概率密度分布相关文献,学习交流所用。

基丁.支持向量机的概率密度估计及其在分布估计算法中的应用

的最小值减小,但决定置信范围的项却增加(图)。结构风险最小化原则通过选择子集S将这两者考虑在内,子集S的选择是使得在这个子集中,最小化经验风险会得到实际风险的最好的界。

图2—2风险的界

Figure2-2theboundofrisk

风险的界是经验风险与置信范围之和。随着结构元素序号的增加,经验风险将减小,而置信范围将增加。最小的风险上界是在结构的某个适当的元素上取得。2.1.5学习过程的一致性

学习过程的的一致性解决的问题是经验风险最小化的学习过程在什么时候能够取得小的实际风险,而什么时候不能取得小的实际风险。

定义‘11:设(五,y1),…,(而,乃)是按照概率分布r(x,y)得到的一系列独立同分布的样本点,fix,a,)是F中使经验风险

1,

‰=号∑L(yi,f(xi口))‘I=l(2—12)

最小化的函数。若对V£>0,有

jimp{R(f(x,a,))一i蜓R(f(x,a))>s}=0,---}oO,E,(2-13)

(2-14){imp{Re.r(f(x,af))一骥R(f(x,a))>£)=0,—÷∞,∈,

即两个序列依概率收敛于同一极限,则结构风险最小化原则对函数集L(y,f(x,口)),

概率密度分布相关文献,学习交流所用。

第一二章统计学习的基本理论

a∈人和概率分布函数F(x,y)是一致的(如图2.1.3所示)。

图2-3期望风险和经验风险的一致性

Figure2—3theconsistencyofexpectedandempiricalrisk

经验风险最小化方法构造了一个函数列L(y,f(x,a,)),,=1,2,…,对这个序列来说若期望风险收敛到最小可能的风险值和经验风险收敛到最小可能的风险值相同,则这个经验风险最小化方法是一致的,这时就可以用经验风险来代替期望风险。定义【l】:函数集Q(z,a),a∈人,定义其子集A(c)如下:

A(c)={口:lQ(z,a)dF(z)>Ga∈人)。

如果对函数集的任意非空子集人(c),c∈-oo,+∞)都有

。味)R唧(口)未。骤)尺(a)(2-15)

成立,则经验最小化方法对函数集Q(z,口),口∈人和概率分布是平凡一致的。也就是说经验最小化方法把函数集中取得风险最小值的函数去掉后仍能够满足(2—15)式收敛,则这个经验风险最小化方法是非平凡一致。

2.2核函数特征空间

对于一系列的训练样本点((五,Y1),…,(为,Y,),一可以是向量,扛1,…,,)是线性不可分的,可以使用非线性的方法把这些样本点映射到一个高维特征空间中,使得这些样本点在此特征空间中的映射点是线性可分的。而这种非线性映射方法却有两

概率密度分布相关文献,学习交流所用。

基于支持向量机的概率密度估计及其在分布估计算法中的应用

个缺点:一是特征空间的维数很高,将训练样本分开的超平面不一定能够很好的推广;二是如果要在一个200维的空间中构造一个4或5阶的多项式,需要构造一个上十亿维的特征空间,即产生为维数灾难111。用核函数来构造的非线性映射就可以解决这些问题。

2.2.1特征空间中的学习

目标函数的表达方式决定了学习的目标函数的复杂度,学习任务的难度也随着目标函数的复杂度的增加而增高。根据学习问题的不同,可以选择与之相匹配的表示方法。即可以对训练集进行预处理将其映射到一个新的空间:

x=(xl,…,Xn)—争妒(x)=(≯(x1),…,妒(x。))(2-16)

常用方法是寻找原始数据中包含的必要信息的最小特征集,这就是所谓的维数约简。主成分分析提供了一种将数据映射到特征空间的方法,它将原始数据进行线性组合,并将数据在每个特征方向的方差按大小进行排序。维数约简可能会忽略那些方差很小的方向上的数据。

当使用线性学习器去学习一个非线性关系时,就需要寻找一个非线性特征集,然后将原始数据的表达式转化为非线性关系对应的形式。这个过程也就是应用一个固定的非线性映射将原始数据映射到一个特征空间中,在这个特征空间中使用线性学习器。下面是一个简单学习函数的实例:

.Ⅳ

/(x)=∑w谚(x)+6=<w x>+6#l(2—17)

在(2-17)式中咖:x专F是从原始输入空f日-JN某个特征空间的映射。这个过程中建立的非线性学习器可分为两部分:先通过非线性映射将原始数据映射到一个特征空间F,然后在这个特征空间采用线性学习器对训练样本进行分类。

线性学习器的表达式还具有对偶性质,可以使用训练点与测试点的内积来表示决策函数:

厂(x)=∑a,Y脚(一) ≯(x))+6

t=l(2—18)

若在特征空间中可以直接计算出内积<妒(x,)舻(x)>的值,就可以将两步结合起来建立一个非线性的学习器。这种计算方法被称为核函数法。

定义1271:核是一个函数K,对所有x,Z∈X,满足:

概率密度分布相关文献,学习交流所用。

第二章统计学习的基本理论

K(xjz)=(咖(x) 咖(:))

这里咖是从X到(内积)特征空间F的映射。

核函数[271的使用可以将原始空间隐函表达为特征空间,并使得在这个特征空间中可以训练线性学习器,而不需要计算原始数据到特征映射的问题。关于训练样本的唯一信息是它们在特征空『白j的Gram矩阵127],这个矩阵又称为核矩阵。这个方法的关键是找到一个可以高效计算的核函数。

2.2.2核函数的构造

要使用核函数,从定义上来看首先要创建一个与原始数据对应的复杂的特征空间,然后在这个特征空间中计算内积并寻找一个直接的方法用原始输入数据计算该值。实际上采用的方法是直接定义一个核函数,通过这个核函数隐式地定义特征空间。采用这种方法在计算内积和学习器的设计时都可以避免构造原始数据对应的复杂特征空间。为输入空间定义一个核函数通常比构造一个复杂的特征空间更简单实用。核函数K(x,z)适合某个特征空间的必要条件:

K(x,Z)=(≯(x) ≯(z)):(≯(z) 妒(x))=K(z,x)(2—19)

即核函数必须是对称的。此外核函数还需要满足下面的条件,这个不等式是从Cauchy.Schwarz不等式得到的:

K(x,z)2=(≯(x)‘≯(z)>2≤I眵(x)112lI≯(z)02

=<妒(x) ≯(x)>(妒(z) 矽(z))=K(x,x)K(z,z)

2.2.3核函数的性质(2.20)

若限输入空间X={XI,…,Xn)是有限的,并_RK(x,z)是定义在X上的对称函数。则矩阵

K2(K(‘,■))‰(2—21)

是对称的,则由对称矩阵的性质可知存在正交矩阵’,使得K=vAv’,这里人是包含K的特征值九的对角矩阵。假设该对称矩阵的所有的特征值是非负的,考虑特征映射:

≯:薯专(√丑’,。):l∈R

则有:f=1,…,刀(2-22)

(驴(_) 妒(_))=∑丑’,,,y口=(vAv’),=%=K(誓,一)

t=l(2-23)

即K(x,z)是对应特征映射咖的核函数,同时还需要保证K的特征值是非负的。

定理1271:(Mercer)令X是尺”的紧子集。假定K是连续对称函数,存在积分算子

本文来源:https://www.bwwdw.com/article/rfch.html

Top