量机（ｔｗｉｎｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ，ＴＷＳ

正在加载图片...

第3期花小朋，等：一种改进的投影孪生支持向量机 ·385· 量机(twin support vector machine,TWSVM)[a是 1 投影孪生支持向量机(PTSVM) NHCs方法中主要代表性算法之一，其主要思想源于泛化特征值中心支持向量机(generalized eigenval- 假定两类学习样本集分别表示为实数矩阵 ue proximal SVM,GEPSVM)[。TWSVM将GEPS- A∈Rmxa和B∈R“。n为样本维度，m1和m2分别 VM中两个优化子问题转换成两个形如SVM的小为第1类(+1类)和第2类(-1类)样本数目，并且规模二次规划问题，从而使其训练时间复杂度缩减令m=m,+m2。PTSVM算法的优化目标可以看作是为经典SVM的1/4。除了训练速度上的优势，TWS 在实数空间中寻找两个最佳投影轴为w,和w2的 VM还继承了GEPSVM能够在线性模式很好地处理决策超平面：异或(XOR)样本分类问题的优势。然而，当两类样 x'w1+b1=0,x'w2+b2=0. (1) 本具有不同散度分布时，TWSVM的泛化性能欠佳6。文献[7]提出一种新的非平行超平面分类需要注意的是，这里的偏置b,=-eAw,/m1, 器：投影孪生支持向量机(projection twin support b2=-eBw2/m2,e1和e2是两个实体为1的列向量， vector machine,PTSVM)。与TWSVM不同的是， A=[x"x"…],xBx=[x2x2…,],x0 PTSVM优化目的是为每类样本寻找最佳投影轴，而表示第i类的第j个样本。且通过递归迭代算法，PTSVM能够生成多个正交投第1类超平面的优化准则PTSVM-1: 影轴。实验结果表明，PTSVM对复杂的XOR问题 min 具有更好的分类能力。为解决非线性分类问题。文 i-) 献[8]进一步提出PTSVM的非线性方法。然而分析发现，PTSVM在训练过程中仅仅考虑 s.t. xe-w)∑0+≥1,5 样本空间的全局结构和全局信息，忽视了样本空间 (2) 的局部结构和局部信息。许多研究结果表明同类数式中C1是惩罚参数，为损失变量。据集中大部分样本在局部上是关联的（即数据集中显然，PTSVM在优化目标函数中考虑的训练样存在潜藏的局部几何结构)，而这种内在的局部信息对数据分类又是至关重要的[。这种潜在的局本集内在的散度 )体部信息可以通过数据集中样本间的k近邻关系进行 m1j=1 现的是样本集内在的全局分布。故该方法忽视了潜挖掘[11山」藏在训练样本集内部的局部几何结构。基于上述分析，本文基于PTSVM提出一种新的具有一定局部学习能力的非平行超平面分类器算 2加权投影孪生支持向量机(WPTSVM) 法：加权投影孪生支持向量机(weighted PTSVM, WPTSVM)。相比于PTSVM,WPTSVM优势体现在 2.1算法构造以下4个方面：1)通过构造类内近邻图为每个样本为刻画同类样本集内在的紧凑型和异类样本集获取特定的权值，并且以加权均值取代标准均值，在间的分散性，依据图论1,11为每类决策面构建类内一定程度上提高了算法的局部学习能力：2)选取异近邻图G和类间近邻图G· 类样本集中少量边界点构造优化问题的约束条件，定义1给定第c类中的任意两个样本x)和很大程度上降低了二次规划求解的时间复杂度； x⊙，(c=1,2;i,j=1,2,…,m),则类内近邻图G, 3)WPTSVM继承了PTSVM的优点，可以看成PTS 的相似矩阵W(W)mm,可定义为 VM的推广算法。4)WPTSVM具有更好分类性能。听=ep(-En-Im9eNe(9)或0ee(s. (3) (0,其他式中：t为热核参数，Ne(x)表示x的k近邻样本集。 1, is k nearest neighbors of 定义2]考虑第c类样本x⊙，给定相反类 W- 0 其他中任意样本x(l=1,2,…,m),则类间近邻图Gd (4) 的相似矩阵W(W)ma,可定义为依据定义2，第c类中每一个样本定义权重：量机（ｔｗｉｎｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ，ＴＷＳＶＭ）［４］是ＮＨＣｓ方法中主要代表性算法之一，其主要思想源于泛化特征值中心支持向量机（ｇｅｎｅｒａｌｉｚｅｄｅｉｇｅｎｖａｌ⁃ ｕｅｐｒｏｘｉｍａｌＳＶＭ，ＧＥＰＳＶＭ）［５］。ＴＷＳＶＭ将ＧＥＰＳ⁃ ＶＭ中两个优化子问题转换成两个形如ＳＶＭ的小规模二次规划问题，从而使其训练时间复杂度缩减为经典ＳＶＭ的１／４。除了训练速度上的优势，ＴＷＳ⁃ ＶＭ还继承了ＧＥＰＳＶＭ能够在线性模式很好地处理异或（ＸＯＲ）样本分类问题的优势。然而，当两类样本具有不同散度分布时，ＴＷＳＶＭ的泛化性能欠佳［６］。文献［７］提出一种新的非平行超平面分类器：投影孪生支持向量机（ｐｒｏｊｅｃｔｉｏｎｔｗｉｎｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ，ＰＴＳＶＭ）。与ＴＷＳＶＭ不同的是，ＰＴＳＶＭ优化目的是为每类样本寻找最佳投影轴，而且通过递归迭代算法，ＰＴＳＶＭ能够生成多个正交投影轴。实验结果表明，ＰＴＳＶＭ对复杂的ＸＯＲ问题具有更好的分类能力。为解决非线性分类问题。文献［８］进一步提出ＰＴＳＶＭ的非线性方法。然而分析发现，ＰＴＳＶＭ在训练过程中仅仅考虑样本空间的全局结构和全局信息，忽视了样本空间的局部结构和局部信息。许多研究结果表明同类数据集中大部分样本在局部上是关联的（即数据集中存在潜藏的局部几何结构），而这种内在的局部信息对数据分类又是至关重要的［９］。这种潜在的局部信息可以通过数据集中样本间的ｋ近邻关系进行挖掘［９⁃１１］。基于上述分析，本文基于ＰＴＳＶＭ提出一种新的具有一定局部学习能力的非平行超平面分类器算法：加权投影孪生支持向量机（ｗｅｉｇｈｔｅｄＰＴＳＶＭ，ＷＰＴＳＶＭ）。相比于ＰＴＳＶＭ，ＷＰＴＳＶＭ优势体现在以下４个方面：１）通过构造类内近邻图为每个样本获取特定的权值，并且以加权均值取代标准均值，在一定程度上提高了算法的局部学习能力；２）选取异类样本集中少量边界点构造优化问题的约束条件，很大程度上降低了二次规划求解的时间复杂度；３）ＷＰＴＳＶＭ继承了ＰＴＳＶＭ的优点，可以看成ＰＴＳ⁃ ＶＭ的推广算法。４）ＷＰＴＳＶＭ具有更好分类性能。１投影孪生支持向量机（ＰＴＳＶＭ）假定两类学习样本集分别表示为实数矩阵Ａ∈Ｒｍ１ ×ｎ和Ｂ∈Ｒｍ２ ×ｎ。ｎ为样本维度，ｍ１和ｍ２分别为第１类（＋１类）和第２类（－１类）样本数目，并且令ｍ＝ｍ１＋ｍ２。ＰＴＳＶＭ算法的优化目标可以看作是在实数空间中寻找两个最佳投影轴为ｗ１和ｗ２的决策超平面：ｘＴｗ１＋ｂ１＝０，ｘＴｗ２＋ｂ２＝０．（１）需要注意的是，这里的偏置ｂ１＝－ｅＴ１Ａｗ１／ｍ１，ｂ２＝－ｅＴ２Ｂｗ２／ｍ２，ｅ１和ｅ２是两个实体为１的列向量，Ａ＝［ｘ（１）１ｘ（１）２ … ｘ（１）ｍ１］Ｔ，ｘＢｘ＝［ｘ（２）１ｘ（２）２ …，ｘ（２）ｍ２］Ｔ，ｘ（ｉ）ｊ表示第ｉ类的第ｊ个样本。第１类超平面的优化准则ＰＴＳＶＭ⁃１：ｍｉｎ１２ ∑ ｍ１ｉ＝１ｗＴ１ｘ（１）ｉ－ｗＴ１１ｍ１ ∑ ｍ１ｊ＝１ｘ（１）ｊ æ è ç ö ø ÷ ２＋Ｃ１∑ ｍ２ｌ＝１ ξｌｓ．ｔ．－ｗＴ１ｘ（２）ｌ－ｗＴ１１ｍ１）∑ ｍ１ｊ＝１ｘ（１）ｌ æ è ç ö ø ÷ ＋ ξｌ ≥ １，ξｌ ≥ ０，（２）式中Ｃ１是惩罚参数，xｌ为损失变量。显然，ＰＴＳＶＭ在优化目标函数中考虑的训练样本集内在的散度 ∑ ｍ１ｉ＝１ｗＴ１ｘ（１）ｉ－ｗＴ１１ｍ１ ∑ ｍ１ｊ＝１ｘ（１）ｊ æ è ç ö ø ÷ ２，体现的是样本集内在的全局分布。故该方法忽视了潜藏在训练样本集内部的局部几何结构。２加权投影孪生支持向量机（ＷＰＴＳＶＭ）２．１算法构造为刻画同类样本集内在的紧凑型和异类样本集间的分散性，依据图论［１０，１２］为每类决策面构建类内近邻图Ｇｓ和类间近邻图Ｇｄ。定义１给定第ｃ类中的任意两个样本ｘ（ｃ）ｉ和ｘ（ｃ）ｊ，（ｃ＝１，２；ｉ，ｊ＝１，２， …，ｍｃ），则类内近邻图Ｇｓ的相似矩阵ＷｓＷｓｉｊ ( ) ｍ１ ×ｍ１可定义为Ｗｓｉｊ＝ｅｘｐ（－ ‖ｘ（ｃ）ｉ－ｘ（ｃ）ｊ ‖２／ｔ），ｘ（ｃ）ｊ ∈ Ｎｅ（ｘ（ｃ）ｉ）或ｘ（ｃ）ｉ ∈ Ｎｅ（ｘ（ｃ）ｊ），０，其他 { （３）式中：ｔ为热核参数，Ｎｅ（ｘ）表示ｘ的ｋ近邻样本集。定义２［１２］考虑第ｃ类样本ｘ（ｃ）ｉ，给定相反类中任意样本ｘ（ｃ）ｌ（ｌ＝１，２， …，ｍｃ），则类间近邻图Ｇｄ的相似矩阵ＷｄＷｄｉｌ ( ) ｍ１ ×ｍ２可定义为Ｗｄｉｌ＝１，ｘ（ｃ）ｌｉｓｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｏｆｘ（ｃ）ｉ {０，其他（４）依据定义２，第ｃ类中每一个样本定义权重：第３期花小朋，等：一种改进的投影孪生支持向量机 ·３８５·

<<向上翻页向下翻页>>

点击下载：【机器学习】一种改进的投影孪生支持向量机编辑部