能提供更多关于测试模式的信息袁从而提高分类精度咱员暂遥由此可以预见袁

正在加载图片...

第4期李欢，等：支持向量机的多观测样本二分类算法 ·393· 能提供更多关于测试模式的信息，从而提高分类精 nant canonical correlation)算法，其首先通过训练获度。由此可以预见，多观测样本分类问题将得到得一个能使类内典型相关性最大而类间典型相关性国内外研究学者的广泛关注。最小的判别转换矩阵，然后把原空间数据映射到新目前，多观测样本的分类方法主要有2类：一类的子空间上，在此基础上把典型差分相关性作为相是基于参数模型的方法。例如，文献[2]提出了基似度量进行分类，此方法存在未考虑数据非线性分于概率密度的KLD(KL-divergence),该方法把所有布的缺点。一些研究者曾认为所有典型相关性对分样本集看作是独立的，并且服从高斯分布，然后通过类的贡献是相同的，即权值相等。但后来T.K.Kim 计算测试样本集和各个训练样本集间的KL散度来等发现在分类中不同的典型相关性所起的作用确定多观测样本的类别。但是此方法仅仅对那些服是不同的，继而提出了BoMPA(boosted manifold 从单高斯分布的样本集比较适用，难以精确地描述 principal angles)算法，该算法首先通过PPCA(prob- 数据呈非线性分布的情况。针对这一情况， abilistic PCA)搜索局部线性模块，并将得到的所有 O.Arandjelovic等[)提出了半参数混合高斯模型，并模块表示成PCA子空间的形式，进而计算子空间之将其应用在KL散度的计算中，从而解决了非线性间的典型相关性，然后把训练集表示为正负样本特分布的多观测样本分类问题。然而，此方法的计算征的形式，同时采用AdaBoost算法得到相应的权复杂度相对较大。F.Cardinaux等[通过嵌人局部值，最后用加权后的主成分角来度量子空间的相似特征来扩展GMM(Gaussian mixture model),在保证性，实现多观测样本的分类。在此基础上，X.L 低复杂度的同时进一步提高了分类性能。文献[5] 等[2]提出Boosted全局和局部主成分角联合的分类提出了一种基于核函数的分类方法，该方法利用信算法。文献[l3]提出MMD(manifold-manifold dis- 息论的相关知识，把RAD(resistor-average distance) tance)方法，该方法将典型相关性和局部线性模块看作是多观测样本间的相似度来完成多观测样本的结合起来，首先用联合局部线性模型的集合来表示分类。以上这些方法的不足在于它们不但要解决复子空间所描述的流形，从而把MMD转换为线性模杂的参数估计问题，而且当多观测样本和测试样本块的组合，最终通过MMD的计算来对观测样本进集之间的统计相关性较弱时，它们的性能会有大的行分类，但该方法的计算量和复杂度相对较大。W 波动。另一类是基于非参数模型的方法，其中最具 S.Chu [4 KDT kernel discriminant transforma- 代表性的是基于子空间的方法，此类方法把子空间 iom)来解决多观测样本的分类问题，该方法用核子的相似度作为多观测样的分类依据，例如，文献[6] 空间来表示每个样本集，同时定义一个能使类内核提出的MSM(mutual subspace method),首先用PCA 子空间相似性最大而类间核子空间相似性最小的特征子空间来表示每一类的训练样本集和多观测样 KDT矩阵，从而把多观测样本的分类问题转换为寻本，再利用子空间之间的主成分角作为相似性度量，求KDT矩阵的最优解问题。近来，E.Kokiopoulou 最后用子空间的典型相关性(canonical correlation) 等s]在标记传播算法的基础上提出了MASC(mAn- 来实现多观测样本的分类，但该算法对数据的变化 flod-based smoothing under constrain)算法，该算法较为敏感。为此，K.Fukui等)又提出CMSM(con- 将k-近邻图运用到多观测样本的分类问题中，但是 straint mutual subspace method)来消除MSM的数据 k-近邻图的边权值的计算采用了欧式距离下的高斯敏感性，将原空间的所有样本集都映射到同一约束核函数，而基于欧式距离的测度无法全面反映数据子空间，在此约束空间中计算样本集间的主成分角，的空间分布特性。再用子空间的典型相关性完成多观测样本的分类。由上述可知，目前的多观测样本分类算法都有但上述2种方法并没有考虑到数据的非线性分布问一定的不足和局限性。本文在经典SVM算法的基题，针对这一问题，H.Sakano等[)提出KMSM(ker- 础上，用SVM的相关理论来实现多观测样本的分 nel mutual subspace method)算法，L.Walf等f]提出类。与传统的SVM算法相同，本文方法适用于小样 KPA(kernel principal angles)算法，使用核函数来解本情况，利用核函数解决了非线性问题和维数问题，决数据的非线性问题，进而完成多观测样本的分类。其算法复杂度与样本维数无关。然而，与传统分类虽然KMSM和KPA考虑了数据的非线性分布，但是方法的不同在于，该方法无需对分类器进行训练或这2种方法用到的核函数对参数的依赖性较大。以提前对训练集进行特征表示，而是将测试集和训练上这些方法都没有考虑到通过转换数据可以提取到集作为一个整体，充分利用特征空间中同类样本连更多的判别信息，T.K.Kim等to提出DCC(discrimi- 续分布这一特点，使得分类更加准确。能提供更多关于测试模式的信息袁从而提高分类精度咱员暂遥由此可以预见袁多观测样本分类问题将得到国内外研究学者的广泛关注遥目前袁多观测样本的分类方法主要有圆类院一类是基于参数模型的方法遥例如袁文献咱圆暂提出了基于概率密度的运蕴阅渊运蕴鄄凿蚤增藻则早藻灶糟藻冤袁该方法把所有样本集看作是独立的袁并且服从高斯分布袁然后通过计算测试样本集和各个训练样本集间的运蕴散度来确定多观测样本的类别遥但是此方法仅仅对那些服从单高斯分布的样本集比较适用袁难以精确地描述数据呈非线性分布的情况遥针对这一情况袁韵援粤则葬灶凿躁藻造燥增蚤糟等咱猿暂提出了半参数混合高斯模型袁并将其应用在运蕴散度的计算中袁从而解决了非线性分布的多观测样本分类问题遥然而袁此方法的计算复杂度相对较大遥云援悦葬则凿蚤灶葬怎曾等咱源暂通过嵌入局部特征来扩展郧酝酝渊郧葬怎泽泽蚤葬灶皂蚤曾贼怎则藻皂燥凿藻造冤袁在保证低复杂度的同时进一步提高了分类性能遥文献咱缘暂提出了一种基于核函数的分类方法袁该方法利用信息论的相关知识袁把砸粤阅渊则藻泽蚤泽贼燥则鄄葬增藻则葬早藻凿蚤泽贼葬灶糟藻冤看作是多观测样本间的相似度来完成多观测样本的分类遥以上这些方法的不足在于它们不但要解决复杂的参数估计问题袁而且当多观测样本和测试样本集之间的统计相关性较弱时袁它们的性能会有大的波动遥另一类是基于非参数模型的方法袁其中最具代表性的是基于子空间的方法袁此类方法把子空间的相似度作为多观测样的分类依据袁例如袁文献咱远暂提出的酝杂酝渊皂怎贼怎葬造泽怎遭泽责葬糟藻皂藻贼澡燥凿冤袁首先用孕悦粤特征子空间来表示每一类的训练样本集和多观测样本袁再利用子空间之间的主成分角作为相似性度量袁最后用子空间的典型相关性渊糟葬灶燥灶蚤糟葬造糟燥则则藻造葬贼蚤燥灶冤来实现多观测样本的分类袁但该算法对数据的变化较为敏感遥为此袁运援云怎噪怎蚤等咱苑暂又提出悦酝杂酝渊糟燥灶鄄泽贼则葬蚤灶贼皂怎贼怎葬造泽怎遭泽责葬糟藻皂藻贼澡燥凿冤来消除酝杂酝的数据敏感性袁将原空间的所有样本集都映射到同一约束子空间袁在此约束空间中计算样本集间的主成分角袁再用子空间的典型相关性完成多观测样本的分类遥但上述圆种方法并没有考虑到数据的非线性分布问题袁针对这一问题袁匀援杂葬噪葬灶燥等咱愿暂提出运酝杂酝渊噪藻则鄄灶藻造皂怎贼怎葬造泽怎遭泽责葬糟藻皂藻贼澡燥凿冤算法袁蕴援宰燥造枣等咱怨暂提出运孕粤渊噪藻则灶藻造责则蚤灶糟蚤责葬造葬灶早造藻泽冤算法袁使用核函数来解决数据的非线性问题袁进而完成多观测样本的分类遥虽然运酝杂酝和运孕粤考虑了数据的非线性分布袁但是这圆种方法用到的核函数对参数的依赖性较大遥以上这些方法都没有考虑到通过转换数据可以提取到更多的判别信息袁栽援运援运蚤皂等咱员园暂提出阅悦悦渊凿蚤泽糟则蚤皂蚤鄄灶葬灶贼糟葬灶燥灶蚤糟葬造糟燥则则藻造葬贼蚤燥灶冤算法袁其首先通过训练获得一个能使类内典型相关性最大而类间典型相关性最小的判别转换矩阵袁然后把原空间数据映射到新的子空间上袁在此基础上把典型差分相关性作为相似度量进行分类袁此方法存在未考虑数据非线性分布的缺点遥一些研究者曾认为所有典型相关性对分类的贡献是相同的袁即权值相等遥但后来栽援运援运蚤皂等咱员员暂发现在分类中不同的典型相关性所起的作用是不同的袁继而提出了月燥酝孕粤渊遭燥燥泽贼藻凿皂葬灶蚤枣燥造凿责则蚤灶糟蚤责葬造葬灶早造藻泽冤算法袁该算法首先通过孕孕悦粤渊责则燥遭鄄葬遭蚤造蚤泽贼蚤糟孕悦粤冤搜索局部线性模块袁并将得到的所有模块表示成孕悦粤子空间的形式袁进而计算子空间之间的典型相关性袁然后把训练集表示为正负样本特征的形式袁同时采用粤凿葬月燥燥泽贼算法得到相应的权值袁最后用加权后的主成分角来度量子空间的相似性袁实现多观测样本的分类遥在此基础上袁载援蕴蚤等咱员圆暂提出月燥燥泽贼藻凿全局和局部主成分角联合的分类算法遥文献咱员猿暂提出酝酝阅渊皂葬灶蚤枣燥造凿鄄皂葬灶蚤枣燥造凿凿蚤泽鄄贼葬灶糟藻冤方法袁该方法将典型相关性和局部线性模块结合起来袁首先用联合局部线性模型的集合来表示子空间所描述的流形袁从而把酝酝阅转换为线性模块的组合袁最终通过酝酝阅的计算来对观测样本进行分类袁但该方法的计算量和复杂度相对较大遥宰援杂援悦澡怎咱员源暂提出运阅栽渊噪藻则灶藻造凿蚤泽糟则蚤皂蚤灶葬灶贼贼则葬灶泽枣燥则皂葬鄄贼蚤燥灶冤来解决多观测样本的分类问题袁该方法用核子空间来表示每个样本集袁同时定义一个能使类内核子空间相似性最大而类间核子空间相似性最小的运阅栽矩阵袁从而把多观测样本的分类问题转换为寻求运阅栽矩阵的最优解问题遥近来袁耘援运燥噪蚤燥责燥怎造燥怎等咱员缘暂在标记传播算法的基础上提出了酝粤杂悦渊皂粤灶鄄蚤枣造燥凿鄄遭葬泽藻凿泽皂燥燥贼澡蚤灶早怎灶凿藻则糟燥灶泽贼则葬蚤灶冤算法袁该算法将噪鄄近邻图运用到多观测样本的分类问题中袁但是噪鄄近邻图的边权值的计算采用了欧式距离下的高斯核函数袁而基于欧式距离的测度无法全面反映数据的空间分布特性遥由上述可知袁目前的多观测样本分类算法都有一定的不足和局限性遥本文在经典杂灾酝算法的基础上袁用杂灾酝的相关理论来实现多观测样本的分类遥与传统的杂灾酝算法相同袁本文方法适用于小样本情况袁利用核函数解决了非线性问题和维数问题袁其算法复杂度与样本维数无关遥然而袁与传统分类方法的不同在于袁该方法无需对分类器进行训练或提前对训练集进行特征表示袁而是将测试集和训练集作为一个整体袁充分利用特征空间中同类样本连续分布这一特点袁使得分类更加准确遥第源期摇摇摇摇摇摇摇摇摇摇摇摇摇摇李欢袁等院支持向量机的多观测样本二分类算法窑猿怨猿窑

<<向上翻页向下翻页>>

点击下载：机器学习：支持向量机的多观测样本二分类算法