第4期 李欢,等:支持向量机的多观测样本二分类算法 ·393· 能提供更多关于测试模式的信息,从而提高分类精 nant canonical correlation)算法,其首先通过训练获 度。由此可以预见,多观测样本分类问题将得到 得一个能使类内典型相关性最大而类间典型相关性 国内外研究学者的广泛关注。 最小的判别转换矩阵,然后把原空间数据映射到新 目前,多观测样本的分类方法主要有2类:一类 的子空间上,在此基础上把典型差分相关性作为相 是基于参数模型的方法。例如,文献[2]提出了基 似度量进行分类,此方法存在未考虑数据非线性分 于概率密度的KLD(KL-divergence),该方法把所有 布的缺点。一些研究者曾认为所有典型相关性对分 样本集看作是独立的,并且服从高斯分布,然后通过 类的贡献是相同的,即权值相等。但后来T.K.Kim 计算测试样本集和各个训练样本集间的KL散度来 等发现在分类中不同的典型相关性所起的作用 确定多观测样本的类别。但是此方法仅仅对那些服 是不同的,继而提出了BoMPA(boosted manifold 从单高斯分布的样本集比较适用,难以精确地描述 principal angles)算法,该算法首先通过PPCA(prob- 数据呈非线性分布的情况。针对这一情况, abilistic PCA)搜索局部线性模块,并将得到的所有 O.Arandjelovic等[)提出了半参数混合高斯模型,并 模块表示成PCA子空间的形式,进而计算子空间之 将其应用在KL散度的计算中,从而解决了非线性 间的典型相关性,然后把训练集表示为正负样本特 分布的多观测样本分类问题。然而,此方法的计算 征的形式,同时采用AdaBoost算法得到相应的权 复杂度相对较大。F.Cardinaux等[通过嵌人局部 值,最后用加权后的主成分角来度量子空间的相似 特征来扩展GMM(Gaussian mixture model),在保证 性,实现多观测样本的分类。在此基础上,X.L 低复杂度的同时进一步提高了分类性能。文献[5] 等[2]提出Boosted全局和局部主成分角联合的分类 提出了一种基于核函数的分类方法,该方法利用信 算法。文献[l3]提出MMD(manifold-manifold dis- 息论的相关知识,把RAD(resistor-average distance) tance)方法,该方法将典型相关性和局部线性模块 看作是多观测样本间的相似度来完成多观测样本的 结合起来,首先用联合局部线性模型的集合来表示 分类。以上这些方法的不足在于它们不但要解决复 子空间所描述的流形,从而把MMD转换为线性模 杂的参数估计问题,而且当多观测样本和测试样本 块的组合,最终通过MMD的计算来对观测样本进 集之间的统计相关性较弱时,它们的性能会有大的 行分类,但该方法的计算量和复杂度相对较大。W 波动。另一类是基于非参数模型的方法,其中最具 S.Chu [4 KDT kernel discriminant transforma- 代表性的是基于子空间的方法,此类方法把子空间 iom)来解决多观测样本的分类问题,该方法用核子 的相似度作为多观测样的分类依据,例如,文献[6] 空间来表示每个样本集,同时定义一个能使类内核 提出的MSM(mutual subspace method),首先用PCA 子空间相似性最大而类间核子空间相似性最小的 特征子空间来表示每一类的训练样本集和多观测样 KDT矩阵,从而把多观测样本的分类问题转换为寻 本,再利用子空间之间的主成分角作为相似性度量, 求KDT矩阵的最优解问题。近来,E.Kokiopoulou 最后用子空间的典型相关性(canonical correlation) 等s]在标记传播算法的基础上提出了MASC(mAn- 来实现多观测样本的分类,但该算法对数据的变化 flod-based smoothing under constrain)算法,该算法 较为敏感。为此,K.Fukui等)又提出CMSM(con- 将k-近邻图运用到多观测样本的分类问题中,但是 straint mutual subspace method)来消除MSM的数据 k-近邻图的边权值的计算采用了欧式距离下的高斯 敏感性,将原空间的所有样本集都映射到同一约束 核函数,而基于欧式距离的测度无法全面反映数据 子空间,在此约束空间中计算样本集间的主成分角, 的空间分布特性。 再用子空间的典型相关性完成多观测样本的分类。 由上述可知,目前的多观测样本分类算法都有 但上述2种方法并没有考虑到数据的非线性分布问 一定的不足和局限性。本文在经典SVM算法的基 题,针对这一问题,H.Sakano等[)提出KMSM(ker- 础上,用SVM的相关理论来实现多观测样本的分 nel mutual subspace method)算法,L.Walf等f]提出 类。与传统的SVM算法相同,本文方法适用于小样 KPA(kernel principal angles)算法,使用核函数来解 本情况,利用核函数解决了非线性问题和维数问题, 决数据的非线性问题,进而完成多观测样本的分类。 其算法复杂度与样本维数无关。然而,与传统分类 虽然KMSM和KPA考虑了数据的非线性分布,但是 方法的不同在于,该方法无需对分类器进行训练或 这2种方法用到的核函数对参数的依赖性较大。以 提前对训练集进行特征表示,而是将测试集和训练 上这些方法都没有考虑到通过转换数据可以提取到 集作为一个整体,充分利用特征空间中同类样本连 更多的判别信息,T.K.Kim等to提出DCC(discrimi- 续分布这一特点,使得分类更加准确。能提供更多关于测试模式的信息袁从而提高分类精 度咱员暂 遥 由此可以预见袁多观测样本分类问题将得到 国内外研究学者的广泛关注遥 目前袁多观测样本的分类方法主要有 圆 类院一类 是基于参数模型的方法遥 例如袁文献咱圆暂 提出了基 于概率密度的 运蕴阅渊运蕴鄄凿蚤增藻则早藻灶糟藻冤 袁该方法把所有 样本集看作是独立的袁并且服从高斯分布袁然后通过 计算测试样本集和各个训练样本集间的 运蕴 散度来 确定多观测样本的类别遥 但是此方法仅仅对那些服 从单高斯分布的样本集比较适用袁难以精确地描述 数据 呈 非 线 性 分 布 的 情 况遥 针对这一情况袁 韵援粤则葬灶凿躁藻造燥增蚤糟 等咱猿暂提出了半参数混合高斯模型袁并 将其应用在 运蕴 散度的计算中袁从而解决了非线性 分布的多观测样本分类问题遥 然而袁此方法的计算 复杂度相对较大遥 云援 悦葬则凿蚤灶葬怎曾 等咱源暂 通过嵌入局部 特征来扩展 郧酝酝渊 郧葬怎泽泽蚤葬灶 皂蚤曾贼怎则藻 皂燥凿藻造冤 袁在保证 低复杂度的同时进一步提高了分类性能遥 文献咱缘暂 提出了一种基于核函数的分类方法袁该方法利用信 息论的相关知识袁把 砸粤阅渊 则藻泽蚤泽贼燥则鄄葬增藻则葬早藻 凿蚤泽贼葬灶糟藻冤 看作是多观测样本间的相似度来完成多观测样本的 分类遥 以上这些方法的不足在于它们不但要解决复 杂的参数估计问题袁而且当多观测样本和测试样本 集之间的统计相关性较弱时袁它们的性能会有大的 波动遥 另一类是基于非参数模型的方法袁其中最具 代表性的是基于子空间的方法袁此类方法把子空间 的相似度作为多观测样的分类依据袁例如袁文献咱远暂 提出的 酝杂酝 渊皂怎贼怎葬造 泽怎遭泽责葬糟藻 皂藻贼澡燥凿冤 袁首先用 孕悦粤 特征子空间来表示每一类的训练样本集和多观测样 本袁再利用子空间之间的主成分角作为相似性度量袁 最后用子空间的典型相关性渊 糟葬灶燥灶蚤糟葬造 糟燥则则藻造葬贼蚤燥灶冤 来实现多观测样本的分类袁但该算法对数据的变化 较为敏感遥 为此袁运援 云怎噪怎蚤 等咱苑暂 又提出 悦酝杂酝渊 糟燥灶鄄 泽贼则葬蚤灶贼 皂怎贼怎葬造 泽怎遭泽责葬糟藻 皂藻贼澡燥凿冤来消除 酝杂酝 的数据 敏感性袁将原空间的所有样本集都映射到同一约束 子空间袁在此约束空间中计算样本集间的主成分角袁 再用子空间的典型相关性完成多观测样本的分类遥 但上述 圆 种方法并没有考虑到数据的非线性分布问 题袁针对这一问题袁匀援 杂葬噪葬灶燥 等咱愿暂 提出 运酝杂酝渊 噪藻则鄄 灶藻造 皂怎贼怎葬造 泽怎遭泽责葬糟藻 皂藻贼澡燥凿冤算法袁蕴援宰燥造枣 等咱怨暂 提出 运孕粤渊 噪藻则灶藻造 责则蚤灶糟蚤责葬造 葬灶早造藻泽冤算法袁使用核函数来解 决数据的非线性问题袁进而完成多观测样本的分类遥 虽然 运酝杂酝 和 运孕粤 考虑了数据的非线性分布袁但是 这 圆 种方法用到的核函数对参数的依赖性较大遥 以 上这些方法都没有考虑到通过转换数据可以提取到 更多的判别信息袁栽援运援运蚤皂 等咱员园暂提出 阅悦悦渊 凿蚤泽糟则蚤皂蚤鄄 灶葬灶贼 糟葬灶燥灶蚤糟葬造 糟燥则则藻造葬贼蚤燥灶冤 算法袁其首先通过训练获 得一个能使类内典型相关性最大而类间典型相关性 最小的判别转换矩阵袁然后把原空间数据映射到新 的子空间上袁在此基础上把典型差分相关性作为相 似度量进行分类袁此方法存在未考虑数据非线性分 布的缺点遥 一些研究者曾认为所有典型相关性对分 类的贡献是相同的袁即权值相等遥 但后来 栽援运援运蚤皂 等咱员员暂发现在分类中不同的典型相关性所起的作用 是不同的袁 继而提出了 月燥酝孕粤 渊 遭燥燥泽贼藻凿 皂葬灶蚤枣燥造凿 责则蚤灶糟蚤责葬造 葬灶早造藻泽冤算法袁该算法首先通过 孕孕悦粤渊 责则燥遭鄄 葬遭蚤造蚤泽贼蚤糟 孕悦粤冤搜索局部线性模块袁并将得到的所有 模块表示成 孕悦粤 子空间的形式袁进而计算子空间之 间的典型相关性袁然后把训练集表示为正负样本特 征的形式袁同时采用 粤凿葬月燥燥泽贼 算法得到相应的权 值袁最后用加权后的主成分角来度量子空间的相似 性袁实现多观测样本的分类遥 在此基础上袁 载援 蕴蚤 等咱员圆暂提出 月燥燥泽贼藻凿 全局和局部主成分角联合的分类 算法遥 文献咱 员猿暂 提出 酝酝阅 渊 皂葬灶蚤枣燥造凿鄄皂葬灶蚤枣燥造凿 凿蚤泽鄄 贼葬灶糟藻冤方法袁该方法将典型相关性和局部线性模块 结合起来袁首先用联合局部线性模型的集合来表示 子空间所描述的流形袁从而把 酝酝阅 转换为线性模 块的组合袁最终通过 酝酝阅 的计算来对观测样本进 行分类袁但该方法的计算量和复杂度相对较大遥 宰援 杂援悦澡怎 咱员源暂提出 运阅栽 渊 噪藻则灶藻造 凿蚤泽糟则蚤皂蚤灶葬灶贼 贼则葬灶泽枣燥则皂葬鄄 贼蚤燥灶冤来解决多观测样本的分类问题袁该方法用核子 空间来表示每个样本集袁同时定义一个能使类内核 子空间相似性最大而类间核子空间相似性最小的 运阅栽 矩阵袁从而把多观测样本的分类问题转换为寻 求 运阅栽 矩阵的最优解问题遥 近来袁 耘援 运燥噪蚤燥责燥怎造燥怎 等咱员缘暂在标记传播算法的基础上提出了 酝粤杂悦渊 皂粤灶鄄 蚤枣造燥凿鄄遭葬泽藻凿 泽皂燥燥贼澡蚤灶早 怎灶凿藻则 糟燥灶泽贼则葬蚤灶冤 算法袁该算法 将 噪鄄近邻图运用到多观测样本的分类问题中袁但是 噪鄄近邻图的边权值的计算采用了欧式距离下的高斯 核函数袁而基于欧式距离的测度无法全面反映数据 的空间分布特性遥 由上述可知袁目前的多观测样本分类算法都有 一定的不足和局限性遥 本文在经典 杂灾酝 算法的基 础上袁用 杂灾酝 的相关理论来实现多观测样本的分 类遥 与传统的 杂灾酝 算法相同袁本文方法适用于小样 本情况袁利用核函数解决了非线性问题和维数问题袁 其算法复杂度与样本维数无关遥 然而袁与传统分类 方法的不同在于袁该方法无需对分类器进行训练或 提前对训练集进行特征表示袁而是将测试集和训练 集作为一个整体袁充分利用特征空间中同类样本连 续分布这一特点袁使得分类更加准确遥 第 源 期摇摇摇摇摇摇摇摇摇摇摇摇摇摇 李欢袁等院 支持向量机的多观测样本二分类算法 窑猿怨猿窑