正在加载图片...
第2期 陈形,等:特征自表达和图正则化的鲁棒无监督特征选择 ·287· 过滤掉,将重要性较大的特征作为原始数据的表 第i行第j列的元素。r(X)表示矩阵X的迹,X- 示。例如,最大方差法)以数据方差作为评价标 表示矩阵X的逆。矩阵X的L21范数被定义为 准,将特征按重要性排序进行选择。除此之外, 拉普拉斯评分法(LapScore)也是常见的无监督 的过滤式特征选择方法。包裹式特征选择方法从 矩阵X的F范数被定义为 初始特征集合中不断地选择特征子集,训练学习 器,根据学习器的性能进行评价,直到选择出最 佳的子集。LVW(Las Vegas Wrapper)⑧是一个典 型的包裹式特征选择方法,它在拉斯维加斯(Ls 1.2 特征自表达 Vegas method)框架下使用随机策略来进行子集搜 特征自表达已经被广泛地应用于无监督特征 索,并以最终分类器的误差作为特征子集评级准 选择之中。例如Zu等1提出了一种用于无监 则。嵌入式特征选择在学习器训练过程中自动地 督特征选择的正则化自表达(regularized self-rep 进行特征选择,其分类效果通常较好,同时该类 resentation,RSR)模型。在RSR中,X=[r'x2. 方法可以实现对多个特征的选择。嵌人式选择最 x]=x1x2…xeRm表示特征矩阵,其中样本 常用的是L,正则化和L2正则化,当正则化项增 数和特征数分别是n和d,X的每一行代表一个 大到一定程度时,所有的特征系数都会趋于0,在 样本,每一列代表一个特征维度。样本的特征自 这个过程中,会有一部分特征的系数先变为0,也 表达定义为 就实现了特征选择过程。除此之外,近年来又研 x≈∑xwni=l,2,…,d (1) 究出了更加有效且高效的无监督特征选择方法, 1 例如L等将局部几何一致性和冗余最小化结 式中:权重矩阵W∈Rd的元素wn表示第i个特 合到同一框架中,利用局部几何结构的一致性来 征x:和第j个特征x之间的权重。在式(1)中, 提高聚类精度,并在此过程中进行特征选择。Lu等网 每一个特征的特征表示项都是由其余重要的特征 提出了一种嵌入式无监督特征选择方法,该方法 组成的,而不重要的特征应该从特征表示项中移除。 通过局部线性嵌人(locally linear embedding,.LLE) 特征表示系数可通过以下模型来求解 算法得到特征权重矩阵,并使用L~范数来描述重 minX-XWI呢+AWIl2i (2) 构误差最下化。大量的实验结果证明,以上这些 式中:入为一个平衡参数,基于L2:范数的正则化项 方法均是有效的。 可得到行稀疏的权重矩阵W,从而实现特征选择。 对于特征选择来说,保持局部几何数据结构 从式(1)、(2)可以看出,所有训练样本的每 显然比保持全局结构更为重要山。最常用的局部 个特征(即式(1)左侧的)都是由其他特征的线 几何结构保持方法有以下3种:基于L2范数的局 性组合所表示的,相应的权重向量是式(2) 部线性嵌入(LLE)、局部保留投影(locality pre- 中W的第1列w。显然,w:中的值越大,其对应 serving projections,LPP)]以及局部切空间对齐 的特征在x的表示中所占的比重越多。除此之 (local tangent space alignment,LTSA)。而传统的 外,如果W的某一行的元素全为0,则相应的特 局部保留方法是基于L2范数,很容易受到噪声和 征不出现在特征自表达中,即所有参与特征自表 冗余数据的影响,其次,L,范数已经被应用于许 达的特征应该是重要的,而那些不重要的特征将 多正则化项中,这使得传统方法对离群值十分敏 通过WI2:来去除。 感,导致特征选择效果不理想。 1.3局部保留投影(LPP) 基于以上提出的问题,本文通过特征自表达、 局部保留投影(LPP))通过获得线性投影来 图正则化以及低秩约束,提出了一个鲁棒无监督特 最优地保持数据的邻域结构,即样本之间的某种 征选择模型,同时保留了数据的局部几何结构和 非线性关系在降维后仍然保留着这种关系。假设 全局结构。并在6个公开数据集上进行实验,且与 W是将样本数据投影到子空间的投影矩阵,则可 5个对比算法进行对比,证明了该模型的有效性。 以通过优化以下目标函数得到W的最优解: 1相关工作 min∑wrx-Wxs (3) ij=l 1.1符号元素定义 式中:W是投影矩阵;s是相似矩阵,关于s的元 对于任意矩阵X∈Rm”,x)表示的是该矩阵 素定义如下:过滤掉,将重要性较大的特征作为原始数据的表 示。例如,最大方差法[7] 以数据方差作为评价标 准,将特征按重要性排序进行选择。除此之外, 拉普拉斯评分法[3] (LapScore) 也是常见的无监督 的过滤式特征选择方法。包裹式特征选择方法从 初始特征集合中不断地选择特征子集,训练学习 器,根据学习器的性能进行评价,直到选择出最 佳的子集。LVW(Las Vegas Wrapper)[8] 是一个典 型的包裹式特征选择方法,它在拉斯维加斯 (Las Vegas method) 框架下使用随机策略来进行子集搜 索,并以最终分类器的误差作为特征子集评级准 则。嵌入式特征选择在学习器训练过程中自动地 进行特征选择,其分类效果通常较好,同时该类 方法可以实现对多个特征的选择。嵌入式选择最 常用的是 L1 正则化和 L2 正则化[6] ,当正则化项增 大到一定程度时,所有的特征系数都会趋于 0,在 这个过程中,会有一部分特征的系数先变为 0,也 就实现了特征选择过程。除此之外,近年来又研 究出了更加有效且高效的无监督特征选择方法, 例如 Li 等 [9] 将局部几何一致性和冗余最小化结 合到同一框架中,利用局部几何结构的一致性来 提高聚类精度,并在此过程中进行特征选择。Liu 等 [10] 提出了一种嵌入式无监督特征选择方法,该方法 通过局部线性嵌入 (locally linear embedding, LLE) 算法得到特征权重矩阵,并使用 L1 -范数来描述重 构误差最下化。大量的实验结果证明,以上这些 方法均是有效的。 L2 对于特征选择来说,保持局部几何数据结构 显然比保持全局结构更为重要[11]。最常用的局部 几何结构保持方法有以下 3 种:基于 L2 范数的局 部线性嵌入 (LLE)[12] 、局部保留投影 (locality pre￾serving projections, LPP)[13] 以及局部切空间对齐 (local tangent space alignment, LTSA)[14]。而传统的 局部保留方法是基于 范数,很容易受到噪声和 冗余数据的影响,其次,L2 范数已经被应用于许 多正则化项中,这使得传统方法对离群值十分敏 感,导致特征选择效果不理想。 基于以上提出的问题,本文通过特征自表达、 图正则化以及低秩约束,提出了一个鲁棒无监督特 征选择模型,同时保留了数据的局部几何结构和 全局结构。并在 6 个公开数据集上进行实验,且与 5 个对比算法进行对比,证明了该模型的有效性。 1 相关工作 1.1 符号元素定义 X ∈ R m×n 对于任意矩阵 ,xi j 表示的是该矩阵 i j tr(X) X X −1 X X L2,1 第 行第 列的元素。 表示矩阵 的迹, 表示矩阵 的逆。矩阵 的 范数被定义为 ∥X∥2,1 = ∑m i=1 ∥xi∥2 = ∑m i=1 vt∑n j=1 x 2 i j 矩阵 X 的 F 范数被定义为 ∥X∥F = vt∑m i=1 ∑n j=1 x 2 i j 1.2 特征自表达 X = [x 1 x 2 ··· x n ] = [x1 x2 ··· xd] ∈ R n×d X 特征自表达已经被广泛地应用于无监督特征 选择之中。例如 Zhu 等 [15] 提出了一种用于无监 督特征选择的正则化自表达 (regularized self-rep￾resentation, RSR) 模型。在 RSR 中, 表示特征矩阵,其中样本 数和特征数分别是 n 和 d, 的每一行代表一个 样本,每一列代表一个特征维度。样本的特征自 表达定义为 xi ≈ ∑d j=1 xjwji, i = 1,2,··· ,d (1) W ∈ R d×d wji xi xj 式中:权重矩阵 的元素 表示第 i 个特 征 和第 j 个特征 之间的权重。在式 (1) 中, 每一个特征的特征表示项都是由其余重要的特征 组成的,而不重要的特征应该从特征表示项中移除。 特征表示系数可通过以下模型来求解 min W ∥X− XW∥ 2 F +λ∥W∥2,1 (2) λ L2,1 W 式中: 为一个平衡参数,基于 范数的正则化项 可得到行稀疏的权重矩阵 ,从而实现特征选择。 xi W wi wi xi W ∥W∥2,1 从式 (1)、(2) 可以看出,所有训练样本的每一 个特征 (即式 (1) 左侧的 ) 都是由其他特征的线 性组合所表示的,相应的权重向量是 式 (2) 中 的第 i 列 。显然, 中的值越大,其对应 的特征在 的表示中所占的比重越多。除此之 外,如果 的某一行的元素全为 0,则相应的特 征不出现在特征自表达中,即所有参与特征自表 达的特征应该是重要的,而那些不重要的特征将 通过 来去除。 1.3 局部保留投影 (LPP) W W 局部保留投影 (LPP)[13] 通过获得线性投影来 最优地保持数据的邻域结构,即样本之间的某种 非线性关系在降维后仍然保留着这种关系。假设 是将样本数据投影到子空间的投影矩阵,则可 以通过优化以下目标函数得到 的最优解: min W ∑n i, j=1 WT x i −WT x j 2 si j (3) 式中: W 是投影矩阵; s 是相似矩阵,关于 s 的元 素定义如下: 第 2 期 陈彤,等:特征自表达和图正则化的鲁棒无监督特征选择 ·287·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有