【机器学习】特征自表达和图正则化的鲁棒无监督特征选择

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：3.68MB

第17卷第2期智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0L:10.11992tis.202012043 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20210622.0900.002.html 特征自表达和图正则化的鲁棒无监督特征选择陈彤，陈秀宏 (江南大学人工智能与计算机学院，江苏无锡214122) 摘要：为了在揭示数据全局结构的同时保留其局部结构.本文将特征自表达和图正则化统一到同一框架中，给出了一种新的无监督特征选择(unsupervised feature selection,UFS)模型与方法。模型使用特征自表达，用其余特征线性表示每一个特征，以保持特征的局部结构：用基于乙2：范数的图正则化项，在保留数据的局部几何结构的同时可以降低噪声数据对特征选择的影响：除此之外，在权重矩阵上施加了低秩约束，保留数据的全局结构。在6个不同的公开数据集上的实验表明，所给算法明显优于其他5个对比算法，表明了所提出的UFS框架的有效性。关键词：特征选择：鲁棒；图拉普拉斯：特征自表达；低秩约束；无监督：L21范数；降维中图分类号：TP181文献标志码：A 文章编号：1673-4785(2022)02-0286-09 中文引用格式：陈彤，陈秀宏.特征自表达和图正则化的鲁棒无监督特征选择.智能系统学报，2022,17(2)：286-294. 英文引用格式：CHEN Tong,.CHEN Xiuhong.Feature self--representation and graph regularization for robust unsupervised fea- ture selection Jl.CAAI transactions on intelligent systems,2022,17(2):286-294 Feature self-representation and graph regularization for robust unsupervised feature selection CHEN Tong,CHEN Xiuhong (School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China) Abstract:In order to reveal the global structure of data and preserve its local structure,this paper proposes a new unsu- pervised feature selection(UFS)method,which puts feature self-representation and graph regularization into the same framework.Specifically,the model uses the self-representation of the features to represent each feature through other features for preserving the local structure of the features.An L2.-norm based graph regularization term is used to re- duce the effect of noisy data on feature selection while preserving the local geometric structure.Furthermore,the model uses a low-rank constraint on the weight matrix to preserve the global structure.Experiments on six different public datasets show that the algorithm is clearly superior to the other five algorithms,which demonstrates the effectiveness of the proposed UFS framework. Keywords:feature selection;robust;graph Laplacian;feature self-representation;low-rank constraint;unsupervised, L2-norm;dimension reduction 随着互联网的迅猛发展，产生了大量的高维特征选择方法包括有监督特征选择川、半监数据，高维数据通常含有大量的冗余、噪声，会降督特征选择)、无监督特征选择B。有监督特征低学习算法的性能。基于这一问题，特征选择和选择和半监督特征选择依赖于数据的标签信息，特征提取成为了降维的重要手段。特征提取通过然而在实际应用中，类别标注的成本过高。因将高维数据投影到低维子空间来减少数据的维此，这就要求应用无监督特征选择方法选择更具度，特征选择是直接选择原始数据的特征子集作价值的特征。常见的无监督特征选择方法可以分为了三类：过滤法)、包裹法和嵌入法。过滤为降维后的特征。本文，从特征选择的角度展开式特征选择方法独立于具体的学习算法，运算效研究。率较高。它的主要思想是对每一维特征赋予权收稿日期：2020-12-28.网络出版日期：2021-06-22 基金项目：江苏省研究生科研与实践创新计划项目(NKYI9074). 重，所得到的权重就代表着该特征的重要性，然通信作者：陈秀宏.E-mail:xiuhongc(@jiangnan..edu.cn 后依据权重进行排序，把重要性相对较小的特征

DOI: 10.11992/tis.202012043 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210622.0900.002.html 特征自表达和图正则化的鲁棒无监督特征选择陈彤，陈秀宏（江南大学人工智能与计算机学院，江苏无锡 214122） L2,1 摘要：为了在揭示数据全局结构的同时保留其局部结构，本文将特征自表达和图正则化统一到同一框架中，给出了一种新的无监督特征选择 (unsupervised feature selection，UFS) 模型与方法。模型使用特征自表达,用其余特征线性表示每一个特征，以保持特征的局部结构；用基于范数的图正则化项，在保留数据的局部几何结构的同时可以降低噪声数据对特征选择的影响；除此之外，在权重矩阵上施加了低秩约束，保留数据的全局结构。在 6 个不同的公开数据集上的实验表明，所给算法明显优于其他 5 个对比算法，表明了所提出的 UFS 框架的有效性。关键词：特征选择；鲁棒；图拉普拉斯；特征自表达；低秩约束；无监督； L2,1 范数；降维中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2022)02−0286−09 中文引用格式：陈彤, 陈秀宏. 特征自表达和图正则化的鲁棒无监督特征选择 [J]. 智能系统学报, 2022, 17(2): 286–294. 英文引用格式：CHEN Tong, CHEN Xiuhong. Feature self-representation and graph regularization for robust unsupervised feature selection[J]. CAAI transactions on intelligent systems, 2022, 17(2): 286–294. Feature self-representation and graph regularization for robust unsupervised feature selection CHEN Tong，CHEN Xiuhong (School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China) L2;1 Abstract: In order to reveal the global structure of data and preserve its local structure, this paper proposes a new unsupervised feature selection (UFS) method, which puts feature self-representation and graph regularization into the same framework. Specifically, the model uses the self-representation of the features to represent each feature through other features for preserving the local structure of the features. An -norm based graph regularization term is used to reduce the effect of noisy data on feature selection while preserving the local geometric structure. Furthermore, the model uses a low-rank constraint on the weight matrix to preserve the global structure. Experiments on six different public datasets show that the algorithm is clearly superior to the other five algorithms, which demonstrates the effectiveness of the proposed UFS framework. L2,1 Keywords: feature selection; robust; graph Laplacian; feature self-representation; low-rank constraint; unsupervised; -norm; dimension reduction 随着互联网的迅猛发展，产生了大量的高维数据，高维数据通常含有大量的冗余、噪声，会降低学习算法的性能。基于这一问题，特征选择和特征提取成为了降维的重要手段。特征提取通过将高维数据投影到低维子空间来减少数据的维度，特征选择是直接选择原始数据的特征子集作为降维后的特征。本文，从特征选择的角度展开研究。特征选择方法包括有监督特征选择[1] 、半监督特征选择[2] 、无监督特征选择[3-4]。有监督特征选择和半监督特征选择依赖于数据的标签信息，然而在实际应用中，类别标注的成本过高。因此，这就要求应用无监督特征选择方法选择更具价值的特征。常见的无监督特征选择方法可以分为了三类：过滤法[3] 、包裹法[5] 和嵌入法[6]。过滤式特征选择方法独立于具体的学习算法，运算效率较高。它的主要思想是对每一维特征赋予权重，所得到的权重就代表着该特征的重要性，然后依据权重进行排序，把重要性相对较小的特征收稿日期：2020−12−28. 网络出版日期：2021−06−22. 基金项目：江苏省研究生科研与实践创新计划项目 (JNKY19_074). 通信作者：陈秀宏. E-mail: xiuhongc@jiangnan.edu.cn. 第 17 卷第 2 期智能系统学报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022

第2期陈形，等：特征自表达和图正则化的鲁棒无监督特征选择 ·287· 过滤掉，将重要性较大的特征作为原始数据的表第i行第j列的元素。r(X)表示矩阵X的迹，X- 示。例如，最大方差法)以数据方差作为评价标表示矩阵X的逆。矩阵X的L21范数被定义为准，将特征按重要性排序进行选择。除此之外，拉普拉斯评分法(LapScore)也是常见的无监督的过滤式特征选择方法。包裹式特征选择方法从矩阵X的F范数被定义为初始特征集合中不断地选择特征子集，训练学习器，根据学习器的性能进行评价，直到选择出最佳的子集。LVW(Las Vegas Wrapper)⑧是一个典型的包裹式特征选择方法，它在拉斯维加斯(Ls 1.2 特征自表达 Vegas method)框架下使用随机策略来进行子集搜特征自表达已经被广泛地应用于无监督特征索，并以最终分类器的误差作为特征子集评级准选择之中。例如Zu等1提出了一种用于无监则。嵌入式特征选择在学习器训练过程中自动地督特征选择的正则化自表达(regularized self-rep 进行特征选择，其分类效果通常较好，同时该类 resentation,RSR)模型。在RSR中，X=[r'x2. 方法可以实现对多个特征的选择。嵌人式选择最 x]=x1x2…xeRm表示特征矩阵，其中样本常用的是L,正则化和L2正则化，当正则化项增数和特征数分别是n和d,X的每一行代表一个大到一定程度时，所有的特征系数都会趋于0，在样本，每一列代表一个特征维度。样本的特征自这个过程中，会有一部分特征的系数先变为0，也表达定义为就实现了特征选择过程。除此之外，近年来又研 x≈∑xwni=l,2,…,d (1) 究出了更加有效且高效的无监督特征选择方法， 1 例如L等将局部几何一致性和冗余最小化结式中：权重矩阵W∈Rd的元素wn表示第i个特合到同一框架中，利用局部几何结构的一致性来征x:和第j个特征x之间的权重。在式(1)中，提高聚类精度，并在此过程中进行特征选择。Lu等网每一个特征的特征表示项都是由其余重要的特征提出了一种嵌入式无监督特征选择方法，该方法组成的，而不重要的特征应该从特征表示项中移除。通过局部线性嵌人(locally linear embedding,.LLE) 特征表示系数可通过以下模型来求解算法得到特征权重矩阵，并使用L~范数来描述重 minX-XWI呢+AWIl2i (2) 构误差最下化。大量的实验结果证明，以上这些式中：入为一个平衡参数，基于L2:范数的正则化项方法均是有效的。可得到行稀疏的权重矩阵W,从而实现特征选择。对于特征选择来说，保持局部几何数据结构从式(1)、(2)可以看出，所有训练样本的每显然比保持全局结构更为重要山。最常用的局部个特征（即式(1）左侧的)都是由其他特征的线几何结构保持方法有以下3种：基于L2范数的局性组合所表示的，相应的权重向量是式(2) 部线性嵌入(LLE)、局部保留投影(locality pre- 中W的第1列w。显然，w:中的值越大，其对应 serving projections,LPP)]以及局部切空间对齐的特征在x的表示中所占的比重越多。除此之 (local tangent space alignment,LTSA)。而传统的外，如果W的某一行的元素全为0，则相应的特局部保留方法是基于L2范数，很容易受到噪声和征不出现在特征自表达中，即所有参与特征自表冗余数据的影响，其次，L,范数已经被应用于许达的特征应该是重要的，而那些不重要的特征将多正则化项中，这使得传统方法对离群值十分敏通过WI2:来去除。感，导致特征选择效果不理想。 1.3局部保留投影(LPP) 基于以上提出的问题，本文通过特征自表达、局部保留投影(LPP))通过获得线性投影来图正则化以及低秩约束，提出了一个鲁棒无监督特最优地保持数据的邻域结构，即样本之间的某种征选择模型，同时保留了数据的局部几何结构和非线性关系在降维后仍然保留着这种关系。假设全局结构。并在6个公开数据集上进行实验，且与 W是将样本数据投影到子空间的投影矩阵，则可 5个对比算法进行对比，证明了该模型的有效性。以通过优化以下目标函数得到W的最优解： 1相关工作 min∑wrx-Wxs (3) ij=l 1.1符号元素定义式中：W是投影矩阵；s是相似矩阵，关于s的元对于任意矩阵X∈Rm”,x)表示的是该矩阵素定义如下：

过滤掉，将重要性较大的特征作为原始数据的表示。例如，最大方差法[7] 以数据方差作为评价标准，将特征按重要性排序进行选择。除此之外，拉普拉斯评分法[3] (LapScore) 也是常见的无监督的过滤式特征选择方法。包裹式特征选择方法从初始特征集合中不断地选择特征子集，训练学习器，根据学习器的性能进行评价，直到选择出最佳的子集。LVW(Las Vegas Wrapper)[8] 是一个典型的包裹式特征选择方法，它在拉斯维加斯 (Las Vegas method) 框架下使用随机策略来进行子集搜索，并以最终分类器的误差作为特征子集评级准则。嵌入式特征选择在学习器训练过程中自动地进行特征选择，其分类效果通常较好，同时该类方法可以实现对多个特征的选择。嵌入式选择最常用的是 L1 正则化和 L2 正则化[6] ，当正则化项增大到一定程度时，所有的特征系数都会趋于 0，在这个过程中，会有一部分特征的系数先变为 0，也就实现了特征选择过程。除此之外，近年来又研究出了更加有效且高效的无监督特征选择方法，例如 Li 等 [9] 将局部几何一致性和冗余最小化结合到同一框架中，利用局部几何结构的一致性来提高聚类精度，并在此过程中进行特征选择。Liu 等 [10] 提出了一种嵌入式无监督特征选择方法，该方法通过局部线性嵌入 (locally linear embedding, LLE) 算法得到特征权重矩阵，并使用 L1 -范数来描述重构误差最下化。大量的实验结果证明，以上这些方法均是有效的。 L2 对于特征选择来说，保持局部几何数据结构显然比保持全局结构更为重要[11]。最常用的局部几何结构保持方法有以下 3 种：基于 L2 范数的局部线性嵌入 (LLE)[12] 、局部保留投影 (locality preserving projections, LPP)[13] 以及局部切空间对齐 (local tangent space alignment, LTSA)[14]。而传统的局部保留方法是基于范数，很容易受到噪声和冗余数据的影响，其次，L2 范数已经被应用于许多正则化项中，这使得传统方法对离群值十分敏感，导致特征选择效果不理想。基于以上提出的问题，本文通过特征自表达、图正则化以及低秩约束，提出了一个鲁棒无监督特征选择模型，同时保留了数据的局部几何结构和全局结构。并在 6 个公开数据集上进行实验，且与 5 个对比算法进行对比，证明了该模型的有效性。 1 相关工作 1.1 符号元素定义 X ∈ R m×n 对于任意矩阵，xi j 表示的是该矩阵 i j tr(X) X X −1 X X L2,1 第行第列的元素。表示矩阵的迹，表示矩阵的逆。矩阵的范数被定义为 ∥X∥2,1 = ∑m i=1 ∥xi∥2 = ∑m i=1 vt∑n j=1 x 2 i j 矩阵 X 的 F 范数被定义为 ∥X∥F = vt∑m i=1 ∑n j=1 x 2 i j 1.2 特征自表达 X = [x 1 x 2 ··· x n ] = [x1 x2 ··· xd] ∈ R n×d X 特征自表达已经被广泛地应用于无监督特征选择之中。例如 Zhu 等 [15] 提出了一种用于无监督特征选择的正则化自表达 (regularized self-representation, RSR) 模型。在 RSR 中，表示特征矩阵，其中样本数和特征数分别是 n 和 d，的每一行代表一个样本，每一列代表一个特征维度。样本的特征自表达定义为 xi ≈ ∑d j=1 xjwji, i = 1,2,··· ,d (1) W ∈ R d×d wji xi xj 式中：权重矩阵的元素表示第 i 个特征和第 j 个特征之间的权重。在式 (1) 中，每一个特征的特征表示项都是由其余重要的特征组成的，而不重要的特征应该从特征表示项中移除。特征表示系数可通过以下模型来求解 min W ∥X− XW∥ 2 F +λ∥W∥2,1 (2) λ L2,1 W 式中：为一个平衡参数，基于范数的正则化项可得到行稀疏的权重矩阵，从而实现特征选择。 xi W wi wi xi W ∥W∥2,1 从式 (1)、(2) 可以看出，所有训练样本的每一个特征 (即式 (1) 左侧的 ) 都是由其他特征的线性组合所表示的，相应的权重向量是式 (2) 中的第 i 列。显然，中的值越大，其对应的特征在的表示中所占的比重越多。除此之外，如果的某一行的元素全为 0，则相应的特征不出现在特征自表达中，即所有参与特征自表达的特征应该是重要的，而那些不重要的特征将通过来去除。 1.3 局部保留投影 (LPP) W W 局部保留投影 (LPP)[13] 通过获得线性投影来最优地保持数据的邻域结构，即样本之间的某种非线性关系在降维后仍然保留着这种关系。假设是将样本数据投影到子空间的投影矩阵，则可以通过优化以下目标函数得到的最优解： min W ∑n i, j=1 WT x i −WT x j 2 si j (3) 式中： W 是投影矩阵； s 是相似矩阵，关于 s 的元素定义如下：第 2 期陈彤，等：特征自表达和图正则化的鲁棒无监督特征选择 ·287·

·288· 智能系统学报第17卷 llx-xl2 exp x是x的k近邻或x是x的k近邻 minllX-XWIle+allWll2 +BIIGWIl2 (11) ii- 2r2 2.1.3目标函数 0. 其他 (4) 式(11)通过特征自表达和图正则化来保留数 N(x)是x的k个近邻的集合，σ是宽度参数。据的局部几何结构，但该模型却缺少了全局结构信息，无法准确地捕捉特征的全局结构信息。 2基于特征自表达和图正则化模型因此本文采用低秩约束来保留数据的全局结构。区别于传统的特征自表达，此处将特征自表达以 2.1模型建立及图正则化项与低秩约束相结合，分别考虑了局为了给出基于特征自表达的鲁棒联合图正则部特征相关性和全局特征相关性，从而得到局部化无监督特征选择(feature self-representation and 特征自表达和全局特征自表达。具体来说，就是 graph regularization,FSRGR)模型，首先引入以下对W施加一个低秩假设，即W=AB,所得目标函图正则化特征自表达无监督特征选择一般模型：数为 minllX-XWl+lWll1+B(W) (5) minllX-XAB+lABIk:+BIGABIl (12) 式中：(W是图正则化项，用于保留数据的局部式中：A∈Rt为投影矩阵；B∈Rxd为恢复矩阵。几何结构。入和B是用于平衡L2:范数和正则化入和B均是平衡参数。项的两个参数。该模型利用特征自表达保留了特征的局部结 2.1.1基于L2范数图正则化项的无监督特征选择构，并采用了低秩约束（即用A和B代替来保局部线性嵌人(LLE)回、局部保留投影(LPP 留样本以及特征的全局结构。此外，对传统LPP 和局部切线空间对齐(LTSA)等均是基于L2范模型中的拉普拉斯矩阵进行特征分解，建立基于数的图正则化方法。将LPP思想应用于模型 L21范数的图正则化项，增强其鲁棒性和稀疏性， ()中，则可得到以下模型：并保留了数据的局部几何结构。 minK-Xw形+Awk+B∑lwx-wxr(⑥ 2.2优化算法虽然式(12)中的目标函数是凸的，但很难联式(6)也可以表示为合地求解所有变量。这里使用交替迭代优化策略 minlX-XWl+lWlk+Btr(WTXLXW) (7) 去优化它，即交替地迭代每一个变量，直至算法式中：L是一个拉普拉斯矩阵，且L=D-S,D是收敛。一个对角矩阵，其对角元素为D,-乃，S由式首先，式(12)可以改写为 =1 (XX-2XXAB+BAXXAB)+ (4)定义。 (13) At(BTATPAB)+Btr(BTATGDGAB) 2.1.2基于L21范数图正则化项的无监督特征式中：P为对角矩阵，将其第i个对角元素定义为选择 1 在式（⑦）中，最后一项图正则化项用于保留数 2lA0i=12…,n (14) 据的局部几何结构，然而，基于L2范数的正则化 D为对角矩阵，其第i个对角元素定义为函数容易受到噪声数据的影响。为减少噪声的影 1 d=2GAB1=12” (15) 响，下面介绍一种基于L2!范数的图正则化方法，使得模型对噪声数据更加鲁棒。式中：(ABy是矩阵AB的第i行；(GABy是矩阵由于拉普拉斯矩阵L是实对称的，故设矩阵 GAB的第i行。 L特征分解为对式(13)中目标函数关于B求导数并设令其 L=UVUT (8) 等于0，可以得到：于是，式()中的图正则化项可以改写为 B=(ATSA)ATXX (16) (WTXLXW)=t(WTXUVUTXW)= 其中，S1=XX+P+BGDG。 (9) HvU'Xw=IGWI呢将式(16)代入到式(13)中，式(13)可以变为其中G=VUX。为了使模型对噪声数据更加鲁以下形式：棒，使用L21范数代替F范数，可以得到基于L2 mint(XX-XTXA(ATS A)ATXTX) (17) 范数的图正则化项：它等价于以下问题： (W)=lIGWIl2. (10) 于是式()可改写为 max tr((ATSA)-ATS2A) (18)

si j =    exp( − ∥x i − x j ∥2 2σ2 ) , x i是x j的k近邻或x j是x i的k近邻 0, 其他 (4) Nk(x j ) x i 是的 k 个近邻的集合，σ 是宽度参数。 2 基于特征自表达和图正则化模型 2.1 模型建立为了给出基于特征自表达的鲁棒联合图正则化无监督特征选择 (feature self-representation and graph regularization, FSRGR) 模型，首先引入以下图正则化特征自表达无监督特征选择一般模型： min W ∥X− XW∥ 2 F +λ∥W∥2,1 +βφ(W) (5) φ(W) λ β L2,1 式中：是图正则化项，用于保留数据的局部几何结构。和是用于平衡范数和正则化项的两个参数。 2.1.1 基于 L2 范数图正则化项的无监督特征选择 L2 局部线性嵌入 (LLE)[12] 、局部保留投影 (LPP)[13] 和局部切线空间对齐 (LTSA)[14] 等均是基于范数的图正则化方法。将 LPP 思想应用于模型 (5) 中，则可得到以下模型： min W ∥X− XW∥ 2 F +λ∥W∥2,1 +β ∑n i, j=1 WT x i −WT x j 2 si j (6) 式 (6) 也可以表示为 min W ∥X− XW∥ 2 F +λ∥W∥2,1 +βtr(WTX T LXW) (7) L L = D−S D Dii = ∑n j=1 si j S 式中：是一个拉普拉斯矩阵，且，是一个对角矩阵，其对角元素为，由式 (4) 定义。 2.1.2 基于 L2,1 范数图正则化项的无监督特征选择 L2 L2,1 在式 (7) 中，最后一项图正则化项用于保留数据的局部几何结构，然而，基于范数的正则化函数容易受到噪声数据的影响。为减少噪声的影响，下面介绍一种基于范数的图正则化方法，使得模型对噪声数据更加鲁棒。 L L 由于拉普拉斯矩阵是实对称的，故设矩阵特征分解为 L = UVUT (8) 于是，式 (7) 中的图正则化项可以改写为 tr(WTX T LXW) = tr(WTX TUVUTXW) = V 1 2 U TXW 2 F = ∥GW∥ 2 F (9) G = V 1 2 U TX L2,1 L2,1 其中。为了使模型对噪声数据更加鲁棒，使用范数代替 F 范数，可以得到基于范数的图正则化项： φ(W) = ∥GW∥2,1 (10) 于是式 (7) 可改写为 min W ∥X− XW∥ 2 F +λ∥W∥2,1 +β∥GW∥2,1 (11) 2.1.3 目标函数 W W = AB 式 (11) 通过特征自表达和图正则化来保留数据的局部几何结构，但该模型却缺少了全局结构信息，无法准确地捕捉特征的全局结构信息。因此本文采用低秩约束来保留数据的全局结构。区别于传统的特征自表达，此处将特征自表达以及图正则化项与低秩约束相结合，分别考虑了局部特征相关性和全局特征相关性，从而得到局部特征自表达和全局特征自表达。具体来说，就是对施加一个低秩假设，即，所得目标函数为 min W ∥X− XAB∥ 2 F +λ∥AB∥2,1 +β∥GAB∥2,1 (12) A ∈ R d×k B ∈ R k×d λ β 式中：为投影矩阵；为恢复矩阵。和均是平衡参数。 L2,1 该模型利用特征自表达保留了特征的局部结构，并采用了低秩约束 (即用 A 和 B 代替 W) 来保留样本以及特征的全局结构。此外，对传统 LPP 模型中的拉普拉斯矩阵进行特征分解，建立基于范数的图正则化项，增强其鲁棒性和稀疏性，并保留了数据的局部几何结构。 2.2 优化算法虽然式 (12) 中的目标函数是凸的，但很难联合地求解所有变量。这里使用交替迭代优化策略去优化它，即交替地迭代每一个变量，直至算法收敛。首先，式 (12) 可以改写为 min A,B tr(X TX−2X TXAB+ B TA TX TXAB)+ λtr(B TA T PAB)+βtr(B TA TG T DGAB) (13) 式中： P 为对角矩阵，将其第 i 个对角元素定义为 pii = 1 2∥(AB) i ∥2 , i = 1,2,··· ,n (14) D 为对角矩阵，其第 i 个对角元素定义为 dii = 1 2 (GAB) i 2 ,i = 1,2,··· ,n (15) (AB) i AB (GAB) i GAB 式中：是矩阵的第 i 行；是矩阵的第 i 行。对式 (13) 中目标函数关于 B 求导数并设令其等于 0，可以得到： B = (A TS1A) −1A TX TX (16) S1 = X TX+λP+βG T 其中， DG。将式 (16) 代入到式 (13) 中，式 (13) 可以变为以下形式： min A tr(X TX− X TXA(A TS1A) −1A TX TX) (17) 它等价于以下问题： max A tr((A TS1A) −1A TS2A) (18) ·288· 智能系统学报第 17 卷

第2期陈形，等：特征自表达和图正则化的鲁棒无监督特征选择 ·289· 其中S2=XXXX。每类中随机选取10个样本组成训练集，剩余的样对式(18)关于A求导并令其等于零可得：本组成测试集进行实验。 S2A=SA((ASA)ATS2A) (19) 表1数据集具体信息如设广义特征方程S2a=S1a的前k个最大 Table 1 Specific information of data sets 特征值分别为，2，…，d,对应的特征向量分别数据集样本数类别数特征数为a1,a2…,ak,并令A=[a12…aJ,则有 Yale 165 5 1024 S2A=S Adiag(2,..,) (20) ORL 400 10 1024 此时，式(18)中r(ATS1A)ATS2A)达到最大。 MSRA 1799 12 256 这样，通过求解式(18)得到A,再式(16)得到 AR 3120 120 1024 B。此过程可迭代进行，直到终止条件满足。算 USPS 2007 0 256 法给出了更新A和B的具体步骤。 LEAVES 400 10 1024 算法FSRGR 输入数据矩阵X∈Rm4,L∈Rmm,k,入，B。国國國婴图盟蟹墅恩围 (a)YALE数据集输出A∈R,计算Ai=1,2,…,d)并按照降序排列，然后从X中选择与前k个最大值所國固涵圈图圈國国画國对应的特征。 (b)ORL数据集对L进行特征分解：L=UVU 腦國匿题圖閻閣慝監闔计算G:G=VUX (C)MSRA数据集初始化：对角矩阵P=I∈Rd,D=I∈Rm,投影矩阵A,恢复矩阵B,迭代次数=0。服国星里2型里叉里显重复： (d)AR数据集 1)求解问题(18)更新A: 2见四☑包四四四图 2)根据式(16)更新B, (e)USPS数据集 3)根据式(14)更新P= 1 弟冬桌染·山少® 2K(ABY (f)LEAVES数据集 4)根据式(15)更新D= 2GAB) 图1部分数据集的图片 5)t=t+1 Fig.1 Visualization of some data sets with different noise 直到收敛。 3.2对比算法 2.3复杂度分析为了验证所研究算法的有效性，考虑以下对在每次迭代中，FSRGR算法的时间主要花费比方法：在式(I0)中XX+P+BGDG和(ATS1A)'AXX 1)NDFS:联合学习数据的局部几何结构和以及特征分解的计算上，相应的复杂度为max{Oid, 基于L2:范数正则化项的稀疏线性回归。 Ond)},O(nd及On),其中n和d代表样本数及 2)JELSR:同时考虑了拉普拉斯正则化器和特征数。在本次实验中，所提出的算法一般在权重矩阵对特征的得分进行了排序。 10次迭代内收敛，所以算法的时间复杂度为 3)SOGFS!21:从低维空间中学习样本的全局 max(o(n'd),o(nd),O(n) 结构来选择重要特征。 3 实验与分析 4)L1-UFS2:将特征自表达以及基于L,范数的图拉普拉斯正则化融入到同一框架中。将在6个公开数据集上对FSRGR算法进行 5)LRLMR21:在低维子空间中进行学习，使评估，并且与5个特征选择算法进行比较。以验得对噪声更加鲁棒；通过图的流形正则化项来保证该算法的有效性。持原始数据的局部结构。 3.1数据集 3.3重构图像实验中使用的6个公开数据集中，包括4个图2展示了6种不同的算法(NDFS、JELSR 人脸数据集YALEUS、ORL、MSRAUS图以及AR, SOGFS、LI-UFS、LRLMR、FSRGR)关于AR数据 2个手写数字数据集USPS2o1和LEAVES2I。这集得到的部分重构图像。以图2(g)为例，共展示些数据集的具体信息如表1所示，数据集的部分了7张图像，从左至右分别选取了200、250、300、图像如图1所示。并且对于每一个数据集，均从 350、400、450、500个特征进行图像的重构。从

S2 = X TXXT 其中 X。对式 (18) 关于 A 求导并令其等于零可得： S2A = S1A((A TS1A) −1A TS2A) (19) S2 a = λS1 a λ1, λ2,··· , λk a1, a2,··· , ak A = [a1 a2 ··· ak] 如设广义特征方程的前 k 个最大特征值分别为，对应的特征向量分别为，并令，则有 S2A = S1Adiag(λ1, λ2,··· , λk) (20) tr((A TS1A) −1A T 此时，式 (18) 中 S2A) 达到最大。 A B A B 这样，通过求解式 (18) 得到，再式 (16) 得到。此过程可迭代进行，直到终止条件满足。算法给出了更新和的具体步骤。算法 FSRGR X ∈ R n×d L ∈ R 输入数据矩阵， n×n ,k,λ,β。 A ∈ R d×k A i 2 输出，计算 (i = 1,2,··· ,d) 并按照降序排列，然后从 X 中选择与前 k 个最大值所对应的特征。 L = UVU 对 T L 进行特征分解： ; G = V 1 2 U T 计算 G： X ; P = I ∈ R d×d , D = I ∈ R 初始化 n×n ：对角矩阵，投影矩阵 A ,恢复矩阵 B ,迭代次数 t=0。重复： 1) 求解问题 (18) 更新 A ; 2) 根据式 (16) 更新 B ; P = 1 2 (AB) i 2 3) 根据式 (14) 更新 ; D = 1 2 (GAB) i 2 4) 根据式 (15) 更新 ; 5) t = t+1 ; 直到收敛。 2.3 复杂度分析 X TX+λP+βG T DG (A TS1A) −1A TX TX 在每次迭代中，FSRGR 算法的时间主要花费在式 (10) 中和以及特征分解的计算上，相应的复杂度为 max{O(n 2 d), O(nd2 )}，O(nd2 ) 及 O(n 3 )，其中 n 和 d 代表样本数及特征数。在本次实验中，所提出的算法一般在 10 次迭代内收敛，所以算法的时间复杂度为 max{O(n 2 d),O(nd2 ), O(n 3 )}。 3 实验与分析将在 6 个公开数据集上对 FSRGR 算法进行评估，并且与 5 个特征选择算法进行比较。以验证该算法的有效性。 3.1 数据集实验中使用的 6 个公开数据集中，包括 4 个人脸数据集 YALE[16] 、ORL[17] 、MSRA[18] 以及 AR[19] ， 2 个手写数字数据集 USPS[20] 和 LEAVES[21]。这些数据集的具体信息如表 1 所示，数据集的部分图像如图 1 所示。并且对于每一个数据集，均从每类中随机选取 10 个样本组成训练集，剩余的样本组成测试集进行实验。表 1 数据集具体信息 Table 1 Specific information of data sets 数据集样本数类别数特征数 Yale 165 15 1 024 ORL 400 10 1 024 MSRA 1799 12 256 AR 3120 120 1 024 USPS 2007 10 256 LEAVES 400 10 1 024 (a) YALE 数据集 (b) ORL 数据集 (c) MSRA 数据集 (d) AR 数据集 (e) USPS 数据集 (f) LEAVES 数据集图 1 部分数据集的图片 Fig. 1 Visualization of some data sets with different noise 3.2 对比算法为了验证所研究算法的有效性，考虑以下对比方法： L2,1 1) NDFS[22] ：联合学习数据的局部几何结构和基于范数正则化项的稀疏线性回归。 2) JELSR[4] ：同时考虑了拉普拉斯正则化器和权重矩阵对特征的得分进行了排序。 3) SOGFS[23] ：从低维空间中学习样本的全局结构来选择重要特征。 4) L1-UFS[24] ：将特征自表达以及基于 L1 范数的图拉普拉斯正则化融入到同一框架中。 5) LRLMR[25] ：在低维子空间中进行学习，使得对噪声更加鲁棒；通过图的流形正则化项来保持原始数据的局部结构。 3.3 重构图像图 2 展示了 6 种不同的算法 (NDFS、JELSR、 SOGFS、L1-UFS、LRLMR、FSRGR) 关于 AR 数据集得到的部分重构图像。以图 2(g) 为例，共展示了 7 张图像，从左至右分别选取了 200、250、300、 350、400、450、500 个特征进行图像的重构。从第 2 期陈彤，等：特征自表达和图正则化的鲁棒无监督特征选择 ·289·

·290· 智能系统学报第17卷图2中可以看出，同其他5个对比算法相比，FSR- 3.4分类精度和聚类精度 G算法对于图像的重构效果更好。而在6种算将在不同数据集上比较FSRGR算法同其他法中，JELSR算法的重构效果最差，可以明显看 5种对比算法，分别评估它们的聚类及分类性出，随着所选特征数量的增加，该算法所选择的能。具体的结果见图3和图4。其中图3展示了特征均为不重要的面部特征，而重要的人脸的五所有算法在6个数据集上关于分类精度的对比结官特征并没有被选择。果。如图3所示，其横轴表示所选择的特征数，纵轴代表不同的特征数所对应的分类精度(ACC)。由于不同数据集的特征数通常是不相同的，因此 (a)原始图像对于YALE、ORL、AR和LEAVES数据集，我们所选择的特征数的范围为{50,100,150,200,250， 3001,而对于MSRA及USPS数据集，将所选择的 (b)NDFS 特征数的范围设置为(20,40,60,80,100,120)。并且对于每一个算法，为了呈现出最直实的比较结果，均将其参数调至为最佳参数，即所呈现出的 (c)JELSR 实验结果均为其最好的结果。首先从图3可以看出，在大多数情况下，本文所提出的FSRGR算法均优于其他对比算法。尤其在AR数据集上，相 (d)SOGFS 比其他5种对比算法，FSRGR所取得的分类效果明显更加优越。还可以看出，在5种对比算法中，分类性能最好的是LRLMR算法，分类效果最差 (e)L1-UFS 的是NDFS算法。其次，图4比较了FSRGR算法同其他对比算法在不同数据集上的聚类性能。从 (f)LRLMR 图中可以看出，随着所选特征数的增加，通过FS RGR算法所得到的聚类效果可以稳定地优于其他对比算法。这是因为本文所提出的方法既保留 (g)FSRGR 了数据的局部几何结构，又保留了数据的全局结构，并且通过对权重矩阵施加低秩约束，使得所图2不同算法对部分AR数据集的重构图像 Fig.2 Reconstructed images of partial AR data sets by dif- 学习到的投影向量的数量不受限制，从而可以得 ferent algorithms 到足够多的投影向量。 0.55 0.90r 0.85 0.50 0.85 0.80 0.45 0.80 0.40 NDFS 0.75 NDFS NDFS JELSR 0.35 SOGFS 0.70 0.30 0.65 FSRGR 0.65 FSRGR FSRGR 0.2 50 100150200 250 0.6 0.60 300 50 100150200 250 300 40 60 80 100 120 选择的特征数选择的特征数选择的特征数 (a)YALE (b)ORL (c)MSRA 0.90 -NDFS 。JELSR 0.74 0.56 0.80 SOGFS 0.54 ◆-L1-UFS 0.70 0.52 0.70 NDES 0.60 0.50 LRLMR 0.48 0.50 FSRGR 0.58 0.46 0.40 0.5 0.44 0100150200250300 20 406080100120 0100150200250300 选择的特征数选择的特征数选择的特征数 (d)AR (e)USPS (f)LEAVES 图36种算法在6种数据集上的分类精度 Fig.3 Classification accuracies of six methods on six data sets

图 2 中可以看出，同其他 5 个对比算法相比，FSRGR 算法对于图像的重构效果更好。而在 6 种算法中，JELSR 算法的重构效果最差，可以明显看出，随着所选特征数量的增加，该算法所选择的特征均为不重要的面部特征，而重要的人脸的五官特征并没有被选择。 (a) 原始图像 (b) NDFS (c) JELSR (d) SOGFS (e) L1-UFS (f) LRLMR (g) FSRGR 图 2 不同算法对部分 AR 数据集的重构图像 Fig. 2 Reconstructed images of partial AR data sets by different algorithms 3.4 分类精度和聚类精度 {50,100,150,200,250, 300} {20,40,60,80,100,120} 将在不同数据集上比较 FSRGR 算法同其他 5 种对比算法，分别评估它们的聚类及分类性能。具体的结果见图 3 和图 4。其中图 3 展示了所有算法在 6 个数据集上关于分类精度的对比结果。如图 3 所示，其横轴表示所选择的特征数，纵轴代表不同的特征数所对应的分类精度 (ACC)。由于不同数据集的特征数通常是不相同的，因此对于 YALE、ORL、AR 和 LEAVES 数据集，我们所选择的特征数的范围为，而对于 MSRA 及 USPS 数据集，将所选择的特征数的范围设置为。并且对于每一个算法，为了呈现出最真实的比较结果，均将其参数调至为最佳参数，即所呈现出的实验结果均为其最好的结果。首先从图 3 可以看出，在大多数情况下，本文所提出的 FSRGR 算法均优于其他对比算法。尤其在 AR 数据集上，相比其他 5 种对比算法，FSRGR 所取得的分类效果明显更加优越。还可以看出，在 5 种对比算法中，分类性能最好的是 LRLMR 算法，分类效果最差的是 NDFS 算法。其次，图 4 比较了 FSRGR 算法同其他对比算法在不同数据集上的聚类性能。从图中可以看出，随着所选特征数的增加，通过 FSRGR 算法所得到的聚类效果可以稳定地优于其他对比算法。这是因为本文所提出的方法既保留了数据的局部几何结构，又保留了数据的全局结构，并且通过对权重矩阵施加低秩约束，使得所学习到的投影向量的数量不受限制，从而可以得到足够多的投影向量。 50 100 150 200 250 300 选择的特征数 NDFS JELSR SOGFS LRLMR FSRGR L1-UFS NDFS JELSR LRLMR FSRGR SOGFS L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS ACC 0.55 0.50 0.45 0.40 0.35 0.30 0.25 (a) YALE 50 100 150 200 250 300 选择的特征数 0.60 0.65 0.70 0.75 0.80 0.85 0.90 ACC (b) ORL 20 40 60 80 100 120 选择的特征数 0.60 0.65 0.70 0.75 0.80 0.85 ACC (c) MSRA 50 100 150 200 250 300 选择的特征数 0.40 0.50 0.60 0.70 0.80 0.90 ACC 20 40 60 80 100 120 选择的特征数 0.54 0.58 0.62 0.66 0.70 0.74 ACC (d) AR 50 100 150 200 250 300 选择的特征数 0.44 0.46 0.48 0.50 0.52 0.54 0.56 ACC (e) USPS (f) LEAVES 图 3 6 种算法在 6 种数据集上的分类精度 Fig. 3 Classification accuracies of six methods on six data sets ·290· 智能系统学报第 17 卷

第2期陈形，等：特征自表达和图正则化的鲁棒无监督特征选择 ·291· 0.40 0.50 0.56 0.38 0.48 0.52 0.36 0.46 NDES NDES 0.44 JFLSR 0.44 0.32 SOGES 0.42 SOGFS I L-TES 0.30 LRLMR 0.40 LRLMR 0.40 FSRGR 0.28 FSRGR 0.38 0.36 0 100150200 250300 0 100150200 250 300 0 406080100120 选择的特征数选择的特征数选择的特征数 (a)YALE (b)ORL (c)MSRA 0.5 -NDES 0.65 NDFS 0.50 JELSR 0.4 0.55 、-女 0.46 -b-SOGFS --SOGFS <0.2 当 ” LI-UFS LI-UFS LI-UFS 0.1 LRLMR 0.25 0.34 LRLMR -FSRGR -FSRGR FSRGR 0 0.1 0.30 50 100150200250 300 20 40 6080 100120 50 100150 200250 300 选择的特征数选择的特征数选择的特征数 (d)AR (e)USPS (f)LEAVES 图46种算法在6种数据集上的聚类精度 Fig.4 Clustering accuracies of six methods on six data sets 3.5 运行时间从表2可以看出，在所有方法中运行时间最为了比较不同算法的运行时间，在YALE、短的是LRLMR算法，本文所提出的FSRGR算法 MSRA、ORL和USPS数据集上进行了聚类实验，同L1-UFS.LRLMR及NDFS算法相比，运行时间所有算法均在MATLAB中实现。具体的实验结较长。而ELSR与SOGFS算法对于不同的数据果位于表2中。集，运行时间并不稳定。表2不同方法的运行时间 Table 2 Running time of different methods 数据集 FSRGR JELSR L1-UFS LRLMR NDFS SOGFS YALE 1.2050±0.0087 0.4319±0.0022 0.8064±0.0975 0.3943±0.1185 0.1782±0.098 2.1252±0.2921 MSRA 1.4480±0.0015 3.0495±0.0032 0.2080±0.0413 0.2080±0.0895 1.0388±0.0895 1.4380±0.1261 ORL 1.1572±0.0024 0.5262±0.0023 1.0063±0.0516 0.5111±0.1063 0.2211±0.0982 2.2545±0.0073 USPS 1.1509±0.0075 3.7314牡0.0039 0.1315±0.0558 0.0995±0.0467 1.3163±0.0741 0.1380±0.0030 3.6收敛性分析影响。首先参数B是用于平衡X-XABI和IIGABIL2 通过计算不同迭代次数对应的目标函数值来其次是参数A,用于控制AB的稀疏性。并且这观察FSRGR算法的收敛曲线。并且最大迭代次两个参数的取值范围均被设置为{10-6,10-4，数设置为10。由于FSRGR算法在不同的数据集 10-2,1,102,10,101。实验采用了K-means算法，呈上有相似的收敛性，因此在收敛性分析的部分只现出了不同的参数组合在不同的数据集上对于聚展示了在YALE数据集上的实验结果。从图5中类精度的影响。具体的实验结果见图6。可以发现：1)所提出的算法优化了式(12)所提出从图6可以看出，本文所提出的方法对参数的目标函数，单调地减少了目标函数值直至算法的设置较为敏感，不同的参数组合具有不同的聚收敛。2)所提出的算法需要经过数次迭代来有效类结果。举例说明，对于人脸数据集YALE,当地达到收敛。 A=10-2,B=106时，FSRGR的聚类精度达到了 3.7参数设置 36.89%的最好效果；而对于手写字数据集USPS, 重点研究参数B和入的取值对于聚类精度的当A=10,B=10~4时，FSRGR的聚类精度达到了

NDFS NDFS JELSR SOGFS JELSR SOGFS LRLMR FSRGR L1-UFS LRLMR FSRGR L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS NDFS JELSR SOGFS LRLMR FSRGR L1-UFS (a) YALE (b) ORL (c) MSRA (d) AR (e) USPS (f) LEAVES 50 100 150 200 250 300 选择的特征数 0 0.1 0.2 0.3 0.4 0.5 ACC NDFS JELSR SOGFS LRLMR FSRGR L1-UFS 50 100 150 200 250 300 选择的特征数 0.30 0.34 0.38 0.42 0.46 0.50 ACC 20 40 60 80 100 120 选择的特征数 0.36 0.40 0.44 0.48 0.52 0.56 ACC 50 100 150 200 250 300 选择的特征数 0.38 0.40 0.42 0.44 0.46 0.48 0.50 ACC 20 40 60 80 100 120 选择的特征数 0.15 0.25 0.35 0.45 0.55 0.65 ACC 50 100 150 200 250 300 选择的特征数 0.28 0.30 0.32 0.34 0.36 0.38 0.40 ACC 图 4 6 种算法在 6 种数据集上的聚类精度 Fig. 4 Clustering accuracies of six methods on six data sets 3.5 运行时间为了比较不同算法的运行时间，在 YALE、 MSRA、ORL 和 USPS 数据集上进行了聚类实验，所有算法均在 MATLAB 中实现。具体的实验结果位于表 2 中。从表 2 可以看出，在所有方法中运行时间最短的是 LRLMR 算法，本文所提出的 FSRGR 算法同 L1-UFS,LRLMR 及 NDFS 算法相比，运行时间较长。而 JELSR 与 SOGFS 算法对于不同的数据集，运行时间并不稳定。表 2 不同方法的运行时间 Table 2 Running time of different methods s 数据集 FSRGR JELSR L1-UFS LRLMR NDFS SOGFS YALE 1.205 0±0.0087 0.4319±0.0022 0.8064±0.0975 0.394 3±0.1185 0.178 2±0.098 2.1252±0.292 1 MSRA 1.448 0±0.0015 3.0495±0.0032 0.2080±0.0413 0.208 0±0.0895 1.0388±0.0895 1.4380±0.126 1 ORL 1.157 2±0.0024 0.5262±0.0023 1.0063±0.0516 0.511 1±0.1063 0.221 1 ±0.098 2 2.2545±0.007 3 USPS 1.150 9±0.0075 3.731 4± 0.003 9 0.1315±0.0558 0.099 5±0.0467 1.3163±0.0741 0.1380±0.003 0 3.6 收敛性分析通过计算不同迭代次数对应的目标函数值来观察 FSRGR 算法的收敛曲线。并且最大迭代次数设置为 10。由于 FSRGR 算法在不同的数据集上有相似的收敛性，因此在收敛性分析的部分只展示了在 YALE 数据集上的实验结果。从图 5 中可以发现：1) 所提出的算法优化了式 (12) 所提出的目标函数，单调地减少了目标函数值直至算法收敛。2) 所提出的算法需要经过数次迭代来有效地达到收敛。 3.7 参数设置重点研究参数 β 和 λ 的取值对于聚类精度的 β ∥X− XAB∥ 2 F ∥GAB∥2,1 λ AB {10−6 ,10−4 , 10−2 ,1,102 ,104 ,106 } 影响。首先参数是用于平衡和，其次是参数，用于控制的稀疏性。并且这两个参数的取值范围均被设置为。实验采用了 K-means 算法，呈现出了不同的参数组合在不同的数据集上对于聚类精度的影响。具体的实验结果见图 6。 λ = 10−2 , β = 10−6 λ = 104 , β = 10−4 从图 6 可以看出，本文所提出的方法对参数的设置较为敏感，不同的参数组合具有不同的聚类结果。举例说明，对于人脸数据集 YALE,当时， FSRGR 的聚类精度达到了 36.89% 的最好效果；而对于手写字数据集 USPS，当时，FSRGR 的聚类精度达到了第 2 期陈彤，等：特征自表达和图正则化的鲁棒无监督特征选择 ·291·

第2期陈形，等：特征自表达和图正则化的鲁棒无监督特征选择 ·293· 0.61 0.8 0.48r 0.7 一低秋 0.5 0.46◆满秩 0.6 0.445 80.5 80.42 0.4 0.40 02 一联 0.3 →低秩 ◆满秩 0.38 0.1 0.2 0.36 3 6 9 15 6 91215 6 1215 秩秩秩 (d)AR (e)USPS (f)LEAVES 图7 FSRGR在不同秩上的ACC结果 Fig.7 ACC results of FSRGR at different number of ranks 4结束语 [6]CAI Deng,ZHANG Chiyuan,HE Xiaofei.Unsupervised feature selection for multi-cluster data[Cl//Proceedings of 本文提出了一种新的鲁棒无监督特征选择模 the 16th ACM SIGKDD International Conference on 型，它将特征自表达、低秩约束、图正则化以及 Knowledge Discovery and Data Mining.Washington, L21范数正则化项统一在同一框架中，将传统的基 USA.2010:333-342. 于L2范数的图正则化项通过特征分解改为基于 [7]ADHIKARY J R,MURTY M N.Feature selection for L2:范数的正则化项，并对权重矩阵施加了一个低 unsupervised learning[C]//Proceedings of 19th Interna- 秩约束。该方法能够降低噪声数据对特征选择的 tional Conference on Neural Information Processing. 影响，并且在保留了数据局部几何结构的同时又 Doha,Qatar,2012:382-389. 很好地保留了数据的全局结构。理论分析和实验 [8]周志华.机器学习[M.北京：清华大学出版社，2016：结果均表明，与现有的特征选择方法相比，所给 1-425 出的方法具有更好的效果。 [9]LI Hao,WANG Yongli,LI Yanchao,et al.Joint local 在未来的研究中，将对所提出的框架进行扩 structure preservation and redundancy minimization for 展，以对不完整的高维数据进行特征选择，因为 unsupervised feature selection[J].Applied intelligence, 在许多实际应用中经常会发现不完整的数据集。 2020,50(12)4394-4411. [10]LIU Yanfang,YE Dongyi,LI Wenbin,et al.Robust 参考文献： neighborhood embedding for unsupervised feature selec- [1]NIE Feiping,HUANG Heng,CAI Xiao,et al.Efficient tion[J].Knowledge-based systems,2020,193:105462. and robust feature selection via joint (i-norms minimization [11]LIU Xinwang,WANG Lei,ZHANG Jian,et al.Global [Cl//Proceedings of the 23rd International Conference on and local structure preservation for feature selection[J]. Neural Information Processing Systems.Vancouver, IEEE transactions on neural networks and learning sys- Canada.2010:1813-1821. tems,2014,25(6):1083-1095. [2]ZHAO Jidong,LU Ke,HE Xiaofei.Locality sensitive [12]ROWEIS S T.SAUL L K.Nonlinear dimensionality re- semi-supervised feature selection[J].Neurocomputing, duction by locally linear embedding[J].Science,2000, 2008,71(10/12):1842-1849 290(5500):2323-2326. [3]HE Xiaofei,CAI Deng,NIYOGI P.Laplacian score for [13]HE Xiaofei,NIYOGI P.Locality preserving projections feature selection[C]//Proceedings of the 18th Internation- [C]/Proceedings of the 16th International Conference on al Conference on Neural Information Processing Systems. Neural Information Processing Systems.Whistler, Vancouver,Canada,2005:507-514. Canada,.2003:153-160. [4]HOU Chenping,NIE Feiping,LI Xuelong,et al.Joint em- [14]ZHANG Tianhao,YANG Jie,ZHAO Deli,et al.Linear bedding learning and sparse regression:a framework for local tangent space alignment and application to face re- unsupervised feature selection[J].IEEE transactions on cognition[J].Neurocomputing,2007,70(7/8/9): cybernetics,.2014,44(6):793-804 1547-1553 [5]TABAKHI S,MORADI P,AKHLAGHIAN F.An unsu- [15]ZHU Pengfei,ZUO Wangmeng,ZHANG Lei,et al.Un- pervised feature selection algorithm based on ant colony supervised feature selection by regularized self-repres- optimization[J].Engineering applications of artificial in- entation[J].Pattern recognition,2015,48(2):438-446. telligence,2014,32:112-123 [16]BELHUMEUR P N.HESPANHA J P.KRIEGMAN D

3 6 9 12 15 秩 3 6 9 12 15 秩 3 6 9 12 15 秩低秩满秩低秩满秩 (d) AR (e) USPS (f) LEAVES 0.1 0.2 0.3 0.4 0.5 0.6 ACC 0.2 0.3 0.4 0.5 0.6 0.7 0.8 ACC 0.36 0.38 0.40 0.42 0.44 0.46 0.48 ACC 低秩满秩图 7 FSRGR 在不同秩上的 ACC 结果 Fig. 7 ACC results of FSRGR at different number of ranks 4 结束语 L2,1 L2 L2,1 本文提出了一种新的鲁棒无监督特征选择模型，它将特征自表达、低秩约束、图正则化以及范数正则化项统一在同一框架中,将传统的基于范数的图正则化项通过特征分解改为基于范数的正则化项，并对权重矩阵施加了一个低秩约束。该方法能够降低噪声数据对特征选择的影响，并且在保留了数据局部几何结构的同时又很好地保留了数据的全局结构。理论分析和实验结果均表明，与现有的特征选择方法相比，所给出的方法具有更好的效果。在未来的研究中，将对所提出的框架进行扩展，以对不完整的高维数据进行特征选择，因为在许多实际应用中经常会发现不完整的数据集。参考文献： NIE Feiping, HUANG Heng, CAI Xiao, et al. Efficient and robust feature selection via joint ℓ2, 1-norms minimization [C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, Canada, 2010: 1813−1821. [1] ZHAO Jidong, LU Ke, HE Xiaofei. Locality sensitive semi-supervised feature selection[J]. Neurocomputing, 2008, 71(10/12): 1842–1849. [2] HE Xiaofei, CAI Deng, NIYOGI P. Laplacian score for feature selection[C]//Proceedings of the 18th International Conference on Neural Information Processing Systems. Vancouver, Canada, 2005: 507−514. [3] HOU Chenping, NIE Feiping, LI Xuelong, et al. Joint embedding learning and sparse regression: a framework for unsupervised feature selection[J]. IEEE transactions on cybernetics, 2014, 44(6): 793–804. [4] TABAKHI S, MORADI P, AKHLAGHIAN F. An unsupervised feature selection algorithm based on ant colony optimization[J]. Engineering applications of artificial intelligence, 2014, 32: 112–123. [5] CAI Deng, ZHANG Chiyuan, HE Xiaofei. Unsupervised feature selection for multi-cluster data[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington, USA, 2010: 333−342. [6] ADHIKARY J R, MURTY M N. Feature selection for unsupervised learning[C]//Proceedings of 19th International Conference on Neural Information Processing. Doha, Qatar, 2012: 382−389. [7] 周志华. 机器学习 [M]. 北京: 清华大学出版社, 2016: 1−425. [8] LI Hao, WANG Yongli, LI Yanchao, et al. Joint local structure preservation and redundancy minimization for unsupervised feature selection[J]. Applied intelligence, 2020, 50(12): 4394–4411. [9] LIU Yanfang, YE Dongyi, LI Wenbin, et al. Robust neighborhood embedding for unsupervised feature selection[J]. Knowledge-based systems, 2020, 193: 105462. [10] LIU Xinwang, WANG Lei, ZHANG Jian, et al. Global and local structure preservation for feature selection[J]. IEEE transactions on neural networks and learning systems, 2014, 25(6): 1083–1095. [11] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323–2326. [12] HE Xiaofei, NIYOGI P. Locality preserving projections [C]//Proceedings of the 16th International Conference on Neural Information Processing Systems. Whistler, Canada, 2003: 153−160. [13] ZHANG Tianhao, YANG Jie, ZHAO Deli, et al. Linear local tangent space alignment and application to face recognition[J]. Neurocomputing, 2007, 70(7/8/9): 1547–1553. [14] ZHU Pengfei, ZUO Wangmeng, ZHANG Lei, et al. Unsupervised feature selection by regularized self-representation[J]. Pattern recognition, 2015, 48(2): 438–446. [15] [16] BELHUMEUR P N, HESPANHA J P, KRIEGMAN D 第 2 期陈彤，等：特征自表达和图正则化的鲁棒无监督特征选择 ·293·

·294· 智能系统学报第17卷 J.Eigenfaces vs.Fisherfaces:recognition using class [23]NIE Feiping,ZHU Wei,LI Xuelong.Unsupervised fea- specific linear projection[].IEEE transactions on pat- ture selection with structured graph optimization[C]// tern analysis and machine intelligence,1997,19(7): Proceedings of the Thirtieth AAAl Conference on Artifi- 711-720. cial Intelligence.Phoenix,Arizona,2016:1302-1308. [17]SAMARIA F S.HARTER A C.Parameterisation of a stochastic model for human face identification[C]//Pro- [24]TANG Chang,ZHU Xinzhong,CHEN Jiajia,et al.Ro- ceedings of 1994 IEEE Workshop on Applications of bust graph regularized unsupervised feature selection[J]. Computer Vision.Sarasota,USA,1994:138-142 Expert systems with applications,2018,96:64-76. [18]NIE Feiping,HUANG Heng.Subspace clustering via [25]TANG Chang,BIAN Meiru,LIU Xinwang,et al.Unsu- new low-rank model with discrete group structure con- pervised feature selection via latent representation learn- straint[C]//Proceedings of the Twenty-Fifth Internation- ing and manifold regularization[J].Neural networks. al Joint Conference on Artificial Intelligence.New York, 2019,117:163-178. USA,2016. [19]MARTINEZ A M,BENAVENTE R.The AR face data- 作者简介： base:CVC Technical Report #24[R].Barcelona,Com- 陈彤，女，硕士研究生，主要研究 puter Vision Center,1998. 方向为数字图像处理和模式识别。 [20]HULL J J.A database for handwritten text recognition research[J].IEEE transactions on pattern analysis and machine intelligence,1994,16(5):550-554 [21]DU Jixiang,WANG Xiaofeng,ZHANG Guojun.Leaf shape based plant species recognition[J].Applied math- ematics and computation,2007,185(2):883-893. 陈秀宏，男，教授，博士后，主要研 [22]LI Zechao,YANG Yi,LIU Jing,et al.Unsupervised fea- 究方向为数字图像处理和模式识别优化理论与方法。发表学术论文 ture selection using nonnegative spectral analysis[C// 120余篇。 Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence.Toronto,Canada,2012:1026- 1032

J. Eigenfaces vs. Fisherfaces: recognition using class specific linear projection[J]. IEEE transactions on pattern analysis and machine intelligence, 1997, 19(7): 711–720. SAMARIA F S, HARTER A C. Parameterisation of a stochastic model for human face identification[C]//Proceedings of 1994 IEEE Workshop on Applications of Computer Vision. Sarasota, USA, 1994: 138−142. [17] NIE Feiping, HUANG Heng. Subspace clustering via new low-rank model with discrete group structure constraint[C]//Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York, USA, 2016. [18] MARTÍNEZ A M, BENAVENTE R. The AR face database: CVC Technical Report #24[R]. Barcelona, Computer Vision Center, 1998. [19] HULL J J. A database for handwritten text recognition research[J]. IEEE transactions on pattern analysis and machine intelligence, 1994, 16(5): 550–554. [20] DU Jixiang, WANG Xiaofeng, ZHANG Guojun. Leaf shape based plant species recognition[J]. Applied mathematics and computation, 2007, 185(2): 883–893. [21] LI Zechao, YANG Yi, LIU Jing, et al. Unsupervised feature selection using nonnegative spectral analysis[C]// Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence. Toronto, Canada, 2012: 1026− 1032. [22] NIE Feiping, ZHU Wei, LI Xuelong. Unsupervised feature selection with structured graph optimization[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, Arizona, 2016: 1302−1308. [23] TANG Chang, ZHU Xinzhong, CHEN Jiajia, et al. Robust graph regularized unsupervised feature selection[J]. Expert systems with applications, 2018, 96: 64–76. [24] TANG Chang, BIAN Meiru, LIU Xinwang, et al. Unsupervised feature selection via latent representation learning and manifold regularization[J]. Neural networks, 2019, 117: 163–178. [25] 作者简介：陈彤，女，硕士研究生，主要研究方向为数字图像处理和模式识别。陈秀宏，男，教授，博士后，主要研究方向为数字图像处理和模式识别、优化理论与方法。发表学术论文 120 余篇。 ·294· 智能系统学报第 17 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录