【机器感知与模式识别】联合不相关回归和非负谱分析的无监督特征选择

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：3.74MB

第17卷第2期智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202012033 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20211015.0035.002.html 联合不相关回归和非负谱分析的无监督特征选择朱星宇1，陈秀宏 (1.江南大学人工智能与计算机学院，江苏无锡214122,2.江南大学江苏省蝶体设计与软件技术重点实验室，江苏无锡214122) 摘要：在无标签高维数据普遍存在的数据挖掘和模式识别任务中，无监督特征选择是必不可少的预处理步骤。然而现有的大多数特征选择方法忽略了数据特征之间的相关性，选择出具有高冗余、低判别性的特征。本文提出一种基于联合不相关回归和非负谱分析的无监督特征选择方法(joint uncorrelated regression and nonnegat-- ive spectral analysis for unsupervised feature selection),在选择不相关且具有判别性特征的同时，自适应动态确定数据之间的相似性关系，从而能获得更准确的数据结构和标签信息。而且，模型中广义不相关约束能够避免平凡解，所以此方法具有不相关回归和非负谱聚类两种特征选择方法的优点。本文还设计出一种求解模型的高效算法，并在多个数据集上进行了大量实验与分析，验证模型的优越性。关键词：不相关回归；非负谱分析；冗余特征；局部结构学习；无监督学习；自适应图：特征选择；判别性特征中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2022)02-0303-11 中文引用格式：朱星宇，陈秀宏.联合不相关回归和非负谱分析的无监督特征选择.智能系统学报，2022,17(2)：303-313. 英文引用格式：ZHU Xingyu,CHEN Xiuhong.Joint uncorrelated regression and non-negative spectral analysis for unsupervised feature selection[J].CAAI transactions on intelligent systems,2022,17(2):303-313. Joint uncorrelated regression and non-negative spectral analysis for unsupervised feature selection ZHU Xingyu',CHEN Xiuhong (1.School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China;2.Jiangsu Key Laboratory of Media Design and Software Technology,Jiangnan University,Wuxi 214122,China) Abstract:Unsupervised feature selection is an essential preprocessing step in the data mining and pattern recognition tasks of unlabeled high-dimensional data.However,most existing feature selection methods ignore the correlation between data features and select features with high redundancy and low discrimination.This paper proposes an unsuper- vised feature selection method based on joint uncorrelated regression and non-negative spectral analysis (Joint uncorrel- ated regression and nonnegative spectral analysis for unsupervised feature selection).It adaptively and dynamically de- termines the similarity relationship between data while selecting uncorrelated and discriminant features,so that more ac- curate data structure and label information can be obtained.Moreover,the generalized uncorrelated constraints in the model can avoid trivial solutions,so this method has the advantages of two feature selection methods:uncorrelated re- gression and non-negative spectral clustering.An efficient algorithm for solving the model is also designed,and a large number of experiments and analyses are carried out on multiple data sets to verify the superiority of the model. Keywords:uncorrelated regression;non-negative spectral analysis;redundant features;local structure learning;unsu- pervised learning,adaptive graph;feature selection;discriminant feature 收稿日期：2020-12-18.网络出版日期：2021-10-15. 基金项目：江苏省研究生科研与实践创新计划项目(NKYI9074). 在信息时代背景下产生了海量的高维数据，通信作者：陈秀宏.E-mail:xiuhongc(@jiangnan.edu..cm 然而这些数据通常含有大量冗余特征和噪声，降

DOI: 10.11992/tis.202012033 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211015.0035.002.html 联合不相关回归和非负谱分析的无监督特征选择朱星宇1 ，陈秀宏2 （1. 江南大学人工智能与计算机学院，江苏无锡 214122; 2. 江南大学江苏省媒体设计与软件技术重点实验室，江苏无锡 214122）摘要：在无标签高维数据普遍存在的数据挖掘和模式识别任务中，无监督特征选择是必不可少的预处理步骤。然而现有的大多数特征选择方法忽略了数据特征之间的相关性，选择出具有高冗余、低判别性的特征。本文提出一种基于联合不相关回归和非负谱分析的无监督特征选择方法 (joint uncorrelated regression and nonnegative spectral analysis for unsupervised feature selection)，在选择不相关且具有判别性特征的同时，自适应动态确定数据之间的相似性关系，从而能获得更准确的数据结构和标签信息。而且，模型中广义不相关约束能够避免平凡解，所以此方法具有不相关回归和非负谱聚类两种特征选择方法的优点。本文还设计出一种求解模型的高效算法，并在多个数据集上进行了大量实验与分析，验证模型的优越性。关键词：不相关回归；非负谱分析；冗余特征；局部结构学习；无监督学习；自适应图；特征选择；判别性特征中图分类号：TP391.4 文献标志码：A 文章编号：1673−4785(2022)02−0303−11 中文引用格式：朱星宇, 陈秀宏. 联合不相关回归和非负谱分析的无监督特征选择 [J]. 智能系统学报, 2022, 17(2): 303–313. 英文引用格式：ZHU Xingyu, CHEN Xiuhong. Joint uncorrelated regression and non-negative spectral analysis for unsupervised feature selection[J]. CAAI transactions on intelligent systems, 2022, 17(2): 303–313. Joint uncorrelated regression and non-negative spectral analysis for unsupervised feature selection ZHU Xingyu1 ，CHEN Xiuhong2 (1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Key Laboratory of Media Design and Software Technology, Jiangnan University, Wuxi 214122, China) Abstract: Unsupervised feature selection is an essential preprocessing step in the data mining and pattern recognition tasks of unlabeled high-dimensional data. However, most existing feature selection methods ignore the correlation between data features and select features with high redundancy and low discrimination. This paper proposes an unsupervised feature selection method based on joint uncorrelated regression and non-negative spectral analysis (Joint uncorrelated regression and nonnegative spectral analysis for unsupervised feature selection). It adaptively and dynamically determines the similarity relationship between data while selecting uncorrelated and discriminant features, so that more accurate data structure and label information can be obtained. Moreover, the generalized uncorrelated constraints in the model can avoid trivial solutions, so this method has the advantages of two feature selection methods: uncorrelated regression and non-negative spectral clustering. An efficient algorithm for solving the model is also designed, and a large number of experiments and analyses are carried out on multiple data sets to verify the superiority of the model. Keywords: uncorrelated regression; non-negative spectral analysis; redundant features; local structure learning; unsupervised learning; adaptive graph; feature selection; discriminant feature 在信息时代背景下产生了海量的高维数据，然而这些数据通常含有大量冗余特征和噪声，降收稿日期：2020−12−18. 网络出版日期：2021−10−15. 基金项目：江苏省研究生科研与实践创新计划项目（JNKY19_074）. 通信作者：陈秀宏. E-mail：xiuhongc@jiangnan.edu.cn. 第 17 卷第 2 期智能系统学报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022

·304· 智能系统学报第17卷低了算法的性能。因此，如何从高维数据中选出尽管上述无监督特征选择方法已经在各种应最有效的特征即特征选择已成为一项研究热点，用中取得了良好的性能，但仍有以下不足：1)上特征选择旨在通过去除冗余、不相关和有噪声的述基于谱特征选择的方法构造的相似图是从原始特征，找到一组简洁且具有良好泛化能力的特征，数据得到且是静态的，而现实世界的数据始终包由此产生的方法已在机器学习)、数据挖掘)和含大量噪声，这使得静态相似矩阵很不可靠，进生物信息学等领域得到了广泛的应用。基于是而破坏局部流形结构；2)最优相似矩阵应具有精否使用标签，特征选择方法可分为有监督学习山确的c个连通分量(c是类簇数)，它能更准确地和无监督学习问。揭示数据的局部邻域结构：3)通过传统正交约束有监督学习依赖于数据的标签信息，并利用选择出的特征虽达到了低冗余的目的，但会丢失它直接指导学习过程。然而，从未标记数据中提一些判别性的特征，这些特征在分类任务中往往取最有判别性的信息是一个具有挑战性的问题，能起到关键作用。由于无监督特征选择可以根据原始数据的潜在属综合上述分析，本文联合广义不相关回归、结性来确定特征的重要性，因此近年来越来越受到构化最优图和非负谱分析，提出一个联合不相关研究人员的关注。本文主要研究无监督特征选择回归和非负谱分析的无监督特征选择模型。模型方法。中对相似矩阵增加包含精确的c个连通分量的约基于谱分析的无监督特征选择因其出色的性束，可以用来动态学习结构化最优图，进而更准能引起了广泛关注，本节将回顾一些比较经典的确地揭示数据之间的局部结构信息；同时通过非谱特征选择方法。无监督的判别特征选择(L2,~ 负谱聚类可以学习到更真实准确的聚类指标；利 norm regularized discriminative feature selection for 用广义不相关约束的正则回归方法选择不相关和 unsupervised learning)联合使用判别分析和判别性的特征，有效避免不相关约束导致的平凡 L2!范数进行无监督特征选择，它虽然可以选择判解。在不同数据集上的实验表明所提出的方法是别性的特征，但却忽略了数据间的内在结构。有效的，且该模型在无监督二维图像的特征选择 Nie等m提出了灵活流形嵌入(flexible manifold 领域，如：医学图像分类、人脸识别、模式识别等 embedding:a framework for semi-supervised and un- 计算机视觉任务方面有着广泛的应用价值。 supervised dimension reduction)作为降维的一般框架，非负判别特征选择(unsupervised feature selec- 1相关工作 tion using nonnegative spectral analysis) 给定输人数据集X=[x12…xn]∈R,x;表示 FME框架中结合特征选择和谱聚类学习，它具有第i个样本，并且这些数据点属于c个不同的类鲁棒非负矩阵分解、局部学习和鲁棒特征学习的簇。记r(M)为矩阵的迹；M为矩阵M的转置；优势。联合嵌人学习和稀疏回归(joint embedding IMle为矩阵M的F范数：m表示矩阵M的第i行向 learning and sparse regression:a framework for unsu- 量；m,表示矩阵M的第j列向量；m,表示矩阵M的 pervised feature selection)是基于FME和L2:范数第i行，第j列元素；给定矩阵M∈R,它的L21范的特征选择方法，它致力于嵌入学习高维样本的低维表示。最近，Nie等o提出了结构最优图特数定义为IMl21= ∑∑=∑ml,其中征选择(unsupervised feature selection with struc-. =1 = tured graph optimization),该方法同时执行特征选表示向量m的L2范数；I为单位矩阵；1=[11…1 择和局部结构学习，同时它可以自适应地确定数 eR。中心矩阵H定义为H=I--严。 1 据间的相似性矩阵，但过于严格的正交约束选择 1.1广义不相关回归模型出的特征会丢失一定程度的判别性，从而降低他无监督特征选择也可以表示为回归模型，们在聚类或分类任务中的性能。自适应图的广义从而正则化回归模型也广泛应用在无监督特征不相关回归(generalized uncorrelated regression 选择中。但是，已有工作忽略了特征的不相关 with adaptive graph for unsupervised feature selec- 性。尤其是当只需少量特征时，需要选择最具判 tion)通过最大嫡来自适应地构造相似图，进而别性的特征。Li等)提出的以下广义不相关回同时进行特征选择和谱聚类，但它在学习相似图归模型(generalized uncorrelated regression model,, 时采用标签矩阵学习，没有考虑原始数据的类簇 GURM)可以获得具有判别性且不相关的流形结构，这显然不是很合理。结构：

低了算法的性能。因此，如何从高维数据中选出最有效的特征即特征选择已成为一项研究热点，特征选择旨在通过去除冗余、不相关和有噪声的特征，找到一组简洁且具有良好泛化能力的特征，由此产生的方法已在机器学习[1] 、数据挖掘[2] 和生物信息学[3] 等领域得到了广泛的应用。基于是否使用标签，特征选择方法可分为有监督学习[4] 和无监督学习[5]。有监督学习依赖于数据的标签信息，并利用它直接指导学习过程。然而，从未标记数据中提取最有判别性的信息是一个具有挑战性的问题，由于无监督特征选择可以根据原始数据的潜在属性来确定特征的重要性，因此近年来越来越受到研究人员的关注。本文主要研究无监督特征选择方法。基于谱分析的无监督特征选择因其出色的性能引起了广泛关注，本节将回顾一些比较经典的谱特征选择方法。无监督的判别特征选择 (L2,1- norm regularized discriminative feature selection for unsupervised learning)[ 6 ] 联合使用判别分析和 L2,1 范数进行无监督特征选择，它虽然可以选择判别性的特征，但却忽略了数据间的内在结构。 Nie 等 [7] 提出了灵活流形嵌入 (flexible manifold embedding: a framework for semi-supervised and unsupervised dimension reduction) 作为降维的一般框架，非负判别特征选择 (unsupervised feature selection using nonnegative spectral analysis)[8] 则在 FME 框架中结合特征选择和谱聚类学习，它具有鲁棒非负矩阵分解、局部学习和鲁棒特征学习的优势。联合嵌入学习和稀疏回归 (joint embedding learning and sparse regression: a framework for unsupervised feature selection)[9] 是基于 FME 和 L2,1 范数的特征选择方法，它致力于嵌入学习高维样本的低维表示。最近，Nie 等 [10] 提出了结构最优图特征选择 (unsupervised feature selection with structured graph optimization)，该方法同时执行特征选择和局部结构学习，同时它可以自适应地确定数据间的相似性矩阵，但过于严格的正交约束选择出的特征会丢失一定程度的判别性，从而降低他们在聚类或分类任务中的性能。自适应图的广义不相关回归 (generalized uncorrelated regression with adaptive graph for unsupervised feature selection)[11] 通过最大熵来自适应地构造相似图，进而同时进行特征选择和谱聚类，但它在学习相似图时采用标签矩阵学习，没有考虑原始数据的类簇结构，这显然不是很合理。尽管上述无监督特征选择方法已经在各种应用中取得了良好的性能，但仍有以下不足：1) 上述基于谱特征选择的方法构造的相似图是从原始数据得到且是静态的，而现实世界的数据始终包含大量噪声，这使得静态相似矩阵很不可靠，进而破坏局部流形结构；2) 最优相似矩阵应具有精确的 c 个连通分量（c 是类簇数），它能更准确地揭示数据的局部邻域结构；3) 通过传统正交约束选择出的特征虽达到了低冗余的目的，但会丢失一些判别性的特征，这些特征在分类任务中往往能起到关键作用。综合上述分析，本文联合广义不相关回归、结构化最优图和非负谱分析，提出一个联合不相关回归和非负谱分析的无监督特征选择模型。模型中对相似矩阵增加包含精确的 c 个连通分量的约束，可以用来动态学习结构化最优图，进而更准确地揭示数据之间的局部结构信息；同时通过非负谱聚类可以学习到更真实准确的聚类指标；利用广义不相关约束的正则回归方法选择不相关和判别性的特征，有效避免不相关约束导致的平凡解。在不同数据集上的实验表明所提出的方法是有效的，且该模型在无监督二维图像的特征选择领域，如：医学图像分类、人脸识别、模式识别等计算机视觉任务方面有着广泛的应用价值。 1 相关工作 X = [x1 x2 ··· xn] ∈ R d×n xi tr(M) MT M ∥M∥F M F mi M mj M mi j M M ∈ R d×c L2,1 ∥M∥2,1 = ∑d i=1 vt∑c j=1 m 2 i j = ∑d i=1 m i 2 mi 2 mi L2 I 1 = [1 1 ··· 1]T ∈ R n×1 H H = I− 1 n I T 给定输入数据集，表示第 i 个样本，并且这些数据点属于 c 个不同的类簇。记为矩阵的迹；为矩阵的转置；为矩阵的范数；表示矩阵的第 i 行向量；表示矩阵的第 j 列向量；表示矩阵的第 i 行，第 j 列元素；给定矩阵，它的范数定义为，其中表示向量的范数；为单位矩阵；。中心矩阵定义为。 1.1 广义不相关回归模型无监督特征选择也可以表示为回归模型，从而正则化回归模型也广泛应用在无监督特征选择中。但是，已有工作忽略了特征的不相关性。尤其是当只需少量特征时，需要选择最具判别性的特征。Li 等 [11] 提出的以下广义不相关回归模型 (generalized uncorrelated regression model， GURM) 可以获得具有判别性且不相关的流形结构： ·304· 智能系统学报第 17 卷

第2期朱星宇，等：联合不相关回归和非负谱分析的无监督特征选择 ·305· 盟x'W+1b-F+pwIb 分量时（即它仅含有c个对角分块），则每个样本 (1) s.t.WTSGW=I 的近邻是最佳的。但是，问题(3)（式(3）)的解一般不具备此性质，大多数情况下其解只包含1个连式中：W∈R是回归矩阵，b∈R1是偏差项，FeR 是学习的嵌入聚类结构；正则化项W2,可使得通分量2。受文献[14]的启发，对拉普拉斯矩阵Ls=Ds W的行是稀疏的，进而选择重要的特征；B是正则 S+ST 化参数，B越大，W行越稀疏；S=S,+BG为广义散的秩进行约束可使得矩阵S具有个连通分 2 度矩阵，G为d×d对角矩阵，其对角元素定义为量。这时，问题(3)转化为 Gi= =,(8>0,i=1,2,…,d (2) 2+ min∑-x6s+alIs i.j-1 (4) 这里，8>0是一个很小的值，可避免因W的行 st.i,∑sy=l,5≥0，rank(Ls)=n- 稀疏而导致的分母为0的情形；S=XHX是样本数据的总散度矩阵。一般地，当样本数量小于数然而，问题(4)（式(4）)很难直接求解，因为秩据维度时，S,是奇异的，而S总是正定的，这样约约束是一个复杂的非线性约束。假设半正定矩阵束条件WS9W=I可使数据在投影子空间中是统 Ls的n个非负特征值依次由小到大排列σ(Ls)≤ 计不相关的，这样可以很好地保留数据的全局结 σ2(Ls)≤…≤σ(Ls),则问题(4)可转化为构。当B很小时，可使投影后样本之间高度不相关，因此，约束条件WTSW=I在描述样本的不相关性时要优于正交约束WW=I和传统不相关约 mm2k-6y+as呢+2n2u园束WrS,W=I。 s.t. 1.2局部结构学习研究表明，相似性矩阵可用来描述数据间的局部结构。然而，大多数构造相似性矩阵的方法其中，是一个充分大的正数，使得∑（化）=0咀并没有考虑原始数据中的冗余特征和噪声，从而矩阵Ls的秩等于n-c。根据KyFan's理论导致所学习到的局部结构不够准确，最终影响特立aL)=明nFLP (6) 征选择的结果。本节采用一种自适应确定相似度矩阵的方法，可以同时执行特征选择和局部结这里F∈Rx是类指标矩阵。故问题(5)（式构学习。 (5)可重写为两个数据样本相邻的概率可以用来描述它们之间的相似度，记相似度矩阵为S∈R,其中元 min∑lx-xsy+als形+2：tr(F'Ls) i.l 素s表示相似性图中与样本x:和x,相对应的结点 (7) 之间相连的概率。样本x和x越接近，则对应的连接 S.t. ∑=l≥0FF=Lr20 概率s越大，它与对应结点之间的距离成反比。相似度矩阵S∈R可通过以下优化问题得到：正交非负约束可使得F的每一行只有一个元素大于0，其他元素都等于0。从而得到的类指标 min∑k-x6s+alSf 矩阵F更准确，且获得更具判别性的信息。此外，求解问题(7)（式(7）)得到的S包含精确的c个连通 S.L 时=1，≥0 (3) 分量，能够捕获更准确的局部结构信息。 1 这里，约束条件乃=1使得相似矩阵S的第 2联合不相关回归和非负谱分析模 i=l 型(JURNFS) i行元素之和等于1，表示与x:对应的总连接概率为1，s衡量样本x和xj之间的局部相似度；α≥0 2.1模型建立是正则化参数，可以自适应来确定1；正则化项根据流形学习的理论，希望原始空间中样本 IS可以避免出现平凡解。的近邻关系在低维投影空间中得到保持，为此， 1.3结构化最优图学习本文讨论在低维空间内学习最优图。设W∈R 如果学习得到的相似矩阵恰好包含c个连通是投影矩阵，则由()可得到以下模型：

min W,F,b X TW +1b T − F 2 F +β∥W∥2,1 s.t. WTS G t W = I (1) W ∈ R d×c b ∈ R c×1 F ∈ R n×c ∥W∥2,1 W β β W S G t = St +βG G d ×d 式中：是回归矩阵，是偏差项，是学习的嵌入聚类结构；正则化项可使得的行是稀疏的，进而选择重要的特征；是正则化参数，越大，行越稀疏；为广义散度矩阵，为对角矩阵，其对角元素定义为 Gii = 1 2 √ ∥wi∥ 2 2 +ε ,(ε > 0,i = 1,2,··· ,d) (2) ε > 0 W St = XHXT St S G t WTS G t W = I β WTS G t W = I WTW = I WTStW = I 这里，是一个很小的值，可避免因的行稀疏而导致的分母为 0 的情形；是样本数据的总散度矩阵。一般地，当样本数量小于数据维度时，是奇异的，而总是正定的，这样约束条件可使数据在投影子空间中是统计不相关的，这样可以很好地保留数据的全局结构。当很小时，可使投影后样本之间高度不相关，因此，约束条件在描述样本的不相关性时要优于正交约束和传统不相关约束。 1.2 局部结构学习研究表明，相似性矩阵可用来描述数据间的局部结构。然而，大多数构造相似性矩阵的方法并没有考虑原始数据中的冗余特征和噪声，从而导致所学习到的局部结构不够准确，最终影响特征选择的结果。本节采用一种自适应确定相似度矩阵的方法[12] ，可以同时执行特征选择和局部结构学习。 S ∈ R n×n si j xi xj xi xj si j S ∈ R n×n 两个数据样本相邻的概率可以用来描述它们之间的相似度，记相似度矩阵为，其中元素表示相似性图中与样本和相对应的结点之间相连的概率。样本和越接近，则对应的连接概率越大，它与对应结点之间的距离成反比。相似度矩阵可通过以下优化问题得到： min∑n i, j=1 xi − xj 2 2 si j +α∥S∥ 2 F s.t. ∑n j=1 si j = 1,si j ⩾ 0 (3) ∑n j=1 si j = 1 S xi si j xi xj α ⩾ 0 ∥S∥ 2 F 这里，约束条件使得相似矩阵的第 i 行元素之和等于 1，表示与对应的总连接概率为 1，衡量样本和之间的局部相似度；是正则化参数，可以自适应来确定[13] ；正则化项可以避免出现平凡解。 1.3 结构化最优图学习如果学习得到的相似矩阵恰好包含 c 个连通分量时（即它仅含有 c 个对角分块），则每个样本的近邻是最佳的。但是，问题 (3)(式 (3)) 的解一般不具备此性质，大多数情况下其解只包含 1 个连通分量[12]。 LS = DS− S+S T 2 S 受文献 [14] 的启发，对拉普拉斯矩阵的秩进行约束可使得矩阵具有 c 个连通分量。这时，问题 (3) 转化为 min∑n i, j=1 xi − xj 2 2 si j +α∥S∥ 2 F s.t. ∀i, ∑n j=1 si j = 1,si j ⩾ 0,rank(LS) = n−c (4) LS σ1(LS) ⩽ σ2(LS) ⩽ ··· ⩽σn(LS) 然而，问题 (4)(式 (4)) 很难直接求解，因为秩约束是一个复杂的非线性约束。假设半正定矩阵的 n 个非负特征值依次由小到大排列，则问题 (4) 可转化为 min∑n i, j=1 xi − xj 2 2 si j +α∥S∥ 2 F +2λ ∑c i=1 σi(LS) s.t. ∀i, ∑n j=1 si j = 1,si j ⩾ 0 (5) λ ∑c i=1 σi(LS) = 0 LS n−c 其中，是一个充分大的正数，使得且矩阵的秩等于。根据 KyFan’s 理论[15] ： ∑c i=1 σi(LS) = min F∈Rn×c ,FTF=I tr(F T LSF) (6) F ∈ R 这里 n×c是类指标矩阵。故问题 (5)(式 (5)) 可重写为 min∑n i, j=1 xi − xj 2 2 si j +α∥S∥ 2 F +2λ ·tr(F T LSF) s.t. ∀i, ∑n j=1 si j = 1,si j ⩾ 0, F TF = I,F ⩾ 0 (7) F F S 正交非负约束可使得的每一行只有一个元素大于 0，其他元素都等于 0。从而得到的类指标矩阵更准确，且获得更具判别性的信息。此外，求解问题 (7)(式 (7)) 得到的包含精确的 c 个连通分量，能够捕获更准确的局部结构信息。 2 联合不相关回归和非负谱分析模型 (JURNFS) 2.1 模型建立 W ∈ R d×c 根据流形学习的理论，希望原始空间中样本的近邻关系在低维投影空间中得到保持，为此，本文讨论在低维空间内学习最优图。设是投影矩阵，则由 (7) 可得到以下模型：第 2 期朱星宇，等：联合不相关回归和非负谱分析的无监督特征选择 ·305·

·306· 智能系统学报第17卷 min W'x-Wxsu+l+2-(FLsF) 此时，问题(12)（式(12）)等价于以下问题： (8) minlH(XW-Fw'x-wx ll sy+BlWl. %∑=l,w≥0PF=1F≥0 s.t. s.t.W(S,+BG)W=I (13) 将模型(8)（式(8）)与稀疏回归模型(1)相结合，得到本文联合不相关回归和非负谱分析模型：令d2w-w四·并定义矩阵5中的元映lXW+1h-F+∑Iwx-wx+ 素为=d,则问题(13)（式(13）)可等价于以下 i.j=l 问题： allsl +BllWlk+2-tr(FTLsF) (9) s.LW(S,+BG)W=L,FrF=L,F≥0， mintr(W(S,+BG)W-2WXHF+FHF)+ (14) 2=1.w≥0 t(WTXLXTW) s.t.W(S,+BG)W=I 其中，a、B、A是正则化参数。在式(9)中，第式中：图拉普拉斯矩阵L=D-S,对角矩阵D的对 1项、第4项和第5项刻画了无监督不相关回归 D。=∑S加再由约束WS,+月和非负谱分析，用于学习稀疏投影矩阵和预测标签矩阵，且L2!范数可使得W保持行稀疏，从而能及固定的F,问题(14)式(14)又可转化为够选择出更具有价值和判别性的特征；第2项和 mintr(WTXLXW-2WTXHF) (15) 第3项用于学习数据的局部结构，确保原始空间 s.t.WT(S,+BG)W=I 内数据的相似结构在投影子空间内得到保持。这该问题将不相关性表现为流形结构，且具有里第2项未采用L2范数距离的平方，这是考虑到闭式解。问题(15)式(15)》可表示为若原始数据中有噪声，平方会扩大噪声对模型学 mintr(WTAW-2WTB) (16) 习与分类的影响。 s.t.WW=I 令问题(9)（式(9）)关于b的拉格朗日函数为其中， (b)=XW+1bT-F+T(W.F.S) (10) W=VS,+BGW,A=CXLX'C. 其中，「(W,F,S)表示式(9)中依赖于W、F、S但又 B=CXHF.C=(S,+BG)" (17) 独立于b的项。取2%(b)关于b的导数并令其等于问题(16)（式(16）)可以利用广义幂迭代方法 0,得求解，详细过程见算法1。 b=(F-WXI (11) 算法1求解问题(14) 在实际应用中，数据结构总是多模态的，为了输入数据矩阵X∈R,总散度矩阵S,∈Rd, 在多模态数据上获得更好的性能，可以研究图的类指标矩阵FeRc,对角矩阵GeR,图拉普拉局部性。假设S的每一行有一个具体的α，1，再结斯矩阵立eRmx"。合式(11)，问题(9)可重写为输出投影矩阵WeR。 lXw-P啡+∑dwx-wxyt 初始化满足WW=I的随机矩阵W∈R, i,=1 根据等式(I7)计算A∈Rd和B∈R,定义随机v, as)+驯W21+2Atr(FLsF) 通过幂方法使得A=vl-A∈Rd为正定矩阵。 (12) s.t.W(S,+BGW=I,FrF=I,F≥0，重复： %=1.5≥0 ①更新R←-2AW+2B: ②设矩阵R的满SVD分解为R=U∑V,则更此时，参数可以控制每个样本自适应近邻新W←Ur; 的数量。直到收敛。 2.2模型求解当求得式(16)的最优解之后，问题(14)的最由于式(12)中的目标函数是凸的，故它有全优解W可通过下述公式获得：局最优解，但直接求其全局解比较困难。本节给 W-CW (18) 出一种交替优化方法来迭代求解它。 2)固定W和S,更新F 1)固定F和S,更新W 此时，问题(12)等价于：

min∑n i, j=1 WT xi −WT xj 2 2 si j +α∥S∥ 2 F +2λ ·tr(F T LSF) s.t. ∀i, ∑n j=1 si j = 1,si j ⩾ 0, F TF = I,F ⩾ 0 (8) 将模型 (8)(式 (8)) 与稀疏回归模型 (1) 相结合，得到本文联合不相关回归和非负谱分析模型： min W,F,b,S X TW +1b T − F 2 F + ∑n i, j=1 WT xi −WT xj 2 si j+ α∥S∥ 2 F +β∥W∥2,1 +2λ ·tr(F T LSF) s.t.WT (St +βG)W = I,F TF = I,F ⩾ 0, ∀i, ∑n j=1 si j = 1,si j ⩾ 0 (9) α、β、λ L2,1 W L2 其中，是正则化参数。在式 ( 9 ) 中 ,第 1 项、第 4 项和第 5 项刻画了无监督不相关回归和非负谱分析，用于学习稀疏投影矩阵和预测标签矩阵，且范数可使得保持行稀疏，从而能够选择出更具有价值和判别性的特征；第 2 项和第 3 项用于学习数据的局部结构，确保原始空间内数据的相似结构在投影子空间内得到保持。这里第 2 项未采用范数距离的平方，这是考虑到若原始数据中有噪声，平方会扩大噪声对模型学习与分类的影响。令问题 (9)(式 (9)) 关于 b 的拉格朗日函数为 Ωb(b) = X TW +1b T − F 2 F + Γ(W,F,S) (10) Γ(W,F,S) W、F、S b Ωb(b) b 其中，表示式 (9) 中依赖于但又独立于的项。取关于的导数并令其等于 0，得 b = 1 n (F T −WTX)1 (11) S αi 在实际应用中，数据结构总是多模态的，为了在多模态数据上获得更好的性能，可以研究图的局部性。假设的每一行有一个具体的 [13] ，再结合式 (11)，问题 (9) 可重写为 min W,F,S H(X TW − F) 2 F + ∑n i, j=1 ( WT xi −WT xj 2 si j+ αis 2 i j)+β∥W∥2,1 +2λ ·tr(F T LSF) s.t.WT (St +βG)W = I,F TF = I,F ⩾ 0, ∀i, ∑n j=1 si j = 1,si j ⩾ 0 (12) 此时，参数αi可以控制每个样本自适应近邻的数量[12]。 2.2 模型求解由于式 (12) 中的目标函数是凸的，故它有全局最优解，但直接求其全局解比较困难。本节给出一种交替优化方法来迭代求解它。 1) 固定 F 和 S ，更新 W 此时，问题 (12)(式 (12)) 等价于以下问题： min W H(X TW − F) 2 F + ∑n i, j=1 WT xi −WT xj 2 si j +β∥W∥2,1 s.t.WT (St +βG)W = I (13) di j = 1 2 WT xi −WT xj 2 S˜ s˜i j = di jsi j 令，并定义矩阵中的元素为，则问题 (13)(式 (13)) 可等价于以下问题： min W tr(WT (St +βG)W −2WTXHF+ F THF)+ tr(WTXLX˜ TW) s.t. WT (St +βG)W = I (14) L˜ = D˜ −S˜ D˜ D˜ ii = ∑n j=1 S˜ i j WT (St +βG)W = I F 式中：图拉普拉斯矩阵，对角矩阵的对角元素为。再由约束以及固定的，问题 (14)(式 (14)) 又可转化为 min W tr(WTXLX˜ TW −2WTXHF) s.t. WT (St +βG)W = I (15) 该问题将不相关性表现为流形结构，且具有闭式解。问题 (15)(式 (15)) 可表示为 min W¯ tr(W¯ TAW¯ −2W¯ TB) s.t. W¯ TW¯ = I (16) 其中， W¯ = √ St +βGW, A = C TXLX˜ TC, B = C TXHF, C = ( √ St +βG )−1 (17) 问题 (16)(式 (16)) 可以利用广义幂迭代方法[16] 求解，详细过程见算法 1。算法 1 求解问题 (14) X ∈ R d×n St ∈ R d×d F ∈ R n×c G ∈ R d×d L˜ ∈ R n×n 输入数据矩阵，总散度矩阵，类指标矩阵，对角矩阵，图拉普拉斯矩阵。 W¯ ∈ R 输出投影矩阵 d×c。 W¯ TW¯ = I W¯ ∈ R d×c A ∈ R d×d B ∈ R d×c v A˜ = νI− A ∈ R d×d 初始化满足的随机矩阵，根据等式 (17) 计算和，定义随机，通过幂方法使得为正定矩阵。重复： ①更新 R ← 2A˜W¯ +2B ； R = UΣV T W¯ ← UVT ②设矩阵 R 的满 SVD 分解为，则更新；直到收敛。 W 当求得式 (16) 的最优解之后，问题 (14) 的最优解可通过下述公式获得： W = CW¯ (18) ２) 固定 W 和 S ，更新 F 此时，问题 (12) 等价于： ·306· 智能系统学报第 17 卷

第2期朱星宇，等：联合不相关回归和非负谱分析的无监督特征选择 ·307· mintr(FTEF)-2tr(FTM) 矩阵S,∈Rd,正则化参数a和B及足够大的参数d。 (19) s.LFF=I,F≥0 输出计算w,i=1,2,…,d)并按照降序排其中，E=H+2Ls,M=HXW。序，然后选择前∫个排好序的特征作为特征选择此问题可采用乘性更新规则7来求解。首先的结果。考虑它的松驰问题：初始化通过K-means聚类初始化矩阵F, 定义随机矩阵W,通过求解问题(3)初始化相似矩 mint(FEF)-2u(FM)+FF- (20) 阵S,并计算图拉普拉斯矩阵LseR和L∈Rxm, s.t.F≥0 令G=Ikdo 其中，y为充分大的正数，由KKT最优性条件得重复： 2EF-2M+yF(FTF-I)-=0 (21) ①由算法1求解式(16)得W,并由式(18)更 9F=0 (22) 新W; 这里，为对应于约束F≥0的非负拉格朗日 ②根据式(2)更新G; 乘子。于是有以下更新规则： ③由式(23)更新F; (M+yF) ④求解(26)更新S; F←FEF+yFFF (23) ⑤更新-n,-S 再对F的每一列归一化使得它满足条件(FTF):= ⑥更新矩阵5及对应的拉普拉斯矩阵i=D-5: 1,i=1,2,…,o 直到收敛。 3)固定W和F,更新S 2.3时间复杂度分析此时，由于加月-户r-尾.故同题在以上算法中，主要的计算复杂度为步骤 ①中的奇异值分解和矩阵求逆，故本算法时间复 (12)等价于以下问题：杂度最高为O(d),假设算法迭代T次，则该部分 m呼w-wxsoi)+A/-f 的时间复杂度为O(Td),从而整个算法的时间复杂度为0(Tm2d)。 st2=1断≥0 (24) 3实验及分析其中，和f分别为F的第i行和第j行。该问题 3.1实验方案可分解为以下n个独立的子问题：在本节中，通过进行大量实验以充分验证本 mn∑wrx-wrxl+a+a∑V-f 文所提出方法的有效性和优越性。在展示结果之前，首先提供一些详细的实验方案。 1)数据集：实验中使用了6个公共数据集，包 25) 括2个人脸数据集OL和BIOP0,1个物体数据令e=wx,-wx2,F-f,则式(25) 集COIL202,1个手写字数据集BA2,1个树叶转化为数据集LEAVES四以及1个生物学数据集LUNGP网。数据集的详细信息见表1及图1所示。表1数据集信息 (26) Table 1 Detail introduction to datasets S.t. =1w≥0 j1 数据集样本数特征数类别数选择特征数其中，m=(ea+f,…,em+fm)o ORL 400 1024 40 50、100、…、300 该问题可利用文献[18]中的方法求解，并可 BIO 1460 1024 22 50、100、…、300 自适应地确定式(9)中参数α1，进而获得具有精确k个非零分量的最优解s。 C0L201440 1024 20 20、40、…、120 以上3步可迭代地进行，直到目标函数收敛 BA 1404 320 哈 20、40、、120 或满足终止条件，整个过程概括为算法2。 LEAVES 400 1024 10 50、100、…、300 算法2 JURNFS 输入数据矩阵X∈R,聚类数量c,总散度 LUNG 203 3312 5 100、150、…、350

min F tr(F TEF)−2tr(F TM) s.t. F TF = I,F ⩾ 0 (19) E = H +2λLS M = HX 其中，， TW。此问题可采用乘性更新规则[17] 来求解。首先考虑它的松驰问题： min F tr(F TEF)−2tr(F TM)+ γ 2 F TF− I 2 F s.t. F ⩾ 0 (20) 其中， γ 为充分大的正数，由 KKT 最优性条件得 2EF−2M +γF(F TF− Ic)−Φ = 0 (21) φi jFi j = 0 (22) 这里， φi j 为对应于约束 Fi j ⩾ 0 的非负拉格朗日乘子。于是有以下更新规则： Fi j ← Fi j (M +γF)i j (EF+γFFT F)i j (23) (F TF)ii = 1, i = 1,2,··· ,n 再对 F 的每一列归一化使得它满足条件。 3) 固定 W 和 F ，更新 S 2tr(F T LSF) = ∑n i, j=1 f i − f j 2 2 此时，由于 si j ，故问题 (12) 等价于以下问题： min S ∑n i, j=1 ( WT xi −WT xj 2 si j +αis 2 i j) +λ ∑n i, j=1 f i − f j 2 2 si j s.t. ∀i, ∑n j=1 si j = 1,si j ⩾ 0 (24) f i f j 其中，和分别为 F 的第 i 行和第 j 行。该问题可分解为以下 n 个独立的子问题： min si j ∑n j=1 ( WT xi −WT xj 2 si j +αis 2 i j) +λ ∑n j=1 f i − f j 2 2 si j s.t. ∑n j=1 si j = 1,si j ⩾ 0 (25) ei j = WT xi −WT xj 2 fi j f i − f j 2 令 2 ，，则式 (25) 转化为 min s i s i + mi 2ai 2 2 s.t. ∑n j=1 si j = 1,si j ⩾ 0 (26) mi = (eil +λ fil,··· , ein +λ f 其中， in)。 α s i 该问题可利用文献 [18] 中的方法求解，并可自适应地确定式 (9) 中参数 [13] ，进而获得具有精确 k 个非零分量的最优解。以上 3 步可迭代地进行，直到目标函数收敛或满足终止条件，整个过程概括为算法 2。算法 2 JURNFS X ∈ R 输入数据矩阵 d×n，聚类数量 c，总散度 St ∈ R d×d 矩阵，正则化参数α和 β 及足够大的参数 λ。 w i 2 输出计算 (i = 1,2,··· ,d) 并按照降序排序，然后选择前 f 个排好序的特征作为特征选择的结果。 F W S LS ∈ R n×n L˜ ∈ R n×n G = Id×d 初始化通过 K-means 聚类初始化矩阵，定义随机矩阵，通过求解问题 (3) 初始化相似矩阵，并计算图拉普拉斯矩阵和，令。重复： W¯ W ①由算法 1 求解式 (16) 得，并由式 (18) 更新； ②根据式 (2) 更新 G ； ③由式 (23) 更新 F ； ④求解 (26) 更新 S ； LS = DS − S+S T 2 ⑤更新； ⑥更新矩阵 S˜及对应的拉普拉斯矩阵 L˜ = D˜ −S˜；直到收敛。 2.3 时间复杂度分析 O(n 2d) T O(T n2d) O(T n2d) 在以上算法中，主要的计算复杂度为步骤 ①中的奇异值分解和矩阵求逆，故本算法时间复杂度最高为，假设算法迭代次，则该部分的时间复杂度为，从而整个算法的时间复杂度为。 3 实验及分析 3.1 实验方案在本节中，通过进行大量实验以充分验证本文所提出方法的有效性和优越性。在展示结果之前，首先提供一些详细的实验方案。 1) 数据集：实验中使用了 6 个公共数据集，包括 2 个人脸数据集 ORL[19] 和 BIO[20] ，1 个物体数据集 COIL20[21] ，1 个手写字数据集 BA[22] ，1 个树叶数据集 LEAVES[23] 以及 1 个生物学数据集 LUNG[24]。数据集的详细信息见表 1 及图 1 所示。表 1 数据集信息 Table 1 Detail introduction to datasets 数据集样本数特征数类别数选择特征数 ORL 400 1 024 40 50、100、···、300 BIO 1 460 1 024 22 50、100、···、300 COIL20 1 440 1 024 20 20、40、···、120 BA 1 404 320 36 20、40、···、120 LEAVES 400 1 024 10 50、100、···、300 LUNG 203 3 312 5 100、150、···、350 第 2 期朱星宇，等：联合不相关回归和非负谱分析的无监督特征选择 ·307·

·308· 智能系统学报第17卷國閻图国陌國实验中，本文采用流行的K-means聚类方法，用于 (a)ORL数据集对具有选定特征形成的新数据进行聚类，每个数盟留腰题覆暨图题圈阁据集的选择特征数在表1中列出。为减少K (b)BIO数据集 means中随机起点触发的偶然性影响，对每种算的陶7四1国法进行10次聚类，并计算平均值。对于分类实 (c)COL20数据集验，本文使用1-最近邻(1-NN)分类器对选定特征 ☑☒HD图S 的测试图像数据进行分类。为了减少偏差，所有实验均重复运行10次以随机选择训练样本，最后 (d)BA数据集计算平均分类结果。另外，K-means聚类方法中的K值设置为c,并且将每种方法中子空间的维 (e)LEAVES数据集数也都设置为c,除SOGFS的子空间维数设置为图1部分数据集的图片 d/2。在UDFS、NDFS、JELSR、SOGFS和JURN- Fig.I Visualization of some datasets FS中，最近邻k的数量设置为5。 2)对比算法：实验中将本文所提出的联合不 3.2聚类性能与分析相关回归和非负谱分析模型(joint uncorrelated re- 本节将不同方法的聚类精度进行比较，实验 gression and nonnegative spectral analysis for unsu- 中将每个数据集的所有样本都用作训练集。首先， pervised feature selection,JURNFS)与5个特征选每个算法在每个数据集上进行学习以选择重要且择方法进行了比较，分别是：无监督判别特征选具有判别性的特征，不同数据集所选特征数也不 (L2-norm regularized discriminative feature selec- 一样，具体细节见表l;然后，本文使用K-means tion for unsupervised learning,UDFS)、非负判别性聚类算法对由这些选择出的特征所形成的新样本特征选择(unsupervised feature selection using non- 进行聚类实验。图2给出了6个算法在6个数据 negative spectral analysis,.NDFS)、联合嵌入学习和集上的聚类精度，从图2可以看出，在大多数情况稀疏回归(joint embedding learning and sparse re- 下，本文所提出的JURNFS相比其他算法都取得 gression:A framework for unsupervised feature selec- 了比较好的效果，这证明了URNFS的优越性。 tion,JELSR)、最优结构图的特征选择(unsuper- 此外，1)从图2(a)和(b)可知，JURNFS在人 vised feature selection with structured graph optimiza- 脸数据集上的效果远远领先于其他5个算法，并 tion,SOGFS)o和用于无监督特征选择的自适应且JURNFS在ORL和BIO上相对于其他算法分图的广义不相关回归(generalized uncorrelated re- 别平均提升了约3.28%和4.75%，这是因为JURN- FS通过学习数据的局部流形结构选择出了人脸 gression with adaptive graph for unsupervised feature selection,URAFS)"。上更具有判别性的特征，这些特征能够显著地代表原数据，因而获得了较高的聚类精度。2)所有 3)评价指标：为了验证所选特征的优劣性，算法在COL20和BA数据集上的聚类效果都比本文利用两个度量标准来衡量每种算法的性能，一个是识别精度(ACCP,定义：较接近，这可能是由于这两个数据集里的样本特征区分度信息不是很高，所有算法学习到了近似 ACC= ∑60./n 的局部结构，而JURNFS中采用的广义不相关约束在保留低冗余度特征的同时维持了对判别性部式中：y是每一个样本的真实标签：是对应的预分特征的关注（如COIL20中物体的轮廓商标部测标签：n是测试样本的数量：函数(，)衡量两个分；BA中文字笔画拐弯部分)，所以JURNFS的输入参数之间的关系，如果两个参数相等则等于聚类效果仍能够优于其他算法。3)在LEAVES 1,否则等于0，聚类精度越高，说明算法的效果越和LUNG数据集上，所有算法的聚类效果随着所好；另一个评价指标是标准化互信NM⑩，定义：选特征数而波动。这也证明并不是选择的特征数 NMI=MI(C,C'/max(T(C),I(C)), 越多，聚类效果越好。因为特征越多，冗余的特式中：C是真实标签的集合；C是预测标签的集征也可能越多，因此有必要进行特征选择。而合；M(C,C)是互信息指标；T(C)、T(C)分别是C和 JURNFS采用低维流形结构化最优图学习和广义 C的熵。NM越大，表示算法性能越稳定。不相关回归联合学习的方式保留了判别性局部结 4)参数设置：本文通过网格搜索来确定每个构信息（如LEAVES中叶的根茎部，LUNG中的算法的最优参数，所有算法的参数都是从10 病灶部分)，因此在处理非人脸数据集时仍能具 10,102,…,102,103,10}中选取。此外，在聚类有较好的性能。此外，可以发现LUNG数据集的

(a) ORL 数据集 (b) BIO 数据集 (c) COIL20 数据集 (d) BA 数据集 (e) LEAVES 数据集图 1 部分数据集的图片 Fig. 1 Visualization of some datasets 2) 对比算法：实验中将本文所提出的联合不相关回归和非负谱分析模型 (joint uncorrelated regression and nonnegative spectral analysis for unsupervised feature selection, JURNFS) 与 5 个特征选择方法进行了比较，分别是：无监督判别特征选择 (L2,1-norm regularized discriminative feature selection for unsupervised learning, UDFS)[6] 、非负判别性特征选择 (unsupervised feature selection using nonnegative spectral analysis,NDFS)[8] 、联合嵌入学习和稀疏回归 (joint embedding learning and sparse regression: A framework for unsupervised feature selection,JELSR)[9] 、最优结构图的特征选择 (unsupervised feature selection with structured graph optimization,SOGFS)[10] 和用于无监督特征选择的自适应图的广义不相关回归 (generalized uncorrelated regression with adaptive graph for unsupervised feature selection,URAFS)[11]。 3) 评价指标：为了验证所选特征的优劣性，本文利用两个度量标准来衡量每种算法的性能，一个是识别精度 (ACC)[25] ，定义： ACC = ∑n i=1 δ(yi , yˆi)/n yi yˆi δ(·,·) 式中：是每一个样本的真实标签；是对应的预测标签；n 是测试样本的数量；函数衡量两个输入参数之间的关系，如果两个参数相等则等于 1，否则等于 0，聚类精度越高，说明算法的效果越好；另一个评价指标是标准化互信 (NMI)[26] ，定义： NMI = MI(C,C ′ )/max(Γ(C),Γ(C ′ )), C C ′ MI(C,C ′ ) Γ(C) Γ(C ′ ) C C ′ 式中：是真实标签的集合；是预测标签的集合；是互信息指标；、分别是和的熵。NMI 越大，表示算法性能越稳定。 4) 参数设置：本文通过网格搜索来确定每个算法的最优参数，所有算法的参数都是从{10−4 , 10−3, 10−2, ···, 102 , 103 , 104 }中选取。此外，在聚类实验中，本文采用流行的 K-means 聚类方法，用于对具有选定特征形成的新数据进行聚类，每个数据集的选择特征数在表 1 中列出。为减少 Kmeans 中随机起点触发的偶然性影响，对每种算法进行 10 次聚类，并计算平均值。对于分类实验，本文使用 1-最近邻 (1-NN) 分类器对选定特征的测试图像数据进行分类。为了减少偏差，所有实验均重复运行 10 次以随机选择训练样本，最后计算平均分类结果。另外，K-means 聚类方法中的 K 值设置为 c，并且将每种方法中子空间的维数也都设置为 c，除 SOGFS 的子空间维数设置为 d/2。在 UDFS、NDFS、JELSR、SOGFS 和 JURNFS 中，最近邻 k 的数量设置为 5。 3.2 聚类性能与分析本节将不同方法的聚类精度进行比较，实验中将每个数据集的所有样本都用作训练集。首先，每个算法在每个数据集上进行学习以选择重要且具有判别性的特征，不同数据集所选特征数也不一样，具体细节见表 1；然后，本文使用 K-means 聚类算法对由这些选择出的特征所形成的新样本进行聚类实验。图 2 给出了 6 个算法在 6 个数据集上的聚类精度，从图 2 可以看出，在大多数情况下，本文所提出的 JURNFS 相比其他算法都取得了比较好的效果，这证明了 JURNFS 的优越性。此外，1) 从图 2(a) 和 (b) 可知，JURNFS 在人脸数据集上的效果远远领先于其他 5 个算法，并且 JURNFS 在 ORL 和 BIO 上相对于其他算法分别平均提升了约 3.28% 和 4.75%，这是因为 JURNFS 通过学习数据的局部流形结构选择出了人脸上更具有判别性的特征，这些特征能够显著地代表原数据，因而获得了较高的聚类精度。2) 所有算法在 COIL20 和 BA 数据集上的聚类效果都比较接近，这可能是由于这两个数据集里的样本特征区分度信息不是很高，所有算法学习到了近似的局部结构，而 JURNFS 中采用的广义不相关约束在保留低冗余度特征的同时维持了对判别性部分特征的关注（如 COIL20 中物体的轮廓商标部分；BA 中文字笔画拐弯部分），所以 JURNFS 的聚类效果仍能够优于其他算法。3) 在 LEAVES 和 LUNG 数据集上，所有算法的聚类效果随着所选特征数而波动。这也证明并不是选择的特征数越多，聚类效果越好。因为特征越多，冗余的特征也可能越多，因此有必要进行特征选择。而 JURNFS 采用低维流形结构化最优图学习和广义不相关回归联合学习的方式保留了判别性局部结构信息（如 LEAVES 中叶的根茎部，LUNG 中的病灶部分），因此在处理非人脸数据集时仍能具有较好的性能。此外，可以发现 LUNG 数据集的 ·308· 智能系统学报第 17 卷

第2期朱星字，等：联合不相关回归和非负谱分析的无监督特征选择 ·309· 数据量较大，标签类数只有5，因此每一类标签的择获得的精炼的数据包含更多有价值的信息，而训练数据集较大，这也可能是JURNFS优于其他 URNFS通过广义不相关回归以及结构化最优算法的原因，因为在这种情况下JURNFS可以选图，所选择的特征更具判别性及有效性，因而可择更准确、更判别性的特征。总之，通过特征选以获得更好的性能。 0.56 0.44 0.54 0.42 0.52 0.40 型0.38 0.50 0.36 0.48 0.34 0.46 0.32 0.44 0.30 9 0.42 0.28 50 100 150 200 250 300 100 150200 250 300 选择特征数量选择特征数量 (a)ORL数据集 (b)BIO数据集 0.7 0.44 0.42 0.6 0.40 0.38 0.36 0.4 0.34 0.32 0.30 0.2 0.28 0. JURNFS 0.26 0.2 JURNFS 40 60 80 100 120 20 40 60 80 100 120 选择特征数量选择特征数量 (c)COL20数据集 (dBA数据集 0.50 0.80 0.48 0.75 0.46 0.70 0.44 0.65 0.42 0.40 0.60 0.38 D FS 0.55 jESR◆JURNFS 臘濰 0.36 0.5 50 100 200 250 300 00 150 200250300350 选择特征数量选择特征数量 (e)LEAVES数据集 (①LUNG数据集图26个算法在6个数据集上的聚类精度 Fig.2 Clustering accuracies of six methods on six different datasets 为了进一步说明JURNFS的优越性，表2给出而言，NM值越高，特征选择的性能越好。显然，了在6个不同的数据集上6种不同算法的标准偏与其他特征选择算法相比，JURNFS的NMI相差的最优NMI值，其中最优值以黑体加粗。一般对较高，这也表明JURNFS具有更好的算法性能。表2不同数据集上不同方法的最佳NMⅡ（标准偏差） Table 2 Best NMI with standard deviation of different methods on different data sets % NMI±STD ORL BIO COIL20 BA LEAVES LUNG UDFS 70.04±0.99 55.33±1.06 63.30±2.25 55.90±0.63 51.28±4.14 46.43±2.83 NDFS 71.26±0.88 52.27±1.02 74.00±1.07 55.68±0.93 48.49±2.95 51.83±8.62 JELSR 70.91±1.50 50.98±1.12 71.89±1.50 54.56±1.05 49.53±2.49 52.82±5.72 SOGFS 72.76±1.14 47.98±1.61 70.65±2.82 57.08±1.32 43.49±1.68 49.78±6.60 URAFS 71.69±2.30 52.58±0.85 70.57±1.83 55.93±1.28 48.43±2.95 51.79±5.51 JURNFS 75.08±1.64 55.78±1.70 74.04±1.40 57.73±1.05 53.85±3.25 53.97±5.86

数据量较大，标签类数只有 5，因此每一类标签的训练数据集较大，这也可能是 JURNFS 优于其他算法的原因，因为在这种情况下 JURNFS 可以选择更准确、更判别性的特征。总之，通过特征选择获得的精炼的数据包含更多有价值的信息，而 JURNFS 通过广义不相关回归以及结构化最优图，所选择的特征更具判别性及有效性，因而可以获得更好的性能。 UDFS NDFS JELSR SOGFS URAFS JURNFS (b) BIO 数据集聚类精度选择特征数量 0.44 0.42 0.40 0.38 0.36 0.34 0.32 0.30 0.28 50 100 150 200 250 300 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 UDFS NDFS JELSR SOGFS URAFS JURNFS (a) ORL 数据集聚类精度选择特征数量 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS (e) LEAVES 数据集聚类精度选择特征数量 0.50 0.48 0.46 0.44 0.42 0.40 0.38 0.36 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS 0.50 0.55 0.60 0.65 0.70 0.75 0.80 (f) LUNG 数据集聚类精度选择特征数量 100 150 200 250 300 350 UDFS NDFS JELSR SOGFS URAFS JURNFS 0.24 0.26 0.28 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 (d) BA 数据集聚类精度选择特征数量 20 40 60 80 100 120 UDFS NDFS JELSR SOGFS URAFS JURNFS (c) COIL20 数据集聚类精度选择特征数量 0.7 0.6 0.5 0.4 0.3 0.2 0.1 20 40 60 80 100 120 图 2 6 个算法在 6 个数据集上的聚类精度 Fig. 2 Clustering accuracies of six methods on six different datasets 为了进一步说明 JURNFS 的优越性，表 2 给出了在 6 个不同的数据集上 6 种不同算法的标准偏差的最优 NMI 值，其中最优值以黑体加粗。一般而言，NMI 值越高，特征选择的性能越好。显然，与其他特征选择算法相比，JURNFS 的 NMI 相对较高，这也表明 JURNFS 具有更好的算法性能。表 2 不同数据集上不同方法的最佳 NMI (标准偏差) Table 2 Best NMI with standard deviation of different methods on different data sets % NMI±STD ORL BIO COIL20 BA LEAVES LUNG UDFS 70.04±0.99 55.33±1.06 63.30±2.25 55.90±0.63 51.28±4.14 46.43±2.83 NDFS 71.26±0.88 52.27±1.02 74.00±1.07 55.68±0.93 48.49±2.95 51.83±8.62 JELSR 70.91±1.50 50.98±1.12 71.89±1.50 54.56±1.05 49.53±2.49 52.82±5.72 SOGFS 72.76±1.14 47.98±1.61 70.65±2.82 57.08±1.32 43.49±1.68 49.78±6.60 URAFS 71.69±2.30 52.58±0.85 70.57±1.83 55.93±1.28 48.43±2.95 51.79±5.51 JURNFS 75.08±1.64 55.78±1.70 74.04±1.40 57.73±1.05 53.85±3.25 53.97±5.86 第 2 期朱星宇，等：联合不相关回归和非负谱分析的无监督特征选择 ·309·

·310· 智能系统学报第17卷 33分类性能与分析的特征数量也不同（见表1）。本节将不同方法的分类精度进行比较，首先图3描述了不同特征选择方法的分类精度随从不同数据集上的每个类中随机选取适当数量的所选特征数量的增加而变化的情况。由该图可以样本作为训练样本，其余的作为测试样本。对于发现JURNFS在所有数据集上都能取得很好的分 ORL、LEAVES和LUNG数据集，随机选取5个图类效果，这得益于JURNFS联合使用广义不相关像样本作为每类的训练样本，剩余的作为测试样回归和非负谱分析，在保留全局结构的同时自适本。对于BIO、BA和COIL20数据集，随机选取应进行局部结构学习，很好地保留了特征的判别 10个图像样本作为每个类的训练样本，剩余的作性信息，这些判别性特征在后续进行分类任务时为测试样本。此外，不同的数据集在实验中选取起到了关键作用。 0.88 0.75 0.86 0.84 0.70 0.65 0.76 0.60 0.74 0.55 0.72 0.70 0.50 0 100 150200 250 300 50 100 150200 250 300 选择特征数量选择特征数量 (a)ORL数据集 (b)BIO数据集 0.92 0.55 0.90 0.50 0.88 0.45 0.86 0.35 0.82 0.30 0.80 0.25 0.78 SOGFS JURNFS 0.20 0.76 0.1 20 40 60 80 100 120 20 40 60 80 100 120 选择特征数量选择特征数量 (c)COIL20数据集 (dBA数据集 0.90， 0.56 0.88 0.54 0.86 0.52 0.84 0.50 0.80 0.46 UDFS 0.76 0.44 0.74 0.42 0.72 0.4 0.70 50 100 150 200 250 300 00 150 200250 300 350 选择特征数量选择特征数量 (e)LEAVES数据集 (f)LUNG数据集图36个算法在6个数据集上的分类精度 Fig.3 Classification accuracies of six methods on six different datasets 此外，图4通过重构图展示了部分算法在良好，但它选择的特征主要分布在皮肤区域，而 ORL数据集上选择的特征，不难看出：1)随着选不是人脸的区分器官特征。这表明边缘和轮廓上择特征数的变化，JURNFS可以选择信息量较大的特征有助于提高这些方法的聚类性能。的特征（如眼晴、鼻子、嘴巴），并且URNFS在选 3.4算法参数与性能分析择特征数较少的情况下会优先选择具有判别性的本节将分析JURNFS中参数的稳定性。在所特征；2)对于SOGFS,尽管它在聚类任务中表现提出的模型(9)中，有3个参数：a、B、1。其中，正

3.3 分类性能与分析本节将不同方法的分类精度进行比较，首先从不同数据集上的每个类中随机选取适当数量的样本作为训练样本，其余的作为测试样本。对于 ORL、LEAVES 和 LUNG 数据集，随机选取 5 个图像样本作为每类的训练样本，剩余的作为测试样本。对于 BIO、BA 和 COIL20 数据集，随机选取 10 个图像样本作为每个类的训练样本，剩余的作为测试样本。此外，不同的数据集在实验中选取的特征数量也不同 (见表 1)。图 3 描述了不同特征选择方法的分类精度随所选特征数量的增加而变化的情况。由该图可以发现 JURNFS 在所有数据集上都能取得很好的分类效果，这得益于 JURNFS 联合使用广义不相关回归和非负谱分析，在保留全局结构的同时自适应进行局部结构学习，很好地保留了特征的判别性信息，这些判别性特征在后续进行分类任务时起到了关键作用。 0.86 0.88 0.84 0.82 0.80 0.78 0.76 0.74 0.72 0.70 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS (a) ORL 数据集分类精度选择特征数量 (b) BIO 数据集分类精度选择特征数量 UDFS NDFS JELSR SOGFS URAFS JURNFS 0.75 0.70 0.65 0.60 0.55 0.50 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS (c) COIL20 数据集分类精度选择特征数量 0.92 0.90 0.88 0.86 0.84 0.82 0.80 0.78 0.76 20 40 60 80 100 120 UDFS NDFS JELSR SOGFS URAFS JURNFS (d) BA 数据集分类精度选择特征数量 20 40 60 80 100 120 0.55 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 50 100 150 200 250 300 UDFS NDFS JELSR SOGFS URAFS JURNFS (e) LEAVES 数据集分类精度选择特征数量 0.56 0.54 0.52 0.50 0.48 0.46 0.44 0.42 0.40 100 150 200 250 300 350 UDFS NDFS JELSR SOGFS URAFS JURNFS (f) LUNG 数据集分类精度选择特征数量 0.90 0.88 0.86 0.84 0.82 0.80 0.78 0.76 0.74 0.72 0.70 图 3 6 个算法在 6 个数据集上的分类精度 Fig. 3 Classification accuracies of six methods on six different datasets 此外，图 4 通过重构图展示了部分算法在 ORL 数据集上选择的特征，不难看出：1) 随着选择特征数的变化，JURNFS 可以选择信息量较大的特征（如眼睛、鼻子、嘴巴），并且 JURNFS 在选择特征数较少的情况下会优先选择具有判别性的特征；2) 对于 SOGFS，尽管它在聚类任务中表现良好，但它选择的特征主要分布在皮肤区域，而不是人脸的区分器官特征。这表明边缘和轮廓上的特征有助于提高这些方法的聚类性能。 3.4 算法参数与性能分析本节将分析 JURNFS 中参数的稳定性。在所提出的模型 (9) 中，有 3 个参数：α、β、λ。其中，正 ·310· 智能系统学报第 17 卷

第2期朱星字，等：联合不相关回归和非负谱分析的无监督特征选择 ·311· 则化参数α用于保证在学习相似矩阵S时，每个样本都有机会成为x的近邻；正则化参数B用于调 0.45 整投影矩阵W的稀疏性；正则化参数入确保学习到的样本标签足够平滑。因此，参数α、B、1共同调节回归与特征选择之间的效果。在实验中，可以根据文献[15]中的方法自适应确定参数a,因 0.30 10 此，本节将专注于研究参数B和1对模型的影 10 10210 响。这里只给出JURNFS在数据集ORL、BIO和 10 104 101021 COL20上的不同参数组合变化图。 (b)BIO数据集 UDFS 0.65 SOGFS 0.60 URAFS ￥0.55 JURNFS 0.50 10 10310 图46个算法在ORL数据集上的重构图，所选特征个数 10- 0 10入1021 B 从左到右依次为{150,250,350,450,550,650,1024} (c)C0L20数据集 Fig.4 Reconstruction graph of 6 algorithms on ORL data set,the number of selected features from left to 图5 JURNFS在不同数据集上不同参数组合的聚类精度 right is{150,250,350,450,550,650,1024 Fig.5 Clustering accuracies of JURNFS with different parameter combinations on different dataset, 观察图5可知，在ORL和BIO数据集上， respectively JURNFS受λ的影响较小，而随着B的增大，JURNFS 150 的聚类效果显著提高。这可能是由于在人脸数据 -e-ORL 140 -0-BA 集上，JURNFS经过有限次迭代学习到的标签矩 130 阵接近于真实标签，故入对目标函数的影响不大，而随着B增大，使得W更加稀疏，因而选择出的特 110 征更加具有判别性及代表性，故聚类效果得到提 100 升。在COIL20数据集上，JURNFS的聚类效果随 90 着B和1的变化而波动，这表明此时B和1同时 80 006686000009000000 影响着JURNFS的聚类效果，并且随着B的增大， 70 4 6 8101214161820 JURNFS的聚类精度会呈现出一个先增加后减少迭代次数的趋势。因此在实验中，对于不同数据集仍需要图6 JURNFS在不同数据集上的收敛性找到一组合适的参数。 Fig.6 Convergence behaviors of JURNFS on different datasets 为验证URNFS算法的收敛性，本文考虑在数据集ORL和BA上验证式(9)中目标函数随迭此外，本文还通过算法的运行时间来评估代次数增加的变化情况。从图6可见，随着迭代 URNFS的性能。本文将所有算法在ORL、BIO、次数增加，目标函数值单调减少，且在5次迭代后 COL20和BA数据集上的聚类时间进行比较。不即可收敛，这也验证了URNFS的高效性。同算法的运行时间见表3。可以看到，JURNFS的运行时间与其他算法相比仍具有很好的竞争力。表3不同方法的运行时间 0.60 Table 3 Computational time of different methods 0.50 算法 ORL BIO COIL20 BA UDFS 8.752 21.190 20.191 5.715 0.45 NDFS 3.919 14.339 15.209 7.213 0.40 JELSR 10 3.167 20.665 22.618 18.578 10 10310 SOGFS 12.275 16.779 17.968 12.589 10 10-4 10≈101 URAFS 5.436 13.217 14.344 9.357 (a)ORL数据集 JURNFS 2.443 8.616 7.693 3.851

S xi W 则化参数 α 用于保证在学习相似矩阵时，每个样本都有机会成为的近邻；正则化参数 β 用于调整投影矩阵的稀疏性；正则化参数 λ 确保学习到的样本标签足够平滑。因此，参数 α、β、λ 共同调节回归与特征选择之间的效果。在实验中，可以根据文献 [15] 中的方法自适应确定参数 α，因此，本节将专注于研究参数 β 和 λ 对模型的影响。这里只给出 JURNFS 在数据集 ORL、BIO 和 COIL20 上的不同参数组合变化图。 UDFS SOGFS URAFS JURNFS 图 4 6 个算法在 ORL 数据集上的重构图，所选特征个数从左到右依次为{150, 250, 350, 450, 550, 650, 1024} Fig. 4 Reconstruction graph of 6 algorithms on ORL data set, the number of selected features from left to right is {150, 250, 350, 450, 550, 650, 1024} W 观察图 5 可知，在 ORL 和 BIO 数据集上， JURNFS 受 λ 的影响较小，而随着 β 的增大，JURNFS 的聚类效果显著提高。这可能是由于在人脸数据集上，JURNFS 经过有限次迭代学习到的标签矩阵接近于真实标签，故 λ 对目标函数的影响不大，而随着 β 增大，使得更加稀疏，因而选择出的特征更加具有判别性及代表性，故聚类效果得到提升。在 COIL20 数据集上，JURNFS 的聚类效果随着 β 和 λ 的变化而波动，这表明此时 β 和 λ 同时影响着 JURNFS 的聚类效果，并且随着 β 的增大， JURNFS 的聚类精度会呈现出一个先增加后减少的趋势。因此在实验中，对于不同数据集仍需要找到一组合适的参数。为验证 JURNFS 算法的收敛性，本文考虑在数据集 ORL 和 BA 上验证式 (9) 中目标函数随迭代次数增加的变化情况。从图 6 可见，随着迭代次数增加，目标函数值单调减少，且在 5 次迭代后即可收敛，这也验证了 JURNFS 的高效性。 0.40 0.45 104 104 102 102 1 10−2 10−2 10−4 10−4 0.50 0.55 聚类精度 λ β 1 0.60 (a) ORL 数据集聚类精度 104 104 102 102 1 10−2 10−2 10−4 10 λ −4 β 1 (b) BIO 数据集 0.45 0.40 0.35 0.30 聚类精度 (c) COIL20 数据集 0.65 0.60 0.55 0.50 104 104 102 102 1 10−2 10−2 10−4 10 λ −4 β 1 图 5 JURNFS 在不同数据集上不同参数组合的聚类精度 Fig. 5 Clustering accuracies of JURNFS with different parameter combinations on different dataset, respectively 0 2 4 6 8 10 12 14 16 18 20 迭代次数 70 80 90 100 110 120 130 140 150 目标函数值 ORL BA 图 6 JURNFS 在不同数据集上的收敛性 Fig. 6 Convergence behaviors of JURNFS on different datasets 此外，本文还通过算法的运行时间来评估 JURNFS 的性能。本文将所有算法在 ORL、BIO、 COIL20 和 BA 数据集上的聚类时间进行比较。不同算法的运行时间见表 3。可以看到，JURNFS 的运行时间与其他算法相比仍具有很好的竞争力。表 3 不同方法的运行时间 Table 3 Computational time of different methods s 算法 ORL BIO COIL20 BA UDFS 8.752 21.190 20.191 5.715 NDFS 3.919 14.339 15.209 7.213 JELSR 3.167 20.665 22.618 18.578 SOGFS 12.275 16.779 17.968 12.589 URAFS 5.436 13.217 14.344 9.357 JURNFS 2.443 8.616 7.693 3.851 第 2 期朱星宇，等：联合不相关回归和非负谱分析的无监督特征选择 ·311·

·312· 智能系统学报第17卷 4结束语 and cybernetics,2014,44(6):793-804 [10]NIE F P,ZHU W,LI X L.Unsupervised feature selec- 本文提出了一种新颖的无监督特征选择方 tion with structured graph optimization[Cl//Proceedings 法，将广义不相关回归、结构化最优图和非负谱 of the National Conference on Artificial Intelligence. 分析结合，通过广义不相关回归模型选择不相关 Phoenix,USA,2016:1302-1308. 和判别性的特征，利用结构化最优图自适应学习 [11]LI X L.ZHANG H.ZHANG R,et al.Generalized un- 数据间的局部结构信息，同时结合非负谱聚类来 correlated regression with adaptive graph for unsuper- 学习局部流形中的标签矩阵，这使得所学习到的 vised feature selection[J].IEEE transactions on neural networks and learning systems,2019,30(5):1587- 标签矩阵更真实可靠。文中还提出了一个有效的 1595. 迭代算法来求解提出的模型，并在真实数据集上 [12]NIE F P.WANG X Q,HUANG H.Clustering and pro- 进行了大量实验证明了该方法的有效性和优越 jected clustering with adaptive neighbors[C]//know- 性。后续的工作主要集中在以下2个方面：1)提 ledge discovery and data mining.New York,USA. 高算法在不同噪声（如光照、遮挡等）水平下的鲁 2014:977-986. 棒性；2)提高算法处理高维数据的速度。 [13]NIE F P.WU D Y.WANG R,et al.Self-weighted clus- tering with adaptive neighbors[J].IEEE transactions on 参考文献： neural networks and learning systems,2020,31(9): [1]BLUM A L,LANGLEY P.Selection of relevant features 3428-3441. and examples in machine learning[J].Artificial Intelli- [14]JERIBI A.Spectral graph theory [M].Providence:Pub- gence,1997,97(1-2):245-271. lished for the Conference Board of the mathematical sci- [2]LIU H.MOTODA H.Feature selection for knowledge ences by the American Mathematical Society,1997. discovery and data mining[M].Boston:Kluwer Academ- [15]FAN K.On a theorem of weyl concerning eigenvalues ic Publishers,1998:1-214. of linear transformations ii[J].Proceedings of the Na- [3]SAEYS Y,INZA I,LARRANAGA P.A review of fea- tional Academy of Sciences,1949,35(11):652-655. ture selection techniques in bioinformatics[J].Bioinform- [16 ]NIE F P,ZHANG R,LI X L,et al.A generalized power atics(Oxford,England),2007,23(19):2507-2517. iteration method for solving quadratic problem on the [4]ZHANG R,NIE F P,LI X L.Self-weighted supervised stiefel manifold[J].Science China information sciences, discriminative feature selection[J].IEEE transactions on 2017,60(11):142-151. neural networks and learning systems,2018,29(8): [17]LEE DD.SEUNG H S.Algorithms for non-negative 3913-3918 matrix factorization[C]//International Conference on [5]NIE F P,HUANG H,CAI X,et al.Efficient and robust Neural Information Processing Systems.Cambridge feature selection via joint L2-norms minimization USA,2000:556-562. [CV//International Conference on Neural Information Pro- [18]HUANG J,NIE F P,HUANG H.A new simplex sparse cessing Systems.Vancouver,Canada,2010:1813-1821. learning model to measure data similarity for clustering [6]YANG Y,SHEN H T,MA Z G,et al.L2.-Norm regular- [C]//International Conference on Artificial Intelligence. ized discriminative feature selection for unsupervised Buenos Aires,Argentina,2015:3569-3575. learning[C]//Proceedings of the Twenty-Second Interna- [19]SAMARIA F S,HARTER A.Parameterisation of a tional Joint Conference on Artificial Intelligence.Bar- stochastic model for human face identification[C//Pro- celona,Spain,2011:1589-1594 ceedings of 1994 IEEE Workshop on Applications of [7]NIE F P,XU D,TSANG I W,et al.Flexible manifold Computer Vision.Sarasota,USA.1994:138-142. embedding:a framework for semi-supervised and unsu- [20]JESORSKY O.KIRCHBERG K J.FRISCHHOLZ R.et al pervised dimension reduction[J].IEEE transactions on Robust face detection using the hausdorff distance[J] image processing,2010,19(7):1921-1932. Lecture notes in computer science,2001,2091:90-95. [8]LI Z C,YANG Y,LIU J,et al.Unsupervised feature se- [21]NENE S A,NAYAR S K,MURASE H.Columbia Ob- lection using nonnegative spectral analysis[C]//Proceed- ject Image Library (COIL-20)[R].CUCS-005-96,De- ings of the National Conference on Artificial Intelligence. partment of Computer Science,Columbia University, Toronto.Canada.2012:1026-1032. 1996(CUCS-005-96). [9]HOU C P,NIE F P,Li X L,et al.Joint embedding learn- [22]BELHUMEUR P N.HESPANHA J P,KRIEGMAN D ing and sparse regression:A framework for unsupervised J,et al.Eigenfaces vs.fisher faces:recognition using feature selection[J].IEEE transactions on systems,man, class specific linear projection[J].IEEE transactions on

4 结束语本文提出了一种新颖的无监督特征选择方法，将广义不相关回归、结构化最优图和非负谱分析结合，通过广义不相关回归模型选择不相关和判别性的特征，利用结构化最优图自适应学习数据间的局部结构信息，同时结合非负谱聚类来学习局部流形中的标签矩阵，这使得所学习到的标签矩阵更真实可靠。文中还提出了一个有效的迭代算法来求解提出的模型，并在真实数据集上进行了大量实验证明了该方法的有效性和优越性。后续的工作主要集中在以下 2 个方面： 1) 提高算法在不同噪声（如光照、遮挡等）水平下的鲁棒性；2) 提高算法处理高维数据的速度。参考文献： BLUM A L, LANGLEY P. Selection of relevant features and examples in machine learning[J]. Artificial Intelligence, 1997, 97(1-2): 245–271. [1] LIU H, MOTODA H. Feature selection for knowledge discovery and data mining[M]. Boston: Kluwer Academic Publishers, 1998: 1−214. [2] SAEYS Y, INZA I, LARRANAGA P. A review of feature selection techniques in bioinformatics[J]. Bioinformatics (Oxford, England), 2007, 23(19): 2507–2517. [3] ZHANG R, NIE F P, LI X L. Self-weighted supervised discriminative feature selection[J]. IEEE transactions on neural networks and learning systems, 2018, 29(8): 3913–3918. [4] NIE F P, HUANG H, CAI X, et al. Efficient and robust feature selection via joint L2,1 -norms minimization [C]//International Conference on Neural Information Processing Systems. Vancouver, Canada, 2010: 1813−1821. [5] YANG Y, SHEN H T, MA Z G, et al. L2,1-Norm regularized discriminative feature selection for unsupervised learning[C]// Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. Barcelona, Spain, 2011: 1589–1594 [6] NIE F P, XU D, TSANG I W, et al. Flexible manifold embedding: a framework for semi-supervised and unsupervised dimension reduction[J]. IEEE transactions on image processing, 2010, 19(7): 1921–1932. [7] LI Z C, YANG Y, LIU J, et al. Unsupervised feature selection using nonnegative spectral analysis[C]// Proceedings of the National Conference on Artificial Intelligence. Toronto, Canada, 2012: 1026−1032. [8] HOU C P, NIE F P, Li X L, et al. Joint embedding learning and sparse regression: A framework for unsupervised feature selection[J]. IEEE transactions on systems, man, [9] and cybernetics, 2014, 44(6): 793–804. NIE F P, ZHU W, LI X L. Unsupervised feature selection with structured graph optimization[C]//Proceedings of the National Conference on Artificial Intelligence. Phoenix, USA, 2016: 1302–1308. [10] LI X L, ZHANG H, ZHANG R, et al. Generalized uncorrelated regression with adaptive graph for unsupervised feature selection[J]. IEEE transactions on neural networks and learning systems, 2019, 30(5): 1587– 1595. [11] NIE F P, WANG X Q, HUANG H. Clustering and projected clustering with adaptive neighbors[C]//knowledge discovery and data mining. New York, USA, 2014: 977−986. [12] NIE F P, WU D Y, WANG R, et al. Self-weighted clustering with adaptive neighbors[J]. IEEE transactions on neural networks and learning systems, 2020, 31(9): 3428–3441. [13] JERIBI A. Spectral graph theory[M]. Providence: Published for the Conference Board of the mathematical sciences by the American Mathematical Society, 1997. [14] FAN K. On a theorem of weyl concerning eigenvalues of linear transformations ii[J]. Proceedings of the National Academy of Sciences, 1949, 35(11): 652–655. [15] NIE F P, ZHANG R, LI X L, et al. A generalized power iteration method for solving quadratic problem on the stiefel manifold[J]. Science China information sciences, 2017, 60(11): 142–151. [16] LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization[C]//International Conference on Neural Information Processing Systems. Cambridge, USA, 2000: 556−562. [17] HUANG J, NIE F P, HUANG H. A new simplex sparse learning model to measure data similarity for clustering [C]//International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 3569–3575. [18] SAMARIA F S, HARTER A. Parameterisation of a stochastic model for human face identification[C]//Proceedings of 1994 IEEE Workshop on Applications of Computer Vision. Sarasota, USA. 1994: 138−142. [19] JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R, et al. Robust face detection using the hausdorff distance[J]. Lecture notes in computer science, 2001, 2091: 90–95. [20] NENE S A, NAYAR S K, MURASE H. Columbia Object Image Library (COIL-20)[R]. CUCS-005-96, Department of Computer Science, Columbia University, 1996(CUCS-005-96). [21] BELHUMEUR P N, HESPANHA J P, KRIEGMAN D J, et al. Eigenfaces vs. fisher faces: recognition using class specific linear projection[J]. IEEE transactions on [22] ·312· 智能系统学报第 17 卷

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录