【机器学习】自步稀疏最优均值主成分分析

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：4.05MB

第16卷第3期智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992/tis.201911028 自步稀疏最优均值主成分分析许子微，陈秀宏 (江南大学数字媒体学院，江苏无锡214122) 摘要：主成分分析(PCA)是一种无监督降维方法。然而现有的方法没有考虑样本的差异性，且不能联合地提取样本的重要信息，从而影响了方法的性能。针对以上问题，提出自步稀疏最优均值主成分分析方法。模型以 L21范数定义损失函数，同时用L2!范数约束投影矩阵作为正则化项，且将均值作为在迭代中优化的变量，这样可一致地选择重要特征，提高方法对异常值的鲁棒性：考虑到训练样本的差异性，利用自步学习机制实现训练样本由“简单”到“复杂”的学习过程，有效地降低异常值的影响。理论分析和实验结果表明，以上方法能更有效地降低异常值对分类精度的影响，提高分类精度。关键词：图像处理；主成分分析；无监督学习：数据降维：稀疏：最优均值；自步学习；人脸识别中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2021)03-0416-09 中文引用格式：许子微，陈秀宏.自步稀疏最优均值主成分分析J.智能系统学报，2021,16(3)：416-424. 英文引用格式：XU Ziwei,,CHEN Xiuhong.Sparse optimal mean principal component analysis based on self--paced learning[J]. CAAI transactions on intelligent systems,2021,16(3):416-424. Sparse optimal mean principal component analysis based on self-paced learning XU Ziwei,CHEN Xiuhong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:Principal component analysis(PCA)can be referred to as an unsupervised dimensionality reduction approach. However,the existing methods do not consider the difference of samples and cannot jointly extract important informa- tion of samples,thus affecting the performance of some methods.For the above problems,based on self-paced learning, we proposed a sparse optimal mean PCA algorithm.In our model,loss of function is defined by L2.I norm,the projec- tion matrix is regularized by L2.I norm,and the mean value is taken as a variable to be optimized in the iteration.In this way,important features can be consistently selected,and the robustness of the method to outliers can be improved.Con- sidering the difference in training samples,we utilized self-paced learning mechanism to complete the learning process of training samples from "simple"to "complex"so as to effectively reduce the influence of outliers.Theoretical analys- is and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress,thus improving the effect of the classification. Keywords:image processing;principal component analysis;unsupervised learning;data dimension deduction;sparse; optimal mean;self-paced learning;face recognition 降维山是数据分类中的一个重要问题，其目类。经典的降维方法包括主成分分析(principal 的是学习一个变换矩阵，将高维数据投影到低维 component analysis,.PCA)P-]和线性判别分析(in- ear discriminant analysis,.LDA)4,其中PCA是一子空间中，使数据在低维子空间中得到有效地分种将数据信息投影到正交线性空间的无监督方收稿日期：2019-11-19. 基金项目：江苏省研究生科研与实践创新计划项目NKYI9074). 法，原始PCA在对数据降维时，以平方欧氏距离通信作者：许子微.E-mail:18256515269@163.com 来表示损失，而欧氏距离对噪声及异常值敏感

DOI: 10.11992/tis.201911028 自步稀疏最优均值主成分分析许子微，陈秀宏（江南大学数字媒体学院，江苏无锡 214122） L2,1 L2,1 摘要：主成分分析 (PCA) 是一种无监督降维方法。然而现有的方法没有考虑样本的差异性，且不能联合地提取样本的重要信息，从而影响了方法的性能。针对以上问题，提出自步稀疏最优均值主成分分析方法。模型以范数定义损失函数，同时用范数约束投影矩阵作为正则化项，且将均值作为在迭代中优化的变量，这样可一致地选择重要特征，提高方法对异常值的鲁棒性；考虑到训练样本的差异性，利用自步学习机制实现训练样本由“简单”到“复杂”的学习过程，有效地降低异常值的影响。理论分析和实验结果表明，以上方法能更有效地降低异常值对分类精度的影响，提高分类精度。关键词：图像处理；主成分分析；无监督学习；数据降维；稀疏；最优均值；自步学习；人脸识别中图分类号：TP391.4 文献标志码：A 文章编号：1673−4785(2021)03−0416−09 中文引用格式：许子微, 陈秀宏. 自步稀疏最优均值主成分分析 [J]. 智能系统学报, 2021, 16(3): 416–424. 英文引用格式：XU Ziwei, CHEN Xiuhong. Sparse optimal mean principal component analysis based on self-paced learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 416–424. Sparse optimal mean principal component analysis based on self-paced learning XU Ziwei，CHEN Xiuhong (School of Digital Media, Jiangnan University, Wuxi 214122, China) L2;1 L2;1 Abstract: Principal component analysis (PCA) can be referred to as an unsupervised dimensionality reduction approach. However, the existing methods do not consider the difference of samples and cannot jointly extract important information of samples, thus affecting the performance of some methods. For the above problems, based on self-paced learning, we proposed a sparse optimal mean PCA algorithm. In our model, loss of function is defined by norm, the projection matrix is regularized by norm, and the mean value is taken as a variable to be optimized in the iteration. In this way, important features can be consistently selected, and the robustness of the method to outliers can be improved. Considering the difference in training samples, we utilized self-paced learning mechanism to complete the learning process of training samples from “simple” to “complex” so as to effectively reduce the influence of outliers. Theoretical analysis and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress, thus improving the effect of the classification. Keywords: image processing; principal component analysis; unsupervised learning; data dimension deduction; sparse; optimal mean; self-paced learning; face recognition 降维[1] 是数据分类中的一个重要问题，其目的是学习一个变换矩阵，将高维数据投影到低维子空间中，使数据在低维子空间中得到有效地分类。经典的降维方法包括主成分分析 (principal component analysis, PCA)[2-3] 和线性判别分析 (linear discriminant analysis, LDA)[4-5] ，其中 PCA 是一种将数据信息投影到正交线性空间的无监督方法，原始 PCA 在对数据降维时，以平方欧氏距离来表示损失，而欧氏距离对噪声及异常值敏感。收稿日期：2019−11−19. 基金项目：江苏省研究生科研与实践创新计划项目 (JNKY19_074). 通信作者：许子微. E-mail：18256515269@163.com. 第 16 卷第 3 期智能系统学报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021

第3期许子微，等：自步稀疏最优均值主成分分析 ·417· 于是提出许多PCA变体来降低异常值的影响，例 1相关工作如Nie等6-7提出非贪婪L,范数最大化的鲁棒主成分分析(robust principal component analysis, 给定训练样本为X=[x1x2…xnJ∈Rm,其中 RPCA),和基于L21范数的最优均值主成分分析 m为原始图像的空间维数，n为训练样本的个数。 (optimal mean robust principal component analysis, 1.1PCA模型 OMRPCA)来同时学习最优变换矩阵和最优均假设训练样本X已经中心化，即均值为零，值。但通过RPCA和OMRPCA等模型得到的低则通常的PCA可以表示为维子空间的每个新特征都是高维空间中所有原始 minllx-wwxll.s.t.,WW =I (1) 特征的线性组合，由于存在冗余特征，通常不适合式中W为投影矩阵。该问题的最优解W的列对分类。Zou等I提出了稀疏主成分分析(sparse 应于矩阵的前m个最大特征值对应的特征向量。 principal component analysis,SPCA)。然而，因为在基于L2范数的均值的合理性只针对传统的每个变换向量上施加L,范数，故SPCA不能联合 PCA方法，泛化能力较差，于是考虑以下最优均地选择重要特征：Y等9提出了联合稀疏主成分值PCA模型(OMPCA): (joint sparse principal component analysis, iX-b1-WW(x-b1) JSPCA),利用L2:范数来表示损失项和正则项，在式中：b∈Rm是一个待优化的变量；1为n维全避免异常值影响的同时能联合地选择重要特征， 1列向量。于是，投影矩阵W的列为矩阵XHXT 从而增强算法的分类精度。的前d个最大特征值对应的特征向量，其中以上方法的每一个样本对应一个损失值，损失值的大小决定了样本对模型的贡献，这就表明 H=I-11;最优均值为b=(x1+wam,aeR 了样本之间存在差异性，而这些方法均同等地对为任意d维列向量。待所有训练样本，没有考虑样本之间的差异性。若式(1)中的投影矩阵与恢复矩阵不相同，并受人类/动物学习过程的启发，文献[10-11]提出以L21范数来表示损失函数以及稀疏正则化项，了自定步长（或课程）(self-pace learning,SPL)学习则有以下联合稀疏主成分分析(SPCA)模型：理论，其主要思想是以自定步长方式来实现从“简 minllX-PO'Xl2+allellz 单”到“复杂”样本的训练，最终学习得到一个成熟式中：Q∈Rxd是投影矩阵；P∈Rmxd为恢复矩阵。的模型。此后，Lu等2提出自步课程学习(self 1.2自步学习(SPL)机制 paced curriculum learning,SPCL)同时考虑训练前受人类/动物学习过程的启发，SPL以自定步已知的先验知识和训练过程中的学习进度。长的方式实现从“简单样本”到“复杂样本”迭代地 Yu等u)提出了自步学习K均值聚类(self-paced 训练模型。其优化模型为 learning for k-means clustering algorithm,SPKC), 自步学习机制用于聚类方法。Hu等提出自步 min >v:L(y:g(x:,w))+a(w)+ f(vi,k 核联合稀疏表示高光谱图像分类(kernel joint s.tye[0,1,i=1,2,…,n sparse representation based on self-paced learning for 式中：α为稀疏正则化控制参数；k是自步学习参 hyperspectral image classification,SPKJSR),将自步数；变量用于决定选择哪些样本参与训练模型：学习机制用于高光谱图像分类。 Ly,gc,w)是样本的损失函数，损失值的大小决本文为充分考虑样本之间的差异性，利用SPL 定样本的难易程度：fy,k)是自步正则化函数。在思想提出自步稀疏最优均值主成分分析(sparse 算法迭代过程中，模型可以根据样本难易程度，从 optimal mean principal component analysis based on 简单的样本开始，学习到复杂的样本。自步学习 self-paced learning,.SPL-OMSPCA),该模型放宽了机制的有效性，特别是对高度损坏的数据的鲁棒对投影矩阵的正交约束，通过对训练样本由“简性，已经在各种计算机视觉任务中得到了验证。单”到“复杂”的渐进学习过程，得到最优投影矩阵 2自步稀疏最优均值主成分分析模和最优样本均值。该方法能更好地获得样本中重型(SPL-OMSPCA) 要的特征信息，避免异常值的影响，提高了算法的鲁棒性。在6个不同数据集上的实验表明， 2.1 模型建立 SPL-OMSPCA算法优于目前最先进的主成分分 SPL-OMSPCA的基本思想是：以L21范数表析方法。示损失函数和稀疏约束，并利用自步学习方案对

L1 L2,1 L1 L2,1 于是提出许多 PCA 变体来降低异常值的影响，例如 Nie 等 [6-7] 提出非贪婪范数最大化的鲁棒主成分分析 (robust principal component analysis, RPCA)，和基于范数的最优均值主成分分析 (optimal mean robust principal component analysis, OMRPCA) 来同时学习最优变换矩阵和最优均值。但通过 RPCA 和 OMRPCA 等模型得到的低维子空间的每个新特征都是高维空间中所有原始特征的线性组合，由于存在冗余特征，通常不适合分类。Zou 等 [8] 提出了稀疏主成分分析 (sparse principal component analysis, SPCA)。然而，因为在每个变换向量上施加范数，故 SPCA 不能联合地选择重要特征；Yi 等 [9] 提出了联合稀疏主成分分析 (joint sparse principal component analysis, JSPCA)，利用范数来表示损失项和正则项，在避免异常值影响的同时能联合地选择重要特征，从而增强算法的分类精度。以上方法的每一个样本对应一个损失值，损失值的大小决定了样本对模型的贡献，这就表明了样本之间存在差异性，而这些方法均同等地对待所有训练样本，没有考虑样本之间的差异性。受人类/动物学习过程的启发，文献 [10-11] 提出了自定步长 (或课程) (self-pace learning, SPL) 学习理论，其主要思想是以自定步长方式来实现从“简单”到“复杂”样本的训练，最终学习得到一个成熟的模型。此后，Lu 等 [12] 提出自步课程学习 (selfpaced curriculum learning, SPCL) 同时考虑训练前已知的先验知识和训练过程中的学习进度。 Yu 等 [13] 提出了自步学习 K 均值聚类 (self-paced learning for k-means clustering algorithm, SPKC)，将自步学习机制用于聚类方法。Hu 等 [14] 提出自步核联合稀疏表示高光谱图像分类 (kernel joint sparse representation based on self-paced learning for hyperspectral image classification, SPKJSR)，将自步学习机制用于高光谱图像分类。本文为充分考虑样本之间的差异性，利用 SPL 思想提出自步稀疏最优均值主成分分析 (sparse optimal mean principal component analysis based on self-paced learning, SPL-OMSPCA)，该模型放宽了对投影矩阵的正交约束，通过对训练样本由“简单”到“复杂”的渐进学习过程，得到最优投影矩阵和最优样本均值。该方法能更好地获得样本中重要的特征信息，避免异常值的影响，提高了算法的鲁棒性。在 6 个不同数据集上的实验表明， SPL-OMSPCA 算法优于目前最先进的主成分分析方法。 1 相关工作 X = [x1 x2 ··· xn] ∈ R m×n m n 给定训练样本为，其中为原始图像的空间维数，为训练样本的个数。 1.1 PCA 模型假设训练样本 X 已经中心化，即均值为零，则通常的 PCA 可以表示为 min W ||X−WWTX||2 F ,s.t.,WTW = I (1) W W m 式中为投影矩阵。该问题的最优解的列对应于矩阵的前个最大特征值对应的特征向量。基于 L2 范数的均值的合理性只针对传统的 PCA 方法，泛化能力较差，于是考虑以下最优均值 PCA 模型 (OMPCA)： min b,WTW ||X− b1 T −WWT ( X− b1 T ) ||2 F b ∈ R m 1 n W XHXT d H = I− 1 n (11T ) b = 1 n (X1+Wα),α ∈ R d d 式中：是一个待优化的变量；为维全 1 列向量。于是，投影矩阵的列为矩阵的前个最大特征值对应的特征向量，其中 ;最优均值为为任意维列向量。 L2,1 若式 (1) 中的投影矩阵与恢复矩阵不相同，并以范数来表示损失函数以及稀疏正则化项，则有以下联合稀疏主成分分析 (JSPCA) 模型： min Q,P ||X− PQTX||2,1 +λ||Q||2,1 Q ∈ R m×d P ∈ R 式中：是投影矩阵； m×d 为恢复矩阵。 1.2 自步学习 (SPL) 机制受人类/动物学习过程的启发，SPL 以自定步长的方式实现从“简单样本”到“复杂样本”迭代地训练模型。其优化模型为 min∑n i=1 viL(yi ,g(xi ,w))+αϕ(w)+ ∑n i=1 f(vi , k) s.t.vi ∈ [0,1],i = 1,2,··· ,n α k vi L(yi ,g(xi ,w)) f(vi , k) 式中：为稀疏正则化控制参数；是自步学习参数；变量用于决定选择哪些样本参与训练模型；是样本的损失函数，损失值的大小决定样本的难易程度；是自步正则化函数。在算法迭代过程中，模型可以根据样本难易程度，从简单的样本开始，学习到复杂的样本。自步学习机制的有效性，特别是对高度损坏的数据的鲁棒性，已经在各种计算机视觉任务中得到了验证。 2 自步稀疏最优均值主成分分析模型 (SPL-OMSPCA) 2.1 模型建立 SPL-OMSPCA 的基本思想是：以 L2,1 范数表示损失函数和稀疏约束，并利用自步学习方案对第 3 期许子微，等：自步稀疏最优均值主成分分析 ·417·

·418· 智能系统学报第16卷参与训练的样本进行选择。其中，损失函数是训 di= 1/A-POA)ll2.Il(A-POA)'lk+0 (5) 练样本从低维变换空间中恢复原始数据产生的误 1/6,其他差，且包含需优化的均值向量。于是有以下优化式中：A=X-b1T;i(i=1,2,…,m)表示矩阵的第i 模型：列；对角矩阵H=diag(h,h22,…,hmm)的对角元素 -PQ"(sb)l+alllba+ 定义为 vh.P.Q ba=1I0k,Ig≠0 (6) (2) 1/6,其他式中：j=1,2…,m)表示矩阵的第j行；6为一个 st.PrP=I,y∈0,1，i=1,2,…,n 很小的数。式中：x为第i个样本；α为稀疏正则化控制参 2.2模型求解数；k为自步控制参数；变量用于决定选择哪些因为式(4)含有P、Q、b及v共4个变量，直样本参与训练：b∈RmxI是样本均值；Q∈Rmw是投接求解非常困难，所以本文使用交替迭代求解的方法，分别求得自步学习权重”、最优投影矩阵影矩阵；P∈Rmxd是恢复矩阵且服从正交约束 Q、最优均值b以及恢复矩阵P。 PP=I。式(2)用损失值的大小决定样本的难易 2.21固定P、Q、b求自步学习权重v 程度。自步正则化函数f,)有多种形式。若f,kF 当P、Q和b固定时，式(4)转化为 1 一，k值较大，倾向于选择损失值较小的样本，于 mi∑，-b-PQ'c-bb+E 片+脉是在算法迭代过程中，利用一个步长参数μ来逐 st.PP=L,ye[0,1],i=1,2…,n 渐减小k的值，使得越来越多的样本参与模型学令L,=x-b-PQr(x-b)l2,则上式可表示为习，从而实现从简单样本学习到复杂样本的过程。当k小于一个预定义的确定值时，算法结束。 1 片+队 (7) 上述方法是硬性阈值权值选择方法，通过给 s.t.y:∈[0,1，i=1,2,…,n 每个样本分配二元权值(：∈[0,1)来决定是否选式(7)的目标函数关于：求偏导并令其为择样本。但异常值在所有样本中分布不均匀，所 0得：的解以硬性正则函数不能确定是否选择这些样本。相 (1,L≤1/k+1/B)2 比于硬性阈值权值，软权值给每个样本分配 0,L≥1/k2 := (8) 0~1(包括0和1)的权值，显示了样本的潜在重要 /1 其他性，更好地实现了从简单样本逐步学习到复杂样 2.2.2 本的过程。所提最终优化算法为固定P、Q、求解最优均值b 版-b-Po'k-bb+dig+t 当固定P、Q和v时，式(4)转化为 min(X-b1'-PQ"(X-b1)D (9) 户B (3) 式(9)的目标函数关于b求偏导并令其为零，台%+队得到 s.tPP=I,y∈[0,1]，i=1,2,…,n (I-POT-OPT+00)(b1T-X)VD1=0 (10) 式中B是间隔控制参数，控制0~1的模糊区间。令c=(b1T-X)VD1,则式(10)转化为因此软阈值权值可以通过明确样本间差异，准确 (I-P0-QPr+20')c=0 (11) 选择样本，进一步避免异常值的影响。另外，这若I-PQ-QPr+QQ为非奇异的，则式(11) 里存在一个隐形变量4（μ>1），用来作为自步控制的解为c=0,从而有参数k减小的步长。目标函数式(3)转化为 (12) (X-bI-PO'(X-b1 0 若I-PQ'-QP+QQ为奇异的，设其奇异值分解 lvag啡+户B (4) 为EW1U1T,其中W1=diag(c1,2,…,c,0,…,0), 台%+欧 o1≥2≥…≥σ，>0，则式(11)的解为 s.t.PrP=L,y,∈[0,1]，i=1,2,…,n c=01z 式中：V=diag(v1,2,…,v:1是全为1的列向量；对其中z=[0,…,0,z+1,…,zmJ∈Rm为任意的。特别角矩阵D=diag(di,d2,…,dnm)的对角元素定义为地，如令z+1=1,乙2=…=zm=0,则式(11)的一个

参与训练的样本进行选择。其中，损失函数是训练样本从低维变换空间中恢复原始数据产生的误差，且包含需优化的均值向量。于是有以下优化模型： min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 +α||Q||2,1+ ∑n i=1 f(vi , k) s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (2) xi i α k vi b ∈ R m×1 Q ∈ R m×d P ∈ R m×d P T P = I 式中：为第个样本；为稀疏正则化控制参数；为自步控制参数；变量用于决定选择哪些样本参与训练；是样本均值；是投影矩阵；是恢复矩阵且服从正交约束。式 (2) 用损失值的大小决定样本的难易程度。 f(vi , k) f(vi , k) − 1 k vi k µ k k 自步正则化函数有多种形式。若 = ，值较大，倾向于选择损失值较小的样本，于是在算法迭代过程中，利用一个步长参数来逐渐减小的值，使得越来越多的样本参与模型学习，从而实现从简单样本学习到复杂样本的过程。当小于一个预定义的确定值时，算法结束。 (vi ∈ [0,1]) 上述方法是硬性阈值权值选择方法，通过给每个样本分配二元权值来决定是否选择样本。但异常值在所有样本中分布不均匀，所以硬性正则函数不能确定是否选择这些样本。相比于硬性阈值权值，软权值给每个样本分配 0~1(包括 0 和 1) 的权值，显示了样本的潜在重要性，更好地实现了从简单样本逐步学习到复杂样本的过程。所提最终优化算法为 min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 +α||Q||2,1+ ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (3) β µ(µ > 1) k 式中是间隔控制参数，控制 0~1 的模糊区间。因此软阈值权值可以通过明确样本间差异，准确选择样本，进一步避免异常值的影响。另外，这里存在一个隐形变量，用来作为自步控制参数减小的步长。目标函数式 (3) 转化为 min v,b,P,Q ||(X− b1 T − PQT (X− b1 T )) √ V √ D||2 F+ α|| √ HQ||2 F + ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (4) V = diag(v1, v2,··· , vn) 1 D = diag(d11,d22,··· ,dnn) 式中：；是全为 1 的列向量；对角矩阵的对角元素定义为 dii = { 1/||A− PQTA) i ||2, ||(A− PQTA) i ||2 , 0 1/δ, 其他 (5) A = X− b1 T i(i = 1,2,··· ,n) i H = diag(h11,h22,··· ,hmm) 式中：；表示矩阵的第列；对角矩阵的对角元素定义为 hii = { 1/||Q j ||2 , ||Q j ||2 , 0 1/δ, 其他 (6) 式中： j(j = 1,2,··· ,m) 表示矩阵的第 j 行； δ 为一个很小的数。 2.2 模型求解 P Q b v v Q b P 因为式 (4) 含有、、及共 4 个变量，直接求解非常困难，所以本文使用交替迭代求解[15] 的方法，分别求得自步学习权重、最优投影矩阵、最优均值以及恢复矩阵。 2.2.1 固定 P、Q、b 求自步学习权重 v 当 P、Q 和 b 固定时，式 (4) 转化为 min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 + ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n Li = ||xi−b−PQT 令 (xi−b)||2，则上式可表示为 min v ∑n i=1 viLi + ∑n i=1 β 2 vi +βk s.t.vi ∈ [0,1],i = 1,2,··· ,n (7) vi vi 式 (7) 的目标函数关于求偏导并令其为 0 得的解 vi =    1, Li ⩽ 1/(k+1/β) 2 0, Li ⩾ 1/k 2 β ( 1 √ Li −k ) , 其他 (8) 2.2.2 固定 P、Q、v 求解最优均值 b 当固定 P、Q 和 v 时，式 (4) 转化为 min b (X− b1 T − PQT (X− b1 T )) √ V √ D 2 F (9) 式 (9) 的目标函数关于 b 求偏导并令其为零，得到 (I− PQT −QPT +QQT )(b1 T − X)V D1 = 0 (10) c = (b1 T 令 − X)V D1 ，则式 (10) 转化为 (I− PQT −QPT +QQT )c = 0 (11) I− PQT −QPT +QQT c = 0 若为非奇异的，则式 (11) 的解为，从而有 b = XV D1 1 TV D1 (12) I− PQT −QPT +QQT E1W1U1 T W1 = diag(σ1,σ2,··· ,σs ,0,··· ,0) σ1 ⩾ σ2 ⩾ ··· ⩾ σs > 0 若为奇异的，设其奇异值分解为 , 其中 , ，则式 (11) 的解为 c = U1 z z = [0,··· ,0,zs+1,··· ,zm] T ∈ R m zs+1 = 1 zs+2 = ··· = zm = 0 其中为任意的。特别地，如令，，则式 (11) 的一个 ·418· 智能系统学报第 16 卷

第3期许子微，等：自步稀疏最优均值主成分分析 ·419· 特解为U1的第s+1列，即c=(U1)+,从而有本的类标签。 b=U)+XVDI (13) 在算法1中，主要的计算复杂度为奇异值分 1VD1 解和矩阵求逆，故本算法时间复杂度最高为O(m), 2.2.3固定P、v、b求解投影矩阵Q 假设算法迭代T次，则该部分的时间复杂度为固定P、”、b后，式(4)转化为 O(Tm),从而整个算法的时间复杂度为O(Tm)。 m(X-b-PQ"(X- (14) 3实验 all VHl 令(X-b1)FD=G,则式(14)转化为为评估SPL-OMSPCA算法的有效性，本文将 min IlG-POTG+all VHQll (15) 在UMIST6、JAFFE1M、AR181、BIO1咧、COIL2020 及MNISTP数据集上进行测试，每次实验独立随式(15)的目标函数关于Q求偏导，并令其为机，重复20次取平均识别率和标准差作为最后实 0得验结果，并与PCA、SPCA、OMRPCA和JSPCA算 (GGT+aH)Q=GGTP 法作对比。从而有 3.1数据集 Q=(GGT+aH)GGTP (16) 为测试SPL-OMSPCA对异常值的鲁棒性，将 2.2.4固定Q、"、b求解恢复矩阵P UMIST数据集的每个图像随机添加13×13的块固定Q、”、b后，式(4)转化为遮挡；随机抽取JAFFE数据集50%的图像添加 min((x-b1)-Pe"(x-b1)VD 13×13块遮挡，而对AR、BIO、COIL20和 MNIST数据集随机添加10%的椒盐噪声。各数 s.t.PTP=I 据集的具体特征如表1所示，而各数据集的部分或等价形式为图像如图1。 minVD VV(X-b1')-VDVV(X-b1'op 表1不同数据集的属性及特点 s.tPTP=I Table 1 Attributes and characteristics of different datasets (17) 约束条件PP=I意味着P是列正交矩阵。数据集样本数类别数规模特征设(X-b1)VD(X-b1)TQ的奇异值分解为E2W,U2, UMIST 575 20 28×32 有较大姿态变化则由文献[9]中定理知，式(17)的最优解为 JAFFE 200 10 32×32 有面部表情变化 P=E2U; (18) 有光照表情变化以上过程不断迭代，直到收敛条件满足为止， AR 3120 120 32×32 部分图像有遮挡具体算法如算法1。 BIO 1460 22 32×32 样本较相似算法1SPL-OMSPCA COIL20 1440 20 32×32 姿态间隔拍摄输入样本X,维度d,参数k、α、B和步长输出投影矩阵Q。 MNIST 1000 10 28×28 样本较相似迭代执行以下操作，直到模型收敛： 1)通过式(8)计算： 2)通过式(12)、(13)计算b: 3)通过式(16)计算Q: 4)通过式(18)计算P: (a)UMIST数据集 (b)JAFFE数据集 5)通过式（⑤）计算D: 6)通过式(6)计算H; 0王3米 7更新k:k=k/μo 56087 得到投影矩阵Q之后，运用最近邻分类器 (c)COL20数据集 (d)MNIST数据集 (nearest neighbor classifier,.NN)进行分类：图1部分含噪数据集的可视化 a-w (19) Fig.1 Visualization of some datasets with noise 3.2实验结果及分析式中：c为测试样本y的预测标签；c:为第i个样在各数据集的每类中随机选取L张图像作为

特解为 U1 的第 s+1 列，即 c = (U1)s+1，从而有 b = (U1)s+1 + XV D1 1 TV D1 (13) 2.2.3 固定 P、v、b 求解投影矩阵 Q 固定 P、v、b 后，式 (4) 转化为 min Q (X− b1 T − PQT (X− b1 T )) √ V √ D 2 F + α|| √ HQ||2 F (14) ( X− b1 T ) √ V √ 令 D = G ，则式 (14) 转化为 min Q ||G− PQTG||2 F +α|| √ HQ||2 F (15) 式 (15) 的目标函数关于 Q 求偏导，并令其为 0 得 ( GGT +αH ) Q = GGT P 从而有 Q = ( GGT +αH )−1 GGT P (16) 2.2.4 固定 Q、v、b 求解恢复矩阵 P 固定 Q、v、b 后，式 (4) 转化为 min P ((X− b1 T ) − PQT ( X− b1 T )) √ V √ D 2 F s.t.P T P = I 或等价形式为 min P √ D √ V(X− b1 T ) T − √ D √ V(X− b1 T ) TQPT 2 F s.t.P T P = I (17) P T P = I P (X− b1 T )V D(X− b1 T ) TQ E2W2U2 T 约束条件意味着是列正交矩阵。设的奇异值分解为，则由文献 [9] 中定理知，式 (17) 的最优解为 P = E2U T 2 (18) 以上过程不断迭代,直到收敛条件满足为止，具体算法如算法 1。算法 1 SPL-OMSPCA 输入样本 X ，维度 d ，参数 k、α、β 和步长 µ ；输出投影矩阵 Q。迭代执行以下操作，直到模型收敛： 1) 通过式 (8) 计算 v ； 2) 通过式 (12)、(13) 计算 b ； 3) 通过式 (16) 计算 Q ； 4) 通过式 (18) 计算 P ； 5) 通过式 (5) 计算 D ； 6) 通过式 (6) 计算 H ； 7) 更新 k：k = k/µ。得到投影矩阵 Q 之后，运用最近邻分类器 (nearest neighbor classifier, NN) 进行分类： c = argminci   ∑m j=1 (X j i −yj) 2   1/2 (19) c y ci 式中：为测试样本的预测标签；为第 i 个样本的类标签。 O(m 3 ) T O(Tm3 ) O(Tm3 ) 在算法 1 中，主要的计算复杂度为奇异值分解和矩阵求逆，故本算法时间复杂度最高为，假设算法迭代次，则该部分的时间复杂度为，从而整个算法的时间复杂度为。 3 实验为评估 SPL-OMSPCA 算法的有效性，本文将在 UMIST[16] 、JAFFE[17] 、AR[18] 、BIO[19] 、COIL20[20] 及 MNIST[21] 数据集上进行测试，每次实验独立随机，重复 20 次取平均识别率和标准差作为最后实验结果，并与 PCA、SPCA、OMRPCA和 JSPCA 算法作对比。 3.1 数据集 13×13 13×13 为测试 SPL-OMSPCA 对异常值的鲁棒性，将 UMIST 数据集的每个图像随机添加的块遮挡；随机抽取 JAFFE 数据集 50% 的图像添加块遮挡，而对 A R 、 BIO 、 COIL2 0 和 MNIST 数据集随机添加 10% 的椒盐噪声。各数据集的具体特征如表 1 所示，而各数据集的部分图像如图 1。表 1 不同数据集的属性及特点 Table 1 Attributes and characteristics of different datasets 数据集样本数类别数规模特征 UMIST 575 20 28×32 有较大姿态变化 JAFFE 200 10 32×32 有面部表情变化 AR 3120 120 32×32 有光照表情变化部分图像有遮挡 BIO 1460 22 32×32 样本较相似 COIL20 1440 20 32×32 姿态间隔拍摄 MNIST 1000 10 28×28 样本较相似 (a) UMIST 数据集 (b) JAFFE 数据集 (c) COIL20 数据集 (d) MNIST 数据集图 1 部分含噪数据集的可视化 Fig. 1 Visualization of some datasets with noise 3.2 实验结果及分析在各数据集的每类中随机选取 L 张图像作为第 3 期许子微，等：自步稀疏最优均值主成分分析 ·419·

·420· 智能系统学报第16卷训练样本，其余作为测试样本。图2给出了每个算空间维数较低时，SPL-OMSPCA与其他对比算法对不同数据集，在不同子空间维度上的分类精度。法几乎保持一致的精度，但随着子空间维数的对UMIST、JAFFE和COL20数据集，分别取9、增加，本文算法精度持续保持平稳状态，且明显 10和5，则由图2(a)、(b)和(e)可看出，SPL-OMSPCA 优于其他算法。表2列出了不同训练样本数下，整体优于其他对比算法；对AR数据集，取13，由 5种算法在不同数据集上的分类精度与标准差，图2(c)可知，SPL-OMSPCA明显优于OMRPCA 表中数据为子空间维数从5~100变化时，每个算和SPCA,而略优于其他算法：对BIO和MNIST 法取得的最高精度，其中黑色加粗字体表示训练数据集，分别选取20和10，由图2(d)与2()可以样本相同时，同一设置下几种算法中的最高分类看出，由于此类数据集中的样本较为相似，当子精度。 0.70 0.80 0.75 0.65 ★★★★★ 0.70 0.60 0.65 SPL-OMSPCA ★SPL-OMSPCA JSPCA 0.60 JSPCA 0.55 PCA PCA SPCA 0.55 SPCA ◆-OMRPCA ◆-OMRPCA 0.50 0.50 5 152535455565758595105 152535455565758595105 子空间维数子空间维数 (a)UMIST数据集 (b)JAFFE数据集 08 0.85 0.7 0.80 0.6 0.75 0.5 0.70 湾合特4各年 0.65 0.4 ★SPL-OMSPCA 0.3 ★SPL-OMSPCA ·-JSPCA 0.55 JSPCA 02 -ePCA 0.50 -ePCA SPCA 0.1 SPCA OMRPCA 0.45 ◆-OMRPCA 152535455565758595105 0.40 5 5 2535455565758595105 子空间维数子空间维数 (C)AR数据集 (d)BIO数据集 0.85 0.80 0.80 0.75 0.75 0.70 0.70 0.65 0.65 0.60 ★SPL-OMSPCA ★SPL-OMSPCA 0.55 ·-JSPCA 0.60 ◆-JSPCA 0.50 -ePCA SPCA 0.55 SPCA 0.45 ◆OMRPCA ◆-OMRPCA 0.40 0.50 152535455565758595105 15 253545.5565758595105 子空间维数子空间维数 (e)COL20数据集 ()MNIST数据集图2不同算法在6个数据集上不同子空间维度的分类精度 Fig.2 Classification accuracies of different algorithm in different subspace dimensions on six datasets

训练样本，其余作为测试样本。图 2 给出了每个算法对不同数据集，在不同子空间维度上的分类精度。对 UMIST、JAFFE 和 COIL20 数据集，分别取 9、 10 和 5，则由图 2(a)、(b) 和 (e) 可看出，SPL-OMSPCA 整体优于其他对比算法；对 AR 数据集，取 13，由图 2(c) 可知，SPL-OMSPCA 明显优于 OMRPCA 和 SPCA，而略优于其他算法；对 BIO 和 MNIST 数据集，分别选取 20 和 10，由图 2(d) 与 2(f) 可以看出，由于此类数据集中的样本较为相似，当子空间维数较低时，SPL-OMSPCA 与其他对比算法几乎保持一致的精度，但随着子空间维数的增加，本文算法精度持续保持平稳状态，且明显优于其他算法。表 2 列出了不同训练样本数下， 5 种算法在不同数据集上的分类精度与标准差，表中数据为子空间维数从 5~100 变化时，每个算法取得的最高精度，其中黑色加粗字体表示训练样本相同时，同一设置下几种算法中的最高分类精度。 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.70 0.65 0.60 0.55 0.50 分类精度子空间维数 5 15 25 35 45 55 65 75 85 95 105 105 105 105 105 105 (a) UMIST 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.80 0.75 0.70 0.65 0.60 0.55 0.50 分类精度子空间维数 5 15 25 35 45 55 65 75 85 95 (b) JAFFE 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 分类精度子空间维数 5 15 25 35 45 55 65 75 85 95 (c) AR 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.40 0.45 0.50 分类精度子空间维数 5 15 25 35 45 55 65 75 85 95 (d) BIO 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.40 0.45 0.50 分类精度子空间维数 5 15 25 35 45 55 65 75 85 95 (e) COIL20 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.80 0.75 0.70 0.65 0.60 0.55 0.50 分类精度子空间维数 5 15 25 35 45 55 65 75 85 95 (f) MNIST 数据集图 2 不同算法在 6 个数据集上不同子空间维度的分类精度 Fig. 2 Classification accuracies of different algorithm in different subspace dimensions on six datasets ·420· 智能系统学报第 16 卷

第3期许子微，等：自步稀疏最优均值主成分分析 ·421· 表2在6个不同噪声数据集上各种PCA算法的分类精度及其标准差 Table 2 Average classification accuracy and standard deviation of various PCA algorithm on six data sets with different noise training samples 数据集 L PCA SPCA JSPCA OMRPCA SPL-OMSPCA 6 0.5980±0.0222 0.5853±0.0449 0.5936±0.02000.5897±0.0292 0.6198±0.0220 9 0.6430±0.0253 0.6377±0.0225 0.6418±0.03160.6425±0.0324 0.6718±0.0377 UMST13×13遮挡) 12 0.6872±0.0203 0.6761±0.0373 0.6764±0.0412 0.6830±0.0382 0.7185±0.0128 Mean0.6427±0.02260.6330±0.0349 0.6373±0.03090.6384±0.0332 0.6700±0.0242 5 0.6520±0.0587 0.6447±0.0553 0.6447±0.0580 0.6413±0.0920 0.7100±0.0367 10 0.7060±0.0660 0.7010±0.09600.6950±0.0450 0.6940±0.0560 0.7910±0.0590 JAFFE13×13遮挡) 15 0.7260±0.06600.7280±0.0680 0.7240±0.0640 0.73400.0660 0.8120±0.0640 Mean0.6947±0.0636 0.6912±0.0731 0.6879±0.0730 0.6898±0.0713 0.7710±0.0532 8 0.5456±0.0214 0.5669±0.0174 0.5444±0.0263 0.5681±0.0205 0.5744±0.0255 13 0.6450±0.0135 0.6509±0.0280 0.6495±0.0105 0.6517±0.0279 0.6659±0.0197 AR(10%椒盐噪声) 18 0.7368±0.00910.7292±0.0292 0.7211±0.02110.7397±0.0207 0.7440±0.0240 Mean 0.642440.0147 0.6490±0.02490.6383±0.0193 0.65320.0230 0.6614±0.0231 18 0.7391±0.0222 0.7424±0.02630.7438±0.0365 0.7362±0.0172 0.7621±0.0131 20 0.7483±0.02580.7589±0.0286 0.7480±0.02060.7520±0.0196 0.7741±0.0206 BI0(10%椒盐噪声) 22 0.7661±0.0116 0.7769±0.0168 0.7681±0.03640.7682±0.0223 0.7860±0.0247 Mean0.7512±0.01990.7594±0.02390.7533±0.03120.7521±0.01970.7741±0.0195 4 0.78640.01560.7735±0.0306 0.7836±0.02150.7840±0.0296 0.7895±0.0392 5 0.8100±0.0245 0.8011±0.0202 0.8149±0.0239 0.8116±0.0350 0.8205±0.0265 COL20(10%椒盐噪声) 6 0.8357±0.01900.8394±0.0227 0.7939±0.02510.8476±0.0365 0.8522±0.0211 Mean0.8107±0.01970.8047±0.02450.8201±0.02150.8144±0.0337 0.8207±0.0283 15 0.7515±0.0209 0.7449±0.0273 0.7528±0.0284 0.7439±0.0329 0.7718±0.0271 20 0.78190.0156 0.7780±0.0228 0.7795±0.0249 0.77940.0194 0.7928±0.0165 MINIST(10%椒盐噪声) 25 0.8016±0.02110.8021±0.0208 0.801940.02750.8017±0.0231 0.8168±0.0301 Mean0.7783±0.0192 0.7750±0.0236 0.7781±0.02690.7750±0.0251 0.7938±0.0246 为进一步证明实验的合理性，选取JAFFE和部分重构图像，明显SPL-OMSPCA模型对含噪声 C0L20数据集，L分别取10和9，子空间维度取块图像的重构更好。表3展示了迭代过程中 10。SPL-OMSPCA模型中，每一次迭代中更新均 JAFFE数据集部分样本的y:的变化情况，其中一值，图3展示了2个数据集从1024个特征中随机行表示一个样本的变化。从表3可看出，随迭代抽取的10个特征的均值变化，由图3可看出均值次数的增加，对损失值大小的限制逐渐放宽，实随迭代次数增加逐渐趋于平稳。模型考虑样本自现从“简单样本”到“复杂样本”的学习。此外，图5 身差异性，引入自步学习机制，利用损失值判断给出了算法在UMIST和JAFFE上的收敛情况，样本的难易程度，赋予样本软权重，并且放宽对其中，训练样本数L分别为9、10，子空间维数为投影矩阵的正交约束，以L2!范数来表示损失函 100,最大迭代次数为30。由图5可见，本文所提数和稀疏约束，由此即使对于有噪声的样本，也出的算法具有收敛性。能极大程度地进行重构，图4展示了对于随机添综上所述，SPL-OMSPCA模型对噪声样本具有加50%块噪声的JAFFE数据集，5种算法得到的更高的鲁棒性，且能取得比其他算法更高的识别率

表 2 在 6 个不同噪声数据集上各种 PCA 算法的分类精度及其标准差 Table 2 Average classification accuracy and standard deviation of various PCA algorithm on six data sets with different noise training samples 数据集 L PCA SPCA JSPCA OMRPCA SPL-OMSPCA UMIST ( 13×13 遮挡) 6 0.598 0±0.022 2 0.585 3±0.044 9 0.593 6±0.020 0 0.589 7±0.029 2 0.619 8±0.022 0 9 0.643 0±0.025 3 0.637 7±0.022 5 0.641 8±0.031 6 0.642 5±0.032 4 0.671 8±0.037 7 12 0.687 2±0.020 3 0.676 1±0.037 3 0.676 4±0.041 2 0.683 0±0.038 2 0.718 5±0.012 8 Mean 0.642 7±0.022 6 0.633 0±0.034 9 0.637 3±0.030 9 0.638 4±0.033 2 0.670 0±0.024 2 JAFFE ( 13×13 遮挡) 5 0.652 0±0.058 7 0.644 7±0.055 3 0.644 7±0.058 0 0.641 3±0.092 0 0.710 0±0.036 7 10 0.706 0±0.066 0 0.701 0±0.096 0 0.695 0±0.045 0 0.694 0±0.056 0 0.791 0±0.059 0 15 0.726 0±0.066 0 0.728 0±0.068 0 0.724 0±0.064 0 0.734 0±0.066 0 0.812 0±0.064 0 Mean 0.694 7±0.063 6 0.691 2±0.073 1 0.687 9±0.073 0 0.689 8±0.071 3 0.771 0±0.053 2 AR (10% 椒盐噪声) 8 0.545 6±0.021 4 0.566 9±0.017 4 0.544 4±0.026 3 0.568 1±0.020 5 0.574 4±0.025 5 13 0.645 0±0.013 5 0.650 9±0.028 0 0.649 5±0.010 5 0.651 7±0.027 9 0.665 9±0.019 7 18 0.736 8±0.009 1 0.729 2±0.029 2 0.721 1±0.021 1 0.739 7±0.020 7 0.744 0±0.024 0 Mean 0.642 4±0.014 7 0.649 0±0.024 9 0.638 3±0.019 3 0.653 2±0.023 0 0.661 4±0.023 1 BIO (10% 椒盐噪声) 18 0.739 1±0.022 2 0.742 4±0.026 3 0.743 8±0.036 5 0.736 2±0.017 2 0.762 1±0.013 1 20 0.748 3±0.025 8 0.758 9±0.028 6 0.748 0±0.020 6 0.752 0±0.019 6 0.774 1±0.020 6 22 0.766 1±0.011 6 0.776 9±0.016 8 0.768 1±0.036 4 0.768 2±0.022 3 0.786 0±0.024 7 Mean 0.751 2±0.019 9 0.759 4±0.023 9 0.753 3±0.031 2 0.752 1±0.019 7 0.774 1±0.019 5 COIL20 (10% 椒盐噪声) 4 0.786 4±0.015 6 0.773 5±0.030 6 0.783 6±0.021 5 0.784 0±0.029 6 0.789 5±0.039 2 5 0.810 0±0.024 5 0.801 1±0.020 2 0.814 9±0.023 9 0.811 6±0.035 0 0.820 5±0.026 5 6 0.835 7±0.019 0 0.839 4±0.022 7 0.793 9±0.025 1 0.847 6±0.036 5 0.852 2±0.021 1 Mean 0.810 7±0.019 7 0.804 7±0.024 5 0.820 1±0.021 5 0.814 4±0.033 7 0.820 7±0.028 3 MINIST (10% 椒盐噪声) 15 0.751 5±0.020 9 0.744 9±0.027 3 0.752 8±0.028 4 0.743 9±0.032 9 0.771 8±0.027 1 20 0.781 9±0.015 6 0.778 0±0.022 8 0.779 5±0.024 9 0.779 4±0.019 4 0.792 8±0.016 5 25 0.801 6±0.021 1 0.802 1±0.020 8 0.801 9±0.027 5 0.801 7±0.023 1 0.816 8±0.030 1 Mean 0.778 3±0.019 2 0.775 0±0.023 6 0.778 1±0.026 9 0.775 0±0.025 1 0.793 8±0.024 6 vi L2,1 为进一步证明实验的合理性，选取 JAFFE 和 COIL20 数据集，L 分别取 10 和 9，子空间维度取 10。SPL-OMSPCA 模型中，每一次迭代中更新均值，图 3 展示了 2 个数据集从 1 024 个特征中随机抽取的 10 个特征的均值变化，由图 3 可看出均值随迭代次数增加逐渐趋于平稳。模型考虑样本自身差异性，引入自步学习机制，利用损失值判断样本的难易程度，赋予样本软权重，并且放宽对投影矩阵的正交约束，以范数来表示损失函数和稀疏约束，由此即使对于有噪声的样本，也能极大程度地进行重构，图 4 展示了对于随机添加 50% 块噪声的 JAFFE 数据集，5 种算法得到的 vi L 部分重构图像，明显 SPL-OMSPCA 模型对含噪声块图像的重构更好。表 3 展示了迭代过程中 JAFFE 数据集部分样本的的变化情况，其中一行表示一个样本的变化。从表 3 可看出，随迭代次数的增加，对损失值大小的限制逐渐放宽，实现从“简单样本”到“复杂样本”的学习。此外，图 5 给出了算法在 UMIST 和 JAFFE 上的收敛情况，其中，训练样本数分别为 9、10，子空间维数为 100，最大迭代次数为 30。由图 5 可见，本文所提出的算法具有收敛性。综上所述，SPL-OMSPCA 模型对噪声样本具有更高的鲁棒性，且能取得比其他算法更高的识别率。第 3 期许子微，等：自步稀疏最优均值主成分分析 ·421·

第3期许子微，等：自步稀疏最优均值主成分分析 ·423· 3.3 参数设置 4结束语由式(3)提出的问题可知，参数k和B的值决定了学习过程中样本的选取，故选择合适的参数本文提出了一种新的无监督降维算法一自可以提升算法的分类效果。假设初始训练时最大步稀疏最优均值主成分分析(SPL-OMSPCA)算法。基于对样本自身差异性的考虑，引入自步学损失为L,由式(3)取适当的k和B满足：习的思想，实现样本从“简单”到“复杂”的训练，且 Lm=1/k+1/B2 (20) 在迭代过程中，自动更新均值，而后通过对投影为简化计算，令k=1/B,则有矩阵添加L21范数的行稀疏约束，一致选择样本，进一步提高算法的识别精度。理论分析和实验结 k=1/2VLm B=2Lm (21) 果都证明了SPL-OMSPCA模型的分类优势。虽对步长参数μ和稀疏正则化控制参数α将通然SPL-OMSPCA的性能优于其他PCA方法，但过实验确定，由图6可见，SPL-OMSPCA 它还是一种无监督方法，不能使用类标签来提取算法在不同参数组合下得到不同分类效果。具体有区别的特征，因此它还不能提取最有效的分类地，UMST数据集上L=9时，在(a,m)=(0.001,1.25) 特征。在未来，可将之扩展到半监督分类问题。处可取得最高精度；JAFFE数据集上L=I0时，在参考文献： (@,四=(10,1.15)处取得最高精度；AR数据集上 L=13时，在(a,)=(0.01,1.15)处取得最高精度； [1]OU Weihua,YOU Xinge,TAO Dacheng,et al.Robust BI0数据集上L=20时，在(a,m)=(1000,1.1)时取 face recognition via occlusion dictionary learning[J].Pat- tern rec0 gnition,2014,47(4):1559-1572. 得最高精度；C0IL20数据集上L=5时， [2]WEI Lai,ZHOU Rigui,YIN Jun,et al.Latent graph-regu- (a,4)=(1000,1.15)时取得最高精度；MNIST数据 larized inductive robust principal component analysis[J]. 集上L=20时，在(a,)=(1000,1.15)取到最高精度。 Knowledge-based systems,2019,177:68-81 [3]HE Jinrong,BI Yingzhou,LIU Bin,et al.Graph-dual Laplacian principal component analysis[J].Journal of am- 0.70 bient intelligence and humanized computing,2019,10(8): 0.65 3249-3262. 0.60 [4]ZHAO Haifeng,WANG Zheng,NIE Feiping.A new for- 0.55 mulation of linear discriminant analysis for robust dimen- 0.50 sionality reduction[J.IEEE transactions on knowledge and 0.000 data engineering,2018,31(4):629-640 0 g职联马 [5]朱换荣，郑智超.孙怀江面向局部线性回归分类器的判别分析方法U.智能系统学报，2019,14(5)：959-965. ZHU Huanrong,ZHENG Zhichao,SUN Huaijiang.Local- (a)UMIST数据集 ity-regularized linear regression classification-based dis- criminant analysis[J.CAAl transactions on intelligent sys- tems,2019,14(5y:959-965. 0.80 [6]NIE Feiping,HUANG Heng,DING C,et al.Robust prin- 0.75 cipal component analysis with non-greedy f-norm maxim- 0.70 ization[C]//Proceedings of the 22nd International Joint 0.65 Conference on Artificial Intelligence.Barcelona,Catalonia, 0.60 Spain,.2011:1433-1438 0.0001 [7]NIE Feiping,YUAN Jianjun,HUANG Heng.Optimal mean robust principal component analysis[C]//Proceed- 100000 ings of the 31st International Conference on Machine Learning.Beijing,China,2014:1062-1070. (b)JAFFE数据集 [8]ZOU Hui,HASTIE T,TIBSHIRANI R.Sparse principal 图6不同参数上的分类精度 component analysis[J].Journal of computational and Fig.6 Classification accuracy on different parameters graphical statistics,2006,15(2):265-286

3.3 参数设置 k β Lm k β 由式 (3) 提出的问题可知，参数和的值决定了学习过程中样本的选取，故选择合适的参数可以提升算法的分类效果。假设初始训练时最大损失为，由式 (3) 取适当的和满足： Lm = 1/(k+1/β) 2 (20) 为简化计算，令 k = 1/β ，则有 k = 1/2 √ Lm, β = 2 √ Lm (21) µ α L = 9 (α, µ) = (0.001,1.25) L = 10 (α, µ) = (10,1.15) L = 13 (α, µ) = (0.01,1.15) L = 20 (α, µ) = (1 000,1.1) L = 5 (α, µ) = (1 000,1.15) L = 20 (α, µ) =(1 000,1.15) 对步长参数和稀疏正则化控制参数将通过实验确定，由图 6 可见， SPL-OMSPCA 算法在不同参数组合下得到不同分类效果。具体地，UMIST 数据集上时，在处可取得最高精度；JAFFE 数据集上时，在处取得最高精度；AR 数据集上时，在处取得最高精度； BIO 数据集上时，在时取得最高精度； COIL2 0 数据集上时，时取得最高精度；MNIST 数据集上时，在取到最高精度。 (a) UMIST 数据集分类精度 0.70 0.65 0.60 0.55 0.50 0.0001 0.001 0.01 0.1 1 10 100 1 000 10 000 100 000 1.50 1.45 1.40 1.35 1.30 1.25 1.20 1.15 α 1.10 μ (b) JAFFE 数据集分类精度 0.80 0.75 0.70 0.65 0.60 0.0001 0.001 0.01 0.1 1 10 100 1 000 10 000 100 000 1.50 1.45 1.40 1.35 1.30 1.25 1.20 1.15 α 1.10 μ 图 6 不同参数上的分类精度 Fig. 6 Classification accuracy on different parameters 4 结束语 L2,1 本文提出了一种新的无监督降维算法−自步稀疏最优均值主成分分析 (SPL-OMSPCA) 算法。基于对样本自身差异性的考虑，引入自步学习的思想，实现样本从“简单”到“复杂”的训练，且在迭代过程中，自动更新均值，而后通过对投影矩阵添加范数的行稀疏约束，一致选择样本，进一步提高算法的识别精度。理论分析和实验结果都证明了 SPL-OMSPCA 模型的分类优势。虽然 SPL-OMSPCA 的性能优于其他 PCA 方法，但它还是一种无监督方法，不能使用类标签来提取有区别的特征，因此它还不能提取最有效的分类特征。在未来，可将之扩展到半监督分类问题。参考文献： OU Weihua, YOU Xinge, TAO Dacheng, et al. Robust face recognition via occlusion dictionary learning[J]. Pattern recognition, 2014, 47(4): 1559–1572. [1] WEI Lai, ZHOU Rigui, YIN Jun, et al. Latent graph-regularized inductive robust principal component analysis[J]. Knowledge-based systems, 2019, 177: 68–81. [2] HE Jinrong, BI Yingzhou, LIU Bin, et al. Graph-dual Laplacian principal component analysis[J]. Journal of ambient intelligence and humanized computing, 2019, 10(8): 3249–3262. [3] ZHAO Haifeng, WANG Zheng, NIE Feiping. A new formulation of linear discriminant analysis for robust dimensionality reduction[J]. IEEE transactions on knowledge and data engineering, 2018, 31(4): 629–640. [4] 朱换荣, 郑智超, 孙怀江. 面向局部线性回归分类器的判别分析方法 [J]. 智能系统学报, 2019, 14(5): 959–965. ZHU Huanrong, ZHENG Zhichao, SUN Huaijiang. Locality-regularized linear regression classification-based discriminant analysis[J]. CAAI transactions on intelligent systems, 2019, 14(5): 959–965. [5] NIE Feiping, HUANG Heng, DING C, et al. Robust principal component analysis with non-greedy ℓ1 -norm maximization[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Catalonia, Spain, 2011: 1433−1438. [6] NIE Feiping, YUAN Jianjun, HUANG Heng. Optimal mean robust principal component analysis[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014: 1062−1070. [7] ZOU Hui, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of computational and graphical statistics, 2006, 15(2): 265–286. [8] 第 3 期许子微，等：自步稀疏最优均值主成分分析 ·423·

·424· 智能系统学报第16卷 [9]YI Shuangyan,LAI Zhihui,HE Zhenyu,et al.Joint sparse classification of single facial images[J].IEEE transac- principal component analysis[J].Pattern recognition,2017, tions on pattern analysis and machine intelligence,1999, 61:524536. 21(12):1357-1362. [10]BENGIO Y.LOURADOUR J,COLLOBERT R.et al. [18]WRIGHT J,YANG A Y,GANESH A,et al.Robust face Curriculum learning[C]//Proceedings of the 26th Annual recognition via sparse representation.[J].IEEE transac- International Conference on Machine Learning.Montreal, tions on pattern analysis and machine intelligence,2009. Quebec,Canada,2009:41-48. 31(2):210-227 [11]KUMAR M P,PACKER B,KOLLER D.Self-paced [19]JESORSKY O.KIRCHBERG K J.FRISCHHOLZ R W learning for latent variable models[Cl//Proceedings of the Robust face detection using the hausdorff distance[C]// 23rd International Conference on Neural Information Pro- Proceedings of the 3rd International Conference on Au- cessing Systems.Vancouver,British Columbia,Canada, dio-and Video-Based Biometric Person Authentication. 2010:1189-1197 Halmstad.Sweden.2001:90-95. [12]JIANG Lu.MENG Deyu,ZHAO Qian,et al.Self-paced [20]ZHENG Miao,BU Jiajun,CHEN C,et al.Graph regular- curriculum learning[C]//Proceedings of the 29th AAAI ized sparse coding for image representation[J].IEEE Conference on Artificial Intelligence.Austin,Texas, transactions on image processing,2011,20(5):1327-1336. USA.2015:2694-2700 [21]KUSSUL E,BAIDYK T.Improved method of handwrit- [13]YU Hao,WEN Guoqiu,GAN Jiangzhang,et al.Self- ten digit recognition tested on MNIST database[J].Image paced learning for K-means clustering algorithm[J].Pat- tern recognition letters,2020,132:69-75. and vision computing,2004,22(12):971-981. [14]HU Sixiu,PENG Jiangtao,FU Yingxiong,et al.Kernel 作者简介： joint sparse representation based on self-paced learning 许子微，硕士研究生，主要研究方 for hyperspectral image classification[].Remote sensing, 向为模式识别、图像处理。 2019,11(9):11141132. [15]HAJINEZHAD D,SHI Qingjiang.Alternating direction method of multipliers for a class of nonconvex bilinear optimization:convergence analysis and applications[J]. Journal of global optimization,2018,70(1):261-288. [16]HOU Chenping,NIE Feiping,YI Dongyun,et al.Feature 陈秀宏，教授，主要研究方向为数字图像处理和模式识别、目标检测与 selection via joint embedding learning and sparse regres- 跟踪、优化理论与方法。参与国家自 sion[Cl//Proceedings of the 22nd International Joint Con- 然基金项目2项，主持省部级研究项 ference on Artificial Intelligence.Barcelona,Spain,2011: 目3项，省博土后基金1项。获得省 1324-1329 部级奖1项、校级教学成果奖1项、市 [17]LYONS M J.BUDYNEK J.AKAMATSU S.Automatic 厅级奖6项。发表学术论文120余篇

YI Shuangyan, LAI Zhihui, HE Zhenyu, et al. Joint sparse principal component analysis[J]. Pattern recognition, 2017, 61: 524–536. [9] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada, 2009: 41−48. [10] KUMAR M P, PACKER B, KOLLER D. Self-paced learning for latent variable models[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2010: 1189−1197. [11] JIANG Lu, MENG Deyu, ZHAO Qian, et al. Self-paced curriculum learning[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015: 2694−2700. [12] YU Hao, WEN Guoqiu, GAN Jiangzhang, et al. Selfpaced learning for K-means clustering algorithm[J]. Pattern recognition letters, 2020, 132: 69–75. [13] HU Sixiu, PENG Jiangtao, FU Yingxiong, et al. Kernel joint sparse representation based on self-paced learning for hyperspectral image classification[J]. Remote sensing, 2019, 11(9): 1114–1132. [14] HAJINEZHAD D, SHI Qingjiang. Alternating direction method of multipliers for a class of nonconvex bilinear optimization: convergence analysis and applications[J]. Journal of global optimization, 2018, 70(1): 261–288. [15] HOU Chenping, NIE Feiping, YI Dongyun, et al. Feature selection via joint embedding learning and sparse regression[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Spain, 2011: 1324−1329. [16] [17] LYONS M J, BUDYNEK J, AKAMATSU S. Automatic classification of single facial images[J]. IEEE transactions on pattern analysis and machine intelligence, 1999, 21(12): 1357–1362. WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation.[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210-227. [18] JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the hausdorff distance[C]// Proceedings of the 3rd International Conference on Audio- and Video-Based Biometric Person Authentication. Halmstad, Sweden, 2001: 90−95. [19] ZHENG Miao, BU Jiajun, CHEN C, et al. Graph regularized sparse coding for image representation[J]. IEEE transactions on image processing, 2011, 20(5): 1327–1336. [20] KUSSUL E, BAIDYK T. Improved method of handwritten digit recognition tested on MNIST database[J]. Image and vision computing, 2004, 22(12): 971–981. [21] 作者简介：许子微，硕士研究生，主要研究方向为模式识别、图像处理。陈秀宏，教授，主要研究方向为数字图像处理和模式识别、目标检测与跟踪、优化理论与方法。参与国家自然基金项目 2 项，主持省部级研究项目 3 项，省博士后基金 1 项。获得省部级奖 1 项、校级教学成果奖 1 项、市厅级奖 6 项。发表学术论文 120 余篇。 ·424· 智能系统学报第 16 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

【机器学习】自步稀疏最优均值主成分分析