第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992/tis.201911028 自步稀疏最优均值主成分分析 许子微,陈秀宏 (江南大学数字媒体学院,江苏无锡214122) 摘要:主成分分析(PCA)是一种无监督降维方法。然而现有的方法没有考虑样本的差异性,且不能联合地提 取样本的重要信息,从而影响了方法的性能。针对以上问题,提出自步稀疏最优均值主成分分析方法。模型以 L21范数定义损失函数,同时用L2!范数约束投影矩阵作为正则化项,且将均值作为在迭代中优化的变量,这样 可一致地选择重要特征,提高方法对异常值的鲁棒性:考虑到训练样本的差异性,利用自步学习机制实现训练 样本由“简单”到“复杂”的学习过程,有效地降低异常值的影响。理论分析和实验结果表明,以上方法能更有效 地降低异常值对分类精度的影响,提高分类精度。 关键词:图像处理;主成分分析;无监督学习:数据降维:稀疏:最优均值;自步学习;人脸识别 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2021)03-0416-09 中文引用格式:许子微,陈秀宏.自步稀疏最优均值主成分分析J.智能系统学报,2021,16(3):416-424. 英文引用格式:XU Ziwei,,CHEN Xiuhong.Sparse optimal mean principal component analysis based on self--paced learning[J]. CAAI transactions on intelligent systems,2021,16(3):416-424. Sparse optimal mean principal component analysis based on self-paced learning XU Ziwei,CHEN Xiuhong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:Principal component analysis(PCA)can be referred to as an unsupervised dimensionality reduction approach. However,the existing methods do not consider the difference of samples and cannot jointly extract important informa- tion of samples,thus affecting the performance of some methods.For the above problems,based on self-paced learning, we proposed a sparse optimal mean PCA algorithm.In our model,loss of function is defined by L2.I norm,the projec- tion matrix is regularized by L2.I norm,and the mean value is taken as a variable to be optimized in the iteration.In this way,important features can be consistently selected,and the robustness of the method to outliers can be improved.Con- sidering the difference in training samples,we utilized self-paced learning mechanism to complete the learning process of training samples from "simple"to "complex"so as to effectively reduce the influence of outliers.Theoretical analys- is and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress,thus improving the effect of the classification. Keywords:image processing;principal component analysis;unsupervised learning;data dimension deduction;sparse; optimal mean;self-paced learning;face recognition 降维山是数据分类中的一个重要问题,其目 类。经典的降维方法包括主成分分析(principal 的是学习一个变换矩阵,将高维数据投影到低维 component analysis,.PCA)P-]和线性判别分析(in- ear discriminant analysis,.LDA)4,其中PCA是一 子空间中,使数据在低维子空间中得到有效地分 种将数据信息投影到正交线性空间的无监督方 收稿日期:2019-11-19. 基金项目:江苏省研究生科研与实践创新计划项目NKYI9074). 法,原始PCA在对数据降维时,以平方欧氏距离 通信作者:许子微.E-mail:18256515269@163.com 来表示损失,而欧氏距离对噪声及异常值敏感
DOI: 10.11992/tis.201911028 自步稀疏最优均值主成分分析 许子微,陈秀宏 (江南大学 数字媒体学院,江苏 无锡 214122) L2,1 L2,1 摘 要:主成分分析 (PCA) 是一种无监督降维方法。然而现有的方法没有考虑样本的差异性,且不能联合地提 取样本的重要信息,从而影响了方法的性能。针对以上问题,提出自步稀疏最优均值主成分分析方法。模型以 范数定义损失函数,同时用 范数约束投影矩阵作为正则化项,且将均值作为在迭代中优化的变量,这样 可一致地选择重要特征,提高方法对异常值的鲁棒性;考虑到训练样本的差异性,利用自步学习机制实现训练 样本由“简单”到“复杂”的学习过程,有效地降低异常值的影响。理论分析和实验结果表明,以上方法能更有效 地降低异常值对分类精度的影响,提高分类精度。 关键词:图像处理;主成分分析;无监督学习;数据降维;稀疏;最优均值;自步学习;人脸识别 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2021)03−0416−09 中文引用格式:许子微, 陈秀宏. 自步稀疏最优均值主成分分析 [J]. 智能系统学报, 2021, 16(3): 416–424. 英文引用格式:XU Ziwei, CHEN Xiuhong. Sparse optimal mean principal component analysis based on self-paced learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 416–424. Sparse optimal mean principal component analysis based on self-paced learning XU Ziwei,CHEN Xiuhong (School of Digital Media, Jiangnan University, Wuxi 214122, China) L2;1 L2;1 Abstract: Principal component analysis (PCA) can be referred to as an unsupervised dimensionality reduction approach. However, the existing methods do not consider the difference of samples and cannot jointly extract important information of samples, thus affecting the performance of some methods. For the above problems, based on self-paced learning, we proposed a sparse optimal mean PCA algorithm. In our model, loss of function is defined by norm, the projection matrix is regularized by norm, and the mean value is taken as a variable to be optimized in the iteration. In this way, important features can be consistently selected, and the robustness of the method to outliers can be improved. Considering the difference in training samples, we utilized self-paced learning mechanism to complete the learning process of training samples from “simple” to “complex” so as to effectively reduce the influence of outliers. Theoretical analysis and the empirical study revealed that the proposed method could effectively reduce the influence of noise or outliers on the classification progress, thus improving the effect of the classification. Keywords: image processing; principal component analysis; unsupervised learning; data dimension deduction; sparse; optimal mean; self-paced learning; face recognition 降维[1] 是数据分类中的一个重要问题,其目 的是学习一个变换矩阵,将高维数据投影到低维 子空间中,使数据在低维子空间中得到有效地分 类。经典的降维方法包括主成分分析 (principal component analysis, PCA)[2-3] 和线性判别分析 (linear discriminant analysis, LDA)[4-5] ,其中 PCA 是一 种将数据信息投影到正交线性空间的无监督方 法,原始 PCA 在对数据降维时,以平方欧氏距离 来表示损失,而欧氏距离对噪声及异常值敏感。 收稿日期:2019−11−19. 基金项目:江苏省研究生科研与实践创新计划项目 (JNKY19_074). 通信作者:许子微. E-mail:18256515269@163.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 许子微,等:自步稀疏最优均值主成分分析 ·417· 于是提出许多PCA变体来降低异常值的影响,例 1相关工作 如Nie等6-7提出非贪婪L,范数最大化的鲁棒主 成分分析(robust principal component analysis, 给定训练样本为X=[x1x2…xnJ∈Rm,其中 RPCA),和基于L21范数的最优均值主成分分析 m为原始图像的空间维数,n为训练样本的个数。 (optimal mean robust principal component analysis, 1.1PCA模型 OMRPCA)来同时学习最优变换矩阵和最优均 假设训练样本X已经中心化,即均值为零, 值。但通过RPCA和OMRPCA等模型得到的低 则通常的PCA可以表示为 维子空间的每个新特征都是高维空间中所有原始 minllx-wwxll.s.t.,WW =I (1) 特征的线性组合,由于存在冗余特征,通常不适合 式中W为投影矩阵。该问题的最优解W的列对 分类。Zou等I提出了稀疏主成分分析(sparse 应于矩阵的前m个最大特征值对应的特征向量。 principal component analysis,SPCA)。然而,因为在 基于L2范数的均值的合理性只针对传统的 每个变换向量上施加L,范数,故SPCA不能联合 PCA方法,泛化能力较差,于是考虑以下最优均 地选择重要特征:Y等9提出了联合稀疏主成分 值PCA模型(OMPCA): (joint sparse principal component analysis, iX-b1-WW(x-b1) JSPCA),利用L2:范数来表示损失项和正则项,在 式中:b∈Rm是一个待优化的变量;1为n维全 避免异常值影响的同时能联合地选择重要特征, 1列向量。于是,投影矩阵W的列为矩阵XHXT 从而增强算法的分类精度。 的前d个最大特征值对应的特征向量,其中 以上方法的每一个样本对应一个损失值,损 失值的大小决定了样本对模型的贡献,这就表明 H=I-11;最优均值为b=(x1+wam,aeR 了样本之间存在差异性,而这些方法均同等地对 为任意d维列向量。 待所有训练样本,没有考虑样本之间的差异性。 若式(1)中的投影矩阵与恢复矩阵不相同,并 受人类/动物学习过程的启发,文献[10-11]提出 以L21范数来表示损失函数以及稀疏正则化项, 了自定步长(或课程)(self-pace learning,SPL)学习 则有以下联合稀疏主成分分析(SPCA)模型: 理论,其主要思想是以自定步长方式来实现从“简 minllX-PO'Xl2+allellz 单”到“复杂”样本的训练,最终学习得到一个成熟 式中:Q∈Rxd是投影矩阵;P∈Rmxd为恢复矩阵。 的模型。此后,Lu等2提出自步课程学习(self 1.2自步学习(SPL)机制 paced curriculum learning,SPCL)同时考虑训练前 受人类/动物学习过程的启发,SPL以自定步 已知的先验知识和训练过程中的学习进度。 长的方式实现从“简单样本”到“复杂样本”迭代地 Yu等u)提出了自步学习K均值聚类(self-paced 训练模型。其优化模型为 learning for k-means clustering algorithm,SPKC), 自步学习机制用于聚类方法。Hu等提出自步 min >v:L(y:g(x:,w))+a(w)+ f(vi,k 核联合稀疏表示高光谱图像分类(kernel joint s.tye[0,1,i=1,2,…,n sparse representation based on self-paced learning for 式中:α为稀疏正则化控制参数;k是自步学习参 hyperspectral image classification,SPKJSR),将自步 数;变量用于决定选择哪些样本参与训练模型: 学习机制用于高光谱图像分类。 Ly,gc,w)是样本的损失函数,损失值的大小决 本文为充分考虑样本之间的差异性,利用SPL 定样本的难易程度:fy,k)是自步正则化函数。在 思想提出自步稀疏最优均值主成分分析(sparse 算法迭代过程中,模型可以根据样本难易程度,从 optimal mean principal component analysis based on 简单的样本开始,学习到复杂的样本。自步学习 self-paced learning,.SPL-OMSPCA),该模型放宽了 机制的有效性,特别是对高度损坏的数据的鲁棒 对投影矩阵的正交约束,通过对训练样本由“简 性,已经在各种计算机视觉任务中得到了验证。 单”到“复杂”的渐进学习过程,得到最优投影矩阵 2自步稀疏最优均值主成分分析模 和最优样本均值。该方法能更好地获得样本中重 型(SPL-OMSPCA) 要的特征信息,避免异常值的影响,提高了算法 的鲁棒性。在6个不同数据集上的实验表明, 2.1 模型建立 SPL-OMSPCA算法优于目前最先进的主成分分 SPL-OMSPCA的基本思想是:以L21范数表 析方法。 示损失函数和稀疏约束,并利用自步学习方案对
L1 L2,1 L1 L2,1 于是提出许多 PCA 变体来降低异常值的影响,例 如 Nie 等 [6-7] 提出非贪婪 范数最大化的鲁棒主 成分分析 (robust principal component analysis, RPCA),和基于 范数的最优均值主成分分析 (optimal mean robust principal component analysis, OMRPCA) 来同时学习最优变换矩阵和最优均 值。但通过 RPCA 和 OMRPCA 等模型得到的低 维子空间的每个新特征都是高维空间中所有原始 特征的线性组合,由于存在冗余特征,通常不适合 分类。Zou 等 [8] 提出了稀疏主成分分析 (sparse principal component analysis, SPCA)。然而,因为在 每个变换向量上施加 范数,故 SPCA 不能联合 地选择重要特征;Yi 等 [9] 提出了联合稀疏主成分 分析 (joint sparse principal component analysis, JSPCA),利用 范数来表示损失项和正则项,在 避免异常值影响的同时能联合地选择重要特征, 从而增强算法的分类精度。 以上方法的每一个样本对应一个损失值,损 失值的大小决定了样本对模型的贡献,这就表明 了样本之间存在差异性,而这些方法均同等地对 待所有训练样本,没有考虑样本之间的差异性。 受人类/动物学习过程的启发,文献 [10-11] 提出 了自定步长 (或课程) (self-pace learning, SPL) 学习 理论,其主要思想是以自定步长方式来实现从“简 单”到“复杂”样本的训练,最终学习得到一个成熟 的模型。此后,Lu 等 [12] 提出自步课程学习 (selfpaced curriculum learning, SPCL) 同时考虑训练前 已知的先验知识和训练过程中的学习进度。 Yu 等 [13] 提出了自步学习 K 均值聚类 (self-paced learning for k-means clustering algorithm, SPKC),将 自步学习机制用于聚类方法。Hu 等 [14] 提出自步 核联合稀疏表示高光谱图像分类 (kernel joint sparse representation based on self-paced learning for hyperspectral image classification, SPKJSR),将自步 学习机制用于高光谱图像分类。 本文为充分考虑样本之间的差异性,利用 SPL 思想提出自步稀疏最优均值主成分分析 (sparse optimal mean principal component analysis based on self-paced learning, SPL-OMSPCA),该模型放宽了 对投影矩阵的正交约束,通过对训练样本由“简 单”到“复杂”的渐进学习过程,得到最优投影矩阵 和最优样本均值。该方法能更好地获得样本中重 要的特征信息,避免异常值的影响,提高了算法 的鲁棒性。在 6 个不同数据集上的实验表明, SPL-OMSPCA 算法优于目前最先进的主成分分 析方法。 1 相关工作 X = [x1 x2 ··· xn] ∈ R m×n m n 给定训练样本为 ,其中 为原始图像的空间维数, 为训练样本的个数。 1.1 PCA 模型 假设训练样本 X 已经中心化,即均值为零, 则通常的 PCA 可以表示为 min W ||X−WWTX||2 F ,s.t.,WTW = I (1) W W m 式中 为投影矩阵。该问题的最优解 的列对 应于矩阵的前 个最大特征值对应的特征向量。 基于 L2 范数的均值的合理性只针对传统的 PCA 方法,泛化能力较差,于是考虑以下最优均 值 PCA 模型 (OMPCA): min b,WTW ||X− b1 T −WWT ( X− b1 T ) ||2 F b ∈ R m 1 n W XHXT d H = I− 1 n (11T ) b = 1 n (X1+Wα),α ∈ R d d 式中: 是一个待优化的变量; 为 维全 1 列向量。于是,投影矩阵 的列为矩阵 的 前 个最大特征值对应的特征向量,其中 ;最优均值为 为任意 维列向量。 L2,1 若式 (1) 中的投影矩阵与恢复矩阵不相同,并 以 范数来表示损失函数以及稀疏正则化项, 则有以下联合稀疏主成分分析 (JSPCA) 模型: min Q,P ||X− PQTX||2,1 +λ||Q||2,1 Q ∈ R m×d P ∈ R 式中: 是投影矩阵; m×d 为恢复矩阵。 1.2 自步学习 (SPL) 机制 受人类/动物学习过程的启发,SPL 以自定步 长的方式实现从“简单样本”到“复杂样本”迭代地 训练模型。其优化模型为 min∑n i=1 viL(yi ,g(xi ,w))+αϕ(w)+ ∑n i=1 f(vi , k) s.t.vi ∈ [0,1],i = 1,2,··· ,n α k vi L(yi ,g(xi ,w)) f(vi , k) 式中: 为稀疏正则化控制参数; 是自步学习参 数;变量 用于决定选择哪些样本参与训练模型; 是样本的损失函数,损失值的大小决 定样本的难易程度; 是自步正则化函数。在 算法迭代过程中,模型可以根据样本难易程度,从 简单的样本开始,学习到复杂的样本。自步学习 机制的有效性,特别是对高度损坏的数据的鲁棒 性,已经在各种计算机视觉任务中得到了验证。 2 自步稀疏最优均值主成分分析模 型 (SPL-OMSPCA) 2.1 模型建立 SPL-OMSPCA 的基本思想是:以 L2,1 范数表 示损失函数和稀疏约束,并利用自步学习方案对 第 3 期 许子微,等:自步稀疏最优均值主成分分析 ·417·
·418· 智能系统学报 第16卷 参与训练的样本进行选择。其中,损失函数是训 di= 1/A-POA)ll2.Il(A-POA)'lk+0 (5) 练样本从低维变换空间中恢复原始数据产生的误 1/6,其他 差,且包含需优化的均值向量。于是有以下优化 式中:A=X-b1T;i(i=1,2,…,m)表示矩阵的第i 模型: 列;对角矩阵H=diag(h,h22,…,hmm)的对角元素 -PQ"(sb)l+alllba+ 定义为 vh.P.Q ba=1I0k,Ig≠0 (6) (2) 1/6,其他 式中:j=1,2…,m)表示矩阵的第j行;6为一个 st.PrP=I,y∈0,1,i=1,2,…,n 很小的数。 式中:x为第i个样本;α为稀疏正则化控制参 2.2模型求解 数;k为自步控制参数;变量用于决定选择哪些 因为式(4)含有P、Q、b及v共4个变量,直 样本参与训练:b∈RmxI是样本均值;Q∈Rmw是投 接求解非常困难,所以本文使用交替迭代求解 的方法,分别求得自步学习权重”、最优投影矩阵 影矩阵;P∈Rmxd是恢复矩阵且服从正交约束 Q、最优均值b以及恢复矩阵P。 PP=I。式(2)用损失值的大小决定样本的难易 2.21固定P、Q、b求自步学习权重v 程度。 自步正则化函数f,)有多种形式。若f,kF 当P、Q和b固定时,式(4)转化为 1 一,k值较大,倾向于选择损失值较小的样本,于 mi∑,-b-PQ'c-bb+E 片+脉 是在算法迭代过程中,利用一个步长参数μ来逐 st.PP=L,ye[0,1],i=1,2…,n 渐减小k的值,使得越来越多的样本参与模型学 令L,=x-b-PQr(x-b)l2,则上式可表示为 习,从而实现从简单样本学习到复杂样本的过程。 当k小于一个预定义的确定值时,算法结束。 1 片+队 (7) 上述方法是硬性阈值权值选择方法,通过给 s.t.y:∈[0,1,i=1,2,…,n 每个样本分配二元权值(:∈[0,1)来决定是否选 式(7)的目标函数关于:求偏导并令其为 择样本。但异常值在所有样本中分布不均匀,所 0得:的解 以硬性正则函数不能确定是否选择这些样本。相 (1,L≤1/k+1/B)2 比于硬性阈值权值,软权值给每个样本分配 0,L≥1/k2 := (8) 0~1(包括0和1)的权值,显示了样本的潜在重要 /1 其他 性,更好地实现了从简单样本逐步学习到复杂样 2.2.2 本的过程。所提最终优化算法为 固定P、Q、求解最优均值b 版-b-Po'k-bb+dig+t 当固定P、Q和v时,式(4)转化为 min(X-b1'-PQ"(X-b1)D (9) 户B (3) 式(9)的目标函数关于b求偏导并令其为零, 台%+队 得到 s.tPP=I,y∈[0,1],i=1,2,…,n (I-POT-OPT+00)(b1T-X)VD1=0 (10) 式中B是间隔控制参数,控制0~1的模糊区间。 令c=(b1T-X)VD1,则式(10)转化为 因此软阈值权值可以通过明确样本间差异,准确 (I-P0-QPr+20')c=0 (11) 选择样本,进一步避免异常值的影响。另外,这 若I-PQ-QPr+QQ为非奇异的,则式(11) 里存在一个隐形变量4(μ>1),用来作为自步控制 的解为c=0,从而有 参数k减小的步长。目标函数式(3)转化为 (12) (X-bI-PO'(X-b1 0 若I-PQ'-QP+QQ为奇异的,设其奇异值分解 lvag啡+户B (4) 为EW1U1T,其中W1=diag(c1,2,…,c,0,…,0), 台%+欧 o1≥2≥…≥σ,>0,则式(11)的解为 s.t.PrP=L,y,∈[0,1],i=1,2,…,n c=01z 式中:V=diag(v1,2,…,v:1是全为1的列向量;对 其中z=[0,…,0,z+1,…,zmJ∈Rm为任意的。特别 角矩阵D=diag(di,d2,…,dnm)的对角元素定义为 地,如令z+1=1,乙2=…=zm=0,则式(11)的一个
参与训练的样本进行选择。其中,损失函数是训 练样本从低维变换空间中恢复原始数据产生的误 差,且包含需优化的均值向量。于是有以下优化 模型: min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 +α||Q||2,1+ ∑n i=1 f(vi , k) s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (2) xi i α k vi b ∈ R m×1 Q ∈ R m×d P ∈ R m×d P T P = I 式中: 为第 个样本; 为稀疏正则化控制参 数; 为自步控制参数;变量 用于决定选择哪些 样本参与训练; 是样本均值; 是投 影矩阵; 是恢复矩阵且服从正交约束 。式 (2) 用损失值的大小决定样本的难易 程度。 f(vi , k) f(vi , k) − 1 k vi k µ k k 自步正则化函数 有多种形式。若 = , 值较大,倾向于选择损失值较小的样本,于 是在算法迭代过程中,利用一个步长参数 来逐 渐减小 的值,使得越来越多的样本参与模型学 习,从而实现从简单样本学习到复杂样本的过程。 当 小于一个预定义的确定值时,算法结束。 (vi ∈ [0,1]) 上述方法是硬性阈值权值选择方法,通过给 每个样本分配二元权值 来决定是否选 择样本。但异常值在所有样本中分布不均匀,所 以硬性正则函数不能确定是否选择这些样本。相 比于硬性阈值权值,软权值给每个样本分 配 0~1(包括 0 和 1) 的权值,显示了样本的潜在重要 性,更好地实现了从简单样本逐步学习到复杂样 本的过程。所提最终优化算法为 min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 +α||Q||2,1+ ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (3) β µ(µ > 1) k 式中 是间隔控制参数,控制 0~1 的模糊区间。 因此软阈值权值可以通过明确样本间差异,准确 选择样本,进一步避免异常值的影响。另外,这 里存在一个隐形变量 ,用来作为自步控制 参数 减小的步长。目标函数式 (3) 转化为 min v,b,P,Q ||(X− b1 T − PQT (X− b1 T )) √ V √ D||2 F+ α|| √ HQ||2 F + ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n (4) V = diag(v1, v2,··· , vn) 1 D = diag(d11,d22,··· ,dnn) 式中: ; 是全为 1 的列向量;对 角矩阵 的对角元素定义为 dii = { 1/||A− PQTA) i ||2, ||(A− PQTA) i ||2 , 0 1/δ, 其他 (5) A = X− b1 T i(i = 1,2,··· ,n) i H = diag(h11,h22,··· ,hmm) 式中: ; 表示矩阵的第 列;对角矩阵 的对角元素 定义为 hii = { 1/||Q j ||2 , ||Q j ||2 , 0 1/δ, 其他 (6) 式中: j(j = 1,2,··· ,m) 表示矩阵的第 j 行; δ 为一个 很小的数。 2.2 模型求解 P Q b v v Q b P 因为式 (4) 含有 、 、 及 共 4 个变量,直 接求解非常困难,所以本文使用交替迭代求解[15] 的方法,分别求得自步学习权重 、最优投影矩阵 、最优均值 以及恢复矩阵 。 2.2.1 固定 P、Q、b 求自步学习权重 v 当 P、Q 和 b 固定时,式 (4) 转化为 min v,b,P,Q ∑n i=1 vi ||xi − b− PQT (xi − b)||2 + ∑n i=1 β 2 vi +βk s.t.P T P = I, vi ∈ [0,1],i = 1,2,··· ,n Li = ||xi−b−PQT 令 (xi−b)||2,则上式可表示为 min v ∑n i=1 viLi + ∑n i=1 β 2 vi +βk s.t.vi ∈ [0,1],i = 1,2,··· ,n (7) vi vi 式 (7) 的目标函数关于 求偏导并令其为 0 得 的解 vi = 1, Li ⩽ 1/(k+1/β) 2 0, Li ⩾ 1/k 2 β ( 1 √ Li −k ) , 其他 (8) 2.2.2 固定 P、Q、v 求解最优均值 b 当固定 P、Q 和 v 时,式 (4) 转化为 min b (X− b1 T − PQT (X− b1 T )) √ V √ D 2 F (9) 式 (9) 的目标函数关于 b 求偏导并令其为零, 得到 (I− PQT −QPT +QQT )(b1 T − X)V D1 = 0 (10) c = (b1 T 令 − X)V D1 ,则式 (10) 转化为 (I− PQT −QPT +QQT )c = 0 (11) I− PQT −QPT +QQT c = 0 若 为非奇异的,则式 (11) 的解为 ,从而有 b = XV D1 1 TV D1 (12) I− PQT −QPT +QQT E1W1U1 T W1 = diag(σ1,σ2,··· ,σs ,0,··· ,0) σ1 ⩾ σ2 ⩾ ··· ⩾ σs > 0 若 为奇异的,设其奇异值分解 为 , 其 中 , ,则式 (11) 的解为 c = U1 z z = [0,··· ,0,zs+1,··· ,zm] T ∈ R m zs+1 = 1 zs+2 = ··· = zm = 0 其中 为任意的。特别 地,如令 , ,则式 (11) 的一个 ·418· 智 能 系 统 学 报 第 16 卷
第3期 许子微,等:自步稀疏最优均值主成分分析 ·419· 特解为U1的第s+1列,即c=(U1)+,从而有 本的类标签。 b=U)+XVDI (13) 在算法1中,主要的计算复杂度为奇异值分 1VD1 解和矩阵求逆,故本算法时间复杂度最高为O(m), 2.2.3固定P、v、b求解投影矩阵Q 假设算法迭代T次,则该部分的时间复杂度为 固定P、”、b后,式(4)转化为 O(Tm),从而整个算法的时间复杂度为O(Tm)。 m(X-b-PQ"(X- (14) 3实验 all VHl 令(X-b1)FD=G,则式(14)转化为 为评估SPL-OMSPCA算法的有效性,本文将 min IlG-POTG+all VHQll (15) 在UMIST6、JAFFE1M、AR181、BIO1咧、COIL2020 及MNISTP数据集上进行测试,每次实验独立随 式(15)的目标函数关于Q求偏导,并令其为 机,重复20次取平均识别率和标准差作为最后实 0得 验结果,并与PCA、SPCA、OMRPCA和JSPCA算 (GGT+aH)Q=GGTP 法作对比。 从而有 3.1数据集 Q=(GGT+aH)GGTP (16) 为测试SPL-OMSPCA对异常值的鲁棒性,将 2.2.4固定Q、"、b求解恢复矩阵P UMIST数据集的每个图像随机添加13×13的块 固定Q、”、b后,式(4)转化为 遮挡;随机抽取JAFFE数据集50%的图像添加 min((x-b1)-Pe"(x-b1)VD 13×13块遮挡,而对AR、BIO、COIL20和 MNIST数据集随机添加10%的椒盐噪声。各数 s.t.PTP=I 据集的具体特征如表1所示,而各数据集的部分 或等价形式为 图像如图1。 minVD VV(X-b1')-VDVV(X-b1'op 表1不同数据集的属性及特点 s.tPTP=I Table 1 Attributes and characteristics of different datasets (17) 约束条件PP=I意味着P是列正交矩阵。 数据集 样本数 类别数 规模 特征 设(X-b1)VD(X-b1)TQ的奇异值分解为E2W,U2, UMIST 575 20 28×32 有较大姿态变化 则由文献[9]中定理知,式(17)的最优解为 JAFFE 200 10 32×32 有面部表情变化 P=E2U; (18) 有光照表情变化 以上过程不断迭代,直到收敛条件满足为止, AR 3120 120 32×32 部分图像有遮挡 具体算法如算法1。 BIO 1460 22 32×32 样本较相似 算法1SPL-OMSPCA COIL20 1440 20 32×32 姿态间隔拍摄 输入样本X,维度d,参数k、α、B和步长 输出投影矩阵Q。 MNIST 1000 10 28×28 样本较相似 迭代执行以下操作,直到模型收敛: 1)通过式(8)计算: 2)通过式(12)、(13)计算b: 3)通过式(16)计算Q: 4)通过式(18)计算P: (a)UMIST数据集 (b)JAFFE数据集 5)通过式(⑤)计算D: 6)通过式(6)计算H; 0王3米 7更新k:k=k/μo 56087 得到投影矩阵Q之后,运用最近邻分类器 (c)COL20数据集 (d)MNIST数据集 (nearest neighbor classifier,.NN)进行分类: 图1部分含噪数据集的可视化 a-w (19) Fig.1 Visualization of some datasets with noise 3.2实验结果及分析 式中:c为测试样本y的预测标签;c:为第i个样 在各数据集的每类中随机选取L张图像作为
特解为 U1 的第 s+1 列,即 c = (U1)s+1,从而有 b = (U1)s+1 + XV D1 1 TV D1 (13) 2.2.3 固定 P、v、b 求解投影矩阵 Q 固定 P、v、b 后,式 (4) 转化为 min Q (X− b1 T − PQT (X− b1 T )) √ V √ D 2 F + α|| √ HQ||2 F (14) ( X− b1 T ) √ V √ 令 D = G ,则式 (14) 转化为 min Q ||G− PQTG||2 F +α|| √ HQ||2 F (15) 式 (15) 的目标函数关于 Q 求偏导,并令其为 0 得 ( GGT +αH ) Q = GGT P 从而有 Q = ( GGT +αH )−1 GGT P (16) 2.2.4 固定 Q、v、b 求解恢复矩阵 P 固定 Q、v、b 后,式 (4) 转化为 min P ((X− b1 T ) − PQT ( X− b1 T )) √ V √ D 2 F s.t.P T P = I 或等价形式为 min P √ D √ V(X− b1 T ) T − √ D √ V(X− b1 T ) TQPT 2 F s.t.P T P = I (17) P T P = I P (X− b1 T )V D(X− b1 T ) TQ E2W2U2 T 约束条件 意味着 是列正交矩阵。 设 的奇异值分解为 , 则由文献 [9] 中定理知,式 (17) 的最优解为 P = E2U T 2 (18) 以上过程不断迭代,直到收敛条件满足为止, 具体算法如算法 1。 算法 1 SPL-OMSPCA 输入 样本 X ,维度 d ,参数 k、α、β 和步长 µ ; 输出 投影矩阵 Q。 迭代执行以下操作,直到模型收敛: 1) 通过式 (8) 计算 v ; 2) 通过式 (12)、(13) 计算 b ; 3) 通过式 (16) 计算 Q ; 4) 通过式 (18) 计算 P ; 5) 通过式 (5) 计算 D ; 6) 通过式 (6) 计算 H ; 7) 更新 k:k = k/µ。 得到投影矩阵 Q 之后,运用最近邻分类器 (nearest neighbor classifier, NN) 进行分类: c = argminci ∑m j=1 (X j i −yj) 2 1/2 (19) c y ci 式中: 为测试样本 的预测标签; 为第 i 个样 本的类标签。 O(m 3 ) T O(Tm3 ) O(Tm3 ) 在算法 1 中,主要的计算复杂度为奇异值分 解和矩阵求逆,故本算法时间复杂度最高为 , 假设算法迭代 次,则该部分的时间复杂度为 ,从而整个算法的时间复杂度为 。 3 实验 为评估 SPL-OMSPCA 算法的有效性,本文将 在 UMIST[16] 、JAFFE[17] 、AR[18] 、BIO[19] 、COIL20[20] 及 MNIST[21] 数据集上进行测试,每次实验独立随 机,重复 20 次取平均识别率和标准差作为最后实 验结果,并与 PCA、SPCA、OMRPCA和 JSPCA 算 法作对比。 3.1 数据集 13×13 13×13 为测试 SPL-OMSPCA 对异常值的鲁棒性,将 UMIST 数据集的每个图像随机添加 的块 遮挡;随机抽取 JAFFE 数据集 50% 的图像添加 块遮挡,而 对 A R 、 BIO 、 COIL2 0 和 MNIST 数据集随机添加 10% 的椒盐噪声。各数 据集的具体特征如表 1 所示,而各数据集的部分 图像如图 1。 表 1 不同数据集的属性及特点 Table 1 Attributes and characteristics of different datasets 数据集 样本数 类别数 规模 特征 UMIST 575 20 28×32 有较大姿态变化 JAFFE 200 10 32×32 有面部表情变化 AR 3120 120 32×32 有光照表情变化 部分图像有遮挡 BIO 1460 22 32×32 样本较相似 COIL20 1440 20 32×32 姿态间隔拍摄 MNIST 1000 10 28×28 样本较相似 (a) UMIST 数据集 (b) JAFFE 数据集 (c) COIL20 数据集 (d) MNIST 数据集 图 1 部分含噪数据集的可视化 Fig. 1 Visualization of some datasets with noise 3.2 实验结果及分析 在各数据集的每类中随机选取 L 张图像作为 第 3 期 许子微,等:自步稀疏最优均值主成分分析 ·419·
·420· 智能系统学报 第16卷 训练样本,其余作为测试样本。图2给出了每个算 空间维数较低时,SPL-OMSPCA与其他对比算 法对不同数据集,在不同子空间维度上的分类精度。 法几乎保持一致的精度,但随着子空间维数的 对UMIST、JAFFE和COL20数据集,分别取9、 增加,本文算法精度持续保持平稳状态,且明显 10和5,则由图2(a)、(b)和(e)可看出,SPL-OMSPCA 优于其他算法。表2列出了不同训练样本数下, 整体优于其他对比算法;对AR数据集,取13,由 5种算法在不同数据集上的分类精度与标准差, 图2(c)可知,SPL-OMSPCA明显优于OMRPCA 表中数据为子空间维数从5~100变化时,每个算 和SPCA,而略优于其他算法:对BIO和MNIST 法取得的最高精度,其中黑色加粗字体表示训练 数据集,分别选取20和10,由图2(d)与2()可以 样本相同时,同一设置下几种算法中的最高分类 看出,由于此类数据集中的样本较为相似,当子 精度。 0.70 0.80 0.75 0.65 ★★★★★ 0.70 0.60 0.65 SPL-OMSPCA ★SPL-OMSPCA JSPCA 0.60 JSPCA 0.55 PCA PCA SPCA 0.55 SPCA ◆-OMRPCA ◆-OMRPCA 0.50 0.50 5 152535455565758595105 152535455565758595105 子空间维数 子空间维数 (a)UMIST数据集 (b)JAFFE数据集 08 0.85 0.7 0.80 0.6 0.75 0.5 0.70 湾合特4各年 0.65 0.4 ★SPL-OMSPCA 0.3 ★SPL-OMSPCA ·-JSPCA 0.55 JSPCA 02 -ePCA 0.50 -ePCA SPCA 0.1 SPCA OMRPCA 0.45 ◆-OMRPCA 152535455565758595105 0.40 5 5 2535455565758595105 子空间维数 子空间维数 (C)AR数据集 (d)BIO数据集 0.85 0.80 0.80 0.75 0.75 0.70 0.70 0.65 0.65 0.60 ★SPL-OMSPCA ★SPL-OMSPCA 0.55 ·-JSPCA 0.60 ◆-JSPCA 0.50 -ePCA SPCA 0.55 SPCA 0.45 ◆OMRPCA ◆-OMRPCA 0.40 0.50 152535455565758595105 15 253545.5565758595105 子空间维数 子空间维数 (e)COL20数据集 ()MNIST数据集 图2不同算法在6个数据集上不同子空间维度的分类精度 Fig.2 Classification accuracies of different algorithm in different subspace dimensions on six datasets
训练样本,其余作为测试样本。图 2 给出了每个算 法对不同数据集,在不同子空间维度上的分类精度。 对 UMIST、JAFFE 和 COIL20 数据集,分别取 9、 10 和 5,则由图 2(a)、(b) 和 (e) 可看出,SPL-OMSPCA 整体优于其他对比算法;对 AR 数据集,取 13,由 图 2(c) 可知,SPL-OMSPCA 明显优于 OMRPCA 和 SPCA,而略优于其他算法;对 BIO 和 MNIST 数据集,分别选取 20 和 10,由图 2(d) 与 2(f) 可以 看出,由于此类数据集中的样本较为相似,当子 空间维数较低时,SPL-OMSPCA 与其他对比算 法几乎保持一致的精度,但随着子空间维数的 增加,本文算法精度持续保持平稳状态,且明显 优于其他算法。表 2 列出了不同训练样本数下, 5 种算法在不同数据集上的分类精度与标准差, 表中数据为子空间维数从 5~100 变化时,每个算 法取得的最高精度,其中黑色加粗字体表示训练 样本相同时,同一设置下几种算法中的最高分类 精度。 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.70 0.65 0.60 0.55 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 105 105 105 105 105 105 (a) UMIST 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.80 0.75 0.70 0.65 0.60 0.55 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (b) JAFFE 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (c) AR 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.40 0.45 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (d) BIO 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.40 0.45 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (e) COIL20 数据集 SPL-OMSPCA PCA SPCA OMRPCA JSPCA 0.80 0.75 0.70 0.65 0.60 0.55 0.50 分类精度 子空间维数 5 15 25 35 45 55 65 75 85 95 (f) MNIST 数据集 图 2 不同算法在 6 个数据集上不同子空间维度的分类精度 Fig. 2 Classification accuracies of different algorithm in different subspace dimensions on six datasets ·420· 智 能 系 统 学 报 第 16 卷
第3期 许子微,等:自步稀疏最优均值主成分分析 ·421· 表2在6个不同噪声数据集上各种PCA算法的分类精度及其标准差 Table 2 Average classification accuracy and standard deviation of various PCA algorithm on six data sets with different noise training samples 数据集 L PCA SPCA JSPCA OMRPCA SPL-OMSPCA 6 0.5980±0.0222 0.5853±0.0449 0.5936±0.02000.5897±0.0292 0.6198±0.0220 9 0.6430±0.0253 0.6377±0.0225 0.6418±0.03160.6425±0.0324 0.6718±0.0377 UMST13×13遮挡) 12 0.6872±0.0203 0.6761±0.0373 0.6764±0.0412 0.6830±0.0382 0.7185±0.0128 Mean0.6427±0.02260.6330±0.0349 0.6373±0.03090.6384±0.0332 0.6700±0.0242 5 0.6520±0.0587 0.6447±0.0553 0.6447±0.0580 0.6413±0.0920 0.7100±0.0367 10 0.7060±0.0660 0.7010±0.09600.6950±0.0450 0.6940±0.0560 0.7910±0.0590 JAFFE13×13遮挡) 15 0.7260±0.06600.7280±0.0680 0.7240±0.0640 0.73400.0660 0.8120±0.0640 Mean0.6947±0.0636 0.6912±0.0731 0.6879±0.0730 0.6898±0.0713 0.7710±0.0532 8 0.5456±0.0214 0.5669±0.0174 0.5444±0.0263 0.5681±0.0205 0.5744±0.0255 13 0.6450±0.0135 0.6509±0.0280 0.6495±0.0105 0.6517±0.0279 0.6659±0.0197 AR(10%椒盐噪声) 18 0.7368±0.00910.7292±0.0292 0.7211±0.02110.7397±0.0207 0.7440±0.0240 Mean 0.642440.0147 0.6490±0.02490.6383±0.0193 0.65320.0230 0.6614±0.0231 18 0.7391±0.0222 0.7424±0.02630.7438±0.0365 0.7362±0.0172 0.7621±0.0131 20 0.7483±0.02580.7589±0.0286 0.7480±0.02060.7520±0.0196 0.7741±0.0206 BI0(10%椒盐噪声) 22 0.7661±0.0116 0.7769±0.0168 0.7681±0.03640.7682±0.0223 0.7860±0.0247 Mean0.7512±0.01990.7594±0.02390.7533±0.03120.7521±0.01970.7741±0.0195 4 0.78640.01560.7735±0.0306 0.7836±0.02150.7840±0.0296 0.7895±0.0392 5 0.8100±0.0245 0.8011±0.0202 0.8149±0.0239 0.8116±0.0350 0.8205±0.0265 COL20(10%椒盐噪声) 6 0.8357±0.01900.8394±0.0227 0.7939±0.02510.8476±0.0365 0.8522±0.0211 Mean0.8107±0.01970.8047±0.02450.8201±0.02150.8144±0.0337 0.8207±0.0283 15 0.7515±0.0209 0.7449±0.0273 0.7528±0.0284 0.7439±0.0329 0.7718±0.0271 20 0.78190.0156 0.7780±0.0228 0.7795±0.0249 0.77940.0194 0.7928±0.0165 MINIST(10%椒盐噪声) 25 0.8016±0.02110.8021±0.0208 0.801940.02750.8017±0.0231 0.8168±0.0301 Mean0.7783±0.0192 0.7750±0.0236 0.7781±0.02690.7750±0.0251 0.7938±0.0246 为进一步证明实验的合理性,选取JAFFE和 部分重构图像,明显SPL-OMSPCA模型对含噪声 C0L20数据集,L分别取10和9,子空间维度取 块图像的重构更好。表3展示了迭代过程中 10。SPL-OMSPCA模型中,每一次迭代中更新均 JAFFE数据集部分样本的y:的变化情况,其中一 值,图3展示了2个数据集从1024个特征中随机 行表示一个样本的变化。从表3可看出,随迭代 抽取的10个特征的均值变化,由图3可看出均值 次数的增加,对损失值大小的限制逐渐放宽,实 随迭代次数增加逐渐趋于平稳。模型考虑样本自 现从“简单样本”到“复杂样本”的学习。此外,图5 身差异性,引入自步学习机制,利用损失值判断 给出了算法在UMIST和JAFFE上的收敛情况, 样本的难易程度,赋予样本软权重,并且放宽对 其中,训练样本数L分别为9、10,子空间维数为 投影矩阵的正交约束,以L2!范数来表示损失函 100,最大迭代次数为30。由图5可见,本文所提 数和稀疏约束,由此即使对于有噪声的样本,也 出的算法具有收敛性。 能极大程度地进行重构,图4展示了对于随机添 综上所述,SPL-OMSPCA模型对噪声样本具有 加50%块噪声的JAFFE数据集,5种算法得到的 更高的鲁棒性,且能取得比其他算法更高的识别率
表 2 在 6 个不同噪声数据集上各种 PCA 算法的分类精度及其标准差 Table 2 Average classification accuracy and standard deviation of various PCA algorithm on six data sets with different noise training samples 数据集 L PCA SPCA JSPCA OMRPCA SPL-OMSPCA UMIST ( 13×13 遮挡) 6 0.598 0±0.022 2 0.585 3±0.044 9 0.593 6±0.020 0 0.589 7±0.029 2 0.619 8±0.022 0 9 0.643 0±0.025 3 0.637 7±0.022 5 0.641 8±0.031 6 0.642 5±0.032 4 0.671 8±0.037 7 12 0.687 2±0.020 3 0.676 1±0.037 3 0.676 4±0.041 2 0.683 0±0.038 2 0.718 5±0.012 8 Mean 0.642 7±0.022 6 0.633 0±0.034 9 0.637 3±0.030 9 0.638 4±0.033 2 0.670 0±0.024 2 JAFFE ( 13×13 遮挡) 5 0.652 0±0.058 7 0.644 7±0.055 3 0.644 7±0.058 0 0.641 3±0.092 0 0.710 0±0.036 7 10 0.706 0±0.066 0 0.701 0±0.096 0 0.695 0±0.045 0 0.694 0±0.056 0 0.791 0±0.059 0 15 0.726 0±0.066 0 0.728 0±0.068 0 0.724 0±0.064 0 0.734 0±0.066 0 0.812 0±0.064 0 Mean 0.694 7±0.063 6 0.691 2±0.073 1 0.687 9±0.073 0 0.689 8±0.071 3 0.771 0±0.053 2 AR (10% 椒盐噪声) 8 0.545 6±0.021 4 0.566 9±0.017 4 0.544 4±0.026 3 0.568 1±0.020 5 0.574 4±0.025 5 13 0.645 0±0.013 5 0.650 9±0.028 0 0.649 5±0.010 5 0.651 7±0.027 9 0.665 9±0.019 7 18 0.736 8±0.009 1 0.729 2±0.029 2 0.721 1±0.021 1 0.739 7±0.020 7 0.744 0±0.024 0 Mean 0.642 4±0.014 7 0.649 0±0.024 9 0.638 3±0.019 3 0.653 2±0.023 0 0.661 4±0.023 1 BIO (10% 椒盐噪声) 18 0.739 1±0.022 2 0.742 4±0.026 3 0.743 8±0.036 5 0.736 2±0.017 2 0.762 1±0.013 1 20 0.748 3±0.025 8 0.758 9±0.028 6 0.748 0±0.020 6 0.752 0±0.019 6 0.774 1±0.020 6 22 0.766 1±0.011 6 0.776 9±0.016 8 0.768 1±0.036 4 0.768 2±0.022 3 0.786 0±0.024 7 Mean 0.751 2±0.019 9 0.759 4±0.023 9 0.753 3±0.031 2 0.752 1±0.019 7 0.774 1±0.019 5 COIL20 (10% 椒盐噪声) 4 0.786 4±0.015 6 0.773 5±0.030 6 0.783 6±0.021 5 0.784 0±0.029 6 0.789 5±0.039 2 5 0.810 0±0.024 5 0.801 1±0.020 2 0.814 9±0.023 9 0.811 6±0.035 0 0.820 5±0.026 5 6 0.835 7±0.019 0 0.839 4±0.022 7 0.793 9±0.025 1 0.847 6±0.036 5 0.852 2±0.021 1 Mean 0.810 7±0.019 7 0.804 7±0.024 5 0.820 1±0.021 5 0.814 4±0.033 7 0.820 7±0.028 3 MINIST (10% 椒盐噪声) 15 0.751 5±0.020 9 0.744 9±0.027 3 0.752 8±0.028 4 0.743 9±0.032 9 0.771 8±0.027 1 20 0.781 9±0.015 6 0.778 0±0.022 8 0.779 5±0.024 9 0.779 4±0.019 4 0.792 8±0.016 5 25 0.801 6±0.021 1 0.802 1±0.020 8 0.801 9±0.027 5 0.801 7±0.023 1 0.816 8±0.030 1 Mean 0.778 3±0.019 2 0.775 0±0.023 6 0.778 1±0.026 9 0.775 0±0.025 1 0.793 8±0.024 6 vi L2,1 为进一步证明实验的合理性,选取 JAFFE 和 COIL20 数据集,L 分别取 10 和 9,子空间维度取 10。SPL-OMSPCA 模型中,每一次迭代中更新均 值,图 3 展示了 2 个数据集从 1 024 个特征中随机 抽取的 10 个特征的均值变化,由图 3 可看出均值 随迭代次数增加逐渐趋于平稳。模型考虑样本自 身差异性,引入自步学习机制,利用损失值判断 样本的难易程度,赋予样本软权重 ,并且放宽对 投影矩阵的正交约束,以 范数来表示损失函 数和稀疏约束,由此即使对于有噪声的样本,也 能极大程度地进行重构,图 4 展示了对于随机添 加 50% 块噪声的 JAFFE 数据集,5 种算法得到的 vi L 部分重构图像,明显 SPL-OMSPCA 模型对含噪声 块图像的重构更好。 表 3 展示了迭代过程 中 JAFFE 数据集部分样本的 的变化情况,其中一 行表示一个样本的变化。从表 3 可看出,随迭代 次数的增加,对损失值大小的限制逐渐放宽,实 现从“简单样本”到“复杂样本”的学习。此外,图 5 给出了算法在 UMIST 和 JAFFE 上的收敛情况, 其中,训练样本数 分别为 9、10,子空间维数为 100,最大迭代次数为 30。由图 5 可见,本文所提 出的算法具有收敛性。 综上所述,SPL-OMSPCA 模型对噪声样本具有 更高的鲁棒性,且能取得比其他算法更高的识别率。 第 3 期 许子微,等:自步稀疏最优均值主成分分析 ·421·
·422· 智能系统学报 第16卷 150 特征1 图国3图0930国 特征2 100 特征3 (a)原始图片(随机50%添加13×13的块遮挡 特征4 特征5 特征6 特征7 特征8 (b)OMRPCA 特征9 特征10 3 4567 8910 迭代次数 (c)SPCA (a)JAFFE数据集 180 160 140 特征1 特征2 (d)PCA 120 特征3 100 特征 4 80 特征5 特征6 特征7 (e)JSPCA 40 特征8 特征9 特征10 0 2 3 456 7 8910 迭代次数 (f)SPL-OMSPCA (b)COIL20数据集 图4不同算法对部分JAFFE数据集的重构图像 图3均值变化图 Fig.4 Reconstructed images of partial JAFFE datasets by Fig.3 Graph of the mean value different algorithms 表3自步软权重y,在JAFFE数据集上的变化 Table 3 Change of self-stepping soft weight vi on JAFFE dataset 循环次数 2 3 4 6 7 9 10 0.2211 0.4198 0.5108 0.63720.7597 0.84020.88710.91230.92470.9303 5 0.3248 0.5901 0.8300 1 1 1 1 % 1 1 1 1 1 1 1 1 1 '4 0.0077 0.0435 0.1781 0.14310.19340.2112 0.2139 0.2162 0.2175 0.2181 ' 0 0 0 0 0 0 0 0 0 0 % 0.6918 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0.4027 0.7193 1 1 1 1 1 1 g 0 0 0.1253 0.4601 0.5323 0.5571 0.58190.5902 0.5921 0.5999 v10 1 1 1 1 1 1 1 1 1 2500 1400 1200 2000 1000 1500 1000 600 400 500 200 10 15 20 25 0 5 1015 20 2530 迭代次数 迭代次数 (a)UMIST数据集 (b)JAFFE数据集 图5目标函数收敛图 Fig.5 Convergence graph of objective value
(a) JAFFE 数据集 150 100 50 0 均值大小 1 2 3 4 5 6 7 8 9 10 迭代次数 180 160 140 120 100 80 60 40 20 0 均值大小 1 2 3 4 5 6 7 8 9 10 迭代次数 (b) COIL20 数据集 特征 1 特征 2 特征 3 特征 4 特征 5 特征 6 特征 7 特征 8 特征 9 特征 10 特征 1 特征 2 特征 3 特征 4 特征 5 特征 6 特征 7 特征 8 特征 9 特征 10 图 3 均值变化图 Fig. 3 Graph of the mean value (a) 原始图片 (随机 50% 添加 13×13 的块遮挡) (b) OMRPCA (c) SPCA (d) PCA (e) JSPCA (f) SPL-OMSPCA 图 4 不同算法对部分 JAFFE 数据集的重构图像 Fig. 4 Reconstructed images of partial JAFFE datasets by different algorithms 表 3 自步软权重 vi 在 JAFFE 数据集上的变化 Table 3 Change of self-stepping soft weight vi on JAFFE dataset 循环次数 1 2 3 4 5 6 7 8 9 10 v1 0.221 1 0.419 8 0.5108 0.6372 0.7597 0.840 2 0.887 1 0.9123 0.924 7 0.930 3 v2 0.324 8 0.590 1 0.8300 1 1 1 1 1 1 1 v3 1 1 1 1 1 1 1 1 1 1 v4 0.007 7 0.043 5 0.1781 0.1431 0.1934 0.211 2 0.213 9 0.2162 0.217 5 0.218 1 v5 0 0 0 0 0 0 0 0 0 0 v6 0.691 8 1 1 1 1 1 1 1 1 1 v7 0 0 0 0 0 0 0 0 0 0 v8 0.402 7 0.719 3 1 1 1 1 1 1 1 1 v9 0 0 0.1253 0.4601 0.5323 0.557 1 0.581 9 0.5902 0..5921 0.599 9 v10 1 1 1 1 1 1 1 1 1 1 2 500 2 000 1 500 1 000 500 0 目标函数值 5 10 15 20 25 30 迭代次数 (a) UMIST 数据集 1 400 1 200 1 000 800 600 400 200 0 目标函数值 5 10 15 20 25 30 迭代次数 (b) JAFFE 数据集 图 5 目标函数收敛图 Fig. 5 Convergence graph of objective value ·422· 智 能 系 统 学 报 第 16 卷
第3期 许子微,等:自步稀疏最优均值主成分分析 ·423· 3.3 参数设置 4结束语 由式(3)提出的问题可知,参数k和B的值决 定了学习过程中样本的选取,故选择合适的参数 本文提出了一种新的无监督降维算法一自 可以提升算法的分类效果。假设初始训练时最大 步稀疏最优均值主成分分析(SPL-OMSPCA)算 法。基于对样本自身差异性的考虑,引入自步学 损失为L,由式(3)取适当的k和B满足: 习的思想,实现样本从“简单”到“复杂”的训练,且 Lm=1/k+1/B2 (20) 在迭代过程中,自动更新均值,而后通过对投影 为简化计算,令k=1/B,则有 矩阵添加L21范数的行稀疏约束,一致选择样本, 进一步提高算法的识别精度。理论分析和实验结 k=1/2VLm B=2Lm (21) 果都证明了SPL-OMSPCA模型的分类优势。虽 对步长参数μ和稀疏正则化控制参数α将通 然SPL-OMSPCA的性能优于其他PCA方法,但 过实验确定,由图6可见,SPL-OMSPCA 它还是一种无监督方法,不能使用类标签来提取 算法在不同参数组合下得到不同分类效果。具体 有区别的特征,因此它还不能提取最有效的分类 地,UMST数据集上L=9时,在(a,m)=(0.001,1.25) 特征。在未来,可将之扩展到半监督分类问题。 处可取得最高精度;JAFFE数据集上L=I0时,在 参考文献: (@,四=(10,1.15)处取得最高精度;AR数据集上 L=13时,在(a,)=(0.01,1.15)处取得最高精度; [1]OU Weihua,YOU Xinge,TAO Dacheng,et al.Robust BI0数据集上L=20时,在(a,m)=(1000,1.1)时取 face recognition via occlusion dictionary learning[J].Pat- tern rec0 gnition,2014,47(4):1559-1572. 得最高精度;C0IL20数据集上L=5时, [2]WEI Lai,ZHOU Rigui,YIN Jun,et al.Latent graph-regu- (a,4)=(1000,1.15)时取得最高精度;MNIST数据 larized inductive robust principal component analysis[J]. 集上L=20时,在(a,)=(1000,1.15)取到最高精度。 Knowledge-based systems,2019,177:68-81 [3]HE Jinrong,BI Yingzhou,LIU Bin,et al.Graph-dual Laplacian principal component analysis[J].Journal of am- 0.70 bient intelligence and humanized computing,2019,10(8): 0.65 3249-3262. 0.60 [4]ZHAO Haifeng,WANG Zheng,NIE Feiping.A new for- 0.55 mulation of linear discriminant analysis for robust dimen- 0.50 sionality reduction[J.IEEE transactions on knowledge and 0.000 data engineering,2018,31(4):629-640 0 g职联马 [5]朱换荣,郑智超.孙怀江面向局部线性回归分类器的判 别分析方法U.智能系统学报,2019,14(5):959-965. ZHU Huanrong,ZHENG Zhichao,SUN Huaijiang.Local- (a)UMIST数据集 ity-regularized linear regression classification-based dis- criminant analysis[J.CAAl transactions on intelligent sys- tems,2019,14(5y:959-965. 0.80 [6]NIE Feiping,HUANG Heng,DING C,et al.Robust prin- 0.75 cipal component analysis with non-greedy f-norm maxim- 0.70 ization[C]//Proceedings of the 22nd International Joint 0.65 Conference on Artificial Intelligence.Barcelona,Catalonia, 0.60 Spain,.2011:1433-1438 0.0001 [7]NIE Feiping,YUAN Jianjun,HUANG Heng.Optimal mean robust principal component analysis[C]//Proceed- 100000 ings of the 31st International Conference on Machine Learning.Beijing,China,2014:1062-1070. (b)JAFFE数据集 [8]ZOU Hui,HASTIE T,TIBSHIRANI R.Sparse principal 图6不同参数上的分类精度 component analysis[J].Journal of computational and Fig.6 Classification accuracy on different parameters graphical statistics,2006,15(2):265-286
3.3 参数设置 k β Lm k β 由式 (3) 提出的问题可知,参数 和 的值决 定了学习过程中样本的选取,故选择合适的参数 可以提升算法的分类效果。假设初始训练时最大 损失为 ,由式 (3) 取适当的 和 满足: Lm = 1/(k+1/β) 2 (20) 为简化计算,令 k = 1/β ,则有 k = 1/2 √ Lm, β = 2 √ Lm (21) µ α L = 9 (α, µ) = (0.001,1.25) L = 10 (α, µ) = (10,1.15) L = 13 (α, µ) = (0.01,1.15) L = 20 (α, µ) = (1 000,1.1) L = 5 (α, µ) = (1 000,1.15) L = 20 (α, µ) =(1 000,1.15) 对步长参数 和稀疏正则化控制参数 将通 过实验确定,由 图 6 可见, SPL-OMSPCA 算法在不同参数组合下得到不同分类效果。具体 地,UMIST 数据集上 时,在 处可取得最高精度;JAFFE 数据集上 时,在 处取得最高精度;AR 数据集上 时,在 处取得最高精度; BIO 数据集上 时,在 时取 得最高精度; COIL2 0 数据集上 时 , 时取得最高精度;MNIST 数据 集上 时,在 取到最高精度。 (a) UMIST 数据集 分类精度 0.70 0.65 0.60 0.55 0.50 0.0001 0.001 0.01 0.1 1 10 100 1 000 10 000 100 000 1.50 1.45 1.40 1.35 1.30 1.25 1.20 1.15 α 1.10 μ (b) JAFFE 数据集 分类精度 0.80 0.75 0.70 0.65 0.60 0.0001 0.001 0.01 0.1 1 10 100 1 000 10 000 100 000 1.50 1.45 1.40 1.35 1.30 1.25 1.20 1.15 α 1.10 μ 图 6 不同参数上的分类精度 Fig. 6 Classification accuracy on different parameters 4 结束语 L2,1 本文提出了一种新的无监督降维算法−自 步稀疏最优均值主成分分析 (SPL-OMSPCA) 算 法。基于对样本自身差异性的考虑,引入自步学 习的思想,实现样本从“简单”到“复杂”的训练,且 在迭代过程中,自动更新均值,而后通过对投影 矩阵添加 范数的行稀疏约束,一致选择样本, 进一步提高算法的识别精度。理论分析和实验结 果都证明了 SPL-OMSPCA 模型的分类优势。虽 然 SPL-OMSPCA 的性能优于其他 PCA 方法,但 它还是一种无监督方法,不能使用类标签来提取 有区别的特征,因此它还不能提取最有效的分类 特征。在未来,可将之扩展到半监督分类问题。 参考文献: OU Weihua, YOU Xinge, TAO Dacheng, et al. Robust face recognition via occlusion dictionary learning[J]. Pattern recognition, 2014, 47(4): 1559–1572. [1] WEI Lai, ZHOU Rigui, YIN Jun, et al. Latent graph-regularized inductive robust principal component analysis[J]. Knowledge-based systems, 2019, 177: 68–81. [2] HE Jinrong, BI Yingzhou, LIU Bin, et al. Graph-dual Laplacian principal component analysis[J]. Journal of ambient intelligence and humanized computing, 2019, 10(8): 3249–3262. [3] ZHAO Haifeng, WANG Zheng, NIE Feiping. A new formulation of linear discriminant analysis for robust dimensionality reduction[J]. IEEE transactions on knowledge and data engineering, 2018, 31(4): 629–640. [4] 朱换荣, 郑智超, 孙怀江. 面向局部线性回归分类器的判 别分析方法 [J]. 智能系统学报, 2019, 14(5): 959–965. ZHU Huanrong, ZHENG Zhichao, SUN Huaijiang. Locality-regularized linear regression classification-based discriminant analysis[J]. CAAI transactions on intelligent systems, 2019, 14(5): 959–965. [5] NIE Feiping, HUANG Heng, DING C, et al. Robust principal component analysis with non-greedy ℓ1 -norm maximization[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Catalonia, Spain, 2011: 1433−1438. [6] NIE Feiping, YUAN Jianjun, HUANG Heng. Optimal mean robust principal component analysis[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014: 1062−1070. [7] ZOU Hui, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of computational and graphical statistics, 2006, 15(2): 265–286. [8] 第 3 期 许子微,等:自步稀疏最优均值主成分分析 ·423·
·424· 智能系统学报 第16卷 [9]YI Shuangyan,LAI Zhihui,HE Zhenyu,et al.Joint sparse classification of single facial images[J].IEEE transac- principal component analysis[J].Pattern recognition,2017, tions on pattern analysis and machine intelligence,1999, 61:524536. 21(12):1357-1362. [10]BENGIO Y.LOURADOUR J,COLLOBERT R.et al. [18]WRIGHT J,YANG A Y,GANESH A,et al.Robust face Curriculum learning[C]//Proceedings of the 26th Annual recognition via sparse representation.[J].IEEE transac- International Conference on Machine Learning.Montreal, tions on pattern analysis and machine intelligence,2009. Quebec,Canada,2009:41-48. 31(2):210-227 [11]KUMAR M P,PACKER B,KOLLER D.Self-paced [19]JESORSKY O.KIRCHBERG K J.FRISCHHOLZ R W learning for latent variable models[Cl//Proceedings of the Robust face detection using the hausdorff distance[C]// 23rd International Conference on Neural Information Pro- Proceedings of the 3rd International Conference on Au- cessing Systems.Vancouver,British Columbia,Canada, dio-and Video-Based Biometric Person Authentication. 2010:1189-1197 Halmstad.Sweden.2001:90-95. [12]JIANG Lu.MENG Deyu,ZHAO Qian,et al.Self-paced [20]ZHENG Miao,BU Jiajun,CHEN C,et al.Graph regular- curriculum learning[C]//Proceedings of the 29th AAAI ized sparse coding for image representation[J].IEEE Conference on Artificial Intelligence.Austin,Texas, transactions on image processing,2011,20(5):1327-1336. USA.2015:2694-2700 [21]KUSSUL E,BAIDYK T.Improved method of handwrit- [13]YU Hao,WEN Guoqiu,GAN Jiangzhang,et al.Self- ten digit recognition tested on MNIST database[J].Image paced learning for K-means clustering algorithm[J].Pat- tern recognition letters,2020,132:69-75. and vision computing,2004,22(12):971-981. [14]HU Sixiu,PENG Jiangtao,FU Yingxiong,et al.Kernel 作者简介: joint sparse representation based on self-paced learning 许子微,硕士研究生,主要研究方 for hyperspectral image classification[].Remote sensing, 向为模式识别、图像处理。 2019,11(9):11141132. [15]HAJINEZHAD D,SHI Qingjiang.Alternating direction method of multipliers for a class of nonconvex bilinear optimization:convergence analysis and applications[J]. Journal of global optimization,2018,70(1):261-288. [16]HOU Chenping,NIE Feiping,YI Dongyun,et al.Feature 陈秀宏,教授,主要研究方向为数 字图像处理和模式识别、目标检测与 selection via joint embedding learning and sparse regres- 跟踪、优化理论与方法。参与国家自 sion[Cl//Proceedings of the 22nd International Joint Con- 然基金项目2项,主持省部级研究项 ference on Artificial Intelligence.Barcelona,Spain,2011: 目3项,省博土后基金1项。获得省 1324-1329 部级奖1项、校级教学成果奖1项、市 [17]LYONS M J.BUDYNEK J.AKAMATSU S.Automatic 厅级奖6项。发表学术论文120余篇
YI Shuangyan, LAI Zhihui, HE Zhenyu, et al. Joint sparse principal component analysis[J]. Pattern recognition, 2017, 61: 524–536. [9] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada, 2009: 41−48. [10] KUMAR M P, PACKER B, KOLLER D. Self-paced learning for latent variable models[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2010: 1189−1197. [11] JIANG Lu, MENG Deyu, ZHAO Qian, et al. Self-paced curriculum learning[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015: 2694−2700. [12] YU Hao, WEN Guoqiu, GAN Jiangzhang, et al. Selfpaced learning for K-means clustering algorithm[J]. Pattern recognition letters, 2020, 132: 69–75. [13] HU Sixiu, PENG Jiangtao, FU Yingxiong, et al. Kernel joint sparse representation based on self-paced learning for hyperspectral image classification[J]. Remote sensing, 2019, 11(9): 1114–1132. [14] HAJINEZHAD D, SHI Qingjiang. Alternating direction method of multipliers for a class of nonconvex bilinear optimization: convergence analysis and applications[J]. Journal of global optimization, 2018, 70(1): 261–288. [15] HOU Chenping, NIE Feiping, YI Dongyun, et al. Feature selection via joint embedding learning and sparse regression[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Spain, 2011: 1324−1329. [16] [17] LYONS M J, BUDYNEK J, AKAMATSU S. Automatic classification of single facial images[J]. IEEE transactions on pattern analysis and machine intelligence, 1999, 21(12): 1357–1362. WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation.[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2):210-227. [18] JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the hausdorff distance[C]// Proceedings of the 3rd International Conference on Audio- and Video-Based Biometric Person Authentication. Halmstad, Sweden, 2001: 90−95. [19] ZHENG Miao, BU Jiajun, CHEN C, et al. Graph regularized sparse coding for image representation[J]. IEEE transactions on image processing, 2011, 20(5): 1327–1336. [20] KUSSUL E, BAIDYK T. Improved method of handwritten digit recognition tested on MNIST database[J]. Image and vision computing, 2004, 22(12): 971–981. [21] 作者简介: 许子微,硕士研究生,主要研究方 向为模式识别、图像处理。 陈秀宏,教授,主要研究方向为数 字图像处理和模式识别、目标检测与 跟踪、优化理论与方法。参与国家自 然基金项目 2 项,主持省部级研究项 目 3 项,省博士后基金 1 项。获得省 部级奖 1 项、校级教学成果奖 1 项、市 厅级奖 6 项。发表学术论文 120 余篇。 ·424· 智 能 系 统 学 报 第 16 卷