【机器学习】鲁棒的半监督多标签特征选择方法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：3.04MB

第14卷第4期智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201809017 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190409.0946.016html 鲁棒的半监督多标签特征选择方法严菲，王晓栋 (厦门理工学院计算机与信息工程学院，福建厦门361024) 摘要：针对现有的半监督多标签特征选择方法利用-范数建立谱图易受到噪声影响的问题，文中提出一种鲁棒的半监督多标签特征选择方法，利用全局线性回归函数建立多标签特征选择模型，结合1图获取局部描述信息提高模型准确度，引入2！约束提升特征之间可区分度和回归分析的稳定性，避免噪声干扰。在4种开源数据集上借助多种性能评价标准验证所提出方法，结果表明：本文方法能有效提高分类模型的准确性和对外界噪声的抗干扰性。关键词：特征选择；半监督学习；多标签学习：1范式图；线性回归：2！范数；鲁棒；分类；聚类中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2019)04-0812-08 中文引用格式：严菲，王晓栋.鲁棒的半监督多标签特征选择方法.智能系统学报，2019,14(4)：812-819. 英文引用格式：YAN Fei,,VANG Xiaodong.A robust,semi-supervised,and multi-label feature selection method J.CAAI transac- tions on intelligent systems,2019,14(4):812-819. A robust,semi-supervised,and multi-label feature selection method YAN Fei,WANG Xiaodong (College of Computer and Information Engineering,Xiamen University of Technology,Xiamen 361024,China) Abstract:The existing semi-supervised multi-label feature selection method constructs a spectral image based on the /2- norm,which is sensitive to noise.To handle this problem,a robust semi-supervised multi-label feature selection method is presented in this study.A global linear regression function is utilized to construct the multi-label feature selection model,and the /-norm graph is combined to obtain the local discriminant information.Subsequently,the /2-norm con- straint is added to improve the distinguishability between these features and the stability of regression analysis to avoid noise interference.Four open source datasets are selected to verify the proposed method based on various evaluation cri- teria.The results demonstrate the efficiency of our method with respect to the classification accuracy and robustness Keywords:feature selection;semi-supervised learning;multi-label learning,h-norm graph;linear regression;/2-norm; robust;classification,clustering 在机器学习中，特征选择从原始数据集中提大量已知标签时，该类方法能取得较好的识别效取最具代表性子集，降低数据维度以提高后续分果。但在实际应用中获取大量已知标签较困难，类、聚类处理精度，是当前研究的热点。按已标且当已知标签数量不足时该类方法性能迅速下记数据样本数量划分，特征选择方法可分为监降。无监督特征选择方法B通过对无标签数据督、无监督和半监督学习。监督特征选择2在已的训练以发现其隐藏的结构性知识，但由于缺乏知数据集和类别标签上训练学习模型。在已获取可区分性的标签信息导致学习性下降。近年来，收稿日期：2018-09-13.网络出版日期：2019-04-10. 半监督特征选择将少量已知标签数据与未标记数基金项目：国家自然科学基金项目(61871464)：福建省自然科学基金面上项目(2017J01511):福建省中青年教师科据结合建立学习模型，受到学者的广泛研究。D0- 研项目(JATI70417):厦门理工学院科研攀登计划项目(XPDKQ18012). quire等提出以数据方差为评价准则筛选出重通信作者：严菲.E-mail:fyan@xmut.edu.cn. 要特征，但其忽略了特征间的相关性，易陷入局

DOI: 10.11992/tis. 201809017 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190409.0946.016.html 鲁棒的半监督多标签特征选择方法严菲，王晓栋（厦门理工学院计算机与信息工程学院，福建厦门 361024）摘要：针对现有的半监督多标签特征选择方法利用 l2 -范数建立谱图易受到噪声影响的问题，文中提出一种鲁棒的半监督多标签特征选择方法，利用全局线性回归函数建立多标签特征选择模型，结合 l1 图获取局部描述信息提高模型准确度，引入 l2,1 约束提升特征之间可区分度和回归分析的稳定性，避免噪声干扰。在 4 种开源数据集上借助多种性能评价标准验证所提出方法，结果表明：本文方法能有效提高分类模型的准确性和对外界噪声的抗干扰性。关键词：特征选择；半监督学习；多标签学习；l1 范式图；线性回归；l2,1 范数；鲁棒；分类；聚类中图分类号：TP391.4 文献标志码：A 文章编号：1673−4785(2019)04−0812−08 中文引用格式：严菲, 王晓栋. 鲁棒的半监督多标签特征选择方法 [J]. 智能系统学报, 2019, 14(4): 812–819. 英文引用格式：YAN Fei, WANG Xiaodong. A robust, semi-supervised, and multi-label feature selection method[J]. CAAI transactions on intelligent systems, 2019, 14(4): 812–819. A robust, semi-supervised, and multi-label feature selection method YAN Fei，WANG Xiaodong (College of Computer and Information Engineering, Xiamen University of Technology, Xiamen 361024, China) Abstract: The existing semi-supervised multi-label feature selection method constructs a spectral image based on the l2 - norm, which is sensitive to noise. To handle this problem, a robust semi-supervised multi-label feature selection method is presented in this study. A global linear regression function is utilized to construct the multi-label feature selection model, and the l1 -norm graph is combined to obtain the local discriminant information. Subsequently, the l2,1-norm constraint is added to improve the distinguishability between these features and the stability of regression analysis to avoid noise interference. Four open source datasets are selected to verify the proposed method based on various evaluation criteria. The results demonstrate the efficiency of our method with respect to the classification accuracy and robustness. Keywords: feature selection; semi-supervised learning; multi-label learning; l1 -norm graph; linear regression; l2,1-norm; robust; classification; clustering 在机器学习中，特征选择从原始数据集中提取最具代表性子集，降低数据维度以提高后续分类、聚类处理精度，是当前研究的热点。按已标记数据样本数量划分，特征选择方法可分为监督、无监督和半监督学习。监督特征选择[1-2] 在已知数据集和类别标签上训练学习模型。在已获取大量已知标签时，该类方法能取得较好的识别效果。但在实际应用中获取大量已知标签较困难，且当已知标签数量不足时该类方法性能迅速下降。无监督特征选择方法[3-4] 通过对无标签数据的训练以发现其隐藏的结构性知识，但由于缺乏可区分性的标签信息导致学习性下降。近年来，半监督特征选择将少量已知标签数据与未标记数据结合建立学习模型，受到学者的广泛研究。Doquire 等 [5] 提出以数据方差为评价准则筛选出重要特征，但其忽略了特征间的相关性，易陷入局收稿日期：2018−09−13. 网络出版日期：2019−04−10. 基金项目：国家自然科学基金项目 (61871464)；福建省自然科学基金面上项目 (2017J01511)；福建省中青年教师科研项目 (JAT170417)；厦门理工学院科研攀登计划项目 (XPDKQ18012). 通信作者：严菲. E-mail: fyan@xmut.edu.cn. 第 14 卷第 4 期智能系统学报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019

第4期严菲，等：鲁棒的半监督多标签特征选择方法 ·813· 部最优。为解决此问题，研究者提出基于谱图理 xi-xi 论的半监督方法，依据某准则建立Laplacian矩阵 x为x的近邻 (1) 提取数据底层流形结构进行特征选择，如Lu等阿 0.其他提出以迹比准则为评价机制，Ma等忉引入流形正式中：σ为宽度参数，控制函数的径向作用范围。则化的稀疏特征选择方法等。基于式(1)构造加权图，谱聚类算法将聚类问在现实应用中，存在某个数据样本同时隶属题转化为图划分问题，但其最优解为NP问题。于一个或多个不同的类别，如网页分类、自然场传统解决方法以借助松弛方法得到连续的类别标景分类等。以图像标注为例，一幅自然图像可包签，进而转换为率切(ratio cut)问题：含多种场景，如树、陆地、沙漠，即一个图像样本 min Tr(2"LO) (2) Q'0=1 可属于多种类别。最简单的解决方法将多标签簇式中：Q=[q12…qJeR"为聚类指标矩阵，c为问题分解为多个独立单标签分类问题，但其忽略类别标签数，qk∈R为Q矩阵第k列；L为谱图了多标签间的相关性。为此，Ji等1利用多标签 Laplacian矩阵，其定义为L=D-A,D为对角矩阵，的共享子空间建立学习框架，文献[9]使用互信其每个i对角元素D:=∑A。为获取最终的类别息和交互信息的理论方法寻找最优子集，这些方标签，必须进一步借助聚类算法将连续值矩阵法均属于监督类方法。但现实应用中大量训练样本中已标记数据极少。如何利用未标记数据及其进行离散化，如采用K-means算法等。Nie等提出基于I1范数图模型来获取更清晰的流形结之间的关系信息提高泛化性能，给多标签特征选构，上述式(2)转换为择方法带来了巨大的挑战。针对此问题，研究者提出半监督多标签特征学习。Alalga等0提出利 i∑Alq:-qb (3) 用Laplacian得分判断多标签类间关系，但其利用 l2-范数建立Laplacian矩阵易受离群点的影响，从 2 基于1，图的半监督多标签特征选而导致学习稳定性差。Chang等提出基于全局择方法线性约束的多标签半监督方法，无需构建Lapla- cian图和特征分解操作，计算量少，速度快，但其 2.1 问题定义忽略了真实数据嵌入在高维空间的底层流形结给定数据集X=[x1x2…Xx41…xn]ER 构。受启于上述研究工作，本文提出基于1图的 x,∈R为第i组数据，d为维度，I为已标记样本数半监督多标签特征选择方法SMFSL(semi-super- (亿《n)。设Y=y1y2…y'∈R为已标记数据集 vised multi-label feature selection method based on L- 的标签矩阵，，∈{0,1}为数据x,的类别标签。 norm graph),利用全局线性回归函数方法和l2,:组若x,被标识为j类，则Y=1,否则Y=O。为获取稀疏约束建立多标签特征选择模型，引用1，图模未标签数据的类别标签信息，定义预测标签矩阵型以提高特征选择准确度。 P=U方[长]eR心其中初始化为 Fm∈Raxc则为未标签数据的标签矩阵，且初始 1范数图模型化F=O,O为所有元素为0的矩阵。定义W=[w, 在机器学习中，基于图的学习方法通过构建 w2· weR为特征选择分类器，半监督多标近邻图，利用样本间反映流形分布而建立问题模签特征选择学习模型定义为型，得到广泛的研究应用。其中，基于谱图理论的谱聚类学习方法)，在多种应用场景下取得较 w∑1os(W,fD+y2(W (4) 好的效果。在式(4)中，2)为正则化项（可以选择不同谱聚类根据数据样本间的相似关系建立的正则化模型，如1范数、2：范数等)，参数y为正 Laplacian矩阵，利用特征值和特征向量获取样本则化参数，loss()为损失函数。从模型的简单性、间的内在联系。给定n组数据集X={x1,x2,, 高效性角度进行考虑，本文选择最小二乘法作为 xn}eR",其中x,∈R为第i组数据，d为维度。损失函数，式(4)可表示为定义G=(V,A)为无向权重图，其中V为向量集， wK'w+b'-F+2(刚 (5) 相似矩阵A=[A1A2·AnER"“,A=A≥0。基于式中：beR为偏置量；1eR”为元素值全是1的高斯核函数σ相似矩阵A定义为列向量

部最优。为解决此问题，研究者提出基于谱图理论的半监督方法，依据某准则建立 Laplacian 矩阵提取数据底层流形结构进行特征选择，如 Liu 等 [6] 提出以迹比准则为评价机制，Ma 等 [7] 引入流形正则化的稀疏特征选择方法等。在现实应用中，存在某个数据样本同时隶属于一个或多个不同的类别，如网页分类、自然场景分类等。以图像标注为例，一幅自然图像可包含多种场景，如树、陆地、沙漠，即一个图像样本可属于多种类别。最简单的解决方法将多标签簇问题分解为多个独立单标签分类问题，但其忽略了多标签间的相关性。为此，Ji 等 [8] 利用多标签的共享子空间建立学习框架，文献 [9] 使用互信息和交互信息的理论方法寻找最优子集，这些方法均属于监督类方法。但现实应用中大量训练样本中已标记数据极少。如何利用未标记数据及其之间的关系信息提高泛化性能，给多标签特征选择方法带来了巨大的挑战。针对此问题，研究者提出半监督多标签特征学习。Alalga 等 [10] 提出利用 Laplacian 得分判断多标签类间关系，但其利用 l2 -范数建立 Laplacian 矩阵易受离群点的影响，从而导致学习稳定性差。Chang 等 [11] 提出基于全局线性约束的多标签半监督方法，无需构建 Laplacian 图和特征分解操作，计算量少，速度快，但其忽略了真实数据嵌入在高维空间的底层流形结构。受启于上述研究工作，本文提出基于 l1 图的半监督多标签特征选择方法 SMFSL (semi-supervised multi-label feature selection method based on L1 - norm graph)，利用全局线性回归函数方法和 l2,1 组稀疏约束建立多标签特征选择模型，引用 l1 图模型以提高特征选择准确度。 1 范数图模型在机器学习中，基于图的学习方法通过构建近邻图，利用样本间反映流形分布而建立问题模型，得到广泛的研究应用。其中，基于谱图理论的谱聚类学习方法[12] ，在多种应用场景下取得较好的效果。谱聚类根据数据样本间的相似关系建立 Laplacian 矩阵，利用特征值和特征向量获取样本间的内在联系。给定 n 组数据集 X={x1，x2，···， xn}∈R d×n ，其中 xi∈R d 为第 i 组数据，d 为维度。定义 G=(V，A) 为无向权重图，其中 V 为向量集，相似矩阵 A=[A1 A2 ··· An ]∈R n×n ，Aji=Aij≥0。基于高斯核函数 σ 相似矩阵 A 定义为 Ai j =    exp   − xi − xj 2 σ2   , xi为xj的近邻 0, 其他 (1) 式中：σ 为宽度参数，控制函数的径向作用范围。基于式 (1) 构造加权图，谱聚类算法将聚类问题转化为图划分问题，但其最优解为 NP 问题。传统解决方法以借助松弛方法得到连续的类别标签，进而转换为率切 (ratio cut) 问题： min QTQ=I Tr( Q T LQ) (2) Dii = ∑n j=1 Ai j 式中：Q=[q1 q2 ··· qn ] T∈R n×c 为聚类指标矩阵，c 为类别标签数，qk∈R c 为 Q 矩阵第 k 列；L 为谱图 Laplacian 矩阵，其定义为 L=D-A，D 为对角矩阵，其每个 i 对角元素。为获取最终的类别标签，必须进一步借助聚类算法将连续值矩阵 Q 进行离散化，如采用 K-means 算法等。Nie 等 [13] 提出基于 l1 范数图模型来获取更清晰的流形结构，上述式 (2) 转换为 min QTQ=I ∑n i, j=1 Ai j qi − qj 2 (3) 2 基于 l1 图的半监督多标签特征选择方法 2.1 问题定义 l ≪ n F = [ f1 f2 · · fn ]T = [ Fl Fu ] ∈ R n×c 给定数据集 X=[x1 x2 ··· xl xl+1··· xn ]∈R d×n ， xi∈R d 为第 i 组数据，d 为维度，l 为已标记样本数 ( )。设 Yl=[y1 y2 ··· yl ] T∈R l×c 为已标记数据集的标签矩阵， yi∈{0,1}c 为数据 xi 的类别标签。若 xi 被标识为 j 类，则 Yij=1，否则 Yij=0。为获取未标签数据的类别标签信息，定义预测标签矩阵，其中 Fl 初始化为 Yl， Fu∈R (n-l)×c 则为未标签数据的标签矩阵，且初始化 Fu=Ο，Ο 为所有元素为 0 的矩阵。定义 W=[w1 w2 ··· wd ] T∈R d×c 为特征选择分类器，半监督多标签特征选择学习模型定义为 min W,F,Fl=Yl ∑n i=1 loss(W, fi)+γΩ(W) (4) 在式 (4) 中， Ω(·) 为正则化项 (可以选择不同的正则化模型，如 l1 范数、l2,1 范数等)，参数 γ 为正则化参数，loss(·) 为损失函数。从模型的简单性、高效性角度进行考虑，本文选择最小二乘法作为损失函数，式 (4) 可表示为 min W,F,b,Fl=Yl X TW +1b T − F 2 F +γΩ(W) (5) 式中：b∈R c 为偏置量；1∈R n 为元素值全是 1 的列向量。第 4 期严菲，等：鲁棒的半监督多标签特征选择方法 ·813·

·814· 智能系统学报第14卷从式（⑤）可以看出，利用线性回归函数逐渐逼保持W,S,F不变，将式(8)对b求导，令求近可找出全局最优，但却忽略了其局部数据之间导结果为0，得到：相关性。为提高特征选择准确度，文献[7)]提出 1 (9) 建立相似矩阵以获取局部流形结构，建立的学习 b-Tsi(F'S-Wxs) 模型如下：将式(9)代入式(8)，为简化公式，令H= 盟之4-成+ 其中H为中心化矩陈.IeR为 I- i.l (6) 单位矩阵。式(8)将转换为： alXW+Ib-F+y2(W) (FLF+a((HXW-HF)'S 式中a为平衡参数。 (10) HXW-HF))+yllWll 半监督学习应用中，已标签的数据集往往只将式(10)对W求导，并令求导结果为0，得到占据小部分，无标签数据集非常庞大，而离群点 aXHSHXTW+yDwW=aXHSHF (11) 一般存在无标签数据集中。Nie等I)研究证明，式中Dm为对角矩阵，可表示为采用(，范数有效减少噪音的影响，从而获取更清 1 晰的谱聚类结构，因此本文提出将1范数引入半 2lw1l2+6 监督学习模型中。同时为减少外界噪声点的干 Dw= (12) 扰，本文提出采用12：范数来约束最小二乘损 2llwallk +6 失函数。给定任意矩阵M∈Raxc,其定义为由于矩阵Dm与W相关，无法直接求解上 M=公区G,结合式队式回转换为式。为解决此问题，将W随机初始化以获取矩阵 D,转换式(11)，推导出： ∑A-fl+aKw+B-FLt W=a(aXHSHXT+yDw)XHSHF (13) y2(W) 为求解F,将式(10)进行变换，得到：为有效地去除原数据集的冗余特征，本文对 ipu(FTLF)+ot(FHSHF)+yt(WD.W)+ (14) 特征选择矩阵W引入正则化模型12！范数，最后 atr(WTXHSHXW)-2atr(FTHSHXW) 提出的目标函数定义如下：转换式(14)，得到： iutallxw++wlk ipt(FLF)+at(FHSHF) tr(WT(aXHSHXT+yD.)W)- (15) (7) 2atr(FHSHXW) 2.2学习模型求解将W的求导结果式(13)代入式(15)，得到：为获取最终选择特征子集，将对多标签特征 mintr(FTLF)+atr(FTHSHF)-a2tr 选择的目标函数进行模型求解。由于目标函数 (FHSHX(aXHSHXT+yDw)'XHSHF) (16) 式(7)引入的12，：范数具有非光滑特征，无法直接定义M为：进行求解，因此本文提出一种迭代优化方法来解决。 M=L+aHSH- (17) 首先，将目标函数（⑦）进行转换。定义对角矩 (aXHSHXT+yDw)）XHSH 阵S,其元素S:=2xw+D-F业+6。其中，为将式(16)按分块矩阵形式转换为：防止S:除数为0，δ的值为接近于0的正常量。 mintr F TI MM F lF.MaM]F. 式(7)转换后形式如下：将上式对F求导，并令求导结果为0，得到： wsy(FLF+a(XTW+1bT-F) (8) F=-M MF S(XTW+1bT-F))+rllWlk 基于以上推导过程求解学习模型，本文方法式中：i为对角矩阵且定义为i=D-A;矩阵A元具体描述如下： A 素定文为A,:D为对角矩阵，元素值为算法1 SMFSL 输入数据集X∈Rm,类别标签Y,∈Rc,相 D:=∑，Aj。给定任意矩阵B∈R"”,对矩阵B迹似矩阵A,参数a,y: 函数定义m(B)=宫B,B,为矩阵B的第1个对角输出特征选择矩阵W,预测标签矩阵F。元素。 I)=O,随机初始化WR,bR,F'Rmxc

从式 (5) 可以看出，利用线性回归函数逐渐逼近可找出全局最优，但却忽略了其局部数据之间相关性。为提高特征选择准确度，文献 [7] 提出建立相似矩阵以获取局部流形结构，建立的学习模型如下： min W,F,b,Fl=Yl ∑n i, j=1 Ai j fi − fj 2 2 + α X TW +1b T − F 2 F +γΩ(W) (6) 式中 α 为平衡参数。 M2,1 = ∑d i=1 vt∑c j=1 M2 i j 半监督学习应用中，已标签的数据集往往只占据小部分，无标签数据集非常庞大，而离群点一般存在无标签数据集中。Nie 等 [13] 研究证明，采用 l1 范数有效减少噪音的影响，从而获取更清晰的谱聚类结构，因此本文提出将 l1 范数引入半监督学习模型中。同时为减少外界噪声点的干扰，本文提出采用 l2,1 范数[3] 来约束最小二乘损失函数。给定任意矩阵 M∈R d × c ，其定义为。结合式 (3)，式 (6) 转换为 min W,F,b,Fl=Yl ∑n i, j=1 Ai j fi − fj 2 +α X TW +1b T − F 2,1 + γΩ(W) 为有效地去除原数据集的冗余特征，本文对特征选择矩阵 W 引入正则化模型 l2,1 范数，最后提出的目标函数定义如下： min W,F,b,Fl=Yl ∑n i, j=1 Ai j fi − fj 2 +α X TW +1b T − F 2,1 +r∥W∥2,1 (7) 2.2 学习模型求解为获取最终选择特征子集，将对多标签特征选择的目标函数进行模型求解。由于目标函数式 (7) 引入的 l2,1 范数具有非光滑特征，无法直接进行求解，因此本文提出一种迭代优化方法来解决。 Sii = 1 2∥XTW +1b T − F∥2 +δ 首先，将目标函数 (7) 进行转换。定义对角矩阵 S，其元素。其中，为防止 Sii 除数为 0，δ 的值为接近于 0 的正常量。式 (7) 转换后形式如下： min W,S,F,b,Fl=Yl tr( F T L˜F +α ( X TW +1b T − F )T S ( X TW +1b T − F ))+r∥W∥2,1 (8) L˜ L˜ = D˜ − A˜ A˜ A˜ i j = Ai j 2 fi − fj 2 D˜ D˜ ii = ∑ j A˜ i j tr(B) = ∑n i=1 Bii 式中：为对角矩阵且定义为；矩阵元素定义为；为对角矩阵，元素值为。给定任意矩阵 B∈R n×n ，对矩阵 B 迹函数定义，Bii 为矩阵 B 的第 i 个对角元素。保持 W，S，F 不变，将式 (8) 对 b 求导，令求导结果为 0，得到： b= 1 1 T S1 ( F TS−WTXS) (9) H= ( I− 1 1 T S1 11T S ) 将式 ( 9 ) 代入式 (8) ，为简化公式，令，其中 H 为中心化矩阵，I∈R n×n 为单位矩阵。式 (8) 将转换为： min W,S,F tr(F T L˜F +α( ( HXTW − HF)T S HXTW − HF))+γ∥W∥2,1 (10) 将式 (10) 对 W 求导，并令求导结果为 0，得到 αXHSHXTW +γDWW = αXHSHF (11) 式中 DW 为对角矩阵，可表示为 DW =   1 2∥w1∥2 +δ . . . 1 2∥wd∥2 +δ   (12) 由于矩阵 D W 与 W 相关，无法直接求解上式。为解决此问题，将 W 随机初始化以获取矩阵 DW，转换式 (11)，推导出： W = α ( αXHSHXT +γDW )−1 XHSHF (13) 为求解 F，将式 (10) 进行变换，得到： min W,F tr(F T L˜F)+αtr( F THSHF) +γtr( WT DwW ) + αtr( WTXHSHXTW ) −2αtr( F THSHXTW ) (14) 转换式 (14)，得到： min W,F tr(F T L˜F)+αtr( F THSHF) + tr( WT ( αXHSHXT +γDw ) W ) − 2αtr( F THSHXTW ) (15) 将 W 的求导结果式 (13) 代入式 (15)，得到： min F tr(F T L˜F)+αtr( F THSHF) −α 2 tr ( F THSHXT ( αXHSHXT +γDW )−1 XHSHF) (16) 定义 M 为： M = L˜ +αHSH− ( αXHSHXT +γDW )−1 XHSH (17) 将式 (16) 按分块矩阵形式转换为： min Fu tr   [ Fl Fu ]T [ Mll Mul Mlu Muu ] [ Fl Fu ]  将上式对 Fu 求导，并令求导结果为 0，得到： Fu = −M−1 uu MulFl 基于以上推导过程求解学习模型，本文方法具体描述如下：算法 1 SMFSL X ∈ R d×n Yl ∈ R l×c α, γ 输入数据集，类别标签，相似矩阵 A，参数；输出特征选择矩阵 W，预测标签矩阵 F。 1) t=0，随机初始化 W t ϵR d×c ，b t ϵR c ，F t ϵR n×c ·814· 智能系统学报第 14 卷

2) repeat L˜ = D˜ − A˜ A˜ i j = Ai j 2 fi − fj 2 D˜ D˜ ii = ∑ j A˜ i j 3) 计算，其中，为对角矩阵，其元素值为 S t Sii t = 1 2 XTWt +1(b t ) T − Ft 2 +δ 4) 计算对象矩阵，其第 i 个元素 H = ( I− 1 1 T S t1 11T S t ) 5) 计算 H， D t 6) 根据式 w (12) 计算对角矩阵 Mt+1 = L˜ +αHStH −α 2HStHXT ( αXHStHXT +γD t w )−1 XHStH 7) 根据式 (17) 计算 F t+1 u =− ( Mt+1 uu )−1Mt+1 ul Fl F t+1 = [ Fl F t+1 u ] 8) 计算，并且更新 9) 更新 Wt+1 = α ( αXHStHXT +γD t w )−1 XHStHFt+1 10) 更新 b t+1 = 1 1 T S t1 (( F t+1 )T S t 1− ( Wt+1 )T XSt 1 ) 11) t=t+1 12) until 收敛 w t i 2 (i = 1,2,··· ,d) 在得到特征选择矩阵 W 后，按照的值，对输入数据的特征进行降序排列，其中最前面的 p 个特征即为所选择的特征。 2.3 收敛性分析本小节将对上一小节提出的 SMFSL 算法收敛性进行证明。引理 1 对于任意非零的向量 p,q∈R c ，有以下不等式成立： ∥p∥2 − ∥p∥ 2 2 2∥q∥2 ⩽ ∥q∥2 − ∥q∥ 2 2 2∥q∥2 (18) 根据以上引理，本文提出以下定理：定理 1 算法 SMFSL 在每次迭代过程中最小化目标函数。证明为方便起见，首先定义 g(W,F,b T ,S)= αtr((X TW+1b T -F) T S(X TW+1b T -F)) 。目标函数可写为： min W,F,b ∑n i, j=1 A˜ i j fi − fj 2 2 +γ∥W∥2,1 +g ( W,F, b T ,S ) (19) 假设在第 t 次迭代后获得了 W，F,b T 和 S。在下一次迭代中，固定 W 为 W t 、b 为 b t 、S 为 S t 来求解 F t+1，参考文献 [14] 中的方法可得出： ∑n i, j=1 (A˜ t )i j f t+1 i − f t+1 j 2 2 +γ∥Wt ∥2,1+g ( Wt ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 (A˜ t )i j f t i − f t j 2 2 +γ∥Wt ∥2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (20) (A˜t )i j = Ai j 2 f t i − f t j 2 将代入式 (19)，得到： ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 2 2 f t i − f t j 2 +γ Wt 2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 Ai j f t i − f t j 2 2 2 f t i − f t j 2 +γ Wt 2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (21) 结合引理 1 的式 (18)，有以下公式： ∑n i, j=1 Ai j   f t+1 i − f t+1 j 2 − f t+1 i − f t+1 j 2 2 2 f t i − f t j 2   ⩽ ∑n i, j=1 Ai j   f t i − f t j 2 − f t i − f t j 2 2 2 f t i − f t j 2   (22) 结合式 (20) 和 (21)，得到 ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ∥Wt ∥2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 Ai j f t i − f t j 2 +γ∥Wt ∥2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (23) 接下来，固定 F 为 F t+1 、b 为 b t 、S 为 S t 来求解 W t+1，根据算法 1 可得出： Wt+1 = argmin W ∑n i, j=1 (A˜ t )i j f t+1 i − f t+1 j 2 2 + γ∥Wt ∥2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) (24) 同样，参考文献 [14] 中的方法，可得出： ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt+1 2,1 +g ( Wt+1 ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt 2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) (25) 接下来，固定 F 为 F t+1 、W 为 W t+1 求解 b t+1 、 S t+1，同样，参考文献 [14] 中的方法，可得出： ∑n i, j=1 Ai j f t+1 i −f t+1 j 2 +γ Wt+1 2,1 +g ( Wt+1 ,F t+1 ,(b t+1 ) T ,S t+1 ) ⩽ ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt 2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) (26) 最后，结合式 (22)、(23) 和 (24)，可得出： ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt+1 2,1 +g ( Wt+1 ,F t+1 ,(b t+1 ) T ,S t+1 ) ⩽ ∑n i, j=1 Ai j f t i − f t j 2 +γ Wt 2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (27) 从式 (25) 中可证明出算法 1 是收敛的。 3 实验分析 3.1 对比方法及实验数据为验证本文方法的有效性，对相关方法进行第 4 期严菲，等：鲁棒的半监督多标签特征选择方法 ·815·

·816- 智能系统学报第14卷描述。标签分类器，其中MLKNN的优化参数参照文献[18。 AIl-feature:其数据未采用特征选择，本次实表1实验数据集验以该分类结果作为基准线。 Table 1 Experimental datasets TRCFS(trace ratio criterion for feature selec- 样本特征类别数据集数数数特征数 tion):采用谱图的半监督学习方法，其通过引入 MIML 20001355 {20,40,60,80.100,120} 具有抗噪声的率切准则提高特征选择的效率。 YEAST 2417 103 14 20.40.60.80.100) CSFS(convex semi-supervised multi-label fea- Education 5000 550 33 {100.200,300.400.500} ture selection)a:该将线性回归模型引入特征选择 Entertainment500064021{100,200,300,400,500,600} 模型中，是一种快速的半监督特征选择方法。 3.2 性能对比分析 FSNM(feature selection via joint /2,i-norms min- 本次实验选择Hamming loss(HL,汉明损失)、 imization):监督学习方法，其在损失函数和正则 One-Error(OE,单错误)作为评价指标9用来评价化方面采用1，范数模型进行特征选择。方法的分类性能。其中，Hamming loss和One Er-- 本次实验将所提出方法应用到各种场景，包 ror值越低代表性能越好。图1、2列出了以AIl- 括自然场景分类、网页分类和基因功能分类。同 feature方法的分类结果为基准线，TRCFS、CSFS 时本文将各方法应用到多种开源数据库，包括 FSNM以及本文提出的SMFSL方法在各种数据 MML、YEAST、Education和Entertainment, 集的性能对比分析。其中图1分别为HL评价标数据集的相关属性描述如表1所示。准的性能提升百分比，以及图2分别为OE评价本文对于每一种方法所有涉及到的参数（如标准的性能提升百分比。从图中可以看出：果有的话)的范围设定为{10、102、10°、102、10)。 1)大部分特征选择方法要优于未采用特征选择的AIl-feature,.由此可证明特征选择有助于提高对于每种数据集，随机选择n个样本作为训练集，多标记学习性能。但在YEAST、Education和En- 其中分别选择10%、20%和40%的数据为已标记 tertainment数据集中，TRCFS学习性能整体略低数据集，其余为未标记数据。实验独立重复5次，于All-feature,但该方法经过特征选择后维度会有最后取其平均值。本次实验选择MLKNN作为多所降低，从而能有效地节省后续分类时间。 TRCFS TRCFS 4 0 SMFSL MIM Educ MIML YEAST Education Entertainm MIML YEAST Education Ente Entertainm (a)已标记数据集为10% (b)已标记数据集为20% (c)已标记数据集为40% 图1各种方法在各数据集上的汉明损失 Fig.I Hamming loss comparison of various methods on various datasets TRCFS TRCFS IRCFS CSFS CSES SNM SMESL SMFSL 2 YEAS Edue Entertainment MIML YEAST Education MIML Entertain YEAST Education (a)已标记数据集为10% (b)已标记数据集为20% (c)已标记数据集为40% 图2 各种方法在各数据集上的单错误 Fig.2 One-Error comparison of various methods on various datasets

描述。 All-feature：其数据未采用特征选择，本次实验以该分类结果作为基准线。 TRCFS(trace ratio criterion for feature selection)[6] ：采用谱图的半监督学习方法，其通过引入具有抗噪声的率切准则提高特征选择的效率。 CSFS(convex semi-supervised multi-label feature selection)[12] ：该将线性回归模型引入特征选择模型中，是一种快速的半监督特征选择方法。 FSNM(feature selection via joint l2,1-norms minimization)[1] ：监督学习方法，其在损失函数和正则化方面采用 l2,1 范数模型进行特征选择。本次实验将所提出方法应用到各种场景，包括自然场景分类、网页分类和基因功能分类。同时本文将各方法应用到多种开源数据库，包括 MIML[15] 、YEAST[16] 、Education[17] 和 Entertainment [17] ，数据集的相关属性描述如表 1 所示。本文对于每一种方法所有涉及到的参数 (如果有的话) 的范围设定为{10−4 、10−2 、100 、102 、104 }。对于每种数据集，随机选择 n 个样本作为训练集，其中分别选择 10%、20% 和 40% 的数据为已标记数据集，其余为未标记数据。实验独立重复 5 次，最后取其平均值。本次实验选择 MLKNN 作为多标签分类器，其中 MLKNN 的优化参数参照文献 [18]。表 1 实验数据集 Table 1 Experimental datasets 数据集样本数特征数类别数特征数 MIML 2 000 135 5 {20，40，60，80，100，120} YEAST 2 417 103 14 {20，40，60，80，100} Education 5 000 550 33 {100，200，300，400，500} Entertainment 5 000 640 21 {100，200，300，400，500，600} 3.2 性能对比分析本次实验选择 Hamming loss(HL，汉明损失)、 One-Error(OE，单错误) 作为评价指标[19] 用来评价方法的分类性能。其中，Hamming loss 和 One Error 值越低代表性能越好。图 1、2 列出了以 Allfeature 方法的分类结果为基准线，TRCFS、CSFS、 FSNM 以及本文提出的 SMFSL 方法在各种数据集的性能对比分析。其中图 1 分别为 HL 评价标准的性能提升百分比，以及图 2 分别为 OE 评价标准的性能提升百分比。从图中可以看出： 1) 大部分特征选择方法要优于未采用特征选择的 All-feature，由此可证明特征选择有助于提高多标记学习性能。但在 YEAST、Education 和 Entertainment 数据集中，TRCFS 学习性能整体略低于 All-feature，但该方法经过特征选择后维度会有所降低，从而能有效地节省后续分类时间。 5 4 3 2 1 0 −1 MIML YEAST (a) 已标记数据集为 10% 汉明损失性能提升率/% Education Entertainment 4 3 2 1 0 −3 −2 −1 MIML YEAST (b) 已标记数据集为 20% 汉明损失性能提升率/% Education Entertainment 5 4 3 2 1 0 −4 −3 −2 −1 MIML YEAST (c) 已标记数据集为 40% 汉明损失性能提升率/% Education Entertainment TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL 图 1 各种方法在各数据集上的汉明损失 Fig. 1 Hamming loss comparison of various methods on various datasets 8 6 4 2 0 −2 MIML YEAST (a) 已标记数据集为 10% 汉明损失性能提升率/% Education Entertainment 8 6 4 2 0 −4 −2 MIML YEAST (b) 已标记数据集为 20% 汉明损失性能提升率/% Education Entertainment 8 6 4 2 0 −6 −4 −2 MIML YEAST (c) 已标记数据集为 40% 汉明损失性能提升率/% Education Entertainment TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL 图 2 各种方法在各数据集上的单错误 Fig. 2 One-Error comparison of various methods on various datasets ·816· 智能系统学报第 14 卷

第4期严菲，等：鲁棒的半监督多标签特征选择方法 ·817· 2)CSFS在部分数据集上表现略差于FSNM, 数据集在已标记样本集为20%时，选择不同特征这是由于CSFS方法采用I2范式损失函数，对噪数的Average Precision(AP,平均查准率)性能对声较敏感。当无标签数据集比例较大时，噪声较比效果，具体如图4所示。据文献[19]得知，AP 多，CSFS的分类性能受噪声影响较大。而当已标值越高，表示方法性能越好。从图中可以看出记数据集比例增加时，其与FSNM差距越小。 MIML、YEAST、Education数据集在选择特征数 3)本文提出的SMFSL方法优于其他方法，由分别为40、80和400时AP值最高。这意味着选此可证明采用12，范式约束全局回归函数能有效择最大特征数并不一定能产生最高的AP值。在减少外界噪声影响，同时结合1，图建立相似矩阵给定不同的特征数量时，本文所提方法普遍高于能有效获取底层局部流形结构，提高分类性能。其他方法，尤其是在MML和Education数据集优 3.3模型鲁棒性分析势更加明显。另外，从图中看出不同方法的结果为验证本文所提出模型的鲁棒性，本次实验曲线出现交叉，这是由于不同方法所选择出的最优针对不同类型相似矩阵进行对比分析。实验采用特征子集不同，其对应的分类准确度也会有所不同。如图3(a)所示的双月(two-moon)数据集。该数据 3.5参数敏感性分析集可分为上半月形和下半月形2个类别数据，具本次实验将对学习模型中涉及的参数进行具有明显的流形结构。基于2范数的相似矩阵如体分析。为节省篇幅，本次实验挑选YEAST、Education 图3(b)所示，其中任意2个数据间的连线代表其和Entertainment在已标记数据为40%、评价标准具有相似性。从图中可以看出，该相似矩阵存在为One Error的性能分析。首先，固定a值为l,即过多冗余连接，无法提取清晰的流形结构信息，参数调节范围的中位数，调整Y和特征数进行分很难直接应用于后续对数据的分类任务。本文模析，结果如图5所示。同样，固定参数Y的值为型输出的相似矩阵如图3(c)所示，可明显看出， 1,对α和特征数的变化进行分析，具体如图6所在1，范数稀疏性约束下，该相似矩阵可有效剔除示。从图5、图6可以看出，参数《、Y的选数据间的无关连接，提取更加清晰的流形结构信择依赖于所选数据集，如Entertainment数据集在息，进而有助于提高分类模型的准确性和对外界固定a、特征数为600时，选择y=10-4时0ne 噪声的抗干扰性。 Error性能最佳，而当y=1该性能表现最差。因 3.4特征数对分类性能的影响此在实验测试时需对不同的数据集设置不同的本次实验挑选了MML、YEAST和Education 参数。 1.5 1.5 1.5 1.0 1.0 1.0 0.5 0.5 0 中+ 《 0 -0.5 封* -0.5 -0.5 -1.0 -1.0 -1.0 -1.5 -1.0 -0.500.5 1.0 1.5 -1.5 -1.0-0.500.51.01.5 -1.5 -1.0-0.500.51.0 1.5 (a)原始数据集 (b)基于1，范数的相似矩阵 (©)本文输出的相似矩阵图3I1范数对相似矩阵的影响分析 Fig.3 Influence analysis of /-norm on similarity matrix 0.72 0.745 0.56 0.71 0.70 0.740 0.54 0.69 0.52 FSNM RCFS 斗0.735 0.68 -TRCFS -SMFSL -SMFSL 0.50 -CSFS 0.67 0.730 -SMFSL 20 40 60 80100 120 40 60 80 100 100 200 300 400 500 选择特征数量/个选择特征数量/个选择特征数量/个 (a)MIML数据集 (b)YEAST数据集 (c)Education数据集图4平均查准率与选择的特征数量关系 Fig.4 Relation between average precision and the number of selected features

2) CSFS 在部分数据集上表现略差于 FSNM，这是由于 CSFS 方法采用 l2 范式损失函数，对噪声较敏感。当无标签数据集比例较大时，噪声较多，CSFS 的分类性能受噪声影响较大。而当已标记数据集比例增加时，其与 FSNM 差距越小。 3) 本文提出的 SMFSL 方法优于其他方法，由此可证明采用 l2,1 范式约束全局回归函数能有效减少外界噪声影响，同时结合 l1 图建立相似矩阵能有效获取底层局部流形结构，提高分类性能。 3.3 模型鲁棒性分析为验证本文所提出模型的鲁棒性，本次实验针对不同类型相似矩阵进行对比分析。实验采用如图 3(a) 所示的双月 (two-moon) 数据集。该数据集可分为上半月形和下半月形 2 个类别数据，具有明显的流形结构。基于 l2 范数的相似矩阵如图 3(b) 所示，其中任意 2 个数据间的连线代表其具有相似性。从图中可以看出，该相似矩阵存在过多冗余连接，无法提取清晰的流形结构信息，很难直接应用于后续对数据的分类任务。本文模型输出的相似矩阵如图 3(c) 所示，可明显看出，在 l1 范数稀疏性约束下，该相似矩阵可有效剔除数据间的无关连接，提取更加清晰的流形结构信息，进而有助于提高分类模型的准确性和对外界噪声的抗干扰性。 3.4 特征数对分类性能的影响本次实验挑选了 MIML、YEAST 和 Education 数据集在已标记样本集为 20% 时，选择不同特征数的 Average Precision(AP，平均查准率) 性能[19] 对比效果，具体如图 4 所示。据文献 [19] 得知，AP 值越高，表示方法性能越好。从图中可以看出， MIML、YEAST、Education 数据集在选择特征数分别为 40、80 和 400 时 AP 值最高。这意味着选择最大特征数并不一定能产生最高的 AP 值。在给定不同的特征数量时，本文所提方法普遍高于其他方法，尤其是在 MIML 和 Education 数据集优势更加明显。另外，从图中看出不同方法的结果曲线出现交叉，这是由于不同方法所选择出的最优特征子集不同，其对应的分类准确度也会有所不同。 3.5 参数敏感性分析本次实验将对学习模型中涉及的参数进行具体分析。为节省篇幅，本次实验挑选 YEAST、Education 和 Entertainment 在已标记数据为 40%、评价标准为 One Error 的性能分析。首先，固定 α 值为 1，即参数调节范围的中位数，调整 γ 和特征数进行分析，结果如图 5 所示。同样，固定参数 γ 的值为 1，对 α 和特征数的变化进行分析，具体如图 6 所示。从图 5 、图 6 可以看出，参数 α 、 γ 的选择依赖于所选数据集，如 Entertainment 数据集在固定 α、特征数为 600 时，选择 γ=10 − 4 时 One Error 性能最佳，而当 γ=1 该性能表现最差。因此在实验测试时需对不同的数据集设置不同的参数。 1.5 1.0 0.5 0 −0.5 −1.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 (a) 原始数据集 1.5 1.0 0.5 0 −0.5 −1.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 (b) 基于l 2范数的相似矩阵 1.5 1.0 0.5 0 −0.5 −1.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 (c) 本文输出的相似矩阵图 3 l1 范数对相似矩阵的影响分析 Fig. 3 Influence analysis of l1 -norm on similarity matrix 0.745 0.740 0.735 0.730 平均查准率 (b) YEAST 数据集 FSNM TRCFS CSFS SMFSL 20 40 60 选择特征数量/个 80 100 0.56 0.54 0.52 0.50 平均查准率 FSNM TRCFS CSFS SMFSL 100 200 300 400 选择特征数量/个 (c) Education 数据集 500 0.72 0.71 0.70 0.69 0.68 0.67 平均查准率 20 40 60 选择特征数量/个 (a) MIML 数据集 FSNM TRCFS CSFS SMFSL 80 100 120 图 4 平均查准率与选择的特征数量关系 Fig. 4 Relation between average precision and the number of selected features 第 4 期严菲，等：鲁棒的半监督多标签特征选择方法 ·817·

·818· 智能系统学报第14卷 0.31 路02 0.6 0.6 霉01 0.2 0 0 0 2006080100 fo 参数a 特征数 100200300o00 特征数参数a 100200300000u500 特征数 (a)YEAST数据集 (b)Education数据 (c)Entertainment数据集图5本文方法的参数敏感性分析(=) Fig.5 Parameter sensitivity analysis of the proposed method(a=1) 03 0.6 0.6 路0.2 感 01 0.4 会0.2 0 0 0 0 20406080100 0o2 1102 10020030w0-00 0i2 参数？ 104 特征数特征数 1o32aw00o000 特征数 (a)YEAST数据 (b)Education数据集 (c)Entertainment数据集图6本文方法的参数敏感性分析(=) Fig.6 Parameter sensitivity analysis of the proposed method(1) 4结束语 transactions on intelligent systems,2017,12(4):519-525. [3]YANG Yi,SHEN Hengtao,MA Zhigang,et al.(2.-norm 本文提出一种鲁棒的半监督多标签特征选择 regularized discriminative feature selection for unsuper- 方法SMFSL。不同于传统基于谱图的特征选择 vised learning[C]//Proceedings of the 22th International 方法，本文方法利用12：范数约束全局线性回归函 Joint Conference on Artificial Intelligence.Barcelona. 数，减少外界噪声干扰，还借助1图获取更清晰 Spain,2011:1589-1594 的数据底层流形结构，有效提取局部特征，以提 [4]WANG Xiaodong,ZHANG Xu,ZENG Zhiqiang,et al. 高学习效率。为提高特征选择准确度，本文引入 Unsupervised spectral feature selection with norm 2,范数约束特征选择过程，有效利用特征间相关 graph[J].Neurocomputing,2016,200:47-54. 信息，进而过滤冗余特征。文中所提出的模型涉 [5]DOQUIRE G,VERLEYSEN M.A graph Laplacian based 及2：范数具有非光滑特征，无法直接对其求闭合 approach to semi-supervised feature selection for regres- 解，因此提出一套快速有效迭代方法求解学习模 sion problems[J].Neurocomputing,2013,121:5-13. 型。最后通过多个开源数据集实验证明了本文方 [6]LIU Yun,NIE Feiping,WU Jigang,et al.Efficient semi- 法的有效性。结合自适应学习及采用鲁棒性更好 supervised feature selection with noise insensitive trace ra- 的损失函数以进一步提高特征选择的准确度，为 tio criterion[J].Neurocomputing,2013,105:12-18. 本文的下一步研究目标。 [7]MA Zhigang,NIE Feiping,YANG Yi,et al.Discriminat- ing joint feature analysis for multimedia data understand- 参考文献： ing[J].IEEE transactions on multimedia,2012,14(6): [1]YU Lei,LIU Huan.Feature selection for high-dimensional 1662-1672. data:a fast correlation-based filter solution[C]//Proceed- [8]JI Shuiwang.TANG Lei.YU Shipeng,et al.A shared-sub- ings of the 20th International Conference on International space learning framework for multi-label classification[J] Conference on Machine Learning.Washington DC,USA, ACM transactions on knowledge discovery from data, 2003:856-863. 2010,4(2):8. [2]胡敏杰，林耀进，杨红和，等.基于特征相关的谱特征选 [9]张俐，王枞.基于最大相关最小冗余联合互信息的多标择算法U.智能系统学报，2017,12(4：519-525 签特征选择算法).通信学报，2018,39(5)111-122. HU Minjie,LIN Yaojin,YANG Honghe,et al.Spectral ZHANG Li,WANG Cong.Multi-label feature selection al- feature selection based on feature correlation[].CAAI gorithm based on joint mutual information of max-relev-

4 结束语本文提出一种鲁棒的半监督多标签特征选择方法 SMFSL。不同于传统基于谱图的特征选择方法，本文方法利用 l2,1 范数约束全局线性回归函数，减少外界噪声干扰，还借助 l1 图获取更清晰的数据底层流形结构，有效提取局部特征，以提高学习效率。为提高特征选择准确度，本文引入 l2,1 范数约束特征选择过程，有效利用特征间相关信息，进而过滤冗余特征。文中所提出的模型涉及 l2,1 范数具有非光滑特征，无法直接对其求闭合解，因此提出一套快速有效迭代方法求解学习模型。最后通过多个开源数据集实验证明了本文方法的有效性。结合自适应学习及采用鲁棒性更好的损失函数以进一步提高特征选择的准确度，为本文的下一步研究目标。参考文献： YU Lei, LIU Huan. Feature selection for high-dimensional data: a fast correlation-based filter solution[C]//Proceedings of the 20th International Conference on International Conference on Machine Learning. Washington DC, USA, 2003: 856-863. [1] 胡敏杰, 林耀进, 杨红和, 等. 基于特征相关的谱特征选择算法 [J]. 智能系统学报, 2017, 12(4): 519–525. HU Minjie, LIN Yaojin, YANG Honghe, et al. Spectral feature selection based on feature correlation[J]. CAAI [2] transactions on intelligent systems, 2017, 12(4): 519–525. YANG Yi, SHEN Hengtao, MA Zhigang, et al. ℓ2,1-norm regularized discriminative feature selection for unsupervised learning[C]//Proceedings of the 22th International Joint Conference on Artificial Intelligence. Barcelona, Spain, 2011: 1589-1594. [3] WANG Xiaodong, ZHANG Xu, ZENG Zhiqiang, et al. Unsupervised spectral feature selection with l1 norm graph[J]. Neurocomputing, 2016, 200: 47–54. [4] DOQUIRE G, VERLEYSEN M. A graph Laplacian based approach to semi-supervised feature selection for regression problems[J]. Neurocomputing, 2013, 121: 5–13. [5] LIU Yun, NIE Feiping, WU Jigang, et al. Efficient semisupervised feature selection with noise insensitive trace ratio criterion[J]. Neurocomputing, 2013, 105: 12–18. [6] MA Zhigang, NIE Feiping, YANG Yi, et al. Discriminating joint feature analysis for multimedia data understanding[J]. IEEE transactions on multimedia, 2012, 14(6): 1662–1672. [7] JI Shuiwang, TANG Lei, YU Shipeng, et al. A shared-subspace learning framework for multi-label classification[J]. ACM transactions on knowledge discovery from data, 2010, 4(2): 8. [8] 张俐, 王枞. 基于最大相关最小冗余联合互信息的多标签特征选择算法 [J]. 通信学报, 2018, 39(5): 111–122. ZHANG Li, WANG Cong. Multi-label feature selection algorithm based on joint mutual information of max-relev- [9] 0.3 0.2 0.1 0 10−4 单错误参数 α 特征数 10−2 1 102 104 2040 60 80 100 0.6 0.4 0.2 0 10−4 单错误参数 α 特征数 10−2 1102 104 100200300400500 0.6 0.4 0.2 0 10−4 单错误参数 α 特征数 10−2 1 102 104 100200300400500600 (a) YEAST 数据集 (b) Education 数据集 (c) Entertainment 数据集图 5 本文方法的参数敏感性分析 (a=1) Fig. 5 Parameter sensitivity analysis of the proposed method (a=1) 0.3 0.2 0.1 0 10−4 单错误参数 γ 特征数 10−2 1 102 104 20 40 60 80 100 0.6 0.4 0.2 0 10−4 单错误参数 γ 特征数 10−2 1 102 104 100200300400500 0.6 0.4 0.2 0 10−4 单错误参数 γ 特征数 10−2 1 102 104 100200300400500600 (a) YEAST 数据集 (b) Education 数据集 (c) Entertainment 数据集图 6 本文方法的参数敏感性分析 (γ=1) Fig. 6 Parameter sensitivity analysis of the proposed method (γ=1) ·818· 智能系统学报第 14 卷

第4期严菲，等：鲁棒的半监督多标签特征选择方法 ·819· ance and min-redundancy[J].Journal on communications, [16]ELISSEEFF A,WESTON J.A kernel method for multi- 2018,39(5):111-122 labelled classification[C]//Proceedings of the 14th Inter- [10]ALALGA A,BENABDESLEM K,TALEB N.Soft-con- national Conference on Neural Information Processing strained Laplacian score for semi-supervised multi-label Systems.Vancouver,Canada,2001:681-687. feature selection[J].Knowledge and information systems. [17]UEDA N,SAITO K.Parametric mixture models for 2016.471上75-98. multi-labeled text[C]//Proceedings of the 15th Internation- [11]CHANG Xiaojun,NIE Feiping,YANG Yi,et al.A con- al Conference on Neural Information Processing Systems. vex formulation for semi-supervised multi-label feature Cambridge,MA,USA,2002:737-744. selection[Cl//Proceedings of the 28th AAAI Conference [18]ZHANG Minling,ZHOU Zhihua.ML-KNN:a lazy learn- on Artificial Intelligence.Quebec City,Quebec,Canada, ing approach to multi-label learning[J].Pattern recogni- 2014:1171-1177 tion,2007,40(7):2038-2048. [12]ZHOU Sihang,LIU Xinwang,ZHU Chengzhang,et al. [19]MARON O,RATAN A L.Multiple-instance learning for Spectral clustering-based local and global structure pre- natural scene classification[Cl//Proceedings of 15th Inter- servation for feature selection[C]//Proceedings of 2014 national Conference on Machine Learning.San Francisco, International Joint Conference on Neural Networks. CA,USA.1998:341-349 Beijing,China,2014:550-557. 作者简介： [13]NIE Feiping,WANG Hua,HUANG Heng,et al.Unsu- 严菲.女，1985年生，实验师，主 pervised and semi-supervised learning via t norm 要研究方向为特征选择、机器学习。 graph[C]//Proceedings of 2011 International Conference 主持福建省教育厅中青年教师项目 1项。发表学术论文5篇。 on Computer Vision.Barcelona,Spain,2011:2268-2273. [14]LIU Yun,GUO Yiming,WANG Hua,et al.Semi-super- vised classifications via elastic and robust embedding[C/ Proceedings of the 31th AAAI Conference on Artificial Intelligence.San Francisco,USA,2017:2294-2300. 王晓栋，男.1983年生，副教授，博土，主要研究方向为机器学习、图像 [15]SCHOLKOPF B.PLATT J.HOFMANN T.Multi-in- 处理。主持福建省自然科学基金面上 stance multi-label learning with application to scene clas- 项目1项，福建教育厅中青年教师项 sification[C]//Proceedings of the 13th International Con- 目1项。发表学术论文10篇。 ference on Neural Information Processing Systems.Hong Kong,China,2006:1609-1616

ance and min-redundancy[J]. Journal on communications, 2018, 39(5): 111–122. ALALGA A, BENABDESLEM K, TALEB N. Soft-constrained Laplacian score for semi-supervised multi-label feature selection[J]. Knowledge and information systems, 2016, 47(1): 75–98. [10] CHANG Xiaojun, NIE Feiping, YANG Yi, et al. A convex formulation for semi-supervised multi-label feature selection[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Québec, Canada, 2014: 1171-1177. [11] ZHOU Sihang, LIU Xinwang, ZHU Chengzhang, et al. Spectral clustering-based local and global structure preservation for feature selection[C]//Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 550-557. [12] NIE Feiping, WANG Hua, HUANG Heng, et al. Unsupervised and semi-supervised learning via ℓ1 norm graph[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 2268-2273. [13] LIU Yun, GUO Yiming, WANG Hua, et al. Semi-supervised classifications via elastic and robust embedding[C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 2294-2300. [14] SCHÖLKOPF B, PLATT J, HOFMANN T. Multi-instance multi-label learning with application to scene classification[C]//Proceedings of the 13th International Conference on Neural Information Processing Systems. Hong Kong, China, 2006: 1609-1616. [15] ELISSEEFF A, WESTON J. A kernel method for multilabelled classification[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems. Vancouver, Canada, 2001: 681-687. [16] UEDA N, SAITO K. Parametric mixture models for multi-labeled text[C]//Proceedings of the 15th International Conference on Neural Information Processing Systems. Cambridge, MA, USA, 2002: 737-744. [17] ZHANG Minling, ZHOU Zhihua. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern recognition, 2007, 40(7): 2038–2048. [18] MARON O, RATAN A L. Multiple-instance learning for natural scene classification[C]//Proceedings of 15th International Conference on Machine Learning. San Francisco, CA, USA, 1998: 341-349. [19] 作者简介：严菲. 女，1985 年生，实验师，主要研究方向为特征选择、机器学习。主持福建省教育厅中青年教师项目 1 项。发表学术论文 5 篇。王晓栋，男，1983 年生，副教授，博士，主要研究方向为机器学习、图像处理。主持福建省自然科学基金面上项目 1 项，福建教育厅中青年教师项目 1 项。发表学术论文 10 篇。第 4 期严菲，等：鲁棒的半监督多标签特征选择方法 ·819·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录