第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201809017 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190409.0946.016html 鲁棒的半监督多标签特征选择方法 严菲,王晓栋 (厦门理工学院计算机与信息工程学院,福建厦门361024) 摘要:针对现有的半监督多标签特征选择方法利用-范数建立谱图易受到噪声影响的问题,文中提出一种鲁 棒的半监督多标签特征选择方法,利用全局线性回归函数建立多标签特征选择模型,结合1图获取局部描述信 息提高模型准确度,引入2!约束提升特征之间可区分度和回归分析的稳定性,避免噪声干扰。在4种开源数 据集上借助多种性能评价标准验证所提出方法,结果表明:本文方法能有效提高分类模型的准确性和对外界噪 声的抗干扰性。 关键词:特征选择;半监督学习;多标签学习:1范式图;线性回归:2!范数;鲁棒;分类;聚类 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2019)04-0812-08 中文引用格式:严菲,王晓栋.鲁棒的半监督多标签特征选择方法.智能系统学报,2019,14(4):812-819. 英文引用格式:YAN Fei,,VANG Xiaodong.A robust,semi-supervised,and multi-label feature selection method J.CAAI transac- tions on intelligent systems,2019,14(4):812-819. A robust,semi-supervised,and multi-label feature selection method YAN Fei,WANG Xiaodong (College of Computer and Information Engineering,Xiamen University of Technology,Xiamen 361024,China) Abstract:The existing semi-supervised multi-label feature selection method constructs a spectral image based on the /2- norm,which is sensitive to noise.To handle this problem,a robust semi-supervised multi-label feature selection method is presented in this study.A global linear regression function is utilized to construct the multi-label feature selection model,and the /-norm graph is combined to obtain the local discriminant information.Subsequently,the /2-norm con- straint is added to improve the distinguishability between these features and the stability of regression analysis to avoid noise interference.Four open source datasets are selected to verify the proposed method based on various evaluation cri- teria.The results demonstrate the efficiency of our method with respect to the classification accuracy and robustness Keywords:feature selection;semi-supervised learning;multi-label learning,h-norm graph;linear regression;/2-norm; robust;classification,clustering 在机器学习中,特征选择从原始数据集中提大量已知标签时,该类方法能取得较好的识别效 取最具代表性子集,降低数据维度以提高后续分 果。但在实际应用中获取大量已知标签较困难, 类、聚类处理精度,是当前研究的热点。按已标 且当已知标签数量不足时该类方法性能迅速下 记数据样本数量划分,特征选择方法可分为监 降。无监督特征选择方法B通过对无标签数据 督、无监督和半监督学习。监督特征选择2在已 的训练以发现其隐藏的结构性知识,但由于缺乏 知数据集和类别标签上训练学习模型。在已获取 可区分性的标签信息导致学习性下降。近年来, 收稿日期:2018-09-13.网络出版日期:2019-04-10. 半监督特征选择将少量已知标签数据与未标记数 基金项目:国家自然科学基金项目(61871464):福建省自然科 学基金面上项目(2017J01511):福建省中青年教师科 据结合建立学习模型,受到学者的广泛研究。D0- 研项目(JATI70417):厦门理工学院科研攀登计划项 目(XPDKQ18012). quire等提出以数据方差为评价准则筛选出重 通信作者:严菲.E-mail:fyan@xmut.edu.cn. 要特征,但其忽略了特征间的相关性,易陷入局
DOI: 10.11992/tis. 201809017 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190409.0946.016.html 鲁棒的半监督多标签特征选择方法 严菲,王晓栋 (厦门理工学院 计算机与信息工程学院,福建 厦门 361024) 摘 要:针对现有的半监督多标签特征选择方法利用 l2 -范数建立谱图易受到噪声影响的问题,文中提出一种鲁 棒的半监督多标签特征选择方法,利用全局线性回归函数建立多标签特征选择模型,结合 l1 图获取局部描述信 息提高模型准确度,引入 l2,1 约束提升特征之间可区分度和回归分析的稳定性,避免噪声干扰。在 4 种开源数 据集上借助多种性能评价标准验证所提出方法,结果表明:本文方法能有效提高分类模型的准确性和对外界噪 声的抗干扰性。 关键词:特征选择;半监督学习;多标签学习;l1 范式图;线性回归;l2,1 范数;鲁棒;分类;聚类 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2019)04−0812−08 中文引用格式:严菲, 王晓栋. 鲁棒的半监督多标签特征选择方法 [J]. 智能系统学报, 2019, 14(4): 812–819. 英文引用格式:YAN Fei, WANG Xiaodong. A robust, semi-supervised, and multi-label feature selection method[J]. CAAI transactions on intelligent systems, 2019, 14(4): 812–819. A robust, semi-supervised, and multi-label feature selection method YAN Fei,WANG Xiaodong (College of Computer and Information Engineering, Xiamen University of Technology, Xiamen 361024, China) Abstract: The existing semi-supervised multi-label feature selection method constructs a spectral image based on the l2 - norm, which is sensitive to noise. To handle this problem, a robust semi-supervised multi-label feature selection method is presented in this study. A global linear regression function is utilized to construct the multi-label feature selection model, and the l1 -norm graph is combined to obtain the local discriminant information. Subsequently, the l2,1-norm constraint is added to improve the distinguishability between these features and the stability of regression analysis to avoid noise interference. Four open source datasets are selected to verify the proposed method based on various evaluation criteria. The results demonstrate the efficiency of our method with respect to the classification accuracy and robustness. Keywords: feature selection; semi-supervised learning; multi-label learning; l1 -norm graph; linear regression; l2,1-norm; robust; classification; clustering 在机器学习中,特征选择从原始数据集中提 取最具代表性子集,降低数据维度以提高后续分 类、聚类处理精度,是当前研究的热点。按已标 记数据样本数量划分,特征选择方法可分为监 督、无监督和半监督学习。监督特征选择[1-2] 在已 知数据集和类别标签上训练学习模型。在已获取 大量已知标签时,该类方法能取得较好的识别效 果。但在实际应用中获取大量已知标签较困难, 且当已知标签数量不足时该类方法性能迅速下 降。无监督特征选择方法[3-4] 通过对无标签数据 的训练以发现其隐藏的结构性知识,但由于缺乏 可区分性的标签信息导致学习性下降。近年来, 半监督特征选择将少量已知标签数据与未标记数 据结合建立学习模型,受到学者的广泛研究。Doquire 等 [5] 提出以数据方差为评价准则筛选出重 要特征,但其忽略了特征间的相关性,易陷入局 收稿日期:2018−09−13. 网络出版日期:2019−04−10. 基金项目:国家自然科学基金项目 (61871464);福建省自然科 学基金面上项目 (2017J01511);福建省中青年教师科 研项目 (JAT170417);厦门理工学院科研攀登计划项 目 (XPDKQ18012). 通信作者:严菲. E-mail: fyan@xmut.edu.cn. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
第4期 严菲,等:鲁棒的半监督多标签特征选择方法 ·813· 部最优。为解决此问题,研究者提出基于谱图理 xi-xi 论的半监督方法,依据某准则建立Laplacian矩阵 x为x的近邻 (1) 提取数据底层流形结构进行特征选择,如Lu等阿 0.其他 提出以迹比准则为评价机制,Ma等忉引入流形正 式中:σ为宽度参数,控制函数的径向作用范围。 则化的稀疏特征选择方法等。 基于式(1)构造加权图,谱聚类算法将聚类问 在现实应用中,存在某个数据样本同时隶属 题转化为图划分问题,但其最优解为NP问题。 于一个或多个不同的类别,如网页分类、自然场 传统解决方法以借助松弛方法得到连续的类别标 景分类等。以图像标注为例,一幅自然图像可包 签,进而转换为率切(ratio cut)问题: 含多种场景,如树、陆地、沙漠,即一个图像样本 min Tr(2"LO) (2) Q'0=1 可属于多种类别。最简单的解决方法将多标签簇 式中:Q=[q12…qJeR"为聚类指标矩阵,c为 问题分解为多个独立单标签分类问题,但其忽略 类别标签数,qk∈R为Q矩阵第k列;L为谱图 了多标签间的相关性。为此,Ji等1利用多标签 Laplacian矩阵,其定义为L=D-A,D为对角矩阵, 的共享子空间建立学习框架,文献[9]使用互信 其每个i对角元素D:=∑A。为获取最终的类别 息和交互信息的理论方法寻找最优子集,这些方 标签,必须进一步借助聚类算法将连续值矩阵 法均属于监督类方法。但现实应用中大量训练样 本中已标记数据极少。如何利用未标记数据及其 进行离散化,如采用K-means算法等。Nie等 提出基于I1范数图模型来获取更清晰的流形结 之间的关系信息提高泛化性能,给多标签特征选 构,上述式(2)转换为 择方法带来了巨大的挑战。针对此问题,研究者 提出半监督多标签特征学习。Alalga等0提出利 i∑Alq:-qb (3) 用Laplacian得分判断多标签类间关系,但其利用 l2-范数建立Laplacian矩阵易受离群点的影响,从 2 基于1,图的半监督多标签特征选 而导致学习稳定性差。Chang等提出基于全局 择方法 线性约束的多标签半监督方法,无需构建Lapla- cian图和特征分解操作,计算量少,速度快,但其 2.1 问题定义 忽略了真实数据嵌入在高维空间的底层流形结 给定数据集X=[x1x2…Xx41…xn]ER 构。受启于上述研究工作,本文提出基于1图的 x,∈R为第i组数据,d为维度,I为已标记样本数 半监督多标签特征选择方法SMFSL(semi-super- (亿《n)。设Y=y1y2…y'∈R为已标记数据集 vised multi-label feature selection method based on L- 的标签矩阵,,∈{0,1}为数据x,的类别标签。 norm graph),利用全局线性回归函数方法和l2,:组 若x,被标识为j类,则Y=1,否则Y=O。为获取 稀疏约束建立多标签特征选择模型,引用1,图模 未标签数据的类别标签信息,定义预测标签矩阵 型以提高特征选择准确度。 P=U方[长]eR心其中初始化为 Fm∈Raxc则为未标签数据的标签矩阵,且初始 1范数图模型 化F=O,O为所有元素为0的矩阵。定义W=[w, 在机器学习中,基于图的学习方法通过构建 w2· weR为特征选择分类器,半监督多标 近邻图,利用样本间反映流形分布而建立问题模 签特征选择学习模型定义为 型,得到广泛的研究应用。其中,基于谱图理论 的谱聚类学习方法),在多种应用场景下取得较 w∑1os(W,fD+y2(W (4) 好的效果。 在式(4)中,2)为正则化项(可以选择不同 谱聚类根据数据样本间的相似关系建立 的正则化模型,如1范数、2:范数等),参数y为正 Laplacian矩阵,利用特征值和特征向量获取样本 则化参数,loss()为损失函数。从模型的简单性、 间的内在联系。给定n组数据集X={x1,x2,, 高效性角度进行考虑,本文选择最小二乘法作为 xn}eR",其中x,∈R为第i组数据,d为维度。 损失函数,式(4)可表示为 定义G=(V,A)为无向权重图,其中V为向量集, wK'w+b'-F+2(刚 (5) 相似矩阵A=[A1A2·AnER"“,A=A≥0。基于 式中:beR为偏置量;1eR”为元素值全是1的 高斯核函数σ相似矩阵A定义为 列向量
部最优。为解决此问题,研究者提出基于谱图理 论的半监督方法,依据某准则建立 Laplacian 矩阵 提取数据底层流形结构进行特征选择,如 Liu 等 [6] 提出以迹比准则为评价机制,Ma 等 [7] 引入流形正 则化的稀疏特征选择方法等。 在现实应用中,存在某个数据样本同时隶属 于一个或多个不同的类别,如网页分类、自然场 景分类等。以图像标注为例,一幅自然图像可包 含多种场景,如树、陆地、沙漠,即一个图像样本 可属于多种类别。最简单的解决方法将多标签簇 问题分解为多个独立单标签分类问题,但其忽略 了多标签间的相关性。为此,Ji 等 [8] 利用多标签 的共享子空间建立学习框架,文献 [9] 使用互信 息和交互信息的理论方法寻找最优子集,这些方 法均属于监督类方法。但现实应用中大量训练样 本中已标记数据极少。如何利用未标记数据及其 之间的关系信息提高泛化性能,给多标签特征选 择方法带来了巨大的挑战。针对此问题,研究者 提出半监督多标签特征学习。Alalga 等 [10] 提出利 用 Laplacian 得分判断多标签类间关系,但其利用 l2 -范数建立 Laplacian 矩阵易受离群点的影响,从 而导致学习稳定性差。Chang 等 [11] 提出基于全局 线性约束的多标签半监督方法,无需构建 Laplacian 图和特征分解操作,计算量少,速度快,但其 忽略了真实数据嵌入在高维空间的底层流形结 构。受启于上述研究工作,本文提出基于 l1 图的 半监督多标签特征选择方法 SMFSL (semi-supervised multi-label feature selection method based on L1 - norm graph),利用全局线性回归函数方法和 l2,1 组 稀疏约束建立多标签特征选择模型,引用 l1 图模 型以提高特征选择准确度。 1 范数图模型 在机器学习中,基于图的学习方法通过构建 近邻图,利用样本间反映流形分布而建立问题模 型,得到广泛的研究应用。其中,基于谱图理论 的谱聚类学习方法[12] ,在多种应用场景下取得较 好的效果。 谱聚类根据数据样本间的相似关系建 立 Laplacian 矩阵,利用特征值和特征向量获取样本 间的内在联系。给定 n 组数据集 X={x1,x2,···, xn}∈R d×n ,其中 xi∈R d 为第 i 组数据,d 为维度。 定义 G=(V,A) 为无向权重图,其中 V 为向量集, 相似矩阵 A=[A1 A2 ··· An ]∈R n×n ,Aji=Aij≥0。基于 高斯核函数 σ 相似矩阵 A 定义为 Ai j = exp − xi − xj 2 σ2 , xi为xj的近邻 0, 其他 (1) 式中:σ 为宽度参数,控制函数的径向作用范围。 基于式 (1) 构造加权图,谱聚类算法将聚类问 题转化为图划分问题,但其最优解为 NP 问题。 传统解决方法以借助松弛方法得到连续的类别标 签,进而转换为率切 (ratio cut) 问题: min QTQ=I Tr( Q T LQ) (2) Dii = ∑n j=1 Ai j 式中:Q=[q1 q2 ··· qn ] T∈R n×c 为聚类指标矩阵,c 为 类别标签数,qk∈R c 为 Q 矩阵第 k 列;L 为谱图 Laplacian 矩阵,其定义为 L=D-A,D 为对角矩阵, 其每个 i 对角元素 。为获取最终的类别 标签,必须进一步借助聚类算法将连续值矩阵 Q 进行离散化,如采用 K-means 算法等。Nie 等 [13] 提出基于 l1 范数图模型来获取更清晰的流形结 构,上述式 (2) 转换为 min QTQ=I ∑n i, j=1 Ai j qi − qj 2 (3) 2 基于 l1 图的半监督多标签特征选 择方法 2.1 问题定义 l ≪ n F = [ f1 f2 · · fn ]T = [ Fl Fu ] ∈ R n×c 给定数据集 X=[x1 x2 ··· xl xl+1··· xn ]∈R d×n , xi∈R d 为第 i 组数据,d 为维度,l 为已标记样本数 ( )。设 Yl=[y1 y2 ··· yl ] T∈R l×c 为已标记数据集 的标签矩阵, yi∈{0,1}c 为数据 xi 的类别标签。 若 xi 被标识为 j 类,则 Yij=1,否则 Yij=0。为获取 未标签数据的类别标签信息,定义预测标签矩阵 ,其中 Fl 初始化为 Yl, Fu∈R (n-l)×c 则为未标签数据的标签矩阵,且初始 化 Fu=Ο,Ο 为所有元素为 0 的矩阵。定义 W=[w1 w2 ··· wd ] T∈R d×c 为特征选择分类器,半监督多标 签特征选择学习模型定义为 min W,F,Fl=Yl ∑n i=1 loss(W, fi)+γΩ(W) (4) 在式 (4) 中, Ω(·) 为正则化项 (可以选择不同 的正则化模型,如 l1 范数、l2,1 范数等),参数 γ 为正 则化参数,loss(·) 为损失函数。从模型的简单性、 高效性角度进行考虑,本文选择最小二乘法作为 损失函数,式 (4) 可表示为 min W,F,b,Fl=Yl X TW +1b T − F 2 F +γΩ(W) (5) 式中:b∈R c 为偏置量;1∈R n 为元素值全是 1 的 列向量。 第 4 期 严菲,等:鲁棒的半监督多标签特征选择方法 ·813·
·814· 智能系统学报 第14卷 从式(⑤)可以看出,利用线性回归函数逐渐逼 保持W,S,F不变,将式(8)对b求导,令求 近可找出全局最优,但却忽略了其局部数据之间 导结果为0,得到: 相关性。为提高特征选择准确度,文献[7)]提出 1 (9) 建立相似矩阵以获取局部流形结构,建立的学习 b-Tsi(F'S-Wxs) 模型如下: 将式(9)代入式(8),为简化公式,令H= 盟之4-成+ 其中H为中心化矩陈.IeR为 I- i.l (6) 单位矩阵。式(8)将转换为: alXW+Ib-F+y2(W) (FLF+a((HXW-HF)'S 式中a为平衡参数。 (10) HXW-HF))+yllWll 半监督学习应用中,已标签的数据集往往只 将式(10)对W求导,并令求导结果为0,得到 占据小部分,无标签数据集非常庞大,而离群点 aXHSHXTW+yDwW=aXHSHF (11) 一般存在无标签数据集中。Nie等I)研究证明, 式中Dm为对角矩阵,可表示为 采用(,范数有效减少噪音的影响,从而获取更清 1 晰的谱聚类结构,因此本文提出将1范数引入半 2lw1l2+6 监督学习模型中。同时为减少外界噪声点的干 Dw= (12) 扰,本文提出采用12:范数来约束最小二乘损 2llwallk +6 失函数。给定任意矩阵M∈Raxc,其定义为 由于矩阵Dm与W相关,无法直接求解上 M=公区G,结合式队式回转换为 式。为解决此问题,将W随机初始化以获取矩阵 D,转换式(11),推导出: ∑A-fl+aKw+B-FLt W=a(aXHSHXT+yDw)XHSHF (13) y2(W) 为求解F,将式(10)进行变换,得到: 为有效地去除原数据集的冗余特征,本文对 ipu(FTLF)+ot(FHSHF)+yt(WD.W)+ (14) 特征选择矩阵W引入正则化模型12!范数,最后 atr(WTXHSHXW)-2atr(FTHSHXW) 提出的目标函数定义如下: 转换式(14),得到: iutallxw++wlk ipt(FLF)+at(FHSHF) tr(WT(aXHSHXT+yD.)W)- (15) (7) 2atr(FHSHXW) 2.2学习模型求解 将W的求导结果式(13)代入式(15),得到: 为获取最终选择特征子集,将对多标签特征 mintr(FTLF)+atr(FTHSHF)-a2tr 选择的目标函数进行模型求解。由于目标函数 (FHSHX(aXHSHXT+yDw)'XHSHF) (16) 式(7)引入的12,:范数具有非光滑特征,无法直接 定义M为: 进行求解,因此本文提出一种迭代优化方法来解决。 M=L+aHSH- (17) 首先,将目标函数(⑦)进行转换。定义对角矩 (aXHSHXT+yDw))XHSH 阵S,其元素S:=2xw+D-F业+6。其中,为 将式(16)按分块矩阵形式转换为: 防止S:除数为0,δ的值为接近于0的正常量。 mintr F TI MM F lF.MaM]F. 式(7)转换后形式如下: 将上式对F求导,并令求导结果为0,得到: wsy(FLF+a(XTW+1bT-F) (8) F=-M MF S(XTW+1bT-F))+rllWlk 基于以上推导过程求解学习模型,本文方法 式中:i为对角矩阵且定义为i=D-A;矩阵A元 具体描述如下: A 素定文为A,:D为对角矩阵,元素值为 算法1 SMFSL 输入数据集X∈Rm,类别标签Y,∈Rc,相 D:=∑,Aj。给定任意矩阵B∈R"”,对矩阵B迹 似矩阵A,参数a,y: 函数定义m(B)=宫B,B,为矩阵B的第1个对角 输出特征选择矩阵W,预测标签矩阵F。 元素。 I)=O,随机初始化WR,bR,F'Rmxc
从式 (5) 可以看出,利用线性回归函数逐渐逼 近可找出全局最优,但却忽略了其局部数据之间 相关性。为提高特征选择准确度,文献 [7] 提出 建立相似矩阵以获取局部流形结构,建立的学习 模型如下: min W,F,b,Fl=Yl ∑n i, j=1 Ai j fi − fj 2 2 + α X TW +1b T − F 2 F +γΩ(W) (6) 式中 α 为平衡参数。 M2,1 = ∑d i=1 vt∑c j=1 M2 i j 半监督学习应用中,已标签的数据集往往只 占据小部分,无标签数据集非常庞大,而离群点 一般存在无标签数据集中。Nie 等 [13] 研究证明, 采用 l1 范数有效减少噪音的影响,从而获取更清 晰的谱聚类结构,因此本文提出将 l1 范数引入半 监督学习模型中。同时为减少外界噪声点的干 扰,本文提出采用 l2,1 范数[3] 来约束最小二乘损 失函数。给定任意矩 阵 M∈R d × c ,其定义为 。结合式 (3),式 (6) 转换为 min W,F,b,Fl=Yl ∑n i, j=1 Ai j fi − fj 2 +α X TW +1b T − F 2,1 + γΩ(W) 为有效地去除原数据集的冗余特征,本文对 特征选择矩阵 W 引入正则化模型 l2,1 范数,最后 提出的目标函数定义如下: min W,F,b,Fl=Yl ∑n i, j=1 Ai j fi − fj 2 +α X TW +1b T − F 2,1 +r∥W∥2,1 (7) 2.2 学习模型求解 为获取最终选择特征子集,将对多标签特征 选择的目标函数进行模型求解。由于目标函数 式 (7) 引入的 l2,1 范数具有非光滑特征,无法直接 进行求解,因此本文提出一种迭代优化方法来解决。 Sii = 1 2∥XTW +1b T − F∥2 +δ 首先,将目标函数 (7) 进行转换。定义对角矩 阵 S,其元素 。其中,为 防止 Sii 除数为 0,δ 的值为接近于 0 的正常量。 式 (7) 转换后形式如下: min W,S,F,b,Fl=Yl tr( F T L˜F +α ( X TW +1b T − F )T S ( X TW +1b T − F ))+r∥W∥2,1 (8) L˜ L˜ = D˜ − A˜ A˜ A˜ i j = Ai j 2 fi − fj 2 D˜ D˜ ii = ∑ j A˜ i j tr(B) = ∑n i=1 Bii 式中: 为对角矩阵且定义为 ;矩阵 元 素定义为 ; 为对角矩阵,元素值为 。给定任意矩阵 B∈R n×n ,对矩阵 B 迹 函数定义 ,Bii 为矩阵 B 的第 i 个对角 元素。 保持 W,S,F 不变,将式 (8) 对 b 求导,令求 导结果为 0,得到: b= 1 1 T S1 ( F TS−WTXS) (9) H= ( I− 1 1 T S1 11T S ) 将 式 ( 9 ) 代 入 式 (8) ,为简化公式,令 ,其中 H 为中心化矩阵,I∈R n×n 为 单位矩阵。式 (8) 将转换为: min W,S,F tr(F T L˜F +α( ( HXTW − HF)T S HXTW − HF))+γ∥W∥2,1 (10) 将式 (10) 对 W 求导,并令求导结果为 0,得到 αXHSHXTW +γDWW = αXHSHF (11) 式中 DW 为对角矩阵,可表示为 DW = 1 2∥w1∥2 +δ . . . 1 2∥wd∥2 +δ (12) 由于矩阵 D W 与 W 相关,无法直接求解上 式。为解决此问题,将 W 随机初始化以获取矩阵 DW,转换式 (11),推导出: W = α ( αXHSHXT +γDW )−1 XHSHF (13) 为求解 F,将式 (10) 进行变换,得到: min W,F tr(F T L˜F)+αtr( F THSHF) +γtr( WT DwW ) + αtr( WTXHSHXTW ) −2αtr( F THSHXTW ) (14) 转换式 (14),得到: min W,F tr(F T L˜F)+αtr( F THSHF) + tr( WT ( αXHSHXT +γDw ) W ) − 2αtr( F THSHXTW ) (15) 将 W 的求导结果式 (13) 代入式 (15),得到: min F tr(F T L˜F)+αtr( F THSHF) −α 2 tr ( F THSHXT ( αXHSHXT +γDW )−1 XHSHF) (16) 定义 M 为: M = L˜ +αHSH− ( αXHSHXT +γDW )−1 XHSH (17) 将式 (16) 按分块矩阵形式转换为: min Fu tr [ Fl Fu ]T [ Mll Mul Mlu Muu ] [ Fl Fu ] 将上式对 Fu 求导,并令求导结果为 0,得到: Fu = −M−1 uu MulFl 基于以上推导过程求解学习模型,本文方法 具体描述如下: 算法 1 SMFSL X ∈ R d×n Yl ∈ R l×c α, γ 输入 数据集 ,类别标签 ,相 似矩阵 A,参数 ; 输出 特征选择矩阵 W,预测标签矩阵 F。 1) t=0,随机初始化 W t ϵR d×c ,b t ϵR c ,F t ϵR n×c ·814· 智 能 系 统 学 报 第 14 卷
第4期 严菲,等:鲁棒的半监督多标签特征选择方法 ·815 2)repeat 将(4= Aij -L代入式(19,得到: )计算1=0-4,其中产D为对 角矩阵,其元素值为D=∑A ar-rE+mL+sw,r.到 2-f2 4)计算对象矩阵S,其第i个元素 了A-f +yWl2,+g(W,F,(b,S) 1 台2f-f孔 Γ2Xw+1(b)T-F2+6 (21) 列计第以H=:P列 结合引理1的式(18),有以下公式: 6)根据式(12)计算对角矩阵D 7)根据式(17)计算M+1=i+aHSH-a2 HS'HXT 立ar (aXHSHXT+yD)XHSH 8)计算F=-(M)MF,并且更新F+1= r-置 (22) 结合式(20)和(21),得到 9)更新 -cw.m.os) W a(aXHS'HXT+yD)XHS'HF 2A-%+iw+smFs列 10)更新 (23) ()sI-(w)xs) 接下来,固定F为F1、b为b、S为S来求 11)=41 解W,根据算法1可得出: 12)until收敛 w=argmin 在得到特征选择矩阵W后,按照w (24) (i=1,2,…,d)的值,对输入数据的特征进行降序排 ylwlk+g(W.F,(b).S) 列,其中最前面的p个特征即为所选择的特征。 同样,参考文献[14]中的方法,可得出: 2.3收敛性分析 本小节将对上一小节提出的SMFSL算法收 -Lsw.s) 敛性进行证明。 引理1对于任意非零的向量p,q∈R°,有以 交a-l+wFm到 (25) 下不等式成立: 接下来,固定F为F1、W为W1求解b、 风-荒s- (18) S,同样,参考文献[14中的方法,可得出: 根据以上引理,本文提出以下定理: 豆ar-rl-tx0.mw5s)s 定理1算法SMFSL在每次迭代过程中最小 化目标函数。 4"-"l+wL:+m一. 证明为方便起见,首先定义g(W,F,b「,S)= (26) atr(XW4lb-F)SXW4lbT-F)。目标函数可写为: 最后,结合式(22)、(23)和(24),可得出: 册2A,-成+w+ewF.a9 ob1.) 假设在第1次迭代后获得了W,F,b'和S。在 下一次迭代中,固定W为W、b为b、S为S来求 2aG-l+wj.cr.r.w到 解F,参考文献[14]中的方法可得出: (27) 从式(25)中可证明出算法1是收敛的。 -ormws)< 3实验分析 是④,-f+w+s,Rs 3.1对比方法及实验数据 (20) 为验证本文方法的有效性,对相关方法进行
2) repeat L˜ = D˜ − A˜ A˜ i j = Ai j 2 fi − fj 2 D˜ D˜ ii = ∑ j A˜ i j 3) 计算 ,其中 , 为对 角矩阵,其元素值为 S t Sii t = 1 2 XTWt +1(b t ) T − Ft 2 +δ 4) 计算对象矩阵 ,其第 i 个元素 H = ( I− 1 1 T S t1 11T S t ) 5) 计算 H, D t 6) 根据式 w (12) 计算对角矩阵 Mt+1 = L˜ +αHStH −α 2HStHXT ( αXHStHXT +γD t w )−1 XHStH 7) 根据式 (17) 计算 F t+1 u =− ( Mt+1 uu )−1Mt+1 ul Fl F t+1 = [ Fl F t+1 u ] 8) 计算 ,并且更新 9) 更新 Wt+1 = α ( αXHStHXT +γD t w )−1 XHStHFt+1 10) 更新 b t+1 = 1 1 T S t1 (( F t+1 )T S t 1− ( Wt+1 )T XSt 1 ) 11) t=t+1 12) until 收敛 w t i 2 (i = 1,2,··· ,d) 在得到特征选择矩 阵 W 后,按照 的值,对输入数据的特征进行降序排 列,其中最前面的 p 个特征即为所选择的特征。 2.3 收敛性分析 本小节将对上一小节提出的 SMFSL 算法收 敛性进行证明。 引理 1 对于任意非零的向量 p,q∈R c ,有以 下不等式成立: ∥p∥2 − ∥p∥ 2 2 2∥q∥2 ⩽ ∥q∥2 − ∥q∥ 2 2 2∥q∥2 (18) 根据以上引理,本文提出以下定理: 定理 1 算法 SMFSL 在每次迭代过程中最小 化目标函数。 证明 为方便起见,首先定义 g(W,F,b T ,S)= αtr((X TW+1b T -F) T S(X TW+1b T -F)) 。目标函数可写为: min W,F,b ∑n i, j=1 A˜ i j fi − fj 2 2 +γ∥W∥2,1 +g ( W,F, b T ,S ) (19) 假设在第 t 次迭代后获得了 W,F,b T 和 S。在 下一次迭代中,固定 W 为 W t 、b 为 b t 、S 为 S t 来求 解 F t+1,参考文献 [14] 中的方法可得出: ∑n i, j=1 (A˜ t )i j f t+1 i − f t+1 j 2 2 +γ∥Wt ∥2,1+g ( Wt ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 (A˜ t )i j f t i − f t j 2 2 +γ∥Wt ∥2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (20) (A˜t )i j = Ai j 2 f t i − f t j 2 将 代入式 (19),得到: ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 2 2 f t i − f t j 2 +γ Wt 2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 Ai j f t i − f t j 2 2 2 f t i − f t j 2 +γ Wt 2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (21) 结合引理 1 的式 (18),有以下公式: ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 − f t+1 i − f t+1 j 2 2 2 f t i − f t j 2 ⩽ ∑n i, j=1 Ai j f t i − f t j 2 − f t i − f t j 2 2 2 f t i − f t j 2 (22) 结合式 (20) 和 (21),得到 ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ∥Wt ∥2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 Ai j f t i − f t j 2 +γ∥Wt ∥2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (23) 接下来,固定 F 为 F t+1 、b 为 b t 、S 为 S t 来求 解 W t+1,根据算法 1 可得出: Wt+1 = argmin W ∑n i, j=1 (A˜ t )i j f t+1 i − f t+1 j 2 2 + γ∥Wt ∥2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) (24) 同样,参考文献 [14] 中的方法,可得出: ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt+1 2,1 +g ( Wt+1 ,F t+1 ,(b t ) T ,S t ) ⩽ ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt 2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) (25) 接下来,固定 F 为 F t+1 、W 为 W t+1 求解 b t+1 、 S t+1,同样,参考文献 [14] 中的方法,可得出: ∑n i, j=1 Ai j f t+1 i −f t+1 j 2 +γ Wt+1 2,1 +g ( Wt+1 ,F t+1 ,(b t+1 ) T ,S t+1 ) ⩽ ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt 2,1 +g ( Wt ,F t+1 ,(b t ) T ,S t ) (26) 最后,结合式 (22)、(23) 和 (24),可得出: ∑n i, j=1 Ai j f t+1 i − f t+1 j 2 +γ Wt+1 2,1 +g ( Wt+1 ,F t+1 ,(b t+1 ) T ,S t+1 ) ⩽ ∑n i, j=1 Ai j f t i − f t j 2 +γ Wt 2,1 +g ( Wt ,F t ,(b t ) T ,S t ) (27) 从式 (25) 中可证明出算法 1 是收敛的。 3 实验分析 3.1 对比方法及实验数据 为验证本文方法的有效性,对相关方法进行 第 4 期 严菲,等:鲁棒的半监督多标签特征选择方法 ·815·
·816- 智能系统学 报 第14卷 描述。 标签分类器,其中MLKNN的优化参数参照文献[18。 AIl-feature:其数据未采用特征选择,本次实 表1实验数据集 验以该分类结果作为基准线。 Table 1 Experimental datasets TRCFS(trace ratio criterion for feature selec- 样本特征类别 数据集 数数数 特征数 tion):采用谱图的半监督学习方法,其通过引入 MIML 20001355 {20,40,60,80.100,120} 具有抗噪声的率切准则提高特征选择的效率。 YEAST 2417 103 14 20.40.60.80.100) CSFS(convex semi-supervised multi-label fea- Education 5000 550 33 {100.200,300.400.500} ture selection)a:该将线性回归模型引入特征选择 Entertainment500064021{100,200,300,400,500,600} 模型中,是一种快速的半监督特征选择方法。 3.2 性能对比分析 FSNM(feature selection via joint /2,i-norms min- 本次实验选择Hamming loss(HL,汉明损失)、 imization):监督学习方法,其在损失函数和正则 One-Error(OE,单错误)作为评价指标9用来评价 化方面采用1,范数模型进行特征选择。 方法的分类性能。其中,Hamming loss和One Er-- 本次实验将所提出方法应用到各种场景,包 ror值越低代表性能越好。图1、2列出了以AIl- 括自然场景分类、网页分类和基因功能分类。同 feature方法的分类结果为基准线,TRCFS、CSFS 时本文将各方法应用到多种开源数据库,包括 FSNM以及本文提出的SMFSL方法在各种数据 MML、YEAST、Education和Entertainment, 集的性能对比分析。其中图1分别为HL评价标 数据集的相关属性描述如表1所示。 准的性能提升百分比,以及图2分别为OE评价 本文对于每一种方法所有涉及到的参数(如 标准的性能提升百分比。从图中可以看出: 果有的话)的范围设定为{10、102、10°、102、10)。 1)大部分特征选择方法要优于未采用特征选 择的AIl-feature,.由此可证明特征选择有助于提高 对于每种数据集,随机选择n个样本作为训练集, 多标记学习性能。但在YEAST、Education和En- 其中分别选择10%、20%和40%的数据为已标记 tertainment数据集中,TRCFS学习性能整体略低 数据集,其余为未标记数据。实验独立重复5次, 于All-feature,但该方法经过特征选择后维度会有 最后取其平均值。本次实验选择MLKNN作为多 所降低,从而能有效地节省后续分类时间。 TRCFS TRCFS 4 0 SMFSL MIM Educ MIML YEAST Education Entertainm MIML YEAST Education Ente Entertainm (a)已标记数据集为10% (b)已标记数据集为20% (c)已标记数据集为40% 图1各种方法在各数据集上的汉明损失 Fig.I Hamming loss comparison of various methods on various datasets TRCFS TRCFS IRCFS CSFS CSES SNM SMESL SMFSL 2 YEAS Edue Entertainment MIML YEAST Education MIML Entertain YEAST Education (a)已标记数据集为10% (b)已标记数据集为20% (c)已标记数据集为40% 图2 各种方法在各数据集上的单错误 Fig.2 One-Error comparison of various methods on various datasets
描述。 All-feature:其数据未采用特征选择,本次实 验以该分类结果作为基准线。 TRCFS(trace ratio criterion for feature selection)[6] :采用谱图的半监督学习方法,其通过引入 具有抗噪声的率切准则提高特征选择的效率。 CSFS(convex semi-supervised multi-label feature selection)[12] :该将线性回归模型引入特征选择 模型中,是一种快速的半监督特征选择方法。 FSNM(feature selection via joint l2,1-norms minimization)[1] :监督学习方法,其在损失函数和正则 化方面采用 l2,1 范数模型进行特征选择。 本次实验将所提出方法应用到各种场景,包 括自然场景分类、网页分类和基因功能分类。同 时本文将各方法应用到多种开源数据库,包括 MIML[15] 、YEAST[16] 、Education[17] 和 Entertainment [17] , 数据集的相关属性描述如表 1 所示。 本文对于每一种方法所有涉及到的参数 (如 果有的话) 的范围设定为{10−4 、10−2 、100 、102 、104 }。 对于每种数据集,随机选择 n 个样本作为训练集, 其中分别选择 10%、20% 和 40% 的数据为已标记 数据集,其余为未标记数据。实验独立重复 5 次, 最后取其平均值。本次实验选择 MLKNN 作为多 标签分类器,其中 MLKNN 的优化参数参照文献 [18]。 表 1 实验数据集 Table 1 Experimental datasets 数据集 样本 数 特征 数 类别 数 特征数 MIML 2 000 135 5 {20,40,60,80,100,120} YEAST 2 417 103 14 {20,40,60,80,100} Education 5 000 550 33 {100,200,300,400,500} Entertainment 5 000 640 21 {100,200,300,400,500,600} 3.2 性能对比分析 本次实验选择 Hamming loss(HL,汉明损失)、 One-Error(OE,单错误) 作为评价指标[19] 用来评价 方法的分类性能。其中,Hamming loss 和 One Error 值越低代表性能越好。图 1、2 列出了以 Allfeature 方法的分类结果为基准线,TRCFS、CSFS、 FSNM 以及本文提出的 SMFSL 方法在各种数据 集的性能对比分析。其中图 1 分别为 HL 评价标 准的性能提升百分比,以及图 2 分别为 OE 评价 标准的性能提升百分比。从图中可以看出: 1) 大部分特征选择方法要优于未采用特征选 择的 All-feature,由此可证明特征选择有助于提高 多标记学习性能。但在 YEAST、Education 和 Entertainment 数据集中,TRCFS 学习性能整体略低 于 All-feature,但该方法经过特征选择后维度会有 所降低,从而能有效地节省后续分类时间。 5 4 3 2 1 0 −1 MIML YEAST (a) 已标记数据集为 10% 汉明损失性能提升率/% Education Entertainment 4 3 2 1 0 −3 −2 −1 MIML YEAST (b) 已标记数据集为 20% 汉明损失性能提升率/% Education Entertainment 5 4 3 2 1 0 −4 −3 −2 −1 MIML YEAST (c) 已标记数据集为 40% 汉明损失性能提升率/% Education Entertainment TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL 图 1 各种方法在各数据集上的汉明损失 Fig. 1 Hamming loss comparison of various methods on various datasets 8 6 4 2 0 −2 MIML YEAST (a) 已标记数据集为 10% 汉明损失性能提升率/% Education Entertainment 8 6 4 2 0 −4 −2 MIML YEAST (b) 已标记数据集为 20% 汉明损失性能提升率/% Education Entertainment 8 6 4 2 0 −6 −4 −2 MIML YEAST (c) 已标记数据集为 40% 汉明损失性能提升率/% Education Entertainment TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL TRCFS CSFS FSNM SMFSL 图 2 各种方法在各数据集上的单错误 Fig. 2 One-Error comparison of various methods on various datasets ·816· 智 能 系 统 学 报 第 14 卷
第4期 严菲,等:鲁棒的半监督多标签特征选择方法 ·817· 2)CSFS在部分数据集上表现略差于FSNM, 数据集在已标记样本集为20%时,选择不同特征 这是由于CSFS方法采用I2范式损失函数,对噪 数的Average Precision(AP,平均查准率)性能对 声较敏感。当无标签数据集比例较大时,噪声较 比效果,具体如图4所示。据文献[19]得知,AP 多,CSFS的分类性能受噪声影响较大。而当已标 值越高,表示方法性能越好。从图中可以看出 记数据集比例增加时,其与FSNM差距越小。 MIML、YEAST、Education数据集在选择特征数 3)本文提出的SMFSL方法优于其他方法,由 分别为40、80和400时AP值最高。这意味着选 此可证明采用12,范式约束全局回归函数能有效 择最大特征数并不一定能产生最高的AP值。在 减少外界噪声影响,同时结合1,图建立相似矩阵 给定不同的特征数量时,本文所提方法普遍高于 能有效获取底层局部流形结构,提高分类性能。 其他方法,尤其是在MML和Education数据集优 3.3模型鲁棒性分析 势更加明显。另外,从图中看出不同方法的结果 为验证本文所提出模型的鲁棒性,本次实验 曲线出现交叉,这是由于不同方法所选择出的最优 针对不同类型相似矩阵进行对比分析。实验采用 特征子集不同,其对应的分类准确度也会有所不同。 如图3(a)所示的双月(two-moon)数据集。该数据 3.5参数敏感性分析 集可分为上半月形和下半月形2个类别数据,具 本次实验将对学习模型中涉及的参数进行具 有明显的流形结构。基于2范数的相似矩阵如 体分析。为节省篇幅,本次实验挑选YEAST、Education 图3(b)所示,其中任意2个数据间的连线代表其 和Entertainment在已标记数据为40%、评价标准 具有相似性。从图中可以看出,该相似矩阵存在 为One Error的性能分析。首先,固定a值为l,即 过多冗余连接,无法提取清晰的流形结构信息, 参数调节范围的中位数,调整Y和特征数进行分 很难直接应用于后续对数据的分类任务。本文模 析,结果如图5所示。同样,固定参数Y的值为 型输出的相似矩阵如图3(c)所示,可明显看出, 1,对α和特征数的变化进行分析,具体如图6所 在1,范数稀疏性约束下,该相似矩阵可有效剔除 示。从图5、图6可以看出,参数《、Y的选 数据间的无关连接,提取更加清晰的流形结构信 择依赖于所选数据集,如Entertainment数据集在 息,进而有助于提高分类模型的准确性和对外界 固定a、特征数为600时,选择y=10-4时0ne 噪声的抗干扰性。 Error性能最佳,而当y=1该性能表现最差。因 3.4特征数对分类性能的影响 此在实验测试时需对不同的数据集设置不同的 本次实验挑选了MML、YEAST和Education 参数。 1.5 1.5 1.5 1.0 1.0 1.0 0.5 0.5 0 中+ 《 0 -0.5 封* -0.5 -0.5 -1.0 -1.0 -1.0 -1.5 -1.0 -0.500.5 1.0 1.5 -1.5 -1.0-0.500.51.01.5 -1.5 -1.0-0.500.51.0 1.5 (a)原始数据集 (b)基于1,范数的相似矩阵 (©)本文输出的相似矩阵 图3I1范数对相似矩阵的影响分析 Fig.3 Influence analysis of /-norm on similarity matrix 0.72 0.745 0.56 0.71 0.70 0.740 0.54 0.69 0.52 FSNM RCFS 斗0.735 0.68 -TRCFS -SMFSL -SMFSL 0.50 -CSFS 0.67 0.730 -SMFSL 20 40 60 80100 120 40 60 80 100 100 200 300 400 500 选择特征数量/个 选择特征数量/个 选择特征数量/个 (a)MIML数据集 (b)YEAST数据集 (c)Education数据集 图4平均查准率与选择的特征数量关系 Fig.4 Relation between average precision and the number of selected features
2) CSFS 在部分数据集上表现略差于 FSNM, 这是由于 CSFS 方法采用 l2 范式损失函数,对噪 声较敏感。当无标签数据集比例较大时,噪声较 多,CSFS 的分类性能受噪声影响较大。而当已标 记数据集比例增加时,其与 FSNM 差距越小。 3) 本文提出的 SMFSL 方法优于其他方法,由 此可证明采用 l2,1 范式约束全局回归函数能有效 减少外界噪声影响,同时结合 l1 图建立相似矩阵 能有效获取底层局部流形结构,提高分类性能。 3.3 模型鲁棒性分析 为验证本文所提出模型的鲁棒性,本次实验 针对不同类型相似矩阵进行对比分析。实验采用 如图 3(a) 所示的双月 (two-moon) 数据集。该数据 集可分为上半月形和下半月形 2 个类别数据,具 有明显的流形结构。基于 l2 范数的相似矩阵如 图 3(b) 所示,其中任意 2 个数据间的连线代表其 具有相似性。从图中可以看出,该相似矩阵存在 过多冗余连接,无法提取清晰的流形结构信息, 很难直接应用于后续对数据的分类任务。本文模 型输出的相似矩阵如图 3(c) 所示,可明显看出, 在 l1 范数稀疏性约束下,该相似矩阵可有效剔除 数据间的无关连接,提取更加清晰的流形结构信 息,进而有助于提高分类模型的准确性和对外界 噪声的抗干扰性。 3.4 特征数对分类性能的影响 本次实验挑选了 MIML、YEAST 和 Education 数据集在已标记样本集为 20% 时,选择不同特征 数的 Average Precision(AP,平均查准率) 性能[19] 对 比效果,具体如图 4 所示。据文献 [19] 得知,AP 值越高,表示方法性能越好。从图中可以看出, MIML、YEAST、Education 数据集在选择特征数 分别为 40、80 和 400 时 AP 值最高。这意味着选 择最大特征数并不一定能产生最高的 AP 值。在 给定不同的特征数量时,本文所提方法普遍高于 其他方法,尤其是在 MIML 和 Education 数据集优 势更加明显。另外,从图中看出不同方法的结果 曲线出现交叉,这是由于不同方法所选择出的最优 特征子集不同,其对应的分类准确度也会有所不同。 3.5 参数敏感性分析 本次实验将对学习模型中涉及的参数进行具 体分析。为节省篇幅,本次实验挑选 YEAST、Education 和 Entertainment 在已标记数据为 40%、评价标准 为 One Error 的性能分析。首先,固定 α 值为 1,即 参数调节范围的中位数,调整 γ 和特征数进行分 析,结果如图 5 所示。同样,固定参数 γ 的值为 1,对 α 和特征数的变化进行分析,具体如图 6 所 示。从 图 5 、 图 6 可以看出,参 数 α 、 γ 的 选 择依赖于所选数据集,如 Entertainment 数据集在 固定 α、特征数为 600 时,选择 γ=10 − 4 时 One Error 性能最佳,而当 γ=1 该性能表现最差。因 此在实验测试时需对不同的数据集设置不同的 参数。 1.5 1.0 0.5 0 −0.5 −1.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 (a) 原始数据集 1.5 1.0 0.5 0 −0.5 −1.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 (b) 基于l 2范数的相似矩阵 1.5 1.0 0.5 0 −0.5 −1.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 (c) 本文输出的相似矩阵 图 3 l1 范数对相似矩阵的影响分析 Fig. 3 Influence analysis of l1 -norm on similarity matrix 0.745 0.740 0.735 0.730 平均查准率 (b) YEAST 数据集 FSNM TRCFS CSFS SMFSL 20 40 60 选择特征数量/个 80 100 0.56 0.54 0.52 0.50 平均查准率 FSNM TRCFS CSFS SMFSL 100 200 300 400 选择特征数量/个 (c) Education 数据集 500 0.72 0.71 0.70 0.69 0.68 0.67 平均查准率 20 40 60 选择特征数量/个 (a) MIML 数据集 FSNM TRCFS CSFS SMFSL 80 100 120 图 4 平均查准率与选择的特征数量关系 Fig. 4 Relation between average precision and the number of selected features 第 4 期 严菲,等:鲁棒的半监督多标签特征选择方法 ·817·
·818· 智能系统学报 第14卷 0.31 路02 0.6 0.6 霉01 0.2 0 0 0 2006080100 fo 参数a 特征数 100200300o00 特征数 参数a 100200300000u500 特征数 (a)YEAST数据集 (b)Education数据 (c)Entertainment数据集 图5本文方法的参数敏感性分析(=) Fig.5 Parameter sensitivity analysis of the proposed method(a=1) 03 0.6 0.6 路0.2 感 01 0.4 会0.2 0 0 0 0 20406080100 0o2 1102 10020030w0-00 0i2 参数? 104 特征数 特征数 1o32aw00o000 特征数 (a)YEAST数据 (b)Education数据集 (c)Entertainment数据集 图6本文方法的参数敏感性分析(=) Fig.6 Parameter sensitivity analysis of the proposed method(1) 4结束语 transactions on intelligent systems,2017,12(4):519-525. [3]YANG Yi,SHEN Hengtao,MA Zhigang,et al.(2.-norm 本文提出一种鲁棒的半监督多标签特征选择 regularized discriminative feature selection for unsuper- 方法SMFSL。不同于传统基于谱图的特征选择 vised learning[C]//Proceedings of the 22th International 方法,本文方法利用12:范数约束全局线性回归函 Joint Conference on Artificial Intelligence.Barcelona. 数,减少外界噪声干扰,还借助1图获取更清晰 Spain,2011:1589-1594 的数据底层流形结构,有效提取局部特征,以提 [4]WANG Xiaodong,ZHANG Xu,ZENG Zhiqiang,et al. 高学习效率。为提高特征选择准确度,本文引入 Unsupervised spectral feature selection with norm 2,范数约束特征选择过程,有效利用特征间相关 graph[J].Neurocomputing,2016,200:47-54. 信息,进而过滤冗余特征。文中所提出的模型涉 [5]DOQUIRE G,VERLEYSEN M.A graph Laplacian based 及2:范数具有非光滑特征,无法直接对其求闭合 approach to semi-supervised feature selection for regres- 解,因此提出一套快速有效迭代方法求解学习模 sion problems[J].Neurocomputing,2013,121:5-13. 型。最后通过多个开源数据集实验证明了本文方 [6]LIU Yun,NIE Feiping,WU Jigang,et al.Efficient semi- 法的有效性。结合自适应学习及采用鲁棒性更好 supervised feature selection with noise insensitive trace ra- 的损失函数以进一步提高特征选择的准确度,为 tio criterion[J].Neurocomputing,2013,105:12-18. 本文的下一步研究目标。 [7]MA Zhigang,NIE Feiping,YANG Yi,et al.Discriminat- ing joint feature analysis for multimedia data understand- 参考文献: ing[J].IEEE transactions on multimedia,2012,14(6): [1]YU Lei,LIU Huan.Feature selection for high-dimensional 1662-1672. data:a fast correlation-based filter solution[C]//Proceed- [8]JI Shuiwang.TANG Lei.YU Shipeng,et al.A shared-sub- ings of the 20th International Conference on International space learning framework for multi-label classification[J] Conference on Machine Learning.Washington DC,USA, ACM transactions on knowledge discovery from data, 2003:856-863. 2010,4(2):8. [2]胡敏杰,林耀进,杨红和,等.基于特征相关的谱特征选 [9]张俐,王枞.基于最大相关最小冗余联合互信息的多标 择算法U.智能系统学报,2017,12(4:519-525 签特征选择算法).通信学报,2018,39(5)111-122. HU Minjie,LIN Yaojin,YANG Honghe,et al.Spectral ZHANG Li,WANG Cong.Multi-label feature selection al- feature selection based on feature correlation[].CAAI gorithm based on joint mutual information of max-relev-
4 结束语 本文提出一种鲁棒的半监督多标签特征选择 方法 SMFSL。不同于传统基于谱图的特征选择 方法,本文方法利用 l2,1 范数约束全局线性回归函 数,减少外界噪声干扰,还借助 l1 图获取更清晰 的数据底层流形结构,有效提取局部特征,以提 高学习效率。为提高特征选择准确度,本文引入 l2,1 范数约束特征选择过程,有效利用特征间相关 信息,进而过滤冗余特征。文中所提出的模型涉 及 l2,1 范数具有非光滑特征,无法直接对其求闭合 解,因此提出一套快速有效迭代方法求解学习模 型。最后通过多个开源数据集实验证明了本文方 法的有效性。结合自适应学习及采用鲁棒性更好 的损失函数以进一步提高特征选择的准确度,为 本文的下一步研究目标。 参考文献: YU Lei, LIU Huan. Feature selection for high-dimensional data: a fast correlation-based filter solution[C]//Proceedings of the 20th International Conference on International Conference on Machine Learning. Washington DC, USA, 2003: 856-863. [1] 胡敏杰, 林耀进, 杨红和, 等. 基于特征相关的谱特征选 择算法 [J]. 智能系统学报, 2017, 12(4): 519–525. HU Minjie, LIN Yaojin, YANG Honghe, et al. Spectral feature selection based on feature correlation[J]. CAAI [2] transactions on intelligent systems, 2017, 12(4): 519–525. YANG Yi, SHEN Hengtao, MA Zhigang, et al. ℓ2,1-norm regularized discriminative feature selection for unsupervised learning[C]//Proceedings of the 22th International Joint Conference on Artificial Intelligence. Barcelona, Spain, 2011: 1589-1594. [3] WANG Xiaodong, ZHANG Xu, ZENG Zhiqiang, et al. Unsupervised spectral feature selection with l1 norm graph[J]. Neurocomputing, 2016, 200: 47–54. [4] DOQUIRE G, VERLEYSEN M. A graph Laplacian based approach to semi-supervised feature selection for regression problems[J]. Neurocomputing, 2013, 121: 5–13. [5] LIU Yun, NIE Feiping, WU Jigang, et al. Efficient semisupervised feature selection with noise insensitive trace ratio criterion[J]. Neurocomputing, 2013, 105: 12–18. [6] MA Zhigang, NIE Feiping, YANG Yi, et al. Discriminating joint feature analysis for multimedia data understanding[J]. IEEE transactions on multimedia, 2012, 14(6): 1662–1672. [7] JI Shuiwang, TANG Lei, YU Shipeng, et al. A shared-subspace learning framework for multi-label classification[J]. ACM transactions on knowledge discovery from data, 2010, 4(2): 8. [8] 张俐, 王枞. 基于最大相关最小冗余联合互信息的多标 签特征选择算法 [J]. 通信学报, 2018, 39(5): 111–122. ZHANG Li, WANG Cong. Multi-label feature selection algorithm based on joint mutual information of max-relev- [9] 0.3 0.2 0.1 0 10−4 单错误 参数 α 特征数 10−2 1 102 104 2040 60 80 100 0.6 0.4 0.2 0 10−4 单错误 参数 α 特征数 10−2 1102 104 100200300400500 0.6 0.4 0.2 0 10−4 单错误 参数 α 特征数 10−2 1 102 104 100200300400500600 (a) YEAST 数据集 (b) Education 数据集 (c) Entertainment 数据集 图 5 本文方法的参数敏感性分析 (a=1) Fig. 5 Parameter sensitivity analysis of the proposed method (a=1) 0.3 0.2 0.1 0 10−4 单错误 参数 γ 特征数 10−2 1 102 104 20 40 60 80 100 0.6 0.4 0.2 0 10−4 单错误 参数 γ 特征数 10−2 1 102 104 100200300400500 0.6 0.4 0.2 0 10−4 单错误 参数 γ 特征数 10−2 1 102 104 100200300400500600 (a) YEAST 数据集 (b) Education 数据集 (c) Entertainment 数据集 图 6 本文方法的参数敏感性分析 (γ=1) Fig. 6 Parameter sensitivity analysis of the proposed method (γ=1) ·818· 智 能 系 统 学 报 第 14 卷
第4期 严菲,等:鲁棒的半监督多标签特征选择方法 ·819· ance and min-redundancy[J].Journal on communications, [16]ELISSEEFF A,WESTON J.A kernel method for multi- 2018,39(5):111-122 labelled classification[C]//Proceedings of the 14th Inter- [10]ALALGA A,BENABDESLEM K,TALEB N.Soft-con- national Conference on Neural Information Processing strained Laplacian score for semi-supervised multi-label Systems.Vancouver,Canada,2001:681-687. feature selection[J].Knowledge and information systems. [17]UEDA N,SAITO K.Parametric mixture models for 2016.471上75-98. multi-labeled text[C]//Proceedings of the 15th Internation- [11]CHANG Xiaojun,NIE Feiping,YANG Yi,et al.A con- al Conference on Neural Information Processing Systems. vex formulation for semi-supervised multi-label feature Cambridge,MA,USA,2002:737-744. selection[Cl//Proceedings of the 28th AAAI Conference [18]ZHANG Minling,ZHOU Zhihua.ML-KNN:a lazy learn- on Artificial Intelligence.Quebec City,Quebec,Canada, ing approach to multi-label learning[J].Pattern recogni- 2014:1171-1177 tion,2007,40(7):2038-2048. [12]ZHOU Sihang,LIU Xinwang,ZHU Chengzhang,et al. [19]MARON O,RATAN A L.Multiple-instance learning for Spectral clustering-based local and global structure pre- natural scene classification[Cl//Proceedings of 15th Inter- servation for feature selection[C]//Proceedings of 2014 national Conference on Machine Learning.San Francisco, International Joint Conference on Neural Networks. CA,USA.1998:341-349 Beijing,China,2014:550-557. 作者简介: [13]NIE Feiping,WANG Hua,HUANG Heng,et al.Unsu- 严菲.女,1985年生,实验师,主 pervised and semi-supervised learning via t norm 要研究方向为特征选择、机器学习。 graph[C]//Proceedings of 2011 International Conference 主持福建省教育厅中青年教师项目 1项。发表学术论文5篇。 on Computer Vision.Barcelona,Spain,2011:2268-2273. [14]LIU Yun,GUO Yiming,WANG Hua,et al.Semi-super- vised classifications via elastic and robust embedding[C/ Proceedings of the 31th AAAI Conference on Artificial Intelligence.San Francisco,USA,2017:2294-2300. 王晓栋,男.1983年生,副教授, 博土,主要研究方向为机器学习、图像 [15]SCHOLKOPF B.PLATT J.HOFMANN T.Multi-in- 处理。主持福建省自然科学基金面上 stance multi-label learning with application to scene clas- 项目1项,福建教育厅中青年教师项 sification[C]//Proceedings of the 13th International Con- 目1项。发表学术论文10篇。 ference on Neural Information Processing Systems.Hong Kong,China,2006:1609-1616
ance and min-redundancy[J]. Journal on communications, 2018, 39(5): 111–122. ALALGA A, BENABDESLEM K, TALEB N. Soft-constrained Laplacian score for semi-supervised multi-label feature selection[J]. Knowledge and information systems, 2016, 47(1): 75–98. [10] CHANG Xiaojun, NIE Feiping, YANG Yi, et al. A convex formulation for semi-supervised multi-label feature selection[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Québec, Canada, 2014: 1171-1177. [11] ZHOU Sihang, LIU Xinwang, ZHU Chengzhang, et al. Spectral clustering-based local and global structure preservation for feature selection[C]//Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 550-557. [12] NIE Feiping, WANG Hua, HUANG Heng, et al. Unsupervised and semi-supervised learning via ℓ1 norm graph[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 2268-2273. [13] LIU Yun, GUO Yiming, WANG Hua, et al. Semi-supervised classifications via elastic and robust embedding[C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence. San Francisco, USA, 2017: 2294-2300. [14] SCHÖLKOPF B, PLATT J, HOFMANN T. Multi-instance multi-label learning with application to scene classification[C]//Proceedings of the 13th International Conference on Neural Information Processing Systems. Hong Kong, China, 2006: 1609-1616. [15] ELISSEEFF A, WESTON J. A kernel method for multilabelled classification[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems. Vancouver, Canada, 2001: 681-687. [16] UEDA N, SAITO K. Parametric mixture models for multi-labeled text[C]//Proceedings of the 15th International Conference on Neural Information Processing Systems. Cambridge, MA, USA, 2002: 737-744. [17] ZHANG Minling, ZHOU Zhihua. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern recognition, 2007, 40(7): 2038–2048. [18] MARON O, RATAN A L. Multiple-instance learning for natural scene classification[C]//Proceedings of 15th International Conference on Machine Learning. San Francisco, CA, USA, 1998: 341-349. [19] 作者简介: 严菲. 女,1985 年生,实验师,主 要研究方向为特征选择、机器学习。 主持福建省教育厅中青年教师项目 1 项。发表学术论文 5 篇。 王晓栋,男,1983 年生,副教授, 博士,主要研究方向为机器学习、图像 处理。主持福建省自然科学基金面上 项目 1 项,福建教育厅中青年教师项 目 1 项。发表学术论文 10 篇。 第 4 期 严菲,等:鲁棒的半监督多标签特征选择方法 ·819·