第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201806005 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190321.0909.002.html 弹性网络核极限学习机的多标记学习算法 王一宾2,裴根生,程玉胜2 (1.安庆师范大学计算机与信息学院,安徽安庆246011,2.安徽省高校智能感知与计算重点实验室,安徽安 庆246011) 摘要:将正则化极限学习机或者核极限学习机理论应用到多标记分类中,一定程度上提高了算法的稳定性。 但目前这些算法关于损失函数添加的正则项都基于L2正则,导致模型缺乏稀疏性表达。同时,弹性网络正则 化既保证模型鲁棒性且兼具模型稀疏化学习,但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。 基于此,本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先,对多标记数据特征空间 使用径向基核函数映射:随后,对核极限学习机损失函数施加弹性网络正则项:最后,采用坐标下降法迭代求 解输出权值以得到最终预测标记。通过对比试验和统计分析表明,提出的算法具有更好的性能表现。 关键词:多标记学习:核极限学习机:正则化:弹性网络:径向基函数:坐标下降法 中图分类号:TP391文献标志码:A 文章编号:1673-4785(2019)04-0831-12 中文引用格式:王一宾,裴根生,程玉胜.弹性网络核极限学习机的多标记学习算法J.智能系统学报,2019,14(4): 831-842. 英文引用格式:WANG Yibin,PEI Gensheng,.CHENG Yusheng.Multi---label learning algorithm of an elastic net kernel extreme learning machine[J.CAAI transactions on intelligent systems,2019,14(4):831-842. Multi-label learning algorithm of an elastic net kernel extreme learning machine WANG Yibin2,PEI Gensheng',CHENG Yusheng'2 (1.School of Computer and Information,Anqing Normal University,Anqing 246011,China;2.The University Key Laboratory of In- telligent Perception and Computing of Anhui Province,Anqing 246011,China) Abstract:Regularized extreme learning machine or kernel extreme learning machine theory was applied to multi-label classification,which improves the stability of the algorithm to a certain extent.However,the regularization terms added by these algorithms for loss functions are all based on L2 regularization,which leads to the lack of sparse expression of the model.Simultaneously,elastic net regularization guarantees both model robustness and model sparse learning.Nev- ertheless,there is insufficient research on how to solve multi-label learning problems by combining elastic net kernel ex- treme learning machines.Based on this hypothesis,this paper proposes a multi-label learning algorithm that adds elastic network regularization to kernel extreme learning machines.It first uses radial basis function mapping for feature spa- cing of multi-label;subsequently,it applies the elastic net regularization to the loss function of kernel extreme learning machine.Finally,it uses the coordinate descent method to iteratively solve the output weights to get the final prediction labels.Through comparative experiments and statistical analyses,the proposed method demonstrates better performance Keywords:multi-label learning;kernel extreme learning machine;regularization;elastic net;radial basis function;co- ordinate descent 收稿日期:2018-06-02.网络出版日期:2019-03-22 近年来,随着人工智能的迅速发展,标记学习 基金项目:安徽省高校重点科研项目(KJ2017A352):安微省高 校重点实验室基金项目(ACAIM160102). 成为其重点的研究领域之一。其中单标记学习将 通信作者:程玉胜.E-mail:chengyshaq@163.com. 每个示例由一个特征向量和一个标记来描述;而
DOI: 10.11992/tis.201806005 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190321.0909.002.html 弹性网络核极限学习机的多标记学习算法 王一宾1,2,裴根生1 ,程玉胜1,2 (1. 安庆师范大学 计算机与信息学院,安徽 安庆 246011; 2. 安徽省高校智能感知与计算重点实验室,安徽 安 庆 246011) 摘 要:将正则化极限学习机或者核极限学习机理论应用到多标记分类中,一定程度上提高了算法的稳定性。 但目前这些算法关于损失函数添加的正则项都基于 L2 正则,导致模型缺乏稀疏性表达。同时,弹性网络正则 化既保证模型鲁棒性且兼具模型稀疏化学习,但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。 基于此,本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先,对多标记数据特征空间 使用径向基核函数映射;随后,对核极限学习机损失函数施加弹性网络正则项;最后,采用坐标下降法迭代求 解输出权值以得到最终预测标记。通过对比试验和统计分析表明,提出的算法具有更好的性能表现。 关键词:多标记学习;核极限学习机;正则化;弹性网络;径向基函数;坐标下降法 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)04−0831−12 中文引用格式:王一宾, 裴根生, 程玉胜. 弹性网络核极限学习机的多标记学习算法 [J]. 智能系统学报, 2019, 14(4): 831–842. 英文引用格式:WANG Yibin, PEI Gensheng, CHENG Yusheng. Multi-label learning algorithm of an elastic net kernel extreme learning machine[J]. CAAI transactions on intelligent systems, 2019, 14(4): 831–842. Multi-label learning algorithm of an elastic net kernel extreme learning machine WANG Yibin1,2 ,PEI Gensheng1 ,CHENG Yusheng1,2 (1. School of Computer and Information, Anqing Normal University, Anqing 246011, China; 2. The University Key Laboratory of Intelligent Perception and Computing of Anhui Province, Anqing 246011, China) Abstract: Regularized extreme learning machine or kernel extreme learning machine theory was applied to multi-label classification, which improves the stability of the algorithm to a certain extent. However, the regularization terms added by these algorithms for loss functions are all based on L2 regularization, which leads to the lack of sparse expression of the model. Simultaneously, elastic net regularization guarantees both model robustness and model sparse learning. Nevertheless, there is insufficient research on how to solve multi-label learning problems by combining elastic net kernel extreme learning machines. Based on this hypothesis, this paper proposes a multi-label learning algorithm that adds elastic network regularization to kernel extreme learning machines. It first uses radial basis function mapping for feature spacing of multi-label; subsequently, it applies the elastic net regularization to the loss function of kernel extreme learning machine. Finally, it uses the coordinate descent method to iteratively solve the output weights to get the final prediction labels. Through comparative experiments and statistical analyses, the proposed method demonstrates better performance. Keywords: multi-label learning; kernel extreme learning machine; regularization; elastic net; radial basis function; coordinate descent 近年来,随着人工智能的迅速发展,标记学习 成为其重点的研究领域之一。其中单标记学习将 每个示例由一个特征向量和一个标记来描述;而 收稿日期:2018−06−02. 网络出版日期:2019−03−22. 基金项目:安徽省高校重点科研项目 (KJ2017A352);安徽省高 校重点实验室基金项目 (ACAIM160102). 通信作者:程玉胜. E-mail:chengyshaq@163.com. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
·832· 智能系统学报 第14卷 多标记学习山则将一个示例同时分配给多个标 可以直接处理回归问题、单标记和多标记分类。 记,即每个对象由一个特征向量和一个二元标记 基于ELM的多标记分类算法,ER等1]和Sun 向量来表示。多标记学习的这种示例表达方式更 等19]利用ELM提出一种高速多标记分类器模 加契合现实世界对象存在的多义性,因此多标记 型,将ELM适应于多标记数据集,分类效果较为 学习成为模式识别与标记学习的重点研究课题之 理想。Zhang等2o提出了一种多层ELM-RBF算 一,并已成功应用于文本分类)、图像识别、生 法,改变传统ELM算法的单隐藏层策略,使用多 物学习囵和情感分析等领域。 隐藏层来实现多标记分类,在分类精度上也取得 目前,在多标记学习问题中,诸多学者已研究 了不错的效果。Luo等2u首次采用核ELM来处 并提出多种多标记学习算法,而这些方法大致可 理多标记问题,以保证分类算法的稳定性。对于 以分为2类,即问题转换法和算法适应法。其中 多标记学习与正则化理论结合部分。Han等四提 问题转换法是将多标记学习任务转换为一个或者 出将多标记学习作为弹性网络惩罚的最小二乘优 多个相应单标记学习任务,然后再通过传统单标 化问题,并不使用L1惩罚进行稀疏表示。本文创 记学习方法进行处理,典型算法包括BR、LPI、 作的思想来源于此,且已有研究表明在多标记数 PPT和RAKEL等。而算法适应法通过扩展特 据集中特征之间存在着相关性和冗余性,此时将 定单标记学习算法,修改其约束条件从而可以直 RELM原L2正则项用弹性网络正则代替,既保证 接处理多标记学习任务,例如ML-KNNU01、ML 模型稳定性也可对模型进行稀疏性表示。 NB、Rank.SVM2I和ML-RBF1等。而这些适 结合上述ELM算法和正则化理论,本文首次 应型算法就是将最近邻(k-nearest neighbors,. 将弹性网络正则结合核极限学习机(kernel ex- KNN)、朴素贝叶斯(naive bayes,NB)、支持向量机 treme learning machine,.KELM)应用到多标记分类 (support vector machine,.SVM)和径向基函数(radi- 中,使用弹性网络正则约束核KELM,提出基于弹 al basis function,RBF)神经网络等算法适应于多 性网络极限学习机的多标记学习算法(multi--label 标记数据。这些改造的算法在多标记学习中取得 learning algorithm of elastic net kernel extreme learn- 了不错的效果。但其中BR、LP、ML-KNN、MLNB ing machine,ML-EKELM)。该算法通过KELM映 和Rank-SVM等算法因本身特点所限,导致其时 射特征空间,然后对损失函数添加弹性网络21正 间消耗较大。 则项,最后采用坐标下降法2迭代求解多标记目 为了解决分类算法时间消耗大的问题,近年 标优化问题。KELM与弹性网络的结合提高了算 间,部分学者提出了多种基于极限学习机(ex- 法鲁棒性,保证了模型稀疏性,提供了一种基于 treme learning machine,ELM)的多标记学习算 ELM解决多标记问题的新途径。通过对比现有 法。ELM是由Huang等u,提出的是一种单隐藏 基于ELM的先进多标记算法和经典多标记算法, 层前馈神经网络(single-.hidden layer feedforward 验证了本文算法的有效性和可靠性。 neural networks,.SLFNs)算法,该算法具有模型设 1基本理论研究 计简单、运行速度快和泛化性能高等特点,在多 标记学习中具有良好的性能表现。为提高ELM 1.1 极限学习机理论 分类模型的稳定性及鲁棒性,邓万宇等提出正 传统神经网络算法需要较多的网络参数设 则极限学习机算法(regularized extreme learning 置,在求解最优解时很有可能出现局部最优解, machine,RELM),对损失函数施加L2惩罚以避免 而无法得到全局最优解。而极限学习机是一种高 分类模型出现过拟合现象。随后,Miche等lo提 效且具有优化学习算法的单隐层前馈神经网络, TROP-ELM(tikhonov-regularized optimally 求解时只需设置隐藏层节点数,并随机初始化权 pruned extreme learning machine,TROP-ELM) 值和偏置就可求解出全局最优解。ELM求解单 法,将L1和L2惩罚级联使用,对隐藏层神经元 隐层前馈神经网络,可分为2个阶段:随机特征映 施加L1惩罚,对回归权重施加L2惩罚,以达到 射和线性参数求解。 删减神经元个数和稳定数值的作用。但这些算法 在对ELM两个阶段进行分析之前,需要做出 都需要随机初始化权值和偏置,使得算法对于随 以下形式化定义:设有N个随机样本{(X,Y)川 机值敏感,导致算法稳定性不高。为处理这一问 i=1,2,…,W,其中特征空间与标记空间可分别表 题,Huang等)提出使用核函数映射特征空间以 示为X,=[xx2…xnJ,Y=yay2…ymJ,则对于具 代替传统隐藏层随机特征映射函数,使得该算法 有L个隐藏节点的单隐藏层神经网络形式化定
多标记学习[1] 则将一个示例同时分配给多个标 记,即每个对象由一个特征向量和一个二元标记 向量来表示。多标记学习的这种示例表达方式更 加契合现实世界对象存在的多义性,因此多标记 学习成为模式识别与标记学习的重点研究课题之 一,并已成功应用于文本分类[2-3] 、图像识别[4] 、生 物学习[5] 和情感分析[6] 等领域。 目前,在多标记学习问题中,诸多学者已研究 并提出多种多标记学习算法,而这些方法大致可 以分为 2 类,即问题转换法和算法适应法。其中 问题转换法是将多标记学习任务转换为一个或者 多个相应单标记学习任务,然后再通过传统单标 记学习方法进行处理,典型算法包括 BR[4] 、LP[7] 、 PPT[8] 和 RAKEL[9] 等。而算法适应法通过扩展特 定单标记学习算法,修改其约束条件从而可以直 接处理多标记学习任务,例如 ML-KNN[10] 、MLNB[11] 、Rank-SVM[12] 和 ML-RBF[13] 等。而这些适 应型算法就是将最近邻 (k-nearest neighbors, KNN)、朴素贝叶斯 (naive bayes,NB)、支持向量机 (support vector machine,SVM) 和径向基函数 (radial basis function,RBF) 神经网络等算法适应于多 标记数据。这些改造的算法在多标记学习中取得 了不错的效果。但其中 BR、LP、ML-KNN、MLNB 和 Rank-SVM 等算法因本身特点所限,导致其时 间消耗较大。 为了解决分类算法时间消耗大的问题,近年 间,部分学者提出了多种基于极限学习机 (extreme learning machine,ELM) 的多标记学习算 法。ELM 是由 Huang 等 [14] 提出的是一种单隐藏 层前馈神经网络 (single-hidden layer feedforward neural networks,SLFNs) 算法,该算法具有模型设 计简单、运行速度快和泛化性能高等特点,在多 标记学习中具有良好的性能表现。为提高 ELM 分类模型的稳定性及鲁棒性,邓万宇等[15] 提出正 则极限学习机算法 (regularized extreme learning machine,RELM),对损失函数施加 L2 惩罚以避免 分类模型出现过拟合现象。随后,Miche 等 [16] 提 出 TROP-ELM(tikhonov-regularized optimally pruned extreme learning machine,TROP-ELM) 算 法,将 L1 和 L2 惩罚级联使用,对隐藏层神经元 施加 L1 惩罚,对回归权重施加 L2 惩罚,以达到 删减神经元个数和稳定数值的作用。但这些算法 都需要随机初始化权值和偏置,使得算法对于随 机值敏感,导致算法稳定性不高。为处理这一问 题,Huang 等 [17] 提出使用核函数映射特征空间以 代替传统隐藏层随机特征映射函数,使得该算法 可以直接处理回归问题、单标记和多标记分类。 基于 ELM 的多标记分类算法,ER 等 [ 1 8 ] 和 Sun 等 [19] 利用 ELM 提出一种高速多标记分类器模 型,将 ELM 适应于多标记数据集,分类效果较为 理想。Zhang 等 [20] 提出了一种多层 ELM-RBF 算 法,改变传统 ELM 算法的单隐藏层策略,使用多 隐藏层来实现多标记分类,在分类精度上也取得 了不错的效果。Luo 等 [21] 首次采用核 ELM 来处 理多标记问题,以保证分类算法的稳定性。对于 多标记学习与正则化理论结合部分。Han 等 [22] 提 出将多标记学习作为弹性网络惩罚的最小二乘优 化问题,并不使用 L1 惩罚进行稀疏表示。本文创 作的思想来源于此,且已有研究表明在多标记数 据集中特征之间存在着相关性和冗余性,此时将 RELM 原 L2 正则项用弹性网络正则代替,既保证 模型稳定性也可对模型进行稀疏性表示。 结合上述 ELM 算法和正则化理论,本文首次 将弹性网络正则结合核极限学习机 (kernel extreme learning machine,KELM) 应用到多标记分类 中,使用弹性网络正则约束核 KELM,提出基于弹 性网络极限学习机的多标记学习算法 (multi-label learning algorithm of elastic net kernel extreme learning machine,ML-EKELM)。该算法通过 KELM 映 射特征空间,然后对损失函数添加弹性网络[23] 正 则项,最后采用坐标下降法[24] 迭代求解多标记目 标优化问题。KELM 与弹性网络的结合提高了算 法鲁棒性,保证了模型稀疏性,提供了一种基于 ELM 解决多标记问题的新途径。通过对比现有 基于 ELM 的先进多标记算法和经典多标记算法, 验证了本文算法的有效性和可靠性。 1 基本理论研究 1.1 极限学习机理论 传统神经网络算法需要较多的网络参数设 置,在求解最优解时很有可能出现局部最优解, 而无法得到全局最优解。而极限学习机是一种高 效且具有优化学习算法的单隐层前馈神经网络, 求解时只需设置隐藏层节点数,并随机初始化权 值和偏置就可求解出全局最优解。ELM 求解单 隐层前馈神经网络,可分为 2 个阶段:随机特征映 射和线性参数求解。 {(Xi ,Yi)| i = 1,2,··· ,N} Xi = [xi1 xi2 ··· xin] T Yi = [ yi1yi2 ··· yim ]T 在对 ELM 两个阶段进行分析之前,需要做出 以下形式化定义:设 有 N 个随机样本 ,其中特征空间与标记空间可分别表 示为 , ,则对于具 有 L 个隐藏节点的单隐藏层神经网络形式化定 ·832· 智 能 系 统 学 报 第 14 卷
第4期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·833· 义为: L1正则化和弹性网络正则化等使用较为普遍。 五X》=∑Bg(X 这些正则化方法详细描述如下: (1) i=1 1)L2正则(Ridge Regression) 式中:B,=BB2…BmJ'表示输出权值;g,表示第 L2正则化模型(也称为岭回归)是在最小化 i个隐藏节点的输出,实质为激活函数,并可表示 损失函数后添加正则项,其中参数 为: 1∈[0,+o],起到降低权重的作用,最终得到目标 8i(X)=8(w;.X;+bi) (2) 函数: 式中:w,=waw2…wmJT为输人权值;b,表示第i个 L2=minllβ-Y匠+IlB (9) 隐藏神经元的偏置;·表示为点积。通常式(1) 2)L1正则(Lasso)) 用来建模回归,对于分类问题可使用sigmoid函 L1正则化模型(也称为Lasso模型)则是在最 数来限制输出值的范围,从而达到分类效果。 小化损失函数添加正则项B刚1,其中1∈0,+∞, 以上为ELM的第1阶段即随机特征映射,对 而Lasso最大的特点在于产生稀疏权值矩阵,构 于第2阶段的线性参数求解,通过最小化平方误 造出稀疏模型已达到特征选择的作用,最终目标 差的近似误差来求解连接隐藏层和输出层的权 函数为 值B。可表示为: L1=minlβ-YTg+IlB (10) minlHB-Y2 (3) 3)L2&Ll正则(Elastic Net) 式中H为隐藏层输出矩阵,即 弹性网络正则化是一种结合L1正则与L2正 h(x) h1(x1)h2(x1) hi(x1)1 则的各自优点的新型正则化方法,即在最小化损 h(x2) h1(x2)h2(x2) h(x2) H= (4) 失函数添加正则项(aB吼,+(1-a)),其中 h(xN) h(xN)h(xN) ·hz(xw) 1∈[0,+oo,a∈0,1],目标函数定义为 Y为训练标记矩阵: LElastieNet minellHB-Y+ y11 y12 y1m 2(aBL,+(1-a)IB1) (11) y21 '22 通过式(11)可知:当a=0时,Elastic Net即为 Y= (5) L2正则;当a=l时,Elastic Net即为L1正则;当 yN2 a∈(O,1)时,Elastic Net将保留L2和L1正则各自 通过式(1)、式(3),最小二乘解为 特点,达到弹性2种正则的作用。根据这一特点 B=HY (6) 给出3种正则化的二维图像描述,如图1所示。 式中H表示H的Moore-Penrose广义逆矩阵,表 示为 一Ridge -Lasso -Elastic Net s.t.H= (H)H,HH非奇异 H(HH),HHT非奇异 (7) 最终求出的B即可以预测未知标记,表示为 》=H邱 (8) 1.2正则化理论 在机器学习中,偏差(bias)与方差(variance) 共同影响模型的准确率。高偏差容易导致模型欠 拟合(unfitting),高方差则会导致模型过拟合 (overfitting)。通常,解决高偏差可选择使用更为 复杂的模型或增加模型参数来降低偏差值,但这 就会导致模型过拟合情况发生。而正则化理论是 图13种正则化比较 解决高方差或避免训练模型过拟合的有效方法之 Fig.1 The comparison of three regularizations 一,在机器学习领域被广泛使用。 2基于弹性网络核极限学习机算法 通过正则化方式,可以降低模型的复杂度,避 免可能的过度拟合。近年来,研究者提出了多种 2.1基于ELM的多标记学习 适合机器学习的正则化方法,其中L2正则化、 传统单标记学习无法对于真实世界对象多语
义为: fL(Xj) = ∑L i=1 βigi(Xj) (1) βi = [ βi1βi2 ···βim 式中: ]T表示输出权值; gi 表示第 i 个隐藏节点的输出,实质为激活函数,并可表示 为: gi ( Xj ) = g ( wi · Xj +bi ) (2) wi = [wi1wi2 ···wim] 式中: T为输入权值;bi 表示第 i 个 隐藏神经元的偏置; ∙表示为点积。通常式 (1) 用来建模回归,对于分类问题可使用 sigmoid 函 数来限制输出值的范围,从而达到分类效果。 以上为 ELM 的第 1 阶段即随机特征映射,对 于第 2 阶段的线性参数求解,通过最小化平方误 差的近似误差来求解连接隐藏层和输出层的权 值 β。可表示为: min β ∥Hβ−Y∥ 2 (3) 式中 H 为隐藏层输出矩阵,即 H = h(x1) h(x2) . . . h(xN) = h1 (x1) h2 (x1) ··· hL (x1) h1 (x2) h2 (x2) ··· hL (x2) . . . . . . h1 (xN) h2 (xN) ··· hL (xN) (4) Y 为训练标记矩阵: Y = y T 1 y T 2 . . . y T N = y11 y12 ··· y1m y21 y22 ··· y2m . . . . . . yN1 yN2 ··· yNm (5) 通过式 (1)、式 (3),最小二乘解为 βˆ = H †Y (6) 式中 H †表示 H 的 Moore-Penrose 广义逆矩阵,表 示为 s.t. H † = { ( HTH )−1HT , HTH非奇异 HT ( HHT )−1 , HHT非奇异 (7) 最终求出的 βˆ即可以预测未知标记,表示为 Yˆ = Hβˆ (8) 1.2 正则化理论 在机器学习中,偏差 (bias) 与方差 (variance) 共同影响模型的准确率。高偏差容易导致模型欠 拟合 (unfitting),高方差则会导致模型过拟合 (overfitting)。通常,解决高偏差可选择使用更为 复杂的模型或增加模型参数来降低偏差值,但这 就会导致模型过拟合情况发生。而正则化理论是 解决高方差或避免训练模型过拟合的有效方法之 一,在机器学习领域被广泛使用。 通过正则化方式,可以降低模型的复杂度,避 免可能的过度拟合。近年来,研究者提出了多种 适合机器学习的正则化方法,其中 L2 正则化、 L1 正则化和弹性网络正则化等使用较为普遍。 这些正则化方法详细描述如下: 1) L2 正则 (Ridge Regression) λ ∥β∥ 2 2 λ ∈ [0,+∞] L2 正则化模型 (也称为岭回归) 是在最小化 损失函数后添加正则项 ,其中参数 ,起到降低权重的作用,最终得到目标 函数: L2 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥ 2 2 (9) 2) L1 正则 (Lasso) λ∥β∥1 λ ∈ [0,+∞] L1 正则化模型 (也称为 Lasso 模型) 则是在最 小化损失函数添加正则项 ,其中 , 而 Lasso 最大的特点在于产生稀疏权值矩阵,构 造出稀疏模型已达到特征选择的作用,最终目标 函数为 L1 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥1 (10) 3) L2&L1 正则 (Elastic Net) λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) λ ∈ [0,+∞] α ∈ [0,1] 弹性网络正则化是一种结合 L1 正则与 L2 正 则的各自优点的新型正则化方法,即在最小化损 失函数添加正则项 ,其中 , ,目标函数定义为 LElasticNet = minβ ∥Hβ−Y∥ 2 2 + λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) (11) α ∈ (0,1) 通过式 (11) 可知:当 α=0 时,Elastic Net 即为 L2 正则;当 α=1 时,Elastic Net 即为 L1 正则;当 时,Elastic Net 将保留 L2 和 L1 正则各自 特点,达到弹性 2 种正则的作用。根据这一特点 给出 3 种正则化的二维图像描述,如图 1 所示。 Ridge Lasso Elastic Net β 2 β O 1 图 1 3 种正则化比较 Fig. 1 The comparison of three regularizations 2 基于弹性网络核极限学习机算法 2.1 基于 ELM 的多标记学习 传统单标记学习无法对于真实世界对象多语 第 4 期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·833·
·834· 智能系统学报 第14卷 义性、概念复杂性进行有效处理,且无法满足目 则可以使得某些参数等于0。基于以上正则化特 前机器学习的高要求,由此建立了多标记学习框 点分析,结合这2种正则的弹性网络可以实现正 架可以解决这一问题。该框架通过对任意一个对 则和稀硫双重作用P1。本节将使用Elastic Net替 象,进行一个特征向量的描述,根据特征向量尽 换原有RELM中的L2正则,首次运用到多标记 可能将对象进行合适的类别标记和精准分类2。 学习中。 假定含有W个样本的多标记数据集,X为n维的 设多标记数据集D={x,Y,其中x,∈R”是 示例空间R”,Y为m类标记空间,则在多标记学 n维特征向量,Y∈R"为输出标记集合。则基于 习中,给定数据集D={x1,Y),(x2,Y2),…,(xn,Yn), L2正则RELM替换为Elastic Net,.通过式(Il)将 其中x∈X是一个示例,Y:eY是一组标记集合 y”,y,…y且y鼎∈卫,可得到映射关系f:X→2'。 式(13)改写为: 根据多标记学习的目标,同时结合ELM学习 C minLE l店+(R(B》 2 模型,ELM的随机映射函数h(x)将x从输人空间 i=l 映射到L维的特征空间,Y,∈R"为输出标记集 R.(B)=alll,+(1-a)1l6 s.t.5=Y,-f(x),i=1,2,…,N (16) 合。根据式(4)、(5)和(8),可得多标记ELM的输 出函数fx)为: 由于传统ELM算法需设置隐藏层节点数,并 [h(x) 且需初始随机权值和偏置,易受随机值的影响导 h(x2) 码 致计算结果不稳定,采用核ELM则可以解决这一 fi(x)=HB= (12) 问题。根据式(4)和(12),当映射函数h(x)未知 h(xN) N%L 时,即引人核矩阵(本文采用RBF核): 将式(9)和(12)结合即为正则ELM,即RELM H=QELM QELMn =K(i) 算法,该算法添加L2正则来提高原始ELM算法 K(x..x)=exp(-,x (17) 的稳定性和泛化性能,同时有效避免过拟合,目 式中y一般取值为1。结合式(3)、(12)和(17),式 标函数表示为: (16)可进一步改写为带有RBF核映射的目标函数: mLaw=ar+∑s (13) C mjnL-IY-P+R.(B) (18) 式中C为正则化系数;由式(6)、(7)和(13)求解目 由于Elastic Net本身结构特点,具有Ll正则 标函数,可得输出权值: 导致存在不可导点,无法使用类似于BP神经网 B=Hr+H四y (14) 络(back propagation)的梯度下降法(gradient des- cent)或传统ELM将神经网络转化为最小二乘 式中【为L维单位矩阵。这样最终多标记学习目 法。坐标下降法2则可以解决这一问题,因其是 标函数表示为: 一种非梯度优化算法,无需求导目标函数,只需 =a明=Hr+Hmy (15) 通过坐标方向搜寻最小值,符合弹性网络求解的 要求,因此本文采用坐标下降法对于弹性网络核 通过式(14)得到训练集的输出权值,再通过 随机映射函数(x)将测试集的特征向量映射,最 极限学习机进行目标求解。根据式(18)求解最小 终多标记预测结果可由式(15)得出。这种基于正 化目标,即 则化ELM的多标记学习算法,不仅在预测精度 +R.(B) (19) 上取得了不错的效果,并且求解速度也具有较大 min 优势。 通过坐标下降法,式(19)的更新公式可表示为: 2.2弹性核极限学习机的多标记学习算法 基于L2正则能够有效控制训练模型过拟合 s2aw化-) (20) 到某个特征上,即假设参数分布服从高斯分布以 1+A(1-a) 达到稳定模型的作用:而基于L1正则能够约束目 式中:为拟合值;Y:-为B的部分残差;S是 标方程稀疏性进而实现特征选择,即假设参数分 软阈值算子(soft-thresholding)2m,用于处理Ll惩 布服从拉普拉斯分布以保证稀疏化模型。简单来 罚。文献[28]给出详细求解算法,最后对于 说,即L2正则只能让某些参数逼近于0,而L1正 L2惩罚进行比例收缩。其中S详细定义为:
D = {(x1,Y1),(x2,Y2),··· ,(xn,Yn)} xi ∈ X Yi ∈ Y { y (i) 1 , y (i) 2 ,··· , y (i) m } y (i) m ∈ Y f : X → 2 Y 义性、概念复杂性进行有效处理,且无法满足目 前机器学习的高要求,由此建立了多标记学习框 架可以解决这一问题。该框架通过对任意一个对 象,进行一个特征向量的描述,根据特征向量尽 可能将对象进行合适的类别标记和精准分类[25]。 假定含有 N 个样本的多标记数据集,X 为 n 维的 示例空间 R n ,Y 为 m 类标记空间,则在多标记学 习中,给定数据集 , 其 中 是一个示例, 是一组标记集合 ,且 ,可得到映射关系 。 h(xi) 根据多标记学习的目标,同时结合 ELM 学习 模型,ELM 的随机映射函数 将 xi 从输入空间 映射到 L 维的特征空间,Yi∈R m 为输出标记集 合。根据式 (4)、(5) 和 (8),可得多标记 ELM 的输 出函数 fl (x) 为: fl(x) = Hβ = h(x1) h(x2) . . . h(xN) N×L β T 1 β T 2 . . . β T L (12) 将式 (9) 和 (12) 结合即为正则 ELM,即 RELM 算法,该算法添加 L2 正则来提高原始 ELM 算法 的稳定性和泛化性能,同时有效避免过拟合,目 标函数表示为: min β LRELM = 1 2 ∥β∥ 2 + C 2 ∑N i=1 ∥ξi∥ 2 (13) 式中 C 为正则化系数;由式 (6)、(7) 和 (13) 求解目 标函数,可得输出权值 β: β = H T ( I C + HHT )−1 Y (14) 式中 I 为 L 维单位矩阵。这样最终多标记学习目 标函数表示为: fl(x) = Hβ = HHT ( I C + HHT )−1 Y (15) 通过式 (14) 得到训练集的输出权值,再通过 随机映射函数 h(x) 将测试集的特征向量映射,最 终多标记预测结果可由式 (15) 得出。这种基于正 则化 ELM 的多标记学习算法,不仅在预测精度 上取得了不错的效果,并且求解速度也具有较大 优势。 2.2 弹性核极限学习机的多标记学习算法 基于 L2 正则能够有效控制训练模型过拟合 到某个特征上,即假设参数分布服从高斯分布以 达到稳定模型的作用;而基于 L1 正则能够约束目 标方程稀疏性进而实现特征选择,即假设参数分 布服从拉普拉斯分布以保证稀疏化模型。简单来 说,即 L2 正则只能让某些参数逼近于 0,而 L1 正 则可以使得某些参数等于 0。基于以上正则化特 点分析,结合这 2 种正则的弹性网络可以实现正 则和稀疏双重作用[23]。本节将使用 Elastic Net 替 换原有 RELM 中的 L2 正则,首次运用到多标记 学习中。 D = {xi ,Yi} N 设多标记数据集 i=1,其中 xi∈R n 是 n 维特征向量,Yi∈R m 为输出标记集合。则基于 L2 正则 RELM 替换为 Elastic Net,通过式 (11) 将 式 (13) 改写为: min β LE = C 2 ∑N i=1 ∥ξi∥ 2 +λ (Rα (β)) Rα (β) = α∥β∥1 +(1−α)∥β∥ 2 2 s.t. ξi = Yi − fl(xi),i = 1,2,··· ,N (16) 由于传统 ELM 算法需设置隐藏层节点数,并 且需初始随机权值和偏置,易受随机值的影响导 致计算结果不稳定,采用核 ELM 则可以解决这一 问题。根据式 (4) 和 (12),当映射函数 h(x) 未知 时,即引入核矩阵 (本文采用 RBF 核): H = ΩELM : ΩELM(i, j) = K ( xi , xj ) K ( xi , xj ) = exp( −γ xi − xj 2 ) (17) 式中 γ 一般取值为 1。结合式 (3)、(12) 和 (17),式 (16) 可进一步改写为带有 RBF 核映射的目标函数: min β LE = C 2 ∥Y −ΩELMβ∥ 2 +λRα (β) (18) 由于 Elastic Net 本身结构特点,具有 L1 正则 导致存在不可导点,无法使用类似于 BP 神经网 络 (back propagation) 的梯度下降法 (gradient descent) 或传统 ELM 将神经网络转化为最小二乘 法。坐标下降法[26] 则可以解决这一问题,因其是 一种非梯度优化算法,无需求导目标函数,只需 通过坐标方向搜寻最小值,符合弹性网络求解的 要求,因此本文采用坐标下降法对于弹性网络核 极限学习机进行目标求解。根据式 (18) 求解最小 化目标,即 min β C 2 ∑N i=1 Yi − ∑N j=1 ΩELM(i, j)βj 2 +λRα (β) (19) 通过坐标下降法,式 (19) 的更新公式可表示为: βj ← S ( ∑N i=1 ΩELM(i, j) ( Yi −Y˜ (j) i ) , λα ) + 1+λ(1−α) (20) Y˜ (j) i Yi −Y˜ (j) 式中: 为拟合值; i 为 βj 的部分残差;S 是 软阈值算子 (soft-thresholding)[27] ,用于处理 L1 惩 罚。文 献 [ 2 8 ] 给出详细求解算法,最后对 于 L2 惩罚进行比例收缩。其中 S 详细定义为: ·834· 智 能 系 统 学 报 第 14 卷
第4期 王一宾,等:弹性网铬核极限学习机的多标记学习算法 ·835· S(6,y)≡sign(6)-y).= 对应的平均标记数为4.24。Scene数据集由 6-y,6>0且y<1l 2407张图片组成,人工手动标记图片6类标记, 6+y,6<0且y< (21) 平均每张图片有1.24±0.44个类标记,特征向量维 0,y≥l 度为294维,其中1211个训练集和1196个测试 在训练集中通过坐标下降法求出输出权值矩 集。雅虎网页数据集是从雅虎网站收集,包括 阵B,设x为测试数据第j个示例的特征向量,则 多标记预测结果可以表示为 11个版块(Arts”、“Business”、“Computers”等), 各数据子集特征数在400~1100之间,各数据子 fi(x)=2ELM.B (22) 集中包含2000个训练集以及3000个测试集,详 式中:2M表示将训练集全部特征向量与测试 细信息如表1所示。 集特征向量共同使用式(17)的RBF核函数映射, 表1雅虎网页数据集 最后提出算法具体步骤如算法1所示。 Table 1 Yahoo web pages data set 算法1基于弹性网络核极限学习机的多标 数据集 特征数训练平均标记 测试平均标记 记学习算法ML-EKELM). Arts 462 1.627±0.8828 1.642±0.9589 输入训练数据集D={x,Y,测试数据集 D-然,RBF核参数,正则化参数X、a,最大 Business 438 1.590±0.8398 1.586±0.8494 迭代次数Q: Computers 681 1.487±1.0869 1.522±1.0468 输出测试数据集预测标记Y。 Education 550 1.465±0.7642 1.458±0.7522 训练training set D Entertainment 640 1.426±0.9306 1.4170.9913 for training set D Health 612 1.667±0.8517 1.659±0.9013 step 1:compute training data kernel matrix in Recreation 606 1.414±0.8136 1.429±0.8679 according to Eq.(17) Reference 793 1.159±0.4295 1.177±0.5369 step 2:calculate the output weight Science 743 1.4890.7875 1.425±0.7580 for i=1 to O Social 1047 1.274±0.6388 1.290±0.6174 update output weight B according to Eq.(20)and Eq.(21) Society 636 1.705±1.2062 1.684±1.2464 end for 3.2多标记评价指标 end for 对于多标记学习,传统单标记评价指标例如 测试testing set D Accuracy、Precision和Recall都无法直接对多标记 for testing set D 学习算法进行指标评价。为有效验证算法综合性 step 1:compute training and testing data kernel 能,本文将使用5种多标记通用评价指标进行算 matrix es according to Eq.(17) 法评价,评价指标包括:Hamming Loss、One-Error、 step 2:get predicted result fx)according to Eq. Coverage、Ranking Loss和Average Precision"。 (22) 设多标记分类器为(),预测函数f(,),排序 end for 函数rankro多标记数据集D={(x,Y)l≤i≤n}o return predicted testing data label setf. 上述5种评价指标HL、OE、CV、RL和AP形式化 j=1,2,…,M0o 定义如下: 3实验方案及结果分析 1 HLD(h)=- 名 h(x)△Y (23) 3.1实验数据描述 式中:△表示两个集合之间的对称差。海明损失 为验证本文算法的有效性,特选取了Yeast 是评估对象标记被错误分类标记的次数情况,正 Gene2、Scene!、Yahoo Web Pagest(包含Il个子 确的标记被错误预测情况。当HL(h)=0时为最 数据集)等l3个数据集。其中Yeast Gene包含 好的情况,即HL(h)越小,h()的性能越高。 2417个样本,训练数据集有1500个样本,测试 数据集有917个样本,每个样本包含103个属性 OE,(n=∑arg max,r,叨4H n (24) 值,所有的样本大致有14种类别属性,每个样本 1-错误率是评估对象最高排位标记并未正确
S (δ, γ) ≡ sign(δ) (|δ|−γ)+ = δ−γ, δ > 0 且 γ 0 , j = 1,2,··· , M} return predicted testing data label set Y * = 。 3 实验方案及结果分析 3.1 实验数据描述 为验证本文算法的有效性,特选取了 Yeast Gene[12] 、Scene[4] 、Yahoo Web Pages[10] (包含 11 个子 数据集) 等 13 个数据集。其中 Yeast Gene 包含 2 417 个样本,训练数据集有 1 500 个样本,测试 数据集有 917 个样本,每个样本包含 103 个属性 值,所有的样本大致有 14 种类别属性,每个样本 对应的平均标记数 为 4.24。 Scene 数据集由 2 407 张图片组成,人工手动标记图片 6 类标记, 平均每张图片有 1.24±0.44 个类标记,特征向量维 度为 294 维,其中 1 211 个训练集和 1 196 个测试 集。雅虎网页数据集是从雅虎网站收集,包括 11 个版块 (“Arts”、“Business”、“Computers”等), 各数据子集特征数在 400~1 100 之间,各数据子 集中包含 2 000 个训练集以及 3 000 个测试集,详 细信息如表 1 所示。 表 1 雅虎网页数据集 Table 1 Yahoo web pages data set 数据集 特征数 训练平均标记 测试平均标记 Arts 462 1.627±0.882 8 1.642±0.958 9 Business 438 1.590±0.839 8 1.586±0.849 4 Computers 681 1.487±1.086 9 1.522±1.046 8 Education 550 1.465±0.764 2 1.458±0.752 2 Entertainment 640 1.426±0.930 6 1.417±0.991 3 Health 612 1.667±0.851 7 1.659±0.901 3 Recreation 606 1.414±0.813 6 1.429±0.867 9 Reference 793 1.159±0.429 5 1.177±0.536 9 Science 743 1.489±0.787 5 1.425±0.758 0 Social 1047 1.274±0.638 8 1.290±0.617 4 Society 636 1.705±1.206 2 1.684±1.246 4 3.2 多标记评价指标 对于多标记学习,传统单标记评价指标例如 Accuracy、Precision 和 Recall 都无法直接对多标记 学习算法进行指标评价。为有效验证算法综合性 能,本文将使用 5 种多标记通用评价指标进行算 法评价,评价指标包括:Hamming Loss、One-Error、 Coverage、Ranking Loss 和 Average Precision[1]。 f (·,·) D = {(xi ,Yi)|1 ⩽ i ⩽ n} 设多标记分类器为 h(∙),预测函数 ,排序 函数 rankf。多标记数据集 。 上述 5 种评价指标 HL、OE、CV、RL 和 AP 形式化 定义如下: HLD (h) = 1 n ∑n i=1 1 |Y| |h(xi)∆Yi | (23) 式中: ∆ 表示两个集合之间的对称差。海明损失 是评估对象标记被错误分类标记的次数情况,正 确的标记被错误预测情况。当 HLD(h)=0 时为最 好的情况,即 HLD(h) 越小,h(∙) 的性能越高。 OED (f) = 1 n ∑n i=1 [[argmaxy∈Y f (xi , y) ] < Yi ] (24) 1-错误率是评估对象最高排位标记并未正确 第 4 期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·835·
·836· 智能系统学报 第14卷 标记的次数情况。当OEo(f)=0时为最好的情况, EKELM算法较目前已提出基于ELM的多标记算 即OEo(f)越小,f的性能越高。 法的优势,同时对比ML-RBF)、ML-KNNUO2种 1" 经典的多标记算法。 CVp(f)=max,er,rank(xi.y)-1 (25) n 考虑算法对比验证的可行性和准确性,减少 覆盖率是评估对象标记序列中所需标记数达 随机误差的产生,各测试算法在一个数据集中做 到覆盖全部标记,即CV)越小,f的性能越高。 10次实验,最终将10次实验得到的5种评价指标 求出平均值(mean)和标准差(standard deviation)。 RLD(f) 1 1 n名Y 0,y2)儿fx,)≤ 在每个评价指标数据下标注排位情况,如ML f6xy),02)ey×正 (26) EKELM,表示在某个数据集ML-EKELM算法最 排序损失是评估对象非属标记的排位高于所 为优秀,同时用黑体表示,并在雅虎网页数据集 属标记的次数情况。当RL(f)=0时为最好情况, 给出了11个子集的平均评价指标数据Average。 即RLof)越小,f的性能越高。 3.4实验结果及分析 为了更直观展示本文算法收敛速度,13个数 APp(f)= 27) 据集迭代收敛情况如图2所示。同时,在13个数 rank (xi,y) 据集中对比实验结果如表2~9所示,其中表2是 平均精度是评估在特定标记y∈Y,排列的正 酵母菌基因数据集对比试验结果,表3为场景数 确标记的平均分数。当AP(f)=1时为最好情况, 据集对比实验实验结果,表4~8则是雅虎网页数 即AP(f)越大,f的性能越高。 据集的实验结果,表9给出各算法在13个数据集 3.3实验环境及实验方案 中实验的时间消耗,并给出平均时间消耗。在此 对比实验代码均在Matlab2016a中运行,硬件 特别说明:因算法ML-EKELM、ML-KELM、ML- 环境Intel®CoreTM i5-75003.4 GHz CPU,8GB内 KNN的分类器具有稳定性,10次实验结果相同, 存;操作系统为Windows 10。为了验证算法的可 其标准差均为0。 靠性和有效性,算法选择多标记的5种常用评价 图2为ML-EKELM算法在13个多标记数据 指标,分别是:Hamming Loss、One Error、Cover- 集中以Hamming Loss为指标的迭代次数图,最终 age、Ranking Loss和Average Precision。.通过评价 收敛的Hamming Loss值用水平线表示。通过 指标来综合衡量各算法的性能,评估各算法的性 图2可以看出,使用坐标下降法求解弹性网络正 能。实验中将5种评价指标分别简写为:HL↓、 则的ML-EKELM算法,迭代次数均小于20次,在 OE、CV、RL和AP↑。其中↑表示指标数值越高 大部分数据集中都在3次左右迭代达到收敛,在 越好,表示指标数值越低越好。对比实验算法采 Arts和Business数据集中算法迭代收敛次数分别 用ML-KELM2I、RELMS、ELMI3种基于 是10和16次。 同时可以发现在13个数据集中 ELM的多标记算法,以此来验证本文提出的ML 只有Business数据集迭代收敛时出现波动,这 0.24 0.20 0.064 0.23 0.18 0.062 “0.22 0.16 K0.060 0.21 0.058 典0.056 0.19 0.10 0.054 0.18 0.08 0 8 12 1620 0.052 0 4 8 .12 16 20 0 4 8 .12 1620 迭代次数 代次数 迭代次数 (a)Yeast (b)Scene (c)Arts 0.029 0.046 0.046 0.028 0.044 0.044 0.027 0.042 0.042 0.026 罄040 040 爱0.038 爱0.038 0.025 0.036 0.036 0.024 0.034 0.034 4 1620 0 迭代次数 送代次最 16 20 0 4 121620 法代次数 (d)Business (e)Computers (f)Education
标记的次数情况。当 OED(f )=0 时为最好的情况, 即 OED(f ) 越小,f 的性能越高。 CVD (f) = 1 n ∑n i=1 maxy∈Yi rankf (xi , y)−1 (25) 覆盖率是评估对象标记序列中所需标记数达 到覆盖全部标记,即 CVD(f ) 越小,f 的性能越高。 RLD (f) = 1 n ∑n i=1 1 |Yi | Y¯ i { (yi , y2)| f(xi , y1) ⩽ f (xi , y2),(y1, y2) ∈ Yi ×Y¯ i } (26) 排序损失是评估对象非属标记的排位高于所 属标记的次数情况。当 RLD(f )=0 时为最好情况, 即 RLD(f ) 越小,f 的性能越高。 APD (f) = 1 n ∑n i=1 1 |Yi | ∑ y∈Yi { y ′ |rankf (xi,y ′ )⩽rankf (xi,y),y ′∈Yi } rankf (xi , y) (27) 平均精度是评估在特定标记 y∈Yi 排列的正 确标记的平均分数。当 APD(f )=1 时为最好情况, 即 APD(f ) 越大,f 的性能越高。 3.3 实验环境及实验方案 对比实验代码均在 Matlab2016a 中运行,硬件 环境 Intel® CoreTM i5-7500 3.4 GHz CPU,8 GB 内 存;操作系统为 Windows 10。为了验证算法的可 靠性和有效性,算法选择多标记的 5 种常用评价 指标,分别是:Hamming Loss、One Error、Coverage、Ranking Loss 和 Average Precision。通过评价 指标来综合衡量各算法的性能,评估各算法的性 能。实验中将 5 种评价指标分别简写为:HL↓、 OE↓、CV↓、RL↓和 AP↑。其中↑表示指标数值越高 越好,↓表示指标数值越低越好。对比实验算法采 用 ML-KELM[ 2 1 ] 、RELM[ 1 5 ] 、ELM[ 1 8 ] 3 种基于 ELM 的多标记算法,以此来验证本文提出的 MLEKELM 算法较目前已提出基于 ELM 的多标记算 法的优势,同时对比 ML-RBF[13] 、ML-KNN[10] 2 种 经典的多标记算法。 考虑算法对比验证的可行性和准确性,减少 随机误差的产生,各测试算法在一个数据集中做 10 次实验,最终将 10 次实验得到的 5 种评价指标 求出平均值 (mean) 和标准差 (standard deviation)。 在每个评价指标数据下标注排位情况,如 MLEKELM(1) 表示在某个数据集 ML-EKELM 算法最 为优秀,同时用黑体表示,并在雅虎网页数据集 给出了 11 个子集的平均评价指标数据 Average。 3.4 实验结果及分析 为了更直观展示本文算法收敛速度,13 个数 据集迭代收敛情况如图 2 所示。同时,在 13 个数 据集中对比实验结果如表 2~9 所示,其中表 2 是 酵母菌基因数据集对比试验结果,表 3 为场景数 据集对比实验实验结果,表 4~8 则是雅虎网页数 据集的实验结果,表 9 给出各算法在 13 个数据集 中实验的时间消耗,并给出平均时间消耗。在此 特别说明:因算法 ML-EKELM、ML-KELM、MLKNN 的分类器具有稳定性,10 次实验结果相同, 其标准差均为 0。 图 2 为 ML-EKELM 算法在 13 个多标记数据 集中以 Hamming Loss 为指标的迭代次数图,最终 收敛的 Hamming Loss 值用水平线表示。通过 图 2 可以看出,使用坐标下降法求解弹性网络正 则的 ML-EKELM 算法,迭代次数均小于 20 次,在 大部分数据集中都在 3 次左右迭代达到收敛,在 Arts 和 Business 数据集中算法迭代收敛次数分别 是 10 和 16 次。同时可以发现在 13 个数据集中 只有 Business 数据集迭代收敛时出现波动,这一 0.24 0.23 0.22 0.21 0.20 0.19 0.18 0 4 海明损失 8 迭代次数 (a) Yeast 12 16 20 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0 4 海明损失 8 迭代次数 (b) Scene 12 16 20 迭代次数 (c) Arts 0.064 0.062 0.060 0.058 0.056 0.054 0.052 0 4 海明损失 8 12 16 20 0.029 0.028 0.027 0.026 0.025 0.024 0 4 海明损失 8 迭代次数 (d) Business 12 16 20 0.046 0.044 0.042 0.040 0.038 0.036 0.034 0 4 海明损失 8 迭代次数 (e) Computers 12 16 20 0.046 0.044 0.042 0.040 0.038 0.036 0.034 0 4 海明损失 8 迭代次数 (f) Education 12 16 20 ·836· 智 能 系 统 学 报 第 14 卷
第4期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·837· 0.070 0.055 0.065r 0.065 0.050 0.045 0.060 0.060 0.040 0.055 0.035 0.050 0.030d 0.055 4 2 16 20 0 4 2 20 0 12 1620 选代次数 迭代次数 迭代次数 (g)Entertainment (h)Health (i)Recreation 0.036 0.036 0.034 0.034 0.035 0.032 米0030 0.028 0.030 0.033 0.024 0.026 0.031 0.022 0.024 0.030 0.020 0 16 20 4 12 1620 迭代次数 迭代次数 迭代次数 (j)Reference (k)Science (1)Social 0.064 0.062 0.060 0058 0.056 0.054 0.052 0.050 0 4 12 1620 迭代次数 (m)Society 图2ML-EKELM迭代次数 Fig.2 The number of ML-EKELM iterations 表2酵母菌基因数据集测试结果 Table 2 Test results of Yeast Gene data set 算法 HL↓ OEL CVI RLI AP↑ ML-EKELM 0.18760 0.2236±0 6.1210-0m 0.1567±0m 0.7750H0m ML-KELM 0.1941±02 0.2366+0d 6.42640) 0.1702±02 0.7618±02 RELM 0.19850.00026 0.23560.0019) 6.5691±0.01035 0.1776±0.0002 0.7555±0.0004 ELM 0.2472±0.00096 0.2375±0.00326 6.57430.01046 0.1778±0.00056 0.7554牡0.00106 ML-RBF 0.1978±0.00133 02372±0.00696 6.49630.02844 0.1736±0.0023 0.7586±0.00238) ML-KNN 0.1980±0④ 0.2345±0a 6.414402 0.1715±0) 0.758504 表3场景数据集测试结果 Table 3 Test results of Scene data set 算法 HLI OEL CVI RLI AP↑ ML-EKELM 0.0860±0 0.2048±0 0.46990 0.07320) 0.8755±0m ML-KELM 0.0920±02 0.2358±04 0.483302 0.07670e 0.8604±03) RELM 0.128440.00155 0.2350±0.0092) 0.5530±0.0120s 0.08830.0024 0.8548±0.0050a ELM 0.1346±0.00136 0.2415±0.0071 0.54900.0166 0.0880±0.00304 0.8525±0.00395 ML-RBF 0.0940±0.00133) 0.2321±0.00422 0.50663±0.00738 0.0805±0.00126 0.8607±0.00202 ML-KNN 0.0989H0④ 0.2425±06 0.5686±06 0.0931±06 0.8512±06
表 2 酵母菌基因数据集测试结果 Table 2 Test results of Yeast Gene data set 算法 HL↓ OE↓ CV↓ RL↓ AP↑ ML-EKELM 0.187 6±0(1) 0.223 6±0(1) 6.121 0±0(1) 0.156 7±0(1) 0.775 0±0(1) ML-KELM 0.194 1±0(2) 0.236 6±0(4) 6.426 4±0(3) 0.170 2±0(2) 0.761 8±0(2) RELM 0.198 5±0.000 2(5) 0.235 6±0.001 9(3) 6.569 1±0.010 3(5) 0.177 6±0.000 2(5) 0.755 5±0.000 4(5) ELM 0.247 2±0.000 9(6) 0.237 5±0.003 2(6) 6.574 3±0.010 4(6) 0.177 8±0.000 5(6) 0.755 4±0.001 0(6) ML-RBF 0.197 8±0.001 3(3) 0.237 2±0.006 9(5) 6.496 3±0.028 4(4) 0.173 6±0.002 3(4) 0.758 6±0.002 3(3) ML-KNN 0.198 0±0(4) 0.234 5±0(2) 6.414 4±0(2) 0.171 5±0(3) 0.758 5±0(4) 表 3 场景数据集测试结果 Table 3 Test results of Scene data set 算法 HL↓ OE↓ CV↓ RL↓ AP↑ ML-EKELM 0.086 0±0(1) 0.204 8±0(1) 0.469 9±0(1) 0.073 2±0(1) 0.875 5±0(1) ML-KELM 0.092 0±0(2) 0.235 8±0(4) 0.483 3±0(2) 0.076 7±0(2) 0.860 4±0(3) RELM 0.128 4±0.001 5(5) 0.235 0±0.009 2(3) 0.553 0±0.012 0(5) 0.088 3±0.002 4(5) 0.854 8±0.005 0(4) ELM 0.134 6±0.001 3(6) 0.241 5±0.007 1(5) 0.549 0±0.016 6(4) 0.088 0±0.003 0(4) 0.852 5±0.003 9(5) ML-RBF 0.094 0±0.001 3(3) 0.232 1±0.004 2(2) 0.506 63±0.007 3(3) 0.080 5±0.001 2(3) 0.860 7±0.002 0(2) ML-KNN 0.098 9±0(4) 0.242 5±0(6) 0.568 6±0(6) 0.093 1±0(6) 0.851 2±0(6) 0.070 0.065 0.060 0.055 0.050 0 4 海明损失 8 迭代次数 (g) Entertainment 12 16 20 0.055 0.050 0.045 0.040 0.035 0.030 0 4 海明损失 8 迭代次数 (h) Health 12 16 20 0.065 0.060 0.055 0 4 海明损失 8 迭代次数 (i) Recreation 12 16 20 0.036 0.034 0.032 0.030 0.028 0.026 0.024 0 4 海明损失 8 迭代次数 (j) Reference 12 16 20 0.036 0.035 0.034 0.033 0.032 0.031 0.030 0 4 海明损失 8 迭代次数 (k) Science 12 16 20 0.034 0.032 0.030 0.028 0.026 0.022 0.024 0.020 0 4 海明损失 8 迭代次数 (l) Social 12 16 20 0.064 0.062 0.060 0.058 0.056 0.054 0.052 0.050 0 4 海明损失 8 迭代次数 (m) Society 12 16 20 图 2 ML-EKELM 迭代次数 Fig. 2 The number of ML-EKELM iterations 第 4 期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·837·
·838· 智能系统学报 第14卷 表4雅虎网页数据集海明损失测试结果 Table 4 Test results of hamming lossl on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.05390m 0.054303 0.054540.00010.058640.000160.054240.0001e0.059306 Business 0.02490 0.0253±02 0.0254+0.000180.0287±0.000160.0255±0.00014 0.0267±05 Computers 0.03440 0.0347±03 0.0351±0.0001④0.0397±0.000160.03450.000320.0381±0 Education 0.0368±0 0.0376±03 0.0377±0.00010.0409H0.000160.03750.000220.0397±0s Entertainment 0.051340 0.0530±04 0.05250.00018)0.05820.000160.05150.000420.0570±0 Health 0.0329±0 0.0347±02 0.0347±0.0001250.04130.000160.03550.000240.0367±0 Recreation 0.0556±0 0.056103 0.05650.000140.0597±0.000160.0547±0.00020.059405 Reference 0.0250±0 0.0257±035 0.02570.00018.0.02930.000160.02520.0001a0.02730 Science 0.0301±0 0.0311±0a 0.0312±0.000140.0336±0.000160.0308±0.00012 0.03340 Social 0.020501.5 0.0205+015 0.0206t0.00018.0.02440.000160.020610.00013)0.021940 Society 0.0506±0 0.0517±03 0.0519H0.000240.05530.000160.05150.0001a0.05430 Average 0.0378±0.0128u0.03860.013030.0387±0.01300.04270.013260.03810.01272 0.04130.0140 表5雅虎网页数据集1错误率测试结果 Table 5 Test results of one-errorl on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.4583±0 0.4740±02 0.48030.00240.48840.001950.4759H0.0042)0.550306 Business 0.1120±0u 0.116303 0.1168±0.000940.11750.001050.1146±0.001220.1210±06 Computers 0.3457±0 0.357702 0.3610±0.00320.3664牡0.00310.35850.0043)0.414306 Education 0.4537±0m 0.466302 0.4718±0.0024a)0.4828±0.00290.47630.003440.512306 Entertainment 0.39970() 0.4110±03) 0.4130±0.002840.42250.004450.4067±0.004420.4987±06 Health 0.2460-0m 0.2637±03) 0.27160.003440.2758±0.00470.2602±0.003320.3040±06 Recreation 0.4597±0 0.463302 0.46840.0024a)0.48260.003350.4712±0.00460.5617±06 Reference 0.35730m 0.375003 0.3762±0.001540.38110.004750.3648±0.004020.4117±06 Science 0.4860±0 0.494302 0.4992±0.00333)0.51130.00390.5061±0.00360.557706 Social 0.2817±02 0.2807±0m 0.28530.002040.29520.003550.2819H0.0036)0.3210±06 Society 0.3907±0u 0.3970±02 0.4007±0.0017a)0.40820.00370.4045±0.00150.4280±06 Average 0.3628±0.1129 0.372740.114220.3768±0.11500.38470.118150.37460.117830.42550.13546 表6雅虎网页数据集覆盖率测试结果 Table 6 Test results of coveragel on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 5.1213±02 5.3377±03) 5.5812±0.03695.9071±0.033465.7788±0.03834 4.8050H0 Business 2.5023H02 2.5117±03 2.5430-0.02942.808340.0257162.77330.037452.14030u Computers 4.0030H0 4.7067±0④ 4.60830.0339a)4.9409H0.06175.0634±0.08386 4.023302 Education 4.2757402 4.3647±03) 4.49210.033205.5758±0.046565.368240.078753.40370w Entertainment 3.001 340) 3.1770±03) 3.3208±0.023343.5736±0.027053.8990±0.04386 3.0103±02 Health 3.293302 3.3787±03 3.598340.045704.03550.045963.7748±0.041052.78770a Recreation 4.09430m 4.2947±0④ 4.2339±0.02468)4.7156+0.035764.5297±0.04374.2997±02 Reference 3.448702 3.516303) 3.7601±0.04724.1129H0.040563.94250.03692.76970 Science 6.270302 6.557303) 6.9849H0.070707.5582±0.062067.2828±0.058555.7880H0m Social 3.714302 3.7523±03) 4.0361±0.042244.4551±0.048264.3701±0.074652.9280H0u Society 5.7630±02 6.0293±03 6.2731±0.028946.6179H0.050366.3341±0.042455.24870m Average 4.1352±1.163124.3297±1.2468) 4.4938±1.317844.9364+1.386064.7825±1.341853.7459牡1.1709a
表 4 雅虎网页数据集海明损失测试结果 Table 4 Test results of hamming loss↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.0539±0(1) 0.054 3±0(3) 0.054 5±0.000 1(4) 0.058 6±0.000 1(5) 0.054 2±0.000 1(2) 0.059 3±0(6) Business 0.024 9±0(1) 0.025 3±0(2) 0.025 4±0.000 1(3) 0.028 7±0.000 1(6) 0.025 5±0.000 1(4) 0.026 7±0(5) Computers 0.034 4±0(1) 0.034 7±0(3) 0.035 1±0.000 1(4) 0.039 7±0.000 1(6) 0.034 5±0.000 3(2) 0.038 1±0(5) Education 0.036 8±0(1) 0.037 6±0(3) 0.037 7±0.000 1(4) 0.040 9±0.000 1(6) 0.037 5±0.000 2(2) 0.039 7±0(5) Entertainment 0.051 3±0(1) 0.053 0±0(4) 0.052 5±0.000 1(3) 0.058 2±0.000 1(6) 0.051 5±0.000 4(2) 0.057 0±0(5) Health 0.032 9±0(1) 0.034 7±0(2.5) 0.034 7±0.000 1(2.5) 0.041 3±0.000 1(6) 0.035 5±0.000 2(4) 0.036 7±0(5) Recreation 0.055 6±0(2) 0.056 1±0(3) 0.056 5±0.000 1(4) 0.059 7±0.000 1(6) 0.054 7±0.000 2(1) 0.059 4±0(5) Reference 0.025 0±0(1) 0.025 7±0(3.5) 0.025 7±0.000 1(3.5) 0.029 3±0.000 1(6) 0.025 2±0.000 1(2) 0.027 3±0(5) Science 0.030 1±0(1) 0.031 1±0(3) 0.031 2±0.000 1(4) 0.033 6±0.000 1(6) 0.030 8±0.000 1(2) 0.033 4±0(5) Social 0.020 5±0(1.5) 0.020 5±0(1.5) 0.020 6±0.000 1(3.5) 0.024 4±0.000 1(6) 0.020 6±0.000 1(3.5) 0.021 9±0(5) Society 0.050 6±0(1) 0.051 7±0(3) 0.051 9±0.000 2(4) 0.055 3±0.000 1(6) 0.051 5±0.000 1(2) 0.054 3±0(5) Average 0.037 8±0.012 8(1) 0.038 6±0.013 0(3) 0.038 7±0.013 0(4) 0.042 7±0.013 2(6) 0.038 1±0.012 7(2) 0.041 3±0.014 0(5) 表 5 雅虎网页数据集 1-错误率测试结果 Table 5 Test results of one-error↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.4583±0(1) 0.474 0±0(2) 0.480 3±0.002 4(4) 0.488 4±0.001 9(5) 0.475 9±0.004 2(3) 0.550 3±0(6) Business 0.112 0±0(1) 0.116 3±0(3) 0.116 8±0.000 9(4) 0.117 5±0.001 0(5) 0.114 6±0.001 2(2) 0.121 0±0(6) Computers 0.345 7±0(1) 0.357 7±0(2) 0.361 0±0.003 2(4) 0.366 4±0.003 1(5) 0.358 5±0.004 3(3) 0.414 3±0(6) Education 0.453 7±0(1) 0.466 3±0(2) 0.471 8±0.002 4(3) 0.482 8±0.002 9(5) 0.476 3±0.003 4(4) 0.512 3±0(6) Entertainment 0.399 7±0(1) 0.411 0±0(3) 0.413 0±0.002 8(4) 0.422 5±0.004 4(5) 0.406 7±0.004 4(2) 0.498 7±0(6) Health 0.246 0±0(1) 0.263 7±0(3) 0.271 6±0.003 4(4) 0.275 8±0.004 7(5) 0.260 2±0.003 3(2) 0.304 0±0(6) Recreation 0.459 7±0(1) 0.463 3±0(2) 0.468 4±0.002 4(3) 0.482 6±0.003 3(5) 0.471 2±0.004 6(4) 0.561 7±0(6) Reference 0.357 3±0(1) 0.375 0±0(3) 0.376 2±0.001 5(4) 0.381 1±0.004 7(5) 0.364 8±0.004 0(2) 0.411 7±0(6) Science 0.486 0±0(1) 0.494 3±0(2) 0.499 2±0.003 3(3) 0.511 3±0.003 9(5) 0.506 1±0.003 6(4) 0.557 7±0(6) Social 0.281 7±0(2) 0.280 7±0(1) 0.285 3±0.002 0(4) 0.295 2±0.003 5(5) 0.281 9±0.003 6(3) 0.321 0±0(6) Society 0.390 7±0(1) 0.397 0±0(2) 0.400 7±0.001 7(3) 0.408 2±0.003 7(5) 0.404 5±0.001 5(4) 0.428 0±0(6) Average 0.362 8±0.112 9(1) 0.372 7±0.114 2(2) 0.376 8±0.115 0(4) 0.384 7±0.118 1(5) 0.374 6±0.117 8(3) 0.425 5±0.135 4(6) 表 6 雅虎网页数据集覆盖率测试结果 Table 6 Test results of coverage↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 5.121 3±0(2) 5.337 7±0(3) 5.581 2±0.036 9(5) 5.907 1±0.033 4(6) 5.778 8±0.038 3(4) 4.805 0±0(1) Business 2.502 3±0(2) 2.511 7±0(3) 2.543 0±0.029 4(4) 2.808 3±0.025 7(6) 2.773 3±0.037 4(5) 2.140 3±0(1) Computers 4.003 0±0(1) 4.706 7±0(4) 4.608 3±0.033 9(3) 4.940 9±0.061 7(5) 5.063 4±0.083 8(6) 4.023 3±0(2) Education 4.275 7±0(2) 4.364 7±0(3) 4.492 1±0.033 2(4) 5.575 8±0.046 5(6) 5.368 2±0.078 7(5) 3.403 7±0(1) Entertainment 3.001 3±0(1) 3.177 0±0(3) 3.320 8±0.023 3(4) 3.573 6±0.027 0(5) 3.899 0±0.043 8(6) 3.010 3±0(2) Health 3.293 3±0(2) 3.378 7±0(3) 3.598 3±0.045 7(4) 4.035 5±0.045 9(6) 3.774 8±0.041 0(5) 2.787 7±0(1) Recreation 4.094 3±0(1) 4.294 7±0(4) 4.233 9±0.024 6(3) 4.715 6±0.035 7(6) 4.529 7±0.043 7(5) 4.299 7±0(2) Reference 3.448 7±0(2) 3.516 3±0(3) 3.760 1±0.047 2(4) 4.112 9±0.040 5(6) 3.942 5±0.036 9(5) 2.769 7±0(1) Science 6.270 3±0(2) 6.557 3±0(3) 6.984 9±0.070 7(4) 7.558 2±0.062 0(6) 7.282 8±0.058 55(5) 5.788 0±0(1) Social 3.714 3±0(2) 3.752 3±0(3) 4.036 1±0.042 2(4) 4.455 1±0.048 2(6) 4.370 1±0.074 6(5) 2.928 0±0(1) Society 5.763 0±0(2) 6.029 3±0(3) 6.273 1±0.028 9(4) 6.617 9±0.050 3(6) 6.334 1±0.042 4(5) 5.248 7±0(1) Average 4.135 2±1.163 1(2) 4.329 7±1.246 8(3) 4.493 8±1.317 8(4) 4.936 4±1.386 0(6) 4.782 5±1.341 8(5) 3.745 9±1.170 9(1) ·838· 智 能 系 统 学 报 第 14 卷
第4期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·839· 表7雅虎网页数据集排序损失测试结果 Table 7 Test results of ranking lossl on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.1268±0m 0.1358±03 0.14340.001140.15360.001160.1498±0.00120.1279H02 Business 0.0412±02 0.041503) 0.0422±0.000640.04720.000560.04630.000650.035940a Computers 0.0802±0 0.0967±04 0.09490.00083)0.1028±0.001350.1058±0.002060.0812±02 Education 0.0884±02 0.0910±03) 0.09360.000640.11820.000960.1127±0.001650.0770±0a Entertainment 0.10030 0.1007±02 0.11390.000840.1244牡0.001250.1178±0.001960.1081±0a Health 0.0458±0 0.0517±03) 0.05630.000840.06560.000960.05870.000750.047302 Recreation 0.138204 0.1460±03 0.14360.000720.1634牡0.001660.1549H0.001740.1550±05 Reference 0.0808±02 0.0822±0a 0.0889H0.001140.09820.001160.0929牡0.001050.0689H0u Science 0.1146±02 0.1208±03) 0.1300±0.000740.14260.001460.1362±0.001350.1107±0a Social 0.0648±02 0.0656±03) 0.07090.000740.07960.001060.0770±0.001350.0537±0a Society 0.133402 0.1410-0a 0.1481±0.000640.15850.001460.1491±0.001150.13030 Average 0.0922±0.033720.0975t0.03588)0.10230.03660.1140±0.039160.1092±0.037460.09050.0385m 表8雅虎网页数据集平均精度测试结果 Table 8 Test results of average precision on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.62730m 0.614302 0.6071±0.00113)0.59820.000950.60660.00180.5697±06 Business 0.8869H0 0.8829H02 0.88230.000430.8774牡0.000860.88050.00120.882204 Computers 0.7110±0 0.7009牡02 0.6995±0.00138)0.6922±0.001850.6960±0.002640.6620±06 Education 0.6460-0m 0.6379H02 0.6331±0.001430.61560.001250.6211±0.002240.608206 Entertainment 0.690 4+0 0.6847±02 0.6778±0.0015④0.6681±0.00250.6794牡0.003030.6218±06 Health 0.7955±0 0.7824±02 0.77750.001740.76860.002550.7812±0.00120.7562±06 Recreation 0.6342±0 0.6287±02 0.6269H0.00153)0.61070.002050.6201±0.00260.561306 Reference 0.72020 0.7087±03) 0.7050±0.001540.69670.0027周0.70960.002120.6820±06 Science 0.6042±0 0.5968±02 0.5880±0.002130.57440.00220.5830±0.00200.5489H06 Social 0.77350m 0.7719牡02 0.7664牡0.00126)0.7555±0.001950.7644牡0.001540.755506 Society 0.6437±0m 0.6364±02 0.6304牡0.00126,0.62130.002150.6274牡0.001240.618106 Average 0.70300.08650.69510.08742 0.6904牡0.08898)0.6799H0.091350.6881±0.0909④0.66050.10226 表9时间测试结果 Table 9 The results of testing time 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Yeast Gene 0.3195 0.2226 0.2672 0.2632 0.1837 0.5856 Scene 0.3963 0.1205 0.1926 0.1879 0.5253 1.8458 Arts 1.4875 0.7399 0.7908 0.7761 1.3086 4.8530 Business 1.5270 0.8025 0.8484 0.8456 1.4196 4.8498 Computers 1.8349 0.8874 0.9324 0.9578 1.8377 5.2708 Education 1.8456 0.8684 0.9143 0.8933 1.6075 5.2772 Entertainment 1.1074 0.6859 0.7109 0.7009 1.3568 3.0407 Health 1.8133 0.8767 0.9311 0.9519 1.7286 4.8117 Recreation 1.4050 0.6948 0.7409 0.7397 1.3211 4.8543 Reference 1.4634 0.8940 0.9197 0.9004 2.3278 4.8061 Science 1.9429 1.0132 1.1561 1.0274 2.4827 4.3769 Social 1.9571 1.0462 1.1348 1.0756 5.3349 5.3888 Society 1.3783 0.8042 0.8706 0.8243 1.6436 4.8933 Average Time 1.4214 0.7428 0.8008 0.7803 1.7752 4.2195
表 7 雅虎网页数据集排序损失测试结果 Table 7 Test results of ranking loss↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.126 8±0(1) 0.1358±0(3) 0.143 4±0.001 1(4) 0.153 6±0.001 1(6) 0.149 8±0.001 2(5) 0.127 9±0(2) Business 0.041 2±0(2) 0.041 5±0(3) 0.042 2±0.000 6(4) 0.047 2±0.000 5(6) 0.046 3±0.000 6(5) 0.035 9±0(1) Computers 0.080 2±0(1) 0.096 7±0(4) 0.094 9±0.000 8(3) 0.102 8±0.001 3(5) 0.105 8±0.002 0(6) 0.081 2±0(2) Education 0.088 4±0(2) 0.091 0±0(3) 0.093 6±0.000 6(4) 0.118 2±0.000 9(6) 0.112 7±0.001 6(5) 0.077 0±0(1) Entertainment 0.100 3±0(1) 0.100 7±0(2) 0.113 9±0.000 8(4) 0.124 4±0.001 2(5) 0.117 8±0.001 9(6) 0.108 1±0(3) Health 0.045 8±0(1) 0.051 7±0(3) 0.056 3±0.000 8(4) 0.065 6±0.000 9(6) 0.058 7±0.000 7(5) 0.047 3±0(2) Recreation 0.138 2±0(1) 0.146 0±0(3) 0.143 6±0.000 7(2) 0.163 4±0.001 6(6) 0.154 9±0.001 7(4) 0.155 0±0(5) Reference 0.080 8±0(2) 0.082 2±0(3) 0.088 9±0.001 1(4) 0.098 2±0.001 1(6) 0.092 9±0.001 0(5) 0.068 9±0(1) Science 0.114 6±0(2) 0.120 8±0(3) 0.130 0±0.000 7(4) 0.142 6±0.001 4(6) 0.136 2±0.001 3(5) 0.110 7±0(1) Social 0.064 8±0(2) 0.065 6±0(3) 0.070 9±0.000 7(4) 0.079 6±0.001 0(6) 0.077 0±0.001 3(5) 0.053 7±0(1) Society 0.133 4±0(2) 0.141 0±0(3) 0.148 1±0.000 6(4) 0.158 5±0.001 4(6) 0.149 1±0.001 1(5) 0.130 3±0(1) Average 0.092 2±0.033 7(2) 0.097 5±0.035 8(3) 0.102 3±0.036 6(4) 0.114 0±0.039 1(6) 0.109 2±0.037 4(5) 0.090 5±0.038 5(1) 表 8 雅虎网页数据集平均精度测试结果 Table 8 Test results of average precision ↑ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.627 3±0(1) 0.614 3±0(2) 0.607 1±0.001 1(3) 0.598 2±0.000 9(5) 0.606 6±0.001 8(4) 0.569 7±0(6) Business 0.886 9±0(1) 0.882 9±0(2) 0.882 3±0.000 4(3) 0.877 4±0.000 8(6) 0.880 5±0.001 2(5) 0.882 2±0(4) Computers 0.711 0±0(1) 0.700 9±0(2) 0.699 5±0.001 3(3) 0.692 2±0.001 8(5) 0.696 0±0.002 6(4) 0.662 0±0(6) Education 0.646 0±0(1) 0.637 9±0(2) 0.633 1±0.001 4(3) 0.615 6±0.001 2(5) 0.621 1±0.002 2(4) 0.608 2±0(6) Entertainment 0.690 4±0(1) 0.684 7±0(2) 0.677 8±0.001 5(4) 0.668 1±0.002 5(5) 0.679 4±0.003 0(3) 0.621 8±0(6) Health 0.795 5±0(1) 0.782 4±0(2) 0.777 5±0.001 7(4) 0.768 6±0.002 5(5) 0.781 2±0.001 2(3) 0.756 2±0(6) Recreation 0.634 2±0(1) 0.628 7±0(2) 0.626 9±0.001 5(3) 0.610 7±0.002 0(5) 0.620 1±0.002 6(4) 0.561 3±0(6) Reference 0.720 2±0(1) 0.708 7±0(3) 0.705 0±0.001 5(4) 0.696 7±0.002 7(5) 0.709 6±0.002 1(2) 0.682 0±0(6) Science 0.604 2±0(1) 0.596 8±0(2) 0.588 0±0.002 1(3) 0.574 4±0.002 2(5) 0.583 0±0.002 0(4) 0.548 9±0(6) Social 0.773 5±0(1) 0.771 9±0(2) 0.766 4±0.001 2(3) 0.755 5±0.001 9(5) 0.764 4±0.001 5(4) 0.755 5±0(6) Society 0.643 7±0(1) 0.636 4±0(2) 0.630 4±0.001 2(3) 0.621 3±0.002 1(5) 0.627 4±0.001 2(4) 0.618 1±0(6) Average 0.703 0±0.086 5(1) 0.695 1±0.087 4(2) 0.690 4±0.088 9(3) 0.679 9±0.091 3(5) 0.688 1±0.090 9(4) 0.660 5±0.102 2(6) 表 9 时间测试结果 Table 9 The results of testing time s 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Yeast Gene 0.319 5 0.222 6 0.267 2 0.263 2 0.183 7 0.585 6 Scene 0.396 3 0.120 5 0.192 6 0.187 9 0.525 3 1.845 8 Arts 1.487 5 0.739 9 0.790 8 0.776 1 1.308 6 4.853 0 Business 1.527 0 0.802 5 0.848 4 0.845 6 1.419 6 4.849 8 Computers 1.834 9 0.887 4 0.932 4 0.957 8 1.837 7 5.270 8 Education 1.845 6 0.868 4 0.914 3 0.893 3 1.607 5 5.277 2 Entertainment 1.107 4 0.685 9 0.710 9 0.700 9 1.356 8 3.040 7 Health 1.813 3 0.876 7 0.931 1 0.951 9 1.728 6 4.811 7 Recreation 1.405 0 0.694 8 0.740 9 0.739 7 1.321 1 4.854 3 Reference 1.463 4 0.894 0 0.919 7 0.900 4 2.327 8 4.806 1 Science 1.942 9 1.013 2 1.156 1 1.027 4 2.482 7 4.376 9 Social 1.957 1 1.046 2 1.134 8 1.075 6 5.334 9 5.388 8 Society 1.378 3 0.804 2 0.870 6 0.824 3 1.643 6 4.893 3 Average Time 1.421 4 0.742 8 0.800 8 0.780 3 1.775 2 4.219 5 第 4 期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·839·
·840· 智能系统学报 第14卷 波动表明ML-EKELM算法在收敛过程中遇到局 数据集上,指标性能最优,在平均性能指标位列 部最小值并成功寻找到全局最小值,这也进一步 第2位,与平均指标性能最优的ML-KNN算法仅 说明该算法求解弹性网络具有较强的鲁棒性,并 相差1.9%;在AP↑指标上如表8所示,ML-EKELM 且效率较高。 算法在各个数据集上的性能指标均为最优。在雅 表2中,在Yeast Gene数据集上与其他算法 虎网页数据集中,可以看出在CV)和RL评价指 对比,ML-EKELM算法在5种评价指标中均为第 标上,ML-KNN具有一定优势,但HL↓、OE!和 1,在HL指标中较第2位算法降低3.5%损失;如 AP↑则排名靠后。而本文提出的算法在HL↓、 表3所示,在Scene数据集中,本文ML-EKELM OE和AP↑上都具有较大优势,在CV和RL↓上 算法同样在5种评价指标中最为优秀,在OE指 对比其他算法也处于优势地位。 标中比第2位算法降低11.8%错误率,同时在AP↑ 各算法在多个数据集实验的时间消耗如表9 指标中比第2位算法提高1.7%准确率:雅虎网页 所示,本文提出的算法ML-EKELM由于采用坐标 数据集包含11个子数据集,其中分别对每个评价 下降法求解弹性网络,是一种迭代算法,所以在 指标在各个子数据集中做出比较,如表4所示, 平均时间消耗上高于直接求解矩阵解析解的 在HLl指标上,Arts、Business、Computers、Educa- 3种ELM算法77.5%~91.4%,但该算法平均时间 tion、Entertainment、Health、Reference,Science和 消耗低于ML-RBF算法24.9%,平均时间消耗低 Society等数据集中ML-EKELM性能最优,在Re- 于ML-KNN算法196.9%。从时间消耗可以看出 creation数据集上,该算法位列第2,与第1位算法 ML-EKELM算法对比传统ELM算法有一定差 相差仅1.6%,在数据集Social上,ML-EKELM与 距,但是对于其他多标记学习算法具有一定优 ML-KELM性能并列第1,在HL的平均指标中可 势,ML-EKELM兼具准确率高与时间消耗较低的 以看出,ML-EKELM算法性能最优。在表5 特点。 中,对比了不同算法在各个数据集上的OE!指标 为了更清晰地展示各算法在13个数据集上 数值,其中在Social数据集上,ML-EKELM较 的相对性能,采用显著性水平为5%的Nemenyi ML-KELM相差仅为0.3%,排位第2,在其他数据 检验。当两个对比算法在各数据集中的平均排 集中该指标均为最优;11个子数据集在CV)指标 序差值小于或等于临界差(critical difference,CD), 上如表6所示,ML-EKELM算法在Computers、 则认为这两个算法没有显著性差异;反之则2个 Entertainment和Recreation数据集中指标上最优, 算法有显著性差异。图3给出了在5种评价指标 其他数据均为第2,与平均指标性能最优的ML-KNN 下各算法的性能,其CD值为2.0913,没有显著性 算法相差10.4%。 差异的算法用实线相连,在图3评价指标子图中 在RL指标上如表7所示,该算法在Ats、 各算法坐标即平均排序位置,数值越小则算法性 Computers、Entertainment、Health和Recreation等 能越高。 CD CD 63 ML-EKELM ELM ML-EKELM ELM ML-RBF ML-KNN ML-RBF ML-KNN ML-KELM RELM ML-KELM -RELM (a)海明损失 (b)1-错误率 CD CD 6 ML-EKELM ELM ML-EKELM ELM ML-KNN ML-RBF ML-KNN ML-RBF ML-KELM RELM ML-KELM RELM (c)覆盖率 (d排序损失 CD 6 ML-EKELM ELM ML-KNN ML-RBF ML-KELM RELM (e)平均精度 图3算法性能比较 Fig.3 The performance comparison of algorithms
波动表明 ML-EKELM 算法在收敛过程中遇到局 部最小值并成功寻找到全局最小值,这也进一步 说明该算法求解弹性网络具有较强的鲁棒性,并 且效率较高。 表 2 中,在 Yeast Gene 数据集上与其他算法 对比,ML-EKELM 算法在 5 种评价指标中均为第 1,在 HL↓指标中较第 2 位算法降低 3.5% 损失;如 表 3 所示,在 Scene 数据集中,本文 ML-EKELM 算法同样在 5 种评价指标中最为优秀,在 OE↓指 标中比第 2 位算法降低 11.8% 错误率,同时在 AP↑ 指标中比第 2 位算法提高 1.7% 准确率;雅虎网页 数据集包含 11 个子数据集,其中分别对每个评价 指标在各个子数据集中做出比较,如表 4 所示, 在 HL↓指标上,Arts、Business、Computers、Education、Entertainment、Health、Reference,Science 和 Society 等数据集中 ML-EKELM 性能最优,在 Recreation 数据集上,该算法位列第 2,与第 1 位算法 相差仅 1.6%,在数据集 Social 上,ML-EKELM 与 ML-KELM 性能并列第 1,在 HL↓的平均指标中可 以看出, ML-EKELM 算法性能最优。在 表 5 中,对比了不同算法在各个数据集上的 OE↓指标 数值,其中在 Social 数据集上,ML-EKELM 较 ML-KELM 相差仅为 0.3%,排位第 2,在其他数据 集中该指标均为最优;11 个子数据集在 CV↓指标 上如表 6 所示,ML-EKELM 算法在 Computers、 Entertainment 和 Recreation 数据集中指标上最优, 其他数据均为第 2,与平均指标性能最优的 ML-KNN 算法相差 10.4%。 在 RL↓指标上如表 7 所示,该算法在 Arts、 Computers、Entertainment、Health 和 Recreation 等 数据集上,指标性能最优,在平均性能指标位列 第 2 位,与平均指标性能最优的 ML-KNN 算法仅 相差 1.9%;在 AP↑指标上如表 8 所示,ML-EKELM 算法在各个数据集上的性能指标均为最优。在雅 虎网页数据集中,可以看出在 CV↓和 RL↓评价指 标上,ML-KNN 具有一定优势,但 HL↓、OE↓和 AP↑则排名靠后。而本文提出的算法在 HL↓、 OE↓和 AP↑上都具有较大优势,在 CV↓和 RL↓上 对比其他算法也处于优势地位。 各算法在多个数据集实验的时间消耗如表 9 所示,本文提出的算法 ML-EKELM 由于采用坐标 下降法求解弹性网络,是一种迭代算法,所以在 平均时间消耗上高于直接求解矩阵解析解的 3 种 ELM 算法 77.5%~91.4%,但该算法平均时间 消耗低于 ML-RBF 算法 24.9%,平均时间消耗低 于 ML-KNN 算法 196.9%。从时间消耗可以看出 ML-EKELM 算法对比传统 ELM 算法有一定差 距,但是对于其他多标记学习算法具有一定优 势,ML-EKELM 兼具准确率高与时间消耗较低的 特点。 为了更清晰地展示各算法在 13 个数据集上 的相对性能,采用显著性水平为 5% 的 Nemenyi 检验[29]。当两个对比算法在各数据集中的平均排 序差值小于或等于临界差 (critical difference,CD), 则认为这两个算法没有显著性差异;反之则 2 个 算法有显著性差异。图 3 给出了在 5 种评价指标 下各算法的性能,其 CD 值为 2.0913,没有显著性 差异的算法用实线相连,在图 3 评价指标子图中 各算法坐标即平均排序位置,数值越小则算法性 能越高。 CD 1 ML-EKELM ML-RBF ML-KELM ELM ML-KNN RELM 2 3 4 5 6 CD 1 ML-EKELM ML-RBF ML-KELM ELM ML-KNN RELM 2 3 4 5 6 CD 1 ML-EKELM ML-KNN ML-KELM ELM ML-RBF RELM 2 3 4 5 6 CD 1 ML-EKELM ML-KNN ML-KELM ELM ML-RBF RELM 2 3 4 5 6 CD 1 ML-EKELM ML-KNN ML-KELM ELM ML-RBF RELM 2 3 4 5 6 (a) 海明损失 (b) 1-错误率 (c) 覆盖率 (d) 排序损失 (e) 平均精度 图 3 算法性能比较 Fig. 3 The performance comparison of algorithms ·840· 智 能 系 统 学 报 第 14 卷