【机器学习】弹性网络核极限学习机的多标记学习算法

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：3.92MB

第14卷第4期智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201806005 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.tp.20190321.0909.002.html 弹性网络核极限学习机的多标记学习算法王一宾2，裴根生，程玉胜2 (1.安庆师范大学计算机与信息学院，安徽安庆246011,2.安徽省高校智能感知与计算重点实验室，安徽安庆246011) 摘要：将正则化极限学习机或者核极限学习机理论应用到多标记分类中，一定程度上提高了算法的稳定性。但目前这些算法关于损失函数添加的正则项都基于L2正则，导致模型缺乏稀疏性表达。同时，弹性网络正则化既保证模型鲁棒性且兼具模型稀疏化学习，但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。基于此，本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先，对多标记数据特征空间使用径向基核函数映射：随后，对核极限学习机损失函数施加弹性网络正则项：最后，采用坐标下降法迭代求解输出权值以得到最终预测标记。通过对比试验和统计分析表明，提出的算法具有更好的性能表现。关键词：多标记学习：核极限学习机：正则化：弹性网络：径向基函数：坐标下降法中图分类号：TP391文献标志码：A 文章编号：1673-4785(2019)04-0831-12 中文引用格式：王一宾，裴根生，程玉胜.弹性网络核极限学习机的多标记学习算法J.智能系统学报，2019,14(4)： 831-842. 英文引用格式：WANG Yibin,PEI Gensheng,.CHENG Yusheng.Multi---label learning algorithm of an elastic net kernel extreme learning machine[J.CAAI transactions on intelligent systems,2019,14(4):831-842. Multi-label learning algorithm of an elastic net kernel extreme learning machine WANG Yibin2,PEI Gensheng',CHENG Yusheng'2 (1.School of Computer and Information,Anqing Normal University,Anqing 246011,China;2.The University Key Laboratory of In- telligent Perception and Computing of Anhui Province,Anqing 246011,China) Abstract:Regularized extreme learning machine or kernel extreme learning machine theory was applied to multi-label classification,which improves the stability of the algorithm to a certain extent.However,the regularization terms added by these algorithms for loss functions are all based on L2 regularization,which leads to the lack of sparse expression of the model.Simultaneously,elastic net regularization guarantees both model robustness and model sparse learning.Nev- ertheless,there is insufficient research on how to solve multi-label learning problems by combining elastic net kernel ex- treme learning machines.Based on this hypothesis,this paper proposes a multi-label learning algorithm that adds elastic network regularization to kernel extreme learning machines.It first uses radial basis function mapping for feature spa- cing of multi-label;subsequently,it applies the elastic net regularization to the loss function of kernel extreme learning machine.Finally,it uses the coordinate descent method to iteratively solve the output weights to get the final prediction labels.Through comparative experiments and statistical analyses,the proposed method demonstrates better performance Keywords:multi-label learning;kernel extreme learning machine;regularization;elastic net;radial basis function;co- ordinate descent 收稿日期：2018-06-02.网络出版日期：2019-03-22 近年来，随着人工智能的迅速发展，标记学习基金项目：安徽省高校重点科研项目(KJ2017A352):安微省高校重点实验室基金项目(ACAIM160102). 成为其重点的研究领域之一。其中单标记学习将通信作者：程玉胜.E-mail:chengyshaq@163.com. 每个示例由一个特征向量和一个标记来描述；而

DOI: 10.11992/tis.201806005 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190321.0909.002.html 弹性网络核极限学习机的多标记学习算法王一宾1,2，裴根生1 ，程玉胜1,2 （1. 安庆师范大学计算机与信息学院，安徽安庆 246011; 2. 安徽省高校智能感知与计算重点实验室，安徽安庆 246011）摘要：将正则化极限学习机或者核极限学习机理论应用到多标记分类中，一定程度上提高了算法的稳定性。但目前这些算法关于损失函数添加的正则项都基于 L2 正则，导致模型缺乏稀疏性表达。同时，弹性网络正则化既保证模型鲁棒性且兼具模型稀疏化学习，但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。基于此，本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先，对多标记数据特征空间使用径向基核函数映射；随后，对核极限学习机损失函数施加弹性网络正则项；最后，采用坐标下降法迭代求解输出权值以得到最终预测标记。通过对比试验和统计分析表明，提出的算法具有更好的性能表现。关键词：多标记学习；核极限学习机；正则化；弹性网络；径向基函数；坐标下降法中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)04−0831−12 中文引用格式：王一宾, 裴根生, 程玉胜. 弹性网络核极限学习机的多标记学习算法 [J]. 智能系统学报, 2019, 14(4): 831–842. 英文引用格式：WANG Yibin, PEI Gensheng, CHENG Yusheng. Multi-label learning algorithm of an elastic net kernel extreme learning machine[J]. CAAI transactions on intelligent systems, 2019, 14(4): 831–842. Multi-label learning algorithm of an elastic net kernel extreme learning machine WANG Yibin1,2 ，PEI Gensheng1 ，CHENG Yusheng1,2 (1. School of Computer and Information, Anqing Normal University, Anqing 246011, China; 2. The University Key Laboratory of Intelligent Perception and Computing of Anhui Province, Anqing 246011, China) Abstract: Regularized extreme learning machine or kernel extreme learning machine theory was applied to multi-label classification, which improves the stability of the algorithm to a certain extent. However, the regularization terms added by these algorithms for loss functions are all based on L2 regularization, which leads to the lack of sparse expression of the model. Simultaneously, elastic net regularization guarantees both model robustness and model sparse learning. Nevertheless, there is insufficient research on how to solve multi-label learning problems by combining elastic net kernel extreme learning machines. Based on this hypothesis, this paper proposes a multi-label learning algorithm that adds elastic network regularization to kernel extreme learning machines. It first uses radial basis function mapping for feature spacing of multi-label; subsequently, it applies the elastic net regularization to the loss function of kernel extreme learning machine. Finally, it uses the coordinate descent method to iteratively solve the output weights to get the final prediction labels. Through comparative experiments and statistical analyses, the proposed method demonstrates better performance. Keywords: multi-label learning; kernel extreme learning machine; regularization; elastic net; radial basis function; coordinate descent 近年来，随着人工智能的迅速发展，标记学习成为其重点的研究领域之一。其中单标记学习将每个示例由一个特征向量和一个标记来描述；而收稿日期：2018−06−02. 网络出版日期：2019−03−22. 基金项目：安徽省高校重点科研项目 (KJ2017A352)；安徽省高校重点实验室基金项目 (ACAIM160102). 通信作者：程玉胜. E-mail：chengyshaq@163.com. 第 14 卷第 4 期智能系统学报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019

·832· 智能系统学报第14卷多标记学习山则将一个示例同时分配给多个标可以直接处理回归问题、单标记和多标记分类。记，即每个对象由一个特征向量和一个二元标记基于ELM的多标记分类算法，ER等1]和Sun 向量来表示。多标记学习的这种示例表达方式更等19]利用ELM提出一种高速多标记分类器模加契合现实世界对象存在的多义性，因此多标记型，将ELM适应于多标记数据集，分类效果较为学习成为模式识别与标记学习的重点研究课题之理想。Zhang等2o提出了一种多层ELM-RBF算一，并已成功应用于文本分类)、图像识别、生法，改变传统ELM算法的单隐藏层策略，使用多物学习囵和情感分析等领域。隐藏层来实现多标记分类，在分类精度上也取得目前，在多标记学习问题中，诸多学者已研究了不错的效果。Luo等2u首次采用核ELM来处并提出多种多标记学习算法，而这些方法大致可理多标记问题，以保证分类算法的稳定性。对于以分为2类，即问题转换法和算法适应法。其中多标记学习与正则化理论结合部分。Han等四提问题转换法是将多标记学习任务转换为一个或者出将多标记学习作为弹性网络惩罚的最小二乘优多个相应单标记学习任务，然后再通过传统单标化问题，并不使用L1惩罚进行稀疏表示。本文创记学习方法进行处理，典型算法包括BR、LPI、作的思想来源于此，且已有研究表明在多标记数 PPT和RAKEL等。而算法适应法通过扩展特据集中特征之间存在着相关性和冗余性，此时将定单标记学习算法，修改其约束条件从而可以直 RELM原L2正则项用弹性网络正则代替，既保证接处理多标记学习任务，例如ML-KNNU01、ML 模型稳定性也可对模型进行稀疏性表示。 NB、Rank.SVM2I和ML-RBF1等。而这些适结合上述ELM算法和正则化理论，本文首次应型算法就是将最近邻(k-nearest neighbors,. 将弹性网络正则结合核极限学习机(kernel ex- KNN)、朴素贝叶斯(naive bayes,NB)、支持向量机 treme learning machine,.KELM)应用到多标记分类 (support vector machine,.SVM)和径向基函数(radi- 中，使用弹性网络正则约束核KELM,提出基于弹 al basis function,RBF)神经网络等算法适应于多性网络极限学习机的多标记学习算法(multi--label 标记数据。这些改造的算法在多标记学习中取得 learning algorithm of elastic net kernel extreme learn- 了不错的效果。但其中BR、LP、ML-KNN、MLNB ing machine,ML-EKELM)。该算法通过KELM映和Rank-SVM等算法因本身特点所限，导致其时射特征空间，然后对损失函数添加弹性网络21正间消耗较大。则项，最后采用坐标下降法2迭代求解多标记目为了解决分类算法时间消耗大的问题，近年标优化问题。KELM与弹性网络的结合提高了算间，部分学者提出了多种基于极限学习机(ex- 法鲁棒性，保证了模型稀疏性，提供了一种基于 treme learning machine,ELM)的多标记学习算 ELM解决多标记问题的新途径。通过对比现有法。ELM是由Huang等u,提出的是一种单隐藏基于ELM的先进多标记算法和经典多标记算法，层前馈神经网络(single-.hidden layer feedforward 验证了本文算法的有效性和可靠性。 neural networks,.SLFNs)算法，该算法具有模型设 1基本理论研究计简单、运行速度快和泛化性能高等特点，在多标记学习中具有良好的性能表现。为提高ELM 1.1 极限学习机理论分类模型的稳定性及鲁棒性，邓万宇等提出正传统神经网络算法需要较多的网络参数设则极限学习机算法(regularized extreme learning 置，在求解最优解时很有可能出现局部最优解， machine,RELM),对损失函数施加L2惩罚以避免而无法得到全局最优解。而极限学习机是一种高分类模型出现过拟合现象。随后，Miche等lo提效且具有优化学习算法的单隐层前馈神经网络， TROP-ELM(tikhonov-regularized optimally 求解时只需设置隐藏层节点数，并随机初始化权 pruned extreme learning machine,TROP-ELM) 值和偏置就可求解出全局最优解。ELM求解单法，将L1和L2惩罚级联使用，对隐藏层神经元隐层前馈神经网络，可分为2个阶段：随机特征映施加L1惩罚，对回归权重施加L2惩罚，以达到射和线性参数求解。删减神经元个数和稳定数值的作用。但这些算法在对ELM两个阶段进行分析之前，需要做出都需要随机初始化权值和偏置，使得算法对于随以下形式化定义：设有N个随机样本{(X,Y)川机值敏感，导致算法稳定性不高。为处理这一问 i=1,2,…,W,其中特征空间与标记空间可分别表题，Huang等)提出使用核函数映射特征空间以示为X,=[xx2…xnJ,Y=yay2…ymJ,则对于具代替传统隐藏层随机特征映射函数，使得该算法有L个隐藏节点的单隐藏层神经网络形式化定

多标记学习[1] 则将一个示例同时分配给多个标记，即每个对象由一个特征向量和一个二元标记向量来表示。多标记学习的这种示例表达方式更加契合现实世界对象存在的多义性，因此多标记学习成为模式识别与标记学习的重点研究课题之一，并已成功应用于文本分类[2-3] 、图像识别[4] 、生物学习[5] 和情感分析[6] 等领域。目前，在多标记学习问题中，诸多学者已研究并提出多种多标记学习算法，而这些方法大致可以分为 2 类，即问题转换法和算法适应法。其中问题转换法是将多标记学习任务转换为一个或者多个相应单标记学习任务，然后再通过传统单标记学习方法进行处理，典型算法包括 BR[4] 、LP[7] 、 PPT[8] 和 RAKEL[9] 等。而算法适应法通过扩展特定单标记学习算法，修改其约束条件从而可以直接处理多标记学习任务，例如 ML-KNN[10] 、MLNB[11] 、Rank-SVM[12] 和 ML-RBF[13] 等。而这些适应型算法就是将最近邻 (k-nearest neighbors， KNN)、朴素贝叶斯 (naive bayes，NB)、支持向量机 (support vector machine，SVM) 和径向基函数 (radial basis function，RBF) 神经网络等算法适应于多标记数据。这些改造的算法在多标记学习中取得了不错的效果。但其中 BR、LP、ML-KNN、MLNB 和 Rank-SVM 等算法因本身特点所限，导致其时间消耗较大。为了解决分类算法时间消耗大的问题，近年间，部分学者提出了多种基于极限学习机 (extreme learning machine，ELM) 的多标记学习算法。ELM 是由 Huang 等 [14] 提出的是一种单隐藏层前馈神经网络 (single-hidden layer feedforward neural networks，SLFNs) 算法，该算法具有模型设计简单、运行速度快和泛化性能高等特点，在多标记学习中具有良好的性能表现。为提高 ELM 分类模型的稳定性及鲁棒性，邓万宇等[15] 提出正则极限学习机算法 (regularized extreme learning machine，RELM)，对损失函数施加 L2 惩罚以避免分类模型出现过拟合现象。随后，Miche 等 [16] 提出 TROP-ELM(tikhonov-regularized optimally pruned extreme learning machine，TROP-ELM) 算法，将 L1 和 L2 惩罚级联使用，对隐藏层神经元施加 L1 惩罚，对回归权重施加 L2 惩罚，以达到删减神经元个数和稳定数值的作用。但这些算法都需要随机初始化权值和偏置，使得算法对于随机值敏感，导致算法稳定性不高。为处理这一问题，Huang 等 [17] 提出使用核函数映射特征空间以代替传统隐藏层随机特征映射函数，使得该算法可以直接处理回归问题、单标记和多标记分类。基于 ELM 的多标记分类算法，ER 等 [ 1 8 ] 和 Sun 等 [19] 利用 ELM 提出一种高速多标记分类器模型，将 ELM 适应于多标记数据集，分类效果较为理想。Zhang 等 [20] 提出了一种多层 ELM-RBF 算法，改变传统 ELM 算法的单隐藏层策略，使用多隐藏层来实现多标记分类，在分类精度上也取得了不错的效果。Luo 等 [21] 首次采用核 ELM 来处理多标记问题，以保证分类算法的稳定性。对于多标记学习与正则化理论结合部分。Han 等 [22] 提出将多标记学习作为弹性网络惩罚的最小二乘优化问题，并不使用 L1 惩罚进行稀疏表示。本文创作的思想来源于此，且已有研究表明在多标记数据集中特征之间存在着相关性和冗余性，此时将 RELM 原 L2 正则项用弹性网络正则代替，既保证模型稳定性也可对模型进行稀疏性表示。结合上述 ELM 算法和正则化理论，本文首次将弹性网络正则结合核极限学习机 (kernel extreme learning machine，KELM) 应用到多标记分类中，使用弹性网络正则约束核 KELM，提出基于弹性网络极限学习机的多标记学习算法 (multi-label learning algorithm of elastic net kernel extreme learning machine，ML-EKELM)。该算法通过 KELM 映射特征空间，然后对损失函数添加弹性网络[23] 正则项，最后采用坐标下降法[24] 迭代求解多标记目标优化问题。KELM 与弹性网络的结合提高了算法鲁棒性，保证了模型稀疏性，提供了一种基于 ELM 解决多标记问题的新途径。通过对比现有基于 ELM 的先进多标记算法和经典多标记算法，验证了本文算法的有效性和可靠性。 1 基本理论研究 1.1 极限学习机理论传统神经网络算法需要较多的网络参数设置，在求解最优解时很有可能出现局部最优解，而无法得到全局最优解。而极限学习机是一种高效且具有优化学习算法的单隐层前馈神经网络，求解时只需设置隐藏层节点数，并随机初始化权值和偏置就可求解出全局最优解。ELM 求解单隐层前馈神经网络，可分为 2 个阶段：随机特征映射和线性参数求解。 {(Xi ,Yi)| i = 1,2,··· ,N} Xi = [xi1 xi2 ··· xin] T Yi = [ yi1yi2 ··· yim ]T 在对 ELM 两个阶段进行分析之前，需要做出以下形式化定义：设有 N 个随机样本，其中特征空间与标记空间可分别表示为，，则对于具有 L 个隐藏节点的单隐藏层神经网络形式化定 ·832· 智能系统学报第 14 卷

第4期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·833· 义为： L1正则化和弹性网络正则化等使用较为普遍。五X》=∑Bg(X 这些正则化方法详细描述如下： (1) i=1 1)L2正则(Ridge Regression) 式中：B,=BB2…BmJ'表示输出权值；g,表示第 L2正则化模型（也称为岭回归）是在最小化 i个隐藏节点的输出，实质为激活函数，并可表示损失函数后添加正则项，其中参数为： 1∈[0，+o],起到降低权重的作用，最终得到目标 8i(X)=8(w;.X;+bi) (2) 函数：式中：w,=waw2…wmJT为输人权值；b,表示第i个 L2=minllβ-Y匠+IlB (9) 隐藏神经元的偏置；·表示为点积。通常式(1) 2)L1正则(Lasso)) 用来建模回归，对于分类问题可使用sigmoid函 L1正则化模型（也称为Lasso模型）则是在最数来限制输出值的范围，从而达到分类效果。小化损失函数添加正则项B刚1，其中1∈0，+∞，以上为ELM的第1阶段即随机特征映射，对而Lasso最大的特点在于产生稀疏权值矩阵，构于第2阶段的线性参数求解，通过最小化平方误造出稀疏模型已达到特征选择的作用，最终目标差的近似误差来求解连接隐藏层和输出层的权函数为值B。可表示为： L1=minlβ-YTg+IlB (10) minlHB-Y2 (3) 3)L2&Ll正则(Elastic Net) 式中H为隐藏层输出矩阵，即弹性网络正则化是一种结合L1正则与L2正 h(x) h1(x1)h2(x1) hi(x1)1 则的各自优点的新型正则化方法，即在最小化损 h(x2) h1(x2)h2(x2) h(x2) H= (4) 失函数添加正则项(aB吼，+(1-a)),其中 h(xN) h(xN)h(xN) ·hz(xw) 1∈[0，+oo,a∈0,1]，目标函数定义为 Y为训练标记矩阵： LElastieNet minellHB-Y+ y11 y12 y1m 2(aBL,+(1-a)IB1) (11) y21 '22 通过式(11)可知：当a=0时，Elastic Net即为 Y= (5) L2正则；当a=l时，Elastic Net即为L1正则；当 yN2 a∈(O,1)时，Elastic Net将保留L2和L1正则各自通过式(1)、式(3)，最小二乘解为特点，达到弹性2种正则的作用。根据这一特点 B=HY (6) 给出3种正则化的二维图像描述，如图1所示。式中H表示H的Moore-Penrose广义逆矩阵，表示为一Ridge -Lasso -Elastic Net s.t.H= (H)H,HH非奇异 H(HH),HHT非奇异 (7) 最终求出的B即可以预测未知标记，表示为》=H邱 (8) 1.2正则化理论在机器学习中，偏差(bias)与方差(variance) 共同影响模型的准确率。高偏差容易导致模型欠拟合(unfitting),高方差则会导致模型过拟合 (overfitting)。通常，解决高偏差可选择使用更为复杂的模型或增加模型参数来降低偏差值，但这就会导致模型过拟合情况发生。而正则化理论是图13种正则化比较解决高方差或避免训练模型过拟合的有效方法之 Fig.1 The comparison of three regularizations 一，在机器学习领域被广泛使用。 2基于弹性网络核极限学习机算法通过正则化方式，可以降低模型的复杂度，避免可能的过度拟合。近年来，研究者提出了多种 2.1基于ELM的多标记学习适合机器学习的正则化方法，其中L2正则化、传统单标记学习无法对于真实世界对象多语

义为： fL(Xj) = ∑L i=1 βigi(Xj) (1) βi = [ βi1βi2 ···βim 式中： ]T表示输出权值； gi 表示第 i 个隐藏节点的输出，实质为激活函数，并可表示为： gi ( Xj ) = g ( wi · Xj +bi ) (2) wi = [wi1wi2 ···wim] 式中： T为输入权值；bi 表示第 i 个隐藏神经元的偏置； ∙表示为点积。通常式 (1) 用来建模回归，对于分类问题可使用 sigmoid 函数来限制输出值的范围，从而达到分类效果。以上为 ELM 的第 1 阶段即随机特征映射，对于第 2 阶段的线性参数求解，通过最小化平方误差的近似误差来求解连接隐藏层和输出层的权值 β。可表示为： min β ∥Hβ−Y∥ 2 (3) 式中 H 为隐藏层输出矩阵，即 H =   h(x1) h(x2) . . . h(xN)   =   h1 (x1) h2 (x1) ··· hL (x1) h1 (x2) h2 (x2) ··· hL (x2) . . . . . . h1 (xN) h2 (xN) ··· hL (xN)   (4) Y 为训练标记矩阵： Y =   y T 1 y T 2 . . . y T N   =   y11 y12 ··· y1m y21 y22 ··· y2m . . . . . . yN1 yN2 ··· yNm   (5) 通过式 (1)、式 (3)，最小二乘解为 βˆ = H †Y (6) 式中 H †表示 H 的 Moore-Penrose 广义逆矩阵，表示为 s.t. H † = { ( HTH )−1HT , HTH非奇异 HT ( HHT )−1 , HHT非奇异 (7) 最终求出的 βˆ即可以预测未知标记，表示为 Yˆ = Hβˆ (8) 1.2 正则化理论在机器学习中，偏差 (bias) 与方差 (variance) 共同影响模型的准确率。高偏差容易导致模型欠拟合 (unfitting)，高方差则会导致模型过拟合 (overfitting)。通常，解决高偏差可选择使用更为复杂的模型或增加模型参数来降低偏差值，但这就会导致模型过拟合情况发生。而正则化理论是解决高方差或避免训练模型过拟合的有效方法之一，在机器学习领域被广泛使用。通过正则化方式，可以降低模型的复杂度，避免可能的过度拟合。近年来，研究者提出了多种适合机器学习的正则化方法，其中 L2 正则化、 L1 正则化和弹性网络正则化等使用较为普遍。这些正则化方法详细描述如下： 1) L2 正则 (Ridge Regression) λ ∥β∥ 2 2 λ ∈ [0,+∞] L2 正则化模型 (也称为岭回归) 是在最小化损失函数后添加正则项，其中参数，起到降低权重的作用，最终得到目标函数： L2 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥ 2 2 (9) 2) L1 正则 (Lasso) λ∥β∥1 λ ∈ [0,+∞] L1 正则化模型 (也称为 Lasso 模型) 则是在最小化损失函数添加正则项，其中，而 Lasso 最大的特点在于产生稀疏权值矩阵，构造出稀疏模型已达到特征选择的作用，最终目标函数为 L1 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥1 (10) 3) L2&L1 正则 (Elastic Net) λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) λ ∈ [0,+∞] α ∈ [0,1] 弹性网络正则化是一种结合 L1 正则与 L2 正则的各自优点的新型正则化方法，即在最小化损失函数添加正则项，其中，，目标函数定义为 LElasticNet = minβ ∥Hβ−Y∥ 2 2 + λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) (11) α ∈ (0,1) 通过式 (11) 可知：当 α=0 时，Elastic Net 即为 L2 正则；当 α=1 时，Elastic Net 即为 L1 正则；当时，Elastic Net 将保留 L2 和 L1 正则各自特点，达到弹性 2 种正则的作用。根据这一特点给出 3 种正则化的二维图像描述，如图 1 所示。 Ridge Lasso Elastic Net β 2 β O 1 图 1 3 种正则化比较 Fig. 1 The comparison of three regularizations 2 基于弹性网络核极限学习机算法 2.1 基于 ELM 的多标记学习传统单标记学习无法对于真实世界对象多语第 4 期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·833·

·834· 智能系统学报第14卷义性、概念复杂性进行有效处理，且无法满足目则可以使得某些参数等于0。基于以上正则化特前机器学习的高要求，由此建立了多标记学习框点分析，结合这2种正则的弹性网络可以实现正架可以解决这一问题。该框架通过对任意一个对则和稀硫双重作用P1。本节将使用Elastic Net替象，进行一个特征向量的描述，根据特征向量尽换原有RELM中的L2正则，首次运用到多标记可能将对象进行合适的类别标记和精准分类2。学习中。假定含有W个样本的多标记数据集，X为n维的设多标记数据集D={x,Y,其中x,∈R”是示例空间R”,Y为m类标记空间，则在多标记学 n维特征向量，Y∈R"为输出标记集合。则基于习中，给定数据集D={x1,Y),(x2,Y2),…,(xn,Yn), L2正则RELM替换为Elastic Net,.通过式(Il)将其中x∈X是一个示例，Y:eY是一组标记集合 y”,y,…y且y鼎∈卫，可得到映射关系f:X→2'。式(13)改写为：根据多标记学习的目标，同时结合ELM学习 C minLE l店+(R(B》 2 模型，ELM的随机映射函数h(x)将x从输人空间 i=l 映射到L维的特征空间，Y,∈R"为输出标记集 R.(B)=alll,+(1-a)1l6 s.t.5=Y,-f(x),i=1,2,…,N (16) 合。根据式(4)、(5)和(8)，可得多标记ELM的输出函数fx)为：由于传统ELM算法需设置隐藏层节点数，并 [h(x) 且需初始随机权值和偏置，易受随机值的影响导 h(x2) 码致计算结果不稳定，采用核ELM则可以解决这一 fi(x)=HB= (12) 问题。根据式(4)和(12)，当映射函数h(x)未知 h(xN) N%L 时，即引人核矩阵（本文采用RBF核）：将式(9)和(12)结合即为正则ELM,即RELM H=QELM QELMn =K(i) 算法，该算法添加L2正则来提高原始ELM算法 K(x..x)=exp(-,x (17) 的稳定性和泛化性能，同时有效避免过拟合，目式中y一般取值为1。结合式(3)、(12)和(17)，式标函数表示为： (16)可进一步改写为带有RBF核映射的目标函数： mLaw=ar+∑s (13) C mjnL-IY-P+R.(B) (18) 式中C为正则化系数；由式(6)、(7)和(13)求解目由于Elastic Net本身结构特点，具有Ll正则标函数，可得输出权值：导致存在不可导点，无法使用类似于BP神经网 B=Hr+H四y (14) 络(back propagation)的梯度下降法(gradient des- cent)或传统ELM将神经网络转化为最小二乘式中【为L维单位矩阵。这样最终多标记学习目法。坐标下降法2则可以解决这一问题，因其是标函数表示为：一种非梯度优化算法，无需求导目标函数，只需 =a明=Hr+Hmy (15) 通过坐标方向搜寻最小值，符合弹性网络求解的要求，因此本文采用坐标下降法对于弹性网络核通过式(14)得到训练集的输出权值，再通过随机映射函数(x)将测试集的特征向量映射，最极限学习机进行目标求解。根据式(18)求解最小终多标记预测结果可由式(15)得出。这种基于正化目标，即则化ELM的多标记学习算法，不仅在预测精度 +R.(B) (19) 上取得了不错的效果，并且求解速度也具有较大 min 优势。通过坐标下降法，式(19)的更新公式可表示为： 2.2弹性核极限学习机的多标记学习算法基于L2正则能够有效控制训练模型过拟合 s2aw化-） (20) 到某个特征上，即假设参数分布服从高斯分布以 1+A(1-a) 达到稳定模型的作用：而基于L1正则能够约束目式中：为拟合值；Y:-为B的部分残差；S是标方程稀疏性进而实现特征选择，即假设参数分软阈值算子(soft-thresholding)2m,用于处理Ll惩布服从拉普拉斯分布以保证稀疏化模型。简单来罚。文献[28]给出详细求解算法，最后对于说，即L2正则只能让某些参数逼近于0，而L1正 L2惩罚进行比例收缩。其中S详细定义为：

D = {(x1,Y1),(x2,Y2),··· ,(xn,Yn)} xi ∈ X Yi ∈ Y { y (i) 1 , y (i) 2 ,··· , y (i) m } y (i) m ∈ Y f : X → 2 Y 义性、概念复杂性进行有效处理，且无法满足目前机器学习的高要求，由此建立了多标记学习框架可以解决这一问题。该框架通过对任意一个对象，进行一个特征向量的描述，根据特征向量尽可能将对象进行合适的类别标记和精准分类[25]。假定含有 N 个样本的多标记数据集，X 为 n 维的示例空间 R n ，Y 为 m 类标记空间，则在多标记学习中，给定数据集，其中是一个示例，是一组标记集合，且，可得到映射关系。 h(xi) 根据多标记学习的目标，同时结合 ELM 学习模型，ELM 的随机映射函数将 xi 从输入空间映射到 L 维的特征空间，Yi∈R m 为输出标记集合。根据式 (4)、(5) 和 (8)，可得多标记 ELM 的输出函数 fl (x) 为： fl(x) = Hβ =   h(x1) h(x2) . . . h(xN)   N×L   β T 1 β T 2 . . . β T L   (12) 将式 (9) 和 (12) 结合即为正则 ELM，即 RELM 算法，该算法添加 L2 正则来提高原始 ELM 算法的稳定性和泛化性能，同时有效避免过拟合，目标函数表示为： min β LRELM = 1 2 ∥β∥ 2 + C 2 ∑N i=1 ∥ξi∥ 2 (13) 式中 C 为正则化系数；由式 (6)、(7) 和 (13) 求解目标函数，可得输出权值 β： β = H T ( I C + HHT )−1 Y (14) 式中 I 为 L 维单位矩阵。这样最终多标记学习目标函数表示为： fl(x) = Hβ = HHT ( I C + HHT )−1 Y (15) 通过式 (14) 得到训练集的输出权值，再通过随机映射函数 h(x) 将测试集的特征向量映射，最终多标记预测结果可由式 (15) 得出。这种基于正则化 ELM 的多标记学习算法，不仅在预测精度上取得了不错的效果，并且求解速度也具有较大优势。 2.2 弹性核极限学习机的多标记学习算法基于 L2 正则能够有效控制训练模型过拟合到某个特征上，即假设参数分布服从高斯分布以达到稳定模型的作用；而基于 L1 正则能够约束目标方程稀疏性进而实现特征选择，即假设参数分布服从拉普拉斯分布以保证稀疏化模型。简单来说，即 L2 正则只能让某些参数逼近于 0，而 L1 正则可以使得某些参数等于 0。基于以上正则化特点分析，结合这 2 种正则的弹性网络可以实现正则和稀疏双重作用[23]。本节将使用 Elastic Net 替换原有 RELM 中的 L2 正则，首次运用到多标记学习中。 D = {xi ,Yi} N 设多标记数据集 i=1，其中 xi∈R n 是 n 维特征向量，Yi∈R m 为输出标记集合。则基于 L2 正则 RELM 替换为 Elastic Net，通过式 (11) 将式 (13) 改写为： min β LE = C 2 ∑N i=1 ∥ξi∥ 2 +λ (Rα (β)) Rα (β) = α∥β∥1 +(1−α)∥β∥ 2 2 s.t. ξi = Yi − fl(xi),i = 1,2,··· ,N (16) 由于传统 ELM 算法需设置隐藏层节点数，并且需初始随机权值和偏置，易受随机值的影响导致计算结果不稳定，采用核 ELM 则可以解决这一问题。根据式 (4) 和 (12)，当映射函数 h(x) 未知时，即引入核矩阵 (本文采用 RBF 核)： H = ΩELM : ΩELM(i, j) = K ( xi , xj ) K ( xi , xj ) = exp( −γ xi − xj 2 ) (17) 式中 γ 一般取值为 1。结合式 (3)、(12) 和 (17)，式 (16) 可进一步改写为带有 RBF 核映射的目标函数： min β LE = C 2 ∥Y −ΩELMβ∥ 2 +λRα (β) (18) 由于 Elastic Net 本身结构特点，具有 L1 正则导致存在不可导点，无法使用类似于 BP 神经网络 (back propagation) 的梯度下降法 (gradient descent) 或传统 ELM 将神经网络转化为最小二乘法。坐标下降法[26] 则可以解决这一问题，因其是一种非梯度优化算法，无需求导目标函数，只需通过坐标方向搜寻最小值，符合弹性网络求解的要求，因此本文采用坐标下降法对于弹性网络核极限学习机进行目标求解。根据式 (18) 求解最小化目标，即 min β C 2 ∑N i=1   Yi − ∑N j=1 ΩELM(i, j)βj   2 +λRα (β) (19) 通过坐标下降法，式 (19) 的更新公式可表示为： βj ← S ( ∑N i=1 ΩELM(i, j) ( Yi −Y˜ (j) i ) , λα ) + 1+λ(1−α) (20) Y˜ (j) i Yi −Y˜ (j) 式中：为拟合值； i 为 βj 的部分残差；S 是软阈值算子 (soft-thresholding)[27] ，用于处理 L1 惩罚。文献 [ 2 8 ] 给出详细求解算法，最后对于 L2 惩罚进行比例收缩。其中 S 详细定义为： ·834· 智能系统学报第 14 卷

第4期王一宾，等：弹性网铬核极限学习机的多标记学习算法 ·835· S(6,y）≡sign(6)-y).= 对应的平均标记数为4.24。Scene数据集由 6-y,6>0且y<1l 2407张图片组成，人工手动标记图片6类标记， 6+y,6<0且y< (21) 平均每张图片有1.24±0.44个类标记，特征向量维 0,y≥l 度为294维，其中1211个训练集和1196个测试在训练集中通过坐标下降法求出输出权值矩集。雅虎网页数据集是从雅虎网站收集，包括阵B,设x为测试数据第j个示例的特征向量，则多标记预测结果可以表示为 11个版块(Arts”、“Business”、“Computers”等)，各数据子集特征数在400~1100之间，各数据子 fi(x)=2ELM.B (22) 集中包含2000个训练集以及3000个测试集，详式中：2M表示将训练集全部特征向量与测试细信息如表1所示。集特征向量共同使用式(17)的RBF核函数映射，表1雅虎网页数据集最后提出算法具体步骤如算法1所示。 Table 1 Yahoo web pages data set 算法1基于弹性网络核极限学习机的多标数据集特征数训练平均标记测试平均标记记学习算法ML-EKELM). Arts 462 1.627±0.8828 1.642±0.9589 输入训练数据集D={x,Y,测试数据集 D-然，RBF核参数，正则化参数X、a,最大 Business 438 1.590±0.8398 1.586±0.8494 迭代次数Q: Computers 681 1.487±1.0869 1.522±1.0468 输出测试数据集预测标记Y。 Education 550 1.465±0.7642 1.458±0.7522 训练training set D Entertainment 640 1.426±0.9306 1.4170.9913 for training set D Health 612 1.667±0.8517 1.659±0.9013 step 1:compute training data kernel matrix in Recreation 606 1.414±0.8136 1.429±0.8679 according to Eq.(17) Reference 793 1.159±0.4295 1.177±0.5369 step 2:calculate the output weight Science 743 1.4890.7875 1.425±0.7580 for i=1 to O Social 1047 1.274±0.6388 1.290±0.6174 update output weight B according to Eq.(20)and Eq.(21) Society 636 1.705±1.2062 1.684±1.2464 end for 3.2多标记评价指标 end for 对于多标记学习，传统单标记评价指标例如测试testing set D Accuracy、Precision和Recall都无法直接对多标记 for testing set D 学习算法进行指标评价。为有效验证算法综合性 step 1:compute training and testing data kernel 能，本文将使用5种多标记通用评价指标进行算 matrix es according to Eq.(17) 法评价，评价指标包括：Hamming Loss、One-Error、 step 2:get predicted result fx)according to Eq. Coverage、Ranking Loss和Average Precision"。 (22) 设多标记分类器为()，预测函数f(,),排序 end for 函数rankro多标记数据集D={(x,Y)l≤i≤n}o return predicted testing data label setf. 上述5种评价指标HL、OE、CV、RL和AP形式化 j=1,2,…,M0o 定义如下： 3实验方案及结果分析 1 HLD(h)=- 名 h(x)△Y (23) 3.1实验数据描述式中：△表示两个集合之间的对称差。海明损失为验证本文算法的有效性，特选取了Yeast 是评估对象标记被错误分类标记的次数情况，正 Gene2、Scene!、Yahoo Web Pagest(包含Il个子确的标记被错误预测情况。当HL(h)=0时为最数据集)等l3个数据集。其中Yeast Gene包含好的情况，即HL(h)越小，h()的性能越高。 2417个样本，训练数据集有1500个样本，测试数据集有917个样本，每个样本包含103个属性 OE,（n=∑arg max,r,叨4H n (24) 值，所有的样本大致有14种类别属性，每个样本 1-错误率是评估对象最高排位标记并未正确

S (δ, γ) ≡ sign(δ) (|δ|−γ)+ =    δ−γ, δ > 0 且 γ 0 , j = 1,2,··· , M} return predicted testing data label set Y * = 。 3 实验方案及结果分析 3.1 实验数据描述为验证本文算法的有效性，特选取了 Yeast Gene[12] 、Scene[4] 、Yahoo Web Pages[10] (包含 11 个子数据集) 等 13 个数据集。其中 Yeast Gene 包含 2 417 个样本，训练数据集有 1 500 个样本，测试数据集有 917 个样本，每个样本包含 103 个属性值，所有的样本大致有 14 种类别属性，每个样本对应的平均标记数为 4.24。 Scene 数据集由 2 407 张图片组成，人工手动标记图片 6 类标记，平均每张图片有 1.24±0.44 个类标记，特征向量维度为 294 维，其中 1 211 个训练集和 1 196 个测试集。雅虎网页数据集是从雅虎网站收集，包括 11 个版块 (“Arts”、“Business”、“Computers”等)，各数据子集特征数在 400~1 100 之间，各数据子集中包含 2 000 个训练集以及 3 000 个测试集，详细信息如表 1 所示。表 1 雅虎网页数据集 Table 1 Yahoo web pages data set 数据集特征数训练平均标记测试平均标记 Arts 462 1.627±0.882 8 1.642±0.958 9 Business 438 1.590±0.839 8 1.586±0.849 4 Computers 681 1.487±1.086 9 1.522±1.046 8 Education 550 1.465±0.764 2 1.458±0.752 2 Entertainment 640 1.426±0.930 6 1.417±0.991 3 Health 612 1.667±0.851 7 1.659±0.901 3 Recreation 606 1.414±0.813 6 1.429±0.867 9 Reference 793 1.159±0.429 5 1.177±0.536 9 Science 743 1.489±0.787 5 1.425±0.758 0 Social 1047 1.274±0.638 8 1.290±0.617 4 Society 636 1.705±1.206 2 1.684±1.246 4 3.2 多标记评价指标对于多标记学习，传统单标记评价指标例如 Accuracy、Precision 和 Recall 都无法直接对多标记学习算法进行指标评价。为有效验证算法综合性能，本文将使用 5 种多标记通用评价指标进行算法评价，评价指标包括：Hamming Loss、One-Error、 Coverage、Ranking Loss 和 Average Precision[1]。 f (·,·) D = {(xi ,Yi)|1 ⩽ i ⩽ n} 设多标记分类器为 h(∙)，预测函数，排序函数 rankf。多标记数据集。上述 5 种评价指标 HL、OE、CV、RL 和 AP 形式化定义如下： HLD (h) = 1 n ∑n i=1 1 |Y| |h(xi)∆Yi | (23) 式中： ∆ 表示两个集合之间的对称差。海明损失是评估对象标记被错误分类标记的次数情况，正确的标记被错误预测情况。当 HLD(h)=0 时为最好的情况，即 HLD(h) 越小，h(∙) 的性能越高。 OED (f) = 1 n ∑n i=1 [[argmaxy∈Y f (xi , y) ] < Yi ] (24) 1-错误率是评估对象最高排位标记并未正确第 4 期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·835·

·836· 智能系统学报第14卷标记的次数情况。当OEo(f)=0时为最好的情况， EKELM算法较目前已提出基于ELM的多标记算即OEo(f)越小，f的性能越高。法的优势，同时对比ML-RBF)、ML-KNNUO2种 1" 经典的多标记算法。 CVp(f)=max,er,rank(xi.y)-1 (25) n 考虑算法对比验证的可行性和准确性，减少覆盖率是评估对象标记序列中所需标记数达随机误差的产生，各测试算法在一个数据集中做到覆盖全部标记，即CV)越小，f的性能越高。 10次实验，最终将10次实验得到的5种评价指标求出平均值(mean)和标准差(standard deviation)。 RLD(f) 1 1 n名Y 0,y2)儿fx,)≤ 在每个评价指标数据下标注排位情况，如ML f6xy）,02)ey×正 (26) EKELM,表示在某个数据集ML-EKELM算法最排序损失是评估对象非属标记的排位高于所为优秀，同时用黑体表示，并在雅虎网页数据集属标记的次数情况。当RL(f)=0时为最好情况，给出了11个子集的平均评价指标数据Average。即RLof)越小，f的性能越高。 3.4实验结果及分析为了更直观展示本文算法收敛速度，13个数 APp(f)= 27) 据集迭代收敛情况如图2所示。同时，在13个数 rank (xi,y) 据集中对比实验结果如表2~9所示，其中表2是平均精度是评估在特定标记y∈Y,排列的正酵母菌基因数据集对比试验结果，表3为场景数确标记的平均分数。当AP(f)=1时为最好情况，据集对比实验实验结果，表4~8则是雅虎网页数即AP(f)越大，f的性能越高。据集的实验结果，表9给出各算法在13个数据集 3.3实验环境及实验方案中实验的时间消耗，并给出平均时间消耗。在此对比实验代码均在Matlab2016a中运行，硬件特别说明：因算法ML-EKELM、ML-KELM、ML- 环境Intel®CoreTM i5-75003.4 GHz CPU,8GB内 KNN的分类器具有稳定性，10次实验结果相同，存；操作系统为Windows 10。为了验证算法的可其标准差均为0。靠性和有效性，算法选择多标记的5种常用评价图2为ML-EKELM算法在13个多标记数据指标，分别是：Hamming Loss、One Error、Cover- 集中以Hamming Loss为指标的迭代次数图，最终 age、Ranking Loss和Average Precision。.通过评价收敛的Hamming Loss值用水平线表示。通过指标来综合衡量各算法的性能，评估各算法的性图2可以看出，使用坐标下降法求解弹性网络正能。实验中将5种评价指标分别简写为：HL↓、则的ML-EKELM算法，迭代次数均小于20次，在 OE、CV、RL和AP↑。其中↑表示指标数值越高大部分数据集中都在3次左右迭代达到收敛，在越好，表示指标数值越低越好。对比实验算法采 Arts和Business数据集中算法迭代收敛次数分别用ML-KELM2I、RELMS、ELMI3种基于是10和16次。同时可以发现在13个数据集中 ELM的多标记算法，以此来验证本文提出的ML 只有Business数据集迭代收敛时出现波动，这 0.24 0.20 0.064 0.23 0.18 0.062 “0.22 0.16 K0.060 0.21 0.058 典0.056 0.19 0.10 0.054 0.18 0.08 0 8 12 1620 0.052 0 4 8 .12 16 20 0 4 8 .12 1620 迭代次数代次数迭代次数 (a)Yeast (b)Scene (c)Arts 0.029 0.046 0.046 0.028 0.044 0.044 0.027 0.042 0.042 0.026 罄040 040 爱0.038 爱0.038 0.025 0.036 0.036 0.024 0.034 0.034 4 1620 0 迭代次数送代次最 16 20 0 4 121620 法代次数 (d)Business (e)Computers (f)Education

标记的次数情况。当 OED(f )=0 时为最好的情况，即 OED(f ) 越小，f 的性能越高。 CVD (f) = 1 n ∑n i=1 maxy∈Yi rankf (xi , y)−1 (25) 覆盖率是评估对象标记序列中所需标记数达到覆盖全部标记，即 CVD(f ) 越小，f 的性能越高。 RLD (f) = 1 n ∑n i=1 1 |Yi | Y¯ i { (yi , y2)| f(xi , y1) ⩽ f (xi , y2),(y1, y2) ∈ Yi ×Y¯ i } (26) 排序损失是评估对象非属标记的排位高于所属标记的次数情况。当 RLD(f )=0 时为最好情况，即 RLD(f ) 越小，f 的性能越高。 APD (f) = 1 n ∑n i=1 1 |Yi | ∑ y∈Yi { y ′ |rankf (xi,y ′ )⩽rankf (xi,y),y ′∈Yi } rankf (xi , y) (27) 平均精度是评估在特定标记 y∈Yi 排列的正确标记的平均分数。当 APD(f )=1 时为最好情况，即 APD(f ) 越大，f 的性能越高。 3.3 实验环境及实验方案对比实验代码均在 Matlab2016a 中运行，硬件环境 Intel® CoreTM i5-7500 3.4 GHz CPU，8 GB 内存；操作系统为 Windows 10。为了验证算法的可靠性和有效性，算法选择多标记的 5 种常用评价指标，分别是：Hamming Loss、One Error、Coverage、Ranking Loss 和 Average Precision。通过评价指标来综合衡量各算法的性能，评估各算法的性能。实验中将 5 种评价指标分别简写为：HL↓、 OE↓、CV↓、RL↓和 AP↑。其中↑表示指标数值越高越好，↓表示指标数值越低越好。对比实验算法采用 ML-KELM[ 2 1 ] 、RELM[ 1 5 ] 、ELM[ 1 8 ] 3 种基于 ELM 的多标记算法，以此来验证本文提出的 MLEKELM 算法较目前已提出基于 ELM 的多标记算法的优势，同时对比 ML-RBF[13] 、ML-KNN[10] 2 种经典的多标记算法。考虑算法对比验证的可行性和准确性，减少随机误差的产生，各测试算法在一个数据集中做 10 次实验，最终将 10 次实验得到的 5 种评价指标求出平均值 (mean) 和标准差 (standard deviation)。在每个评价指标数据下标注排位情况，如 MLEKELM(1) 表示在某个数据集 ML-EKELM 算法最为优秀，同时用黑体表示，并在雅虎网页数据集给出了 11 个子集的平均评价指标数据 Average。 3.4 实验结果及分析为了更直观展示本文算法收敛速度，13 个数据集迭代收敛情况如图 2 所示。同时，在 13 个数据集中对比实验结果如表 2~9 所示，其中表 2 是酵母菌基因数据集对比试验结果，表 3 为场景数据集对比实验实验结果，表 4~8 则是雅虎网页数据集的实验结果，表 9 给出各算法在 13 个数据集中实验的时间消耗，并给出平均时间消耗。在此特别说明：因算法 ML-EKELM、ML-KELM、MLKNN 的分类器具有稳定性，10 次实验结果相同，其标准差均为 0。图 2 为 ML-EKELM 算法在 13 个多标记数据集中以 Hamming Loss 为指标的迭代次数图，最终收敛的 Hamming Loss 值用水平线表示。通过图 2 可以看出，使用坐标下降法求解弹性网络正则的 ML-EKELM 算法，迭代次数均小于 20 次，在大部分数据集中都在 3 次左右迭代达到收敛，在 Arts 和 Business 数据集中算法迭代收敛次数分别是 10 和 16 次。同时可以发现在 13 个数据集中只有 Business 数据集迭代收敛时出现波动，这一 0.24 0.23 0.22 0.21 0.20 0.19 0.18 0 4 海明损失 8 迭代次数 (a) Yeast 12 16 20 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0 4 海明损失 8 迭代次数 (b) Scene 12 16 20 迭代次数 (c) Arts 0.064 0.062 0.060 0.058 0.056 0.054 0.052 0 4 海明损失 8 12 16 20 0.029 0.028 0.027 0.026 0.025 0.024 0 4 海明损失 8 迭代次数 (d) Business 12 16 20 0.046 0.044 0.042 0.040 0.038 0.036 0.034 0 4 海明损失 8 迭代次数 (e) Computers 12 16 20 0.046 0.044 0.042 0.040 0.038 0.036 0.034 0 4 海明损失 8 迭代次数 (f) Education 12 16 20 ·836· 智能系统学报第 14 卷

表 2 酵母菌基因数据集测试结果 Table 2 Test results of Yeast Gene data set 算法 HL↓ OE↓ CV↓ RL↓ AP↑ ML-EKELM 0.187 6±0(1) 0.223 6±0(1) 6.121 0±0(1) 0.156 7±0(1) 0.775 0±0(1) ML-KELM 0.194 1±0(2) 0.236 6±0(4) 6.426 4±0(3) 0.170 2±0(2) 0.761 8±0(2) RELM 0.198 5±0.000 2(5) 0.235 6±0.001 9(3) 6.569 1±0.010 3(5) 0.177 6±0.000 2(5) 0.755 5±0.000 4(5) ELM 0.247 2±0.000 9(6) 0.237 5±0.003 2(6) 6.574 3±0.010 4(6) 0.177 8±0.000 5(6) 0.755 4±0.001 0(6) ML-RBF 0.197 8±0.001 3(3) 0.237 2±0.006 9(5) 6.496 3±0.028 4(4) 0.173 6±0.002 3(4) 0.758 6±0.002 3(3) ML-KNN 0.198 0±0(4) 0.234 5±0(2) 6.414 4±0(2) 0.171 5±0(3) 0.758 5±0(4) 表 3 场景数据集测试结果 Table 3 Test results of Scene data set 算法 HL↓ OE↓ CV↓ RL↓ AP↑ ML-EKELM 0.086 0±0(1) 0.204 8±0(1) 0.469 9±0(1) 0.073 2±0(1) 0.875 5±0(1) ML-KELM 0.092 0±0(2) 0.235 8±0(4) 0.483 3±0(2) 0.076 7±0(2) 0.860 4±0(3) RELM 0.128 4±0.001 5(5) 0.235 0±0.009 2(3) 0.553 0±0.012 0(5) 0.088 3±0.002 4(5) 0.854 8±0.005 0(4) ELM 0.134 6±0.001 3(6) 0.241 5±0.007 1(5) 0.549 0±0.016 6(4) 0.088 0±0.003 0(4) 0.852 5±0.003 9(5) ML-RBF 0.094 0±0.001 3(3) 0.232 1±0.004 2(2) 0.506 63±0.007 3(3) 0.080 5±0.001 2(3) 0.860 7±0.002 0(2) ML-KNN 0.098 9±0(4) 0.242 5±0(6) 0.568 6±0(6) 0.093 1±0(6) 0.851 2±0(6) 0.070 0.065 0.060 0.055 0.050 0 4 海明损失 8 迭代次数 (g) Entertainment 12 16 20 0.055 0.050 0.045 0.040 0.035 0.030 0 4 海明损失 8 迭代次数 (h) Health 12 16 20 0.065 0.060 0.055 0 4 海明损失 8 迭代次数 (i) Recreation 12 16 20 0.036 0.034 0.032 0.030 0.028 0.026 0.024 0 4 海明损失 8 迭代次数 (j) Reference 12 16 20 0.036 0.035 0.034 0.033 0.032 0.031 0.030 0 4 海明损失 8 迭代次数 (k) Science 12 16 20 0.034 0.032 0.030 0.028 0.026 0.022 0.024 0.020 0 4 海明损失 8 迭代次数 (l) Social 12 16 20 0.064 0.062 0.060 0.058 0.056 0.054 0.052 0.050 0 4 海明损失 8 迭代次数 (m) Society 12 16 20 图 2 ML-EKELM 迭代次数 Fig. 2 The number of ML-EKELM iterations 第 4 期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·837·

·838· 智能系统学报第14卷表4雅虎网页数据集海明损失测试结果 Table 4 Test results of hamming lossl on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.05390m 0.054303 0.054540.00010.058640.000160.054240.0001e0.059306 Business 0.02490 0.0253±02 0.0254+0.000180.0287±0.000160.0255±0.00014 0.0267±05 Computers 0.03440 0.0347±03 0.0351±0.0001④0.0397±0.000160.03450.000320.0381±0 Education 0.0368±0 0.0376±03 0.0377±0.00010.0409H0.000160.03750.000220.0397±0s Entertainment 0.051340 0.0530±04 0.05250.00018)0.05820.000160.05150.000420.0570±0 Health 0.0329±0 0.0347±02 0.0347±0.0001250.04130.000160.03550.000240.0367±0 Recreation 0.0556±0 0.056103 0.05650.000140.0597±0.000160.0547±0.00020.059405 Reference 0.0250±0 0.0257±035 0.02570.00018.0.02930.000160.02520.0001a0.02730 Science 0.0301±0 0.0311±0a 0.0312±0.000140.0336±0.000160.0308±0.00012 0.03340 Social 0.020501.5 0.0205+015 0.0206t0.00018.0.02440.000160.020610.00013)0.021940 Society 0.0506±0 0.0517±03 0.0519H0.000240.05530.000160.05150.0001a0.05430 Average 0.0378±0.0128u0.03860.013030.0387±0.01300.04270.013260.03810.01272 0.04130.0140 表5雅虎网页数据集1错误率测试结果 Table 5 Test results of one-errorl on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.4583±0 0.4740±02 0.48030.00240.48840.001950.4759H0.0042)0.550306 Business 0.1120±0u 0.116303 0.1168±0.000940.11750.001050.1146±0.001220.1210±06 Computers 0.3457±0 0.357702 0.3610±0.00320.3664牡0.00310.35850.0043)0.414306 Education 0.4537±0m 0.466302 0.4718±0.0024a)0.4828±0.00290.47630.003440.512306 Entertainment 0.39970() 0.4110±03) 0.4130±0.002840.42250.004450.4067±0.004420.4987±06 Health 0.2460-0m 0.2637±03) 0.27160.003440.2758±0.00470.2602±0.003320.3040±06 Recreation 0.4597±0 0.463302 0.46840.0024a)0.48260.003350.4712±0.00460.5617±06 Reference 0.35730m 0.375003 0.3762±0.001540.38110.004750.3648±0.004020.4117±06 Science 0.4860±0 0.494302 0.4992±0.00333)0.51130.00390.5061±0.00360.557706 Social 0.2817±02 0.2807±0m 0.28530.002040.29520.003550.2819H0.0036)0.3210±06 Society 0.3907±0u 0.3970±02 0.4007±0.0017a)0.40820.00370.4045±0.00150.4280±06 Average 0.3628±0.1129 0.372740.114220.3768±0.11500.38470.118150.37460.117830.42550.13546 表6雅虎网页数据集覆盖率测试结果 Table 6 Test results of coveragel on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 5.1213±02 5.3377±03) 5.5812±0.03695.9071±0.033465.7788±0.03834 4.8050H0 Business 2.5023H02 2.5117±03 2.5430-0.02942.808340.0257162.77330.037452.14030u Computers 4.0030H0 4.7067±0④ 4.60830.0339a)4.9409H0.06175.0634±0.08386 4.023302 Education 4.2757402 4.3647±03) 4.49210.033205.5758±0.046565.368240.078753.40370w Entertainment 3.001 340) 3.1770±03) 3.3208±0.023343.5736±0.027053.8990±0.04386 3.0103±02 Health 3.293302 3.3787±03 3.598340.045704.03550.045963.7748±0.041052.78770a Recreation 4.09430m 4.2947±0④ 4.2339±0.02468)4.7156+0.035764.5297±0.04374.2997±02 Reference 3.448702 3.516303) 3.7601±0.04724.1129H0.040563.94250.03692.76970 Science 6.270302 6.557303) 6.9849H0.070707.5582±0.062067.2828±0.058555.7880H0m Social 3.714302 3.7523±03) 4.0361±0.042244.4551±0.048264.3701±0.074652.9280H0u Society 5.7630±02 6.0293±03 6.2731±0.028946.6179H0.050366.3341±0.042455.24870m Average 4.1352±1.163124.3297±1.2468) 4.4938±1.317844.9364+1.386064.7825±1.341853.7459牡1.1709a

表 4 雅虎网页数据集海明损失测试结果 Table 4 Test results of hamming loss↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.0539±0(1) 0.054 3±0(3) 0.054 5±0.000 1(4) 0.058 6±0.000 1(5) 0.054 2±0.000 1(2) 0.059 3±0(6) Business 0.024 9±0(1) 0.025 3±0(2) 0.025 4±0.000 1(3) 0.028 7±0.000 1(6) 0.025 5±0.000 1(4) 0.026 7±0(5) Computers 0.034 4±0(1) 0.034 7±0(3) 0.035 1±0.000 1(4) 0.039 7±0.000 1(6) 0.034 5±0.000 3(2) 0.038 1±0(5) Education 0.036 8±0(1) 0.037 6±0(3) 0.037 7±0.000 1(4) 0.040 9±0.000 1(6) 0.037 5±0.000 2(2) 0.039 7±0(5) Entertainment 0.051 3±0(1) 0.053 0±0(4) 0.052 5±0.000 1(3) 0.058 2±0.000 1(6) 0.051 5±0.000 4(2) 0.057 0±0(5) Health 0.032 9±0(1) 0.034 7±0(2.5) 0.034 7±0.000 1(2.5) 0.041 3±0.000 1(6) 0.035 5±0.000 2(4) 0.036 7±0(5) Recreation 0.055 6±0(2) 0.056 1±0(3) 0.056 5±0.000 1(4) 0.059 7±0.000 1(6) 0.054 7±0.000 2(1) 0.059 4±0(5) Reference 0.025 0±0(1) 0.025 7±0(3.5) 0.025 7±0.000 1(3.5) 0.029 3±0.000 1(6) 0.025 2±0.000 1(2) 0.027 3±0(5) Science 0.030 1±0(1) 0.031 1±0(3) 0.031 2±0.000 1(4) 0.033 6±0.000 1(6) 0.030 8±0.000 1(2) 0.033 4±0(5) Social 0.020 5±0(1.5) 0.020 5±0(1.5) 0.020 6±0.000 1(3.5) 0.024 4±0.000 1(6) 0.020 6±0.000 1(3.5) 0.021 9±0(5) Society 0.050 6±0(1) 0.051 7±0(3) 0.051 9±0.000 2(4) 0.055 3±0.000 1(6) 0.051 5±0.000 1(2) 0.054 3±0(5) Average 0.037 8±0.012 8(1) 0.038 6±0.013 0(3) 0.038 7±0.013 0(4) 0.042 7±0.013 2(6) 0.038 1±0.012 7(2) 0.041 3±0.014 0(5) 表 5 雅虎网页数据集 1-错误率测试结果 Table 5 Test results of one-error↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.4583±0(1) 0.474 0±0(2) 0.480 3±0.002 4(4) 0.488 4±0.001 9(5) 0.475 9±0.004 2(3) 0.550 3±0(6) Business 0.112 0±0(1) 0.116 3±0(3) 0.116 8±0.000 9(4) 0.117 5±0.001 0(5) 0.114 6±0.001 2(2) 0.121 0±0(6) Computers 0.345 7±0(1) 0.357 7±0(2) 0.361 0±0.003 2(4) 0.366 4±0.003 1(5) 0.358 5±0.004 3(3) 0.414 3±0(6) Education 0.453 7±0(1) 0.466 3±0(2) 0.471 8±0.002 4(3) 0.482 8±0.002 9(5) 0.476 3±0.003 4(4) 0.512 3±0(6) Entertainment 0.399 7±0(1) 0.411 0±0(3) 0.413 0±0.002 8(4) 0.422 5±0.004 4(5) 0.406 7±0.004 4(2) 0.498 7±0(6) Health 0.246 0±0(1) 0.263 7±0(3) 0.271 6±0.003 4(4) 0.275 8±0.004 7(5) 0.260 2±0.003 3(2) 0.304 0±0(6) Recreation 0.459 7±0(1) 0.463 3±0(2) 0.468 4±0.002 4(3) 0.482 6±0.003 3(5) 0.471 2±0.004 6(4) 0.561 7±0(6) Reference 0.357 3±0(1) 0.375 0±0(3) 0.376 2±0.001 5(4) 0.381 1±0.004 7(5) 0.364 8±0.004 0(2) 0.411 7±0(6) Science 0.486 0±0(1) 0.494 3±0(2) 0.499 2±0.003 3(3) 0.511 3±0.003 9(5) 0.506 1±0.003 6(4) 0.557 7±0(6) Social 0.281 7±0(2) 0.280 7±0(1) 0.285 3±0.002 0(4) 0.295 2±0.003 5(5) 0.281 9±0.003 6(3) 0.321 0±0(6) Society 0.390 7±0(1) 0.397 0±0(2) 0.400 7±0.001 7(3) 0.408 2±0.003 7(5) 0.404 5±0.001 5(4) 0.428 0±0(6) Average 0.362 8±0.112 9(1) 0.372 7±0.114 2(2) 0.376 8±0.115 0(4) 0.384 7±0.118 1(5) 0.374 6±0.117 8(3) 0.425 5±0.135 4(6) 表 6 雅虎网页数据集覆盖率测试结果 Table 6 Test results of coverage↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 5.121 3±0(2) 5.337 7±0(3) 5.581 2±0.036 9(5) 5.907 1±0.033 4(6) 5.778 8±0.038 3(4) 4.805 0±0(1) Business 2.502 3±0(2) 2.511 7±0(3) 2.543 0±0.029 4(4) 2.808 3±0.025 7(6) 2.773 3±0.037 4(5) 2.140 3±0(1) Computers 4.003 0±0(1) 4.706 7±0(4) 4.608 3±0.033 9(3) 4.940 9±0.061 7(5) 5.063 4±0.083 8(6) 4.023 3±0(2) Education 4.275 7±0(2) 4.364 7±0(3) 4.492 1±0.033 2(4) 5.575 8±0.046 5(6) 5.368 2±0.078 7(5) 3.403 7±0(1) Entertainment 3.001 3±0(1) 3.177 0±0(3) 3.320 8±0.023 3(4) 3.573 6±0.027 0(5) 3.899 0±0.043 8(6) 3.010 3±0(2) Health 3.293 3±0(2) 3.378 7±0(3) 3.598 3±0.045 7(4) 4.035 5±0.045 9(6) 3.774 8±0.041 0(5) 2.787 7±0(1) Recreation 4.094 3±0(1) 4.294 7±0(4) 4.233 9±0.024 6(3) 4.715 6±0.035 7(6) 4.529 7±0.043 7(5) 4.299 7±0(2) Reference 3.448 7±0(2) 3.516 3±0(3) 3.760 1±0.047 2(4) 4.112 9±0.040 5(6) 3.942 5±0.036 9(5) 2.769 7±0(1) Science 6.270 3±0(2) 6.557 3±0(3) 6.984 9±0.070 7(4) 7.558 2±0.062 0(6) 7.282 8±0.058 55(5) 5.788 0±0(1) Social 3.714 3±0(2) 3.752 3±0(3) 4.036 1±0.042 2(4) 4.455 1±0.048 2(6) 4.370 1±0.074 6(5) 2.928 0±0(1) Society 5.763 0±0(2) 6.029 3±0(3) 6.273 1±0.028 9(4) 6.617 9±0.050 3(6) 6.334 1±0.042 4(5) 5.248 7±0(1) Average 4.135 2±1.163 1(2) 4.329 7±1.246 8(3) 4.493 8±1.317 8(4) 4.936 4±1.386 0(6) 4.782 5±1.341 8(5) 3.745 9±1.170 9(1) ·838· 智能系统学报第 14 卷

第4期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·839· 表7雅虎网页数据集排序损失测试结果 Table 7 Test results of ranking lossl on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.1268±0m 0.1358±03 0.14340.001140.15360.001160.1498±0.00120.1279H02 Business 0.0412±02 0.041503) 0.0422±0.000640.04720.000560.04630.000650.035940a Computers 0.0802±0 0.0967±04 0.09490.00083)0.1028±0.001350.1058±0.002060.0812±02 Education 0.0884±02 0.0910±03) 0.09360.000640.11820.000960.1127±0.001650.0770±0a Entertainment 0.10030 0.1007±02 0.11390.000840.1244牡0.001250.1178±0.001960.1081±0a Health 0.0458±0 0.0517±03) 0.05630.000840.06560.000960.05870.000750.047302 Recreation 0.138204 0.1460±03 0.14360.000720.1634牡0.001660.1549H0.001740.1550±05 Reference 0.0808±02 0.0822±0a 0.0889H0.001140.09820.001160.0929牡0.001050.0689H0u Science 0.1146±02 0.1208±03) 0.1300±0.000740.14260.001460.1362±0.001350.1107±0a Social 0.0648±02 0.0656±03) 0.07090.000740.07960.001060.0770±0.001350.0537±0a Society 0.133402 0.1410-0a 0.1481±0.000640.15850.001460.1491±0.001150.13030 Average 0.0922±0.033720.0975t0.03588)0.10230.03660.1140±0.039160.1092±0.037460.09050.0385m 表8雅虎网页数据集平均精度测试结果 Table 8 Test results of average precision on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.62730m 0.614302 0.6071±0.00113)0.59820.000950.60660.00180.5697±06 Business 0.8869H0 0.8829H02 0.88230.000430.8774牡0.000860.88050.00120.882204 Computers 0.7110±0 0.7009牡02 0.6995±0.00138)0.6922±0.001850.6960±0.002640.6620±06 Education 0.6460-0m 0.6379H02 0.6331±0.001430.61560.001250.6211±0.002240.608206 Entertainment 0.690 4+0 0.6847±02 0.6778±0.0015④0.6681±0.00250.6794牡0.003030.6218±06 Health 0.7955±0 0.7824±02 0.77750.001740.76860.002550.7812±0.00120.7562±06 Recreation 0.6342±0 0.6287±02 0.6269H0.00153)0.61070.002050.6201±0.00260.561306 Reference 0.72020 0.7087±03) 0.7050±0.001540.69670.0027周0.70960.002120.6820±06 Science 0.6042±0 0.5968±02 0.5880±0.002130.57440.00220.5830±0.00200.5489H06 Social 0.77350m 0.7719牡02 0.7664牡0.00126)0.7555±0.001950.7644牡0.001540.755506 Society 0.6437±0m 0.6364±02 0.6304牡0.00126,0.62130.002150.6274牡0.001240.618106 Average 0.70300.08650.69510.08742 0.6904牡0.08898)0.6799H0.091350.6881±0.0909④0.66050.10226 表9时间测试结果 Table 9 The results of testing time 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Yeast Gene 0.3195 0.2226 0.2672 0.2632 0.1837 0.5856 Scene 0.3963 0.1205 0.1926 0.1879 0.5253 1.8458 Arts 1.4875 0.7399 0.7908 0.7761 1.3086 4.8530 Business 1.5270 0.8025 0.8484 0.8456 1.4196 4.8498 Computers 1.8349 0.8874 0.9324 0.9578 1.8377 5.2708 Education 1.8456 0.8684 0.9143 0.8933 1.6075 5.2772 Entertainment 1.1074 0.6859 0.7109 0.7009 1.3568 3.0407 Health 1.8133 0.8767 0.9311 0.9519 1.7286 4.8117 Recreation 1.4050 0.6948 0.7409 0.7397 1.3211 4.8543 Reference 1.4634 0.8940 0.9197 0.9004 2.3278 4.8061 Science 1.9429 1.0132 1.1561 1.0274 2.4827 4.3769 Social 1.9571 1.0462 1.1348 1.0756 5.3349 5.3888 Society 1.3783 0.8042 0.8706 0.8243 1.6436 4.8933 Average Time 1.4214 0.7428 0.8008 0.7803 1.7752 4.2195

表 7 雅虎网页数据集排序损失测试结果 Table 7 Test results of ranking loss↓ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.126 8±0(1) 0.1358±0(3) 0.143 4±0.001 1(4) 0.153 6±0.001 1(6) 0.149 8±0.001 2(5) 0.127 9±0(2) Business 0.041 2±0(2) 0.041 5±0(3) 0.042 2±0.000 6(4) 0.047 2±0.000 5(6) 0.046 3±0.000 6(5) 0.035 9±0(1) Computers 0.080 2±0(1) 0.096 7±0(4) 0.094 9±0.000 8(3) 0.102 8±0.001 3(5) 0.105 8±0.002 0(6) 0.081 2±0(2) Education 0.088 4±0(2) 0.091 0±0(3) 0.093 6±0.000 6(4) 0.118 2±0.000 9(6) 0.112 7±0.001 6(5) 0.077 0±0(1) Entertainment 0.100 3±0(1) 0.100 7±0(2) 0.113 9±0.000 8(4) 0.124 4±0.001 2(5) 0.117 8±0.001 9(6) 0.108 1±0(3) Health 0.045 8±0(1) 0.051 7±0(3) 0.056 3±0.000 8(4) 0.065 6±0.000 9(6) 0.058 7±0.000 7(5) 0.047 3±0(2) Recreation 0.138 2±0(1) 0.146 0±0(3) 0.143 6±0.000 7(2) 0.163 4±0.001 6(6) 0.154 9±0.001 7(4) 0.155 0±0(5) Reference 0.080 8±0(2) 0.082 2±0(3) 0.088 9±0.001 1(4) 0.098 2±0.001 1(6) 0.092 9±0.001 0(5) 0.068 9±0(1) Science 0.114 6±0(2) 0.120 8±0(3) 0.130 0±0.000 7(4) 0.142 6±0.001 4(6) 0.136 2±0.001 3(5) 0.110 7±0(1) Social 0.064 8±0(2) 0.065 6±0(3) 0.070 9±0.000 7(4) 0.079 6±0.001 0(6) 0.077 0±0.001 3(5) 0.053 7±0(1) Society 0.133 4±0(2) 0.141 0±0(3) 0.148 1±0.000 6(4) 0.158 5±0.001 4(6) 0.149 1±0.001 1(5) 0.130 3±0(1) Average 0.092 2±0.033 7(2) 0.097 5±0.035 8(3) 0.102 3±0.036 6(4) 0.114 0±0.039 1(6) 0.109 2±0.037 4(5) 0.090 5±0.038 5(1) 表 8 雅虎网页数据集平均精度测试结果 Table 8 Test results of average precision ↑ on Yahoo Web Pages data set 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Arts 0.627 3±0(1) 0.614 3±0(2) 0.607 1±0.001 1(3) 0.598 2±0.000 9(5) 0.606 6±0.001 8(4) 0.569 7±0(6) Business 0.886 9±0(1) 0.882 9±0(2) 0.882 3±0.000 4(3) 0.877 4±0.000 8(6) 0.880 5±0.001 2(5) 0.882 2±0(4) Computers 0.711 0±0(1) 0.700 9±0(2) 0.699 5±0.001 3(3) 0.692 2±0.001 8(5) 0.696 0±0.002 6(4) 0.662 0±0(6) Education 0.646 0±0(1) 0.637 9±0(2) 0.633 1±0.001 4(3) 0.615 6±0.001 2(5) 0.621 1±0.002 2(4) 0.608 2±0(6) Entertainment 0.690 4±0(1) 0.684 7±0(2) 0.677 8±0.001 5(4) 0.668 1±0.002 5(5) 0.679 4±0.003 0(3) 0.621 8±0(6) Health 0.795 5±0(1) 0.782 4±0(2) 0.777 5±0.001 7(4) 0.768 6±0.002 5(5) 0.781 2±0.001 2(3) 0.756 2±0(6) Recreation 0.634 2±0(1) 0.628 7±0(2) 0.626 9±0.001 5(3) 0.610 7±0.002 0(5) 0.620 1±0.002 6(4) 0.561 3±0(6) Reference 0.720 2±0(1) 0.708 7±0(3) 0.705 0±0.001 5(4) 0.696 7±0.002 7(5) 0.709 6±0.002 1(2) 0.682 0±0(6) Science 0.604 2±0(1) 0.596 8±0(2) 0.588 0±0.002 1(3) 0.574 4±0.002 2(5) 0.583 0±0.002 0(4) 0.548 9±0(6) Social 0.773 5±0(1) 0.771 9±0(2) 0.766 4±0.001 2(3) 0.755 5±0.001 9(5) 0.764 4±0.001 5(4) 0.755 5±0(6) Society 0.643 7±0(1) 0.636 4±0(2) 0.630 4±0.001 2(3) 0.621 3±0.002 1(5) 0.627 4±0.001 2(4) 0.618 1±0(6) Average 0.703 0±0.086 5(1) 0.695 1±0.087 4(2) 0.690 4±0.088 9(3) 0.679 9±0.091 3(5) 0.688 1±0.090 9(4) 0.660 5±0.102 2(6) 表 9 时间测试结果 Table 9 The results of testing time s 数据集 ML-EKELM ML-KELM RELM ELM ML-RBF ML-KNN Yeast Gene 0.319 5 0.222 6 0.267 2 0.263 2 0.183 7 0.585 6 Scene 0.396 3 0.120 5 0.192 6 0.187 9 0.525 3 1.845 8 Arts 1.487 5 0.739 9 0.790 8 0.776 1 1.308 6 4.853 0 Business 1.527 0 0.802 5 0.848 4 0.845 6 1.419 6 4.849 8 Computers 1.834 9 0.887 4 0.932 4 0.957 8 1.837 7 5.270 8 Education 1.845 6 0.868 4 0.914 3 0.893 3 1.607 5 5.277 2 Entertainment 1.107 4 0.685 9 0.710 9 0.700 9 1.356 8 3.040 7 Health 1.813 3 0.876 7 0.931 1 0.951 9 1.728 6 4.811 7 Recreation 1.405 0 0.694 8 0.740 9 0.739 7 1.321 1 4.854 3 Reference 1.463 4 0.894 0 0.919 7 0.900 4 2.327 8 4.806 1 Science 1.942 9 1.013 2 1.156 1 1.027 4 2.482 7 4.376 9 Social 1.957 1 1.046 2 1.134 8 1.075 6 5.334 9 5.388 8 Society 1.378 3 0.804 2 0.870 6 0.824 3 1.643 6 4.893 3 Average Time 1.421 4 0.742 8 0.800 8 0.780 3 1.775 2 4.219 5 第 4 期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·839·

·840· 智能系统学报第14卷波动表明ML-EKELM算法在收敛过程中遇到局数据集上，指标性能最优，在平均性能指标位列部最小值并成功寻找到全局最小值，这也进一步第2位，与平均指标性能最优的ML-KNN算法仅说明该算法求解弹性网络具有较强的鲁棒性，并相差1.9%；在AP↑指标上如表8所示，ML-EKELM 且效率较高。算法在各个数据集上的性能指标均为最优。在雅表2中，在Yeast Gene数据集上与其他算法虎网页数据集中，可以看出在CV)和RL评价指对比，ML-EKELM算法在5种评价指标中均为第标上，ML-KNN具有一定优势，但HL↓、OE!和 1,在HL指标中较第2位算法降低3.5%损失；如 AP↑则排名靠后。而本文提出的算法在HL↓、表3所示，在Scene数据集中，本文ML-EKELM OE和AP↑上都具有较大优势，在CV和RL↓上算法同样在5种评价指标中最为优秀，在OE指对比其他算法也处于优势地位。标中比第2位算法降低11.8%错误率，同时在AP↑ 各算法在多个数据集实验的时间消耗如表9 指标中比第2位算法提高1.7%准确率：雅虎网页所示，本文提出的算法ML-EKELM由于采用坐标数据集包含11个子数据集，其中分别对每个评价下降法求解弹性网络，是一种迭代算法，所以在指标在各个子数据集中做出比较，如表4所示，平均时间消耗上高于直接求解矩阵解析解的在HLl指标上，Arts、Business、Computers、Educa- 3种ELM算法77.5%~91.4%，但该算法平均时间 tion、Entertainment、Health、Reference,Science和消耗低于ML-RBF算法24.9%，平均时间消耗低 Society等数据集中ML-EKELM性能最优，在Re- 于ML-KNN算法196.9%。从时间消耗可以看出 creation数据集上，该算法位列第2，与第1位算法 ML-EKELM算法对比传统ELM算法有一定差相差仅1.6%，在数据集Social上，ML-EKELM与距，但是对于其他多标记学习算法具有一定优 ML-KELM性能并列第1，在HL的平均指标中可势，ML-EKELM兼具准确率高与时间消耗较低的以看出，ML-EKELM算法性能最优。在表5 特点。中，对比了不同算法在各个数据集上的OE!指标为了更清晰地展示各算法在13个数据集上数值，其中在Social数据集上，ML-EKELM较的相对性能，采用显著性水平为5%的Nemenyi ML-KELM相差仅为0.3%，排位第2，在其他数据检验。当两个对比算法在各数据集中的平均排集中该指标均为最优；11个子数据集在CV)指标序差值小于或等于临界差(critical difference,CD), 上如表6所示，ML-EKELM算法在Computers、则认为这两个算法没有显著性差异；反之则2个 Entertainment和Recreation数据集中指标上最优，算法有显著性差异。图3给出了在5种评价指标其他数据均为第2，与平均指标性能最优的ML-KNN 下各算法的性能，其CD值为2.0913，没有显著性算法相差10.4%。差异的算法用实线相连，在图3评价指标子图中在RL指标上如表7所示，该算法在Ats、各算法坐标即平均排序位置，数值越小则算法性 Computers、Entertainment、Health和Recreation等能越高。 CD CD 63 ML-EKELM ELM ML-EKELM ELM ML-RBF ML-KNN ML-RBF ML-KNN ML-KELM RELM ML-KELM -RELM (a)海明损失 (b)1-错误率 CD CD 6 ML-EKELM ELM ML-EKELM ELM ML-KNN ML-RBF ML-KNN ML-RBF ML-KELM RELM ML-KELM RELM (c)覆盖率 (d排序损失 CD 6 ML-EKELM ELM ML-KNN ML-RBF ML-KELM RELM (e)平均精度图3算法性能比较 Fig.3 The performance comparison of algorithms

波动表明 ML-EKELM 算法在收敛过程中遇到局部最小值并成功寻找到全局最小值，这也进一步说明该算法求解弹性网络具有较强的鲁棒性，并且效率较高。表 2 中，在 Yeast Gene 数据集上与其他算法对比，ML-EKELM 算法在 5 种评价指标中均为第 1，在 HL↓指标中较第 2 位算法降低 3.5% 损失；如表 3 所示，在 Scene 数据集中，本文 ML-EKELM 算法同样在 5 种评价指标中最为优秀，在 OE↓指标中比第 2 位算法降低 11.8% 错误率，同时在 AP↑ 指标中比第 2 位算法提高 1.7% 准确率；雅虎网页数据集包含 11 个子数据集，其中分别对每个评价指标在各个子数据集中做出比较，如表 4 所示，在 HL↓指标上，Arts、Business、Computers、Education、Entertainment、Health、Reference，Science 和 Society 等数据集中 ML-EKELM 性能最优，在 Recreation 数据集上，该算法位列第 2，与第 1 位算法相差仅 1.6%，在数据集 Social 上，ML-EKELM 与 ML-KELM 性能并列第 1，在 HL↓的平均指标中可以看出， ML-EKELM 算法性能最优。在表 5 中，对比了不同算法在各个数据集上的 OE↓指标数值，其中在 Social 数据集上，ML-EKELM 较 ML-KELM 相差仅为 0.3%，排位第 2，在其他数据集中该指标均为最优；11 个子数据集在 CV↓指标上如表 6 所示，ML-EKELM 算法在 Computers、 Entertainment 和 Recreation 数据集中指标上最优，其他数据均为第 2，与平均指标性能最优的 ML-KNN 算法相差 10.4%。在 RL↓指标上如表 7 所示，该算法在 Arts、 Computers、Entertainment、Health 和 Recreation 等数据集上，指标性能最优，在平均性能指标位列第 2 位，与平均指标性能最优的 ML-KNN 算法仅相差 1.9%；在 AP↑指标上如表 8 所示，ML-EKELM 算法在各个数据集上的性能指标均为最优。在雅虎网页数据集中，可以看出在 CV↓和 RL↓评价指标上，ML-KNN 具有一定优势，但 HL↓、OE↓和 AP↑则排名靠后。而本文提出的算法在 HL↓、 OE↓和 AP↑上都具有较大优势，在 CV↓和 RL↓上对比其他算法也处于优势地位。各算法在多个数据集实验的时间消耗如表 9 所示，本文提出的算法 ML-EKELM 由于采用坐标下降法求解弹性网络，是一种迭代算法，所以在平均时间消耗上高于直接求解矩阵解析解的 3 种 ELM 算法 77.5%~91.4%，但该算法平均时间消耗低于 ML-RBF 算法 24.9%，平均时间消耗低于 ML-KNN 算法 196.9%。从时间消耗可以看出 ML-EKELM 算法对比传统 ELM 算法有一定差距，但是对于其他多标记学习算法具有一定优势，ML-EKELM 兼具准确率高与时间消耗较低的特点。为了更清晰地展示各算法在 13 个数据集上的相对性能，采用显著性水平为 5% 的 Nemenyi 检验[29]。当两个对比算法在各数据集中的平均排序差值小于或等于临界差 (critical difference，CD)，则认为这两个算法没有显著性差异；反之则 2 个算法有显著性差异。图 3 给出了在 5 种评价指标下各算法的性能，其 CD 值为 2.0913，没有显著性差异的算法用实线相连，在图 3 评价指标子图中各算法坐标即平均排序位置，数值越小则算法性能越高。 CD 1 ML-EKELM ML-RBF ML-KELM ELM ML-KNN RELM 2 3 4 5 6 CD 1 ML-EKELM ML-RBF ML-KELM ELM ML-KNN RELM 2 3 4 5 6 CD 1 ML-EKELM ML-KNN ML-KELM ELM ML-RBF RELM 2 3 4 5 6 CD 1 ML-EKELM ML-KNN ML-KELM ELM ML-RBF RELM 2 3 4 5 6 CD 1 ML-EKELM ML-KNN ML-KELM ELM ML-RBF RELM 2 3 4 5 6 (a) 海明损失 (b) 1-错误率 (c) 覆盖率 (d) 排序损失 (e) 平均精度图 3 算法性能比较 Fig. 3 The performance comparison of algorithms ·840· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录