第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0L:10.11992tis.201904040 面对类别不平衡的增量在线序列极限学习机 左鹏玉',周洁,王士同2 (1.江南大学数字媒体学院,江苏无锡214122;2.江苏省媒体设计与软件设计重点实验室,江苏无锡 214122) 摘要:针对在线序列极限学习机对于类别不平衡数据的学习效率低、分类准确率差的问题.提出了面对类别 不平衡的增量在线序列极限学习机IOS-ELM)。该算法根据类别不平衡比例调整平衡因子,利用分块矩阵的 广义逆矩阵对隐含层节点数进行寻优,提高了模型对类别不平衡数据的在线处理能力,最后通过14个二类和 多类不平衡数据集对该算法有效性和可行性进行验证。实验结果表明:该算法与同类其他算法相比具有更好 的泛化性和准确率,适用于类别不平衡场景下的在线学习。 关键词:类别不平衡学习;增量:无逆矩阵:在线学习:极限学习机:分类:多类不平衡:神经网络 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)03-0520-08 中文引用格式:左鹏玉,周洁,王士同.面对类别不平衡的增量在线序列极限学习机J.智能系统学报,2020,15(3): 520-527. 英文引用格式:ZUO Pengyu,.ZHOUJie,,WANG Shitong..Incremental online sequential extreme learning machine for imbalanced data[J].CAAI transactions on intelligent systems,2020,15(3):520-527. Incremental online sequential extreme learning machine for imbalanced data ZUO Pengyu',ZHOU Jie',WANG Shitong 2 (1.College of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangsu Province Key Lab.of Media Design Software Technologies,Wuxi214122,China) Abstract:In this paper,an incremental online sequential extreme learning machine(IOS-ELM)is proposed to solve the problems of low efficiency and poor classification accuracy of OS-ELM for class imbalance learning.The basic idea is to adjust the balance factor according to the category imbalance ratio in an imbalanced dataset and then determine an op- timal number of hidden nodes using the generalized inverse of the block matrix,thereby improving the online learning ability of IOS-ELM.The experiments on the effectiveness and feasibility of 14 binary-class and multi-class imbalanced datasets show that the proposed IOS-ELM has better generalization capability and classification performance than other comparative methods. Keywords:class imbalance;incremental learning;inverse-free matrix:online learning;extreme learning machine;clas- sification:multi-class imbalanced:neural network 近年来,极限学习机(extreme learning ma- 数,可应用于回归问题和分类问题山。固定型 chine,ELM)已经得到了广泛的研究和应用。 ELM为了获得较好的学习能力,通常采用高维的 ELM是基于前馈神经网络(single hidden-layer 网络结构,学习规模较大,因此寻找最优隐节点 feedforward neural network,SLFN)的最小二乘算 个数和有效控制网络结构复杂性成为急需解决的 法,同时具有最小的训练误差和最小的权重范 问题。Huang等提出了增量型极限学习机(in- cremental extreme learning machine,.I-ELM),通过增 收稿日期:2019-04-17. 基金项目:国家自然科学基金项目(61170122). 加隐含层节点数减少训练误差,但是其使用增量 通信作者:左鹏玉.E-mail:1253712018@qq.com 式策略后得到的新输出权重与具有同样隐含层参
DOI: 10.11992/tis.201904040 面对类别不平衡的增量在线序列极限学习机 左鹏玉1 ,周洁1 ,王士同1,2 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 江苏省媒体设计与软件设计重点实验室,江苏 无锡 214122) 摘 要:针对在线序列极限学习机对于类别不平衡数据的学习效率低、分类准确率差的问题,提出了面对类别 不平衡的增量在线序列极限学习机 (IOS-ELM)。该算法根据类别不平衡比例调整平衡因子,利用分块矩阵的 广义逆矩阵对隐含层节点数进行寻优,提高了模型对类别不平衡数据的在线处理能力,最后通过 14 个二类和 多类不平衡数据集对该算法有效性和可行性进行验证。实验结果表明:该算法与同类其他算法相比具有更好 的泛化性和准确率,适用于类别不平衡场景下的在线学习。 关键词:类别不平衡学习;增量;无逆矩阵;在线学习;极限学习机;分类;多类不平衡;神经网络 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)03−0520−08 中文引用格式:左鹏玉, 周洁, 王士同. 面对类别不平衡的增量在线序列极限学习机 [J]. 智能系统学报, 2020, 15(3): 520–527. 英文引用格式:ZUO Pengyu, ZHOU Jie, WANG Shitong. Incremental online sequential extreme learning machine for imbalanced data[J]. CAAI transactions on intelligent systems, 2020, 15(3): 520–527. Incremental online sequential extreme learning machine for imbalanced data ZUO Pengyu1 ,ZHOU Jie1 ,WANG Shitong1,2 (1. College of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Province Key Lab. of Media Design & Software Technologies, Wuxi 214122, China) Abstract: In this paper, an incremental online sequential extreme learning machine (IOS-ELM) is proposed to solve the problems of low efficiency and poor classification accuracy of OS-ELM for class imbalance learning. The basic idea is to adjust the balance factor according to the category imbalance ratio in an imbalanced dataset and then determine an optimal number of hidden nodes using the generalized inverse of the block matrix, thereby improving the online learning ability of IOS-ELM. The experiments on the effectiveness and feasibility of 14 binary-class and multi-class imbalanced datasets show that the proposed IOS-ELM has better generalization capability and classification performance than other comparative methods. Keywords: class imbalance; incremental learning; inverse-free matrix; online learning; extreme learning machine; classification; multi-class imbalanced; neural network 近年来,极限学习机 (extreme learning machine, ELM) 已经得到了广泛的研究和应用。 ELM 是基于前馈神经网络 (single hidden-layer feedforward neural network, SLFN) 的最小二乘算 法,同时具有最小的训练误差和最小的权重范 数,可应用于回归问题和分类问题[ 1 ]。固定型 ELM 为了获得较好的学习能力,通常采用高维的 网络结构,学习规模较大,因此寻找最优隐节点 个数和有效控制网络结构复杂性成为急需解决的 问题。Huang 等 [2] 提出了增量型极限学习机 (incremental extreme learning machine,I-ELM),通过增 加隐含层节点数减少训练误差,但是其使用增量 式策略后得到的新输出权重与具有同样隐含层参 收稿日期:2019−04−17. 基金项目:国家自然科学基金项目 (61170122). 通信作者:左鹏玉. E-mail:1253712018@qq.com. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020
第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·521· 数的标准ELM求得的输出权重结果不同。文 能。ELM是批量学习算法,训练样本数是固定 献[3]提出了不同的增量式策略,根据分块矩 的。2006年,Huang等W正式提出极限学习机的 阵的广义逆矩阵分析确定输出权重,且其具有 理论及应用。 ELM的最优性。以上所述均为批量学习算法,只 能将数据一次性输入给训练模型。而现实生活 yi= Bg(w,ex),j=1,2,…,i (1) 中,很多数据都不是一次性获得的。数据依次加 1 入到训练模型中,批量学习算法需将旧的数据和 式中:y是第j个训练样本的输出值;w,为第i个 新的数据一起重新训练,需要花费大量的时间。 隐含层节点的输入权重;e,为第i个隐含层节点 文献[6]提出了在线序列极限学习机(online se-. 的偏差;x为第j个输入节点。由式(1)可推出输 quence extreme learning machine,.OS-ELM),可以将 出权重B为 训练数据逐个或多个地加入到训练模型中,丢掉 HT(HH)Y,样本数隐<节点数 B= 已经训练过的数据以减少空间消耗。文献[7]提 (HH)HY,隐节点数<样本数 出了一种基于增量平均加权的在线序贯极限学习 ELM没有迭代调整的过程,相对于传统的前 机算法(incremental weighted average based online 馈神经网络极大地提高了学习速度。 sequential extreme learning machine,IWOS-ELM), 1.2在线序列极限学习机 利用原始数据来弱化增量数据的波动,使在线学 OS-ELM是ELM增加训练样本而得的一种 习机具有良好的稳定性。然而,现实生活中存在 在线学习算法,具有ELM所有的优点。OS-ELM 着大量的不平衡数据,例如生物医学应用和网络 包括一个初始的ELM批量学习过程和在线序列 入侵等,ELM并不适用于此类不平衡数据。在不 学习过程。在初始化阶段,根据广义逆矩阵的公 平衡数据中,分为多数类和少数类,一般学习算 式,初始的输出权重B的计算公式为 法中大多数类将分离边界推向少数类,以期望获 得更好的自身分类效果1。文献[11]提出了应 Bo=KoHo Yo 式中:Ho是隐含层输出矩阵;K。=HgHo。当增加 用于不平衡数据的W-ELM算法。此算法增加了 一个训练样本后,隐含层输出矩阵H1和训练样 权数,使得数据具有新的平衡程度。对于在线学 习,文献[12]在OS-ELM的基础上提出了加权在 本的期望输出值Y1分别为 线序列极限学习机(weighted online sequential ex- H44= H .Y= Y, y41 treme learning machine,.WOS-ELM),设置适当的权 重,使得不平衡分类的学习性能更好。但是这些 式中:h1为新增节点的隐含层输出矩阵;y1为新 在线学习算法有着和ELM一样的问题一如何 增训练样本的期望输出向量。当第+1块数据集 寻找最优隐含层节点数。 加入到训练样本时,输出矩阵可由第1块数据集 本文提出了针对类别不平衡问题的增量在线 加入到训练样本后的输出矩阵分析求得,计算公 序列极限学习机(incremental and online sequence 式为 extreme learning machine for class imbalance learn- B41=B,+Kh,(Y41-h+iB) ing,IOS-ELM)。首先根据类别不平衡比率调整平 K=K-Kh(I+hKh)hK 衡因子,增大少数类样本的平衡因子使得分离超 1.3 无逆矩阵极限学习机 平面靠近多类样本。再根据分类误差大小决定是 在极限学习机的模型中,训练误差随着隐含 否增加隐节点数,通常情况下隐节点数小于训练 层节点数的增加而减小。但在实验中,考虑到 样本,利用Schur complement公式增加隐节点;当 计算复杂度,应尽量减少隐含层节点数。为了 隐节点数较大时利用Sherman-Morrison公式增加 平衡训练误差与计算复杂度这两个因素,寻找 隐节点。寻找到最优隐节点数后,可逐个或多个 隐含层节点数的最优值成为迫切需要解决的问 地加入新训练样本获得更好的训练模型。 题。无逆矩阵极限学习机(F-ELM)应运而生。 1相关工作 该算法采用了隐节点增加策略,具有+1个隐含 层节点的输出权重可由原I个隐含层节点的输 1.1极限学习机 出权重求出,而不需要重新计算所有的隐含层 ELM随机产生隐含层参数且不需要进行调 节点输出权重。 整,通过最小二乘法直接确定隐含层的输出权 当增加一个隐含层节点时,输入权重W和 重,极大地提高了运行速度且具有良好的泛化性 偏值E更新为如下形式:
数的标准 ELM 求得的输出权重结果不同。文 献 [3] 提出了不同的增量式策略,根据分块矩 阵的广义逆矩阵分析确定输出权重,且其具有 ELM 的最优性。以上所述均为批量学习算法,只 能将数据一次性输入给训练模型。而现实生活 中,很多数据都不是一次性获得的。数据依次加 入到训练模型中,批量学习算法需将旧的数据和 新的数据一起重新训练,需要花费大量的时间[4-5]。 文献 [6] 提出了在线序列极限学习机 (online sequence extreme learning machine, OS-ELM),可以将 训练数据逐个或多个地加入到训练模型中,丢掉 已经训练过的数据以减少空间消耗。文献 [7] 提 出了一种基于增量平均加权的在线序贯极限学习 机算法 (incremental weighted average based online sequential extreme learning machine, IWOS-ELM), 利用原始数据来弱化增量数据的波动,使在线学 习机具有良好的稳定性。然而,现实生活中存在 着大量的不平衡数据,例如生物医学应用和网络 入侵等,ELM 并不适用于此类不平衡数据。在不 平衡数据中,分为多数类和少数类,一般学习算 法中大多数类将分离边界推向少数类,以期望获 得更好的自身分类效果[8-10]。文献 [11]提出了应 用于不平衡数据的 W-ELM 算法。此算法增加了 权数,使得数据具有新的平衡程度。对于在线学 习,文献 [12] 在 OS-ELM 的基础上提出了加权在 线序列极限学习机 (weighted online sequential extreme learning machine, WOS-ELM),设置适当的权 重,使得不平衡分类的学习性能更好。但是这些 在线学习算法有着和 ELM 一样的问题−如何 寻找最优隐含层节点数。 本文提出了针对类别不平衡问题的增量在线 序列极限学习机 (incremental and online sequence extreme learning machine for class imbalance learning,IOS-ELM)。首先根据类别不平衡比率调整平 衡因子,增大少数类样本的平衡因子使得分离超 平面靠近多类样本。再根据分类误差大小决定是 否增加隐节点数,通常情况下隐节点数小于训练 样本,利用 Schur complement 公式增加隐节点;当 隐节点数较大时利用 Sherman-Morrison 公式增加 隐节点。寻找到最优隐节点数后,可逐个或多个 地加入新训练样本获得更好的训练模型。 1 相关工作 1.1 极限学习机 ELM 随机产生隐含层参数且不需要进行调 整,通过最小二乘法直接确定隐含层的输出权 重,极大地提高了运行速度且具有良好的泛化性 能 [13]。ELM 是批量学习算法,训练样本数是固定 的。2006 年,Huang 等 [1] 正式提出极限学习机的 理论及应用。 yj = ∑l i=1 βig ( wi , ei , xj ) , j = 1,2,··· ,t (1) β 式中:yj 是第 j 个训练样本的输出值;wi 为第 i 个 隐含层节点的输入权重;ei 为第 i 个隐含层节点 的偏差;xj 为第 j 个输入节点。由式 (1) 可推出输 出权重 为 β = { HT ( HHT )−1 Y, 样本数隐 < 节点数 ( HTH )−1HTY, 隐节点数 < 样本数 ELM 没有迭代调整的过程,相对于传统的前 馈神经网络极大地提高了学习速度。 1.2 在线序列极限学习机 β0 OS-ELM 是 ELM 增加训练样本而得的一种 在线学习算法,具有 ELM 所有的优点。OS-ELM 包括一个初始的 ELM 批量学习过程和在线序列 学习过程。在初始化阶段,根据广义逆矩阵的公 式,初始的输出权重 的计算公式为 β0 = K −1 0 H T 0Y0 K0 = HT 式中:H0 是隐含层输出矩阵; 0 H0。当增加 一个训练样本后,隐含层输出矩阵 Ht+1 和训练样 本的期望输出值 Yt+1 分别为 Ht+1 = [ Ht ht+1 ] , Yt+1= [ Yt yt+1 ] 式中:ht+1 为新增节点的隐含层输出矩阵;yt+1 为新 增训练样本的期望输出向量。当第 t+1 块数据集 加入到训练样本时,输出矩阵可由第 t 块数据集 加入到训练样本后的输出矩阵分析求得,计算公 式为 βt+1 = βt + K −1 t+1h T t+1 (Yt+1 − ht+1βt) K −1 t+1 = K −1 t − K −1 t h T t+1 (I+ ht+1K −1 t ht+1 T ) −1ht+1K −1 t 1.3 无逆矩阵极限学习机 在极限学习机的模型中,训练误差随着隐含 层节点数的增加而减小。但在实验中,考虑到 计算复杂度,应尽量减少隐含层节点数。为了 平衡训练误差与计算复杂度这两个因素,寻找 隐含层节点数的最优值成为迫切需要解决的问 题。无逆矩阵极限学习机 (IF-ELM) 应运而生。 该算法采用了隐节点增加策略,具有 l+1 个隐含 层节点的输出权重可由原 l 个隐含层节点的输 出权重求出,而不需要重新计算所有的隐含层 节点输出权重。 当增加一个隐含层节点时,输入权重 W l+1 和 偏值 E l+1 更新为如下形式: 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·521·
·522· 智能系统学报 第15卷 W1=[Ww41,E1=[Eea1] 2.2 算法推导 式中W和E是具有1个隐含层节点数的输入权 现实生活中有很多类别不平衡现象,例如欺 重和偏差。w+1为新增隐含层节点输出权重, 诈交易识别中,绝大多数交易属于正常交易,只 e#1为新增隐含层节点偏差,两者均为随机选取的 有少数交易为欺诈交易,这就形成了类别不平衡 参数。则具有+1个隐含层节点的ELM的隐含 现象。在经典ELM中,为了获得更高的分类准 层输出矩阵H为 确率,ELM将分离超平面推向少数类,降低了少 数类的识别率61刀。本文为了提高少数类的识别 H1=g(W+X+E+)= 8(wx+[)=1) 率,为每个不同的类别设置不同的1值,少数类 的1值比多数类的1大,将分离超平面推向多数 具有+1个隐含层节点的输出权重B1计算 类。新的1值为k×k的矩阵,设置如下: 公式为 100 B41=(H1)Y= :=第谈样本个数 (Hh T[HhHh JY=UY 本文所提算法分为两种情况:一种为隐含层 式中:(H)是H1的广义逆矩阵啊,U=(①Hh]下 节点数小于训练样本数,另一种为训练样本数小 [Hh)[Hh「。为了避免产生过拟合现象, 于隐含层节点数。 加入正则化项a,则 1)隐含层节点数小于训练样本数是比较常见 U=(d21+[Hh[Hh[Hh= 的情况。将1设置为矩阵后,具有1个隐含层节 d1+HH HhH 点的输出权重β由式(1)可得: d2+hh h B=(AH+)HλY (3) [A BH AH+Bh 初始化阶段增加隐含层节点数后,隐含层输 C Dh=CH+Dh 出权重H更新如式(2)所示,将式(2)代人到式 由Schur complement公式可得 (3)可得到新的输出权重B+: A=dh+HH-h(d+hh)WH B=(Hh A Hh]+DHλY= B=-AHTh(a2+hh) [HAH+In H ah C=-(a2+hh)hHA hAH D=-CHh(a2+hh)+(2+hh) 式中A可由Sherman-Morrison公式求得: C:D:h aY A=(aI+H)+(a21+HH)Hh. 其中: I+(d2+hh)hH(d21+H)Hh]. A =[HH+Ix-HAh(hTah+1)hH]- (d2+hh)-hH(a2+H) B:=-A HT ah(hTah+1) C=-(hh+1)hAHA 2基于类别不平衡的增量在线ELM D:=-CHAh(hh+1)+(hTh+1) 式中A,可由Sherman-Morrison公式求得: 2.1算法思想 A=(HAH+Ind)+(HAH+I)H Ah. OS-ELM算法通过不断地增加训练样本更好 [U+(hλh+1)hλH(HH+I)Hhr 地反应数据模型。现实生活中有很多类别不平衡 (hAh+1)hAH(HH+Id) 数据,为了获得更高的分类准确率OS-ELM算法 将分离超平面推向少数类,降低了少类的识别 在线学习阶段,增加隐含层节点数以减小训 率。此外,隐节点个数太少降低了分类准确率, 练误差,当隐含层节点数与训练误差都具有合适 但隐含层节点个数太多使网络结构变得复杂。 的值的时候,再继续增加训练样本数,更多的样 OS-ELM算法只是逐个增加训练样本个数,并未 本以更好地反映数据模型。当增加样本时,参数 对隐含层节点个数进行调整。 2、隐含层输出矩阵H和预期输出Y分别为 本文提出了面向类别不平衡的无逆矩阵在线 =[&a] 序列极限学习机。所提算法首先利用参数1平衡 类别不平衡数据中分离边界的距离和训练误差之 故在线学习的输出权重为 间的关系,然后通过增加隐节点来调整网络结 B+1=B.+Kh入+1(Y+1-h4B) 构,最后使用在线学习方式,训练模型在线的加 K=Kl-Kh(+Kh)ihiK 入训练数据以更好地反映数据模型。 2)OS-ELM和IF-ELM中都只讨论了隐含层
Wl+1 = [ Wl wl+1 ] , E l+1 = [ E l el+1 ] Hl+1 式中 W l 和 E l 是具有 l 个隐含层节点数的输入权 重和偏差。wl + 1 为新增隐含层节点输出权重, el+1 为新增隐含层节点偏差,两者均为随机选取的 参数。则具有 l+1 个隐含层节点的 ELM 的隐含 层输出矩阵 为 Hl+1 = g ( Wl+1X+ E l+1 ) = g ([ Wl wl+1 ] X+ [ E l el+1 ]) = [ H h ] (2) β 具有 l+1 l+1 个隐含层节点的输出权重 计算 公式为 β l+1 = ( Hl+1 )† Y = ([ H h ] T [ H h ])−1 [ H h ] TY = UY ( Hl+1 )† Hl+1 U = ([ H h ] T · [ H h ])−1 [ H h ] T 式中: 是 的广义逆矩阵[14] ; 。为了避免产生过拟合现象, 加入正则化项 a,则 U = (a 2 Il+1 +[ H h ] T [ H h ])−1 [ H h ] T = [ a 2 Il + HTH HT h h TH a 2 + h T h ]−1 [ H h ] = [ A B C D ] [ H h ] = [ AH + Bh CH + Dh ] 由 Schur complement 公式可得 A = [ a 2 Il + HTH − HT h ( a 2 + h T h )−1 h TH ]−1 B = −AHT h ( a 2 + h T h )−1 C = − ( a 2 + h T h )−1 h THA D = −CHT h ( a 2 + h T h )−1 + ( a 2 + h T h )−1 式中 A 可由 Sherman-Morrison 公式求得: A = (a 2 Il + HTH) −1 +(a 2 Il + HTH) −1HT h· [ I+(a 2 + h T h) −1h TH(a 2 Il + HTH) −1HT h ]−1 · (a 2 + h T h) −1h TH(a 2 Il + HTH) −1 2 基于类别不平衡的增量在线 ELM 2.1 算法思想 OS-ELM 算法通过不断地增加训练样本更好 地反应数据模型。现实生活中有很多类别不平衡 数据,为了获得更高的分类准确率 OS-ELM 算法 将分离超平面推向少数类,降低了少类的识别 率。此外,隐节点个数太少降低了分类准确率, 但隐含层节点个数太多使网络结构变得复杂。 OS-ELM 算法只是逐个增加训练样本个数,并未 对隐含层节点个数进行调整。 本文提出了面向类别不平衡的无逆矩阵在线 序列极限学习机。所提算法首先利用参数 λ 平衡 类别不平衡数据中分离边界的距离和训练误差之 间的关系,然后通过增加隐节点来调整网络结 构,最后使用在线学习方式,训练模型在线的加 入训练数据以更好地反映数据模型。 2.2 算法推导 现实生活中有很多类别不平衡现象,例如欺 诈交易识别中,绝大多数交易属于正常交易,只 有少数交易为欺诈交易,这就形成了类别不平衡 现象[15]。在经典 ELM 中,为了获得更高的分类准 确率,ELM 将分离超平面推向少数类,降低了少 数类的识别率[16-17]。本文为了提高少数类的识别 率,为每个不同的类别设置不同的 λ 值,少数类 的 λ 值比多数类的 λ 大,将分离超平面推向多数 类。新的 λ 值为 k×k 的矩阵,设置如下: λii = 100 第i类样本个数 本文所提算法分为两种情况:一种为隐含层 节点数小于训练样本数,另一种为训练样本数小 于隐含层节点数。 β l 1) 隐含层节点数小于训练样本数是比较常见 的情况。将 λ 设置为矩阵后,具有 l 个隐含层节 点的输出权重 由式 (1) 可得: β l = (H T λH + I) −1H T λY (3) β l+1 初始化阶段增加隐含层节点数后,隐含层输 出权重 H l+1 更新如式 (2) 所示,将式 (2) 代入到式 (3) 可得到新的输出权重 : β l+1 = ([ H h ] Tλ[ H h ]+ I) −1HTλY = [ HTλH + Il×l HTλh h TλH hTλh+1 ]−1 [ HT h T ] λY = [ A1 B1 C1 D1 ] [ HT h T ] λY 其中: A1 = [HTλH + Il×l − HTλh(h Tλh+1)−1h TλH] −1 B1 = −A1HTλh(h Tλh+1)−1 C1 = −(h Tλh+1)−1h TλHA1 D1 = −C1HTλh(h Tλh+1)−1 +(h Tλh+1)−1 式中 A1 可由 Sherman-Morrison 公式求得: A1 = (HTλH + Il×l) −1 +(HTλH + Il×l) −1HTλh· [ I +(h Tλh+1)−1h TλH(HTλH + Il×l) −1HTλh ]−1 · (h Tλh+1)−1h TλH(HTλH + Il×l) −1 在线学习阶段,增加隐含层节点数以减小训 练误差,当隐含层节点数与训练误差都具有合适 的值的时候,再继续增加训练样本数,更多的样 本以更好地反映数据模型。当增加样本时,参数 λ、隐含层输出矩阵 H 和预期输出 Y 分别为 λt+1 = [ λt 0 0 λt+1 ] ,Ht+1= [ Ht ht+1 ] ,Yt+1= [ Yt yt+1 ] 故在线学习的输出权重为 βt+1 = βt + K −1 t+1h T t+1 λt+1 (Yt+1 − ht+1βt) K −1 t+1 = K −1 t − K −1 t h T t+1 ( I+λt+1ht+1K −1 t ht+1 T )−1 λt+1ht+1K −1 t 2) OS-ELM 和 IF-ELM 中都只讨论了隐含层 ·522· 智 能 系 统 学 报 第 15 卷
第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·523· 节点数小于训练样本数的情况,而当隐含层节点 是:Dermatology-.6、Abalones9-l8、Yeastl、Shuttle- 数大于训练样本数时,这两种算法都不符合最小 c0-vs-c4、Segment0、Abalone 19、Pageblocks0、 二乘定律。有些数据结构比较复杂,数据之间的 Pdspeechfeaters、Vehicle1、Vehicle3、Biodge、DNA、 关系或是属性较多,此时需要较多的隐含层节点 Satimage、USPS,具体描述如表1所示。本文所有 数。接下来将讨论隐含层节点数大于训练样本数 实验均在同一环境下完成,采用在Windows 10环 的情况,初始化阶段,将1设置为矩阵后,由式 境下搭建系统,计算机处理器配置为Intel® (1)可得具有I个隐含层节点的输出权重B为 CoreTM i5-8400CPU@2.8GHz,内存12GB,MAT- B=H(HH+A)Y LAB2016b下完成, 设 0=(HH+) (4) 表1实验数据集 Table 1 Experimental datasets 增加隐含层节点后,新的输出权重B41为 B1=[Hh T([HhHh+)-Y= 数据集 样本数类别不平衡率特征数类别数 Hh ](H+hh+Y= Dermatology-6 358 16.9 34 Hh ]QY Abalone9-20 731 16.4 2 式中g=(I+CHHr+Chh),根据Sherman-Mor- Shuttle-c0-vs-c4 1 829 13.87 9 2 rison公式可得 Q1=(HH+')1-(HH+ Segmento 2308 6.02 19 [I+h(H+h]h(H) (5) Abalone19 4174 129.44 2 将式(4)代入到式(5)中得 Pageblocks0 5472 8.1 10 2 0=0-0h(I+ho'h)ho 在线学习阶段增加新训练样本后,参数2、隐 Pdspeechfeaters 756 29 754 2 含层输出矩阵H和预期输出Y的变化与隐含层 Vehiclel 846 20 2 节点数小于训练样本数的情况相同,增加训练样 Vehicle3 846 2.9 20 2 本后新的输出权重为 H Biodge 1055 1q6 41 2 B+= DNA 2000 2.25 200 3 ay Satimage 6435 2.38 36 6 USPS 9298 2.19 256 9 H,H,+入 H.hia huH huihi+ 实验中,将所有数据归一化到[-1,1]区间 由Schur complement公式可得: 中。ELM网络的激活函数均为Sigmoid函数,为 0P1 H,H+入 H.hi 了保证实验的有效性,实验使用五折交叉验证 hut H:T hohi+A 法,每组数据进行20次实验,最终结果为20次实 其中: 验结果的平均值。为了确保IF-ELM和IOS- 0=A,H+-H,hhh+i)hH ELM算法网络结构不会无休止增长,隐含层节点 P=-OH,hi(hh+ 最大增长个数为50。F-ELM、OS-ELM和WEOS- R=-(hh+)hH.O ELM算法使用SMOTE作为过采样方法Is1。 S=-RH,hi(h++(h+ SMOTE中的k值设置为5,若少数类样本数量较 设y=(HH,+入),t=(h4h+i)h4H,, 少,则k值相应地减小。本文采用类别不平衡领 n=H,h,根据Sherman--Morrison公式,可得 域中的常用评价性能指标几何平均数(geometric O=y+yn(+yn)y mean,G-mean)来比较各个算法的分类性能m。 3实验结果 对于多类问题,本文将多类划分为多个二类问 题,求出每个二类问题的G-mean值,取其平均值 为了验证本文所提IOS-ELM算法的有效性, 作为多类分类最终实验结果。 利用keel数据集和UCI数据集对W-ELM、IF- 表2给出了隐节点数小于训练样本数的不同 ELM-SMOTE、OS-ELM-SMOTE、EWOS-ELM和 ELM算法二分类实验结果。大部分的二分类实 所提IOS-ELM算法进行测试。实验数据集分别 验中本文所提出的IOS-ELM算法的G-mean值最
β l 节点数小于训练样本数的情况,而当隐含层节点 数大于训练样本数时,这两种算法都不符合最小 二乘定律。有些数据结构比较复杂,数据之间的 关系或是属性较多,此时需要较多的隐含层节点 数。接下来将讨论隐含层节点数大于训练样本数 的情况,初始化阶段,将 λ 设置为矩阵后,由式 (1) 可得具有 l 个隐含层节点的输出权重 为 β l = H T (HHT +λ −1 ) −1Y 设 Q l = (HHT +λ −1 ) −1 (4) β 增加隐含层节点后,新的输出权重 l+1 为 β l+1 = [ H h ] T ([ H h ][ H h ] T +λ −1 ) −1Y = [ H h ] T (HHT + hhT +λ −1 ) −1Y = [ H h ] TQ l+1Y Q l+1 = (I+CHHT +ChhT ) 式中 −1,根据 Sherman-Morrison 公式可得 Q l+1 = (HHT +λ −1 ) −1 −(HHT +λ −1 ) −1h· [ I+ h T (HHT +λ −1 ) −1h ]−1 h T (HHT +λ −1 ) −1 (5) 将式 (4) 代入到式 (5) 中得 Q l+1 = Q l −Q lh(I+ h TQ lh) −1h TQ l 在线学习阶段增加新训练样本后,参数 λ、隐 含层输出矩阵 H 和预期输出 Y 的变化与隐含层 节点数小于训练样本数的情况相同,增加训练样 本后新的输出权重为 β t+1 = [ Ht ht+1 ]T [ Ht ht+1 ] [ Ht ht+1 ]T + [ λt 0 0 λt+1 ]−1 −1 [ Yt yt+1 ] = [ Ht ht+1 ]T( HtHt T +λt Hth T t+1 ht+1Ht T ht+1h T t+1 +λt+1 )−1 [ Yt yt+1 ] 由 Schur complement 公式可得: [ O P R S ] = ( HtHt T +λt Hth T t+1 ht+1Ht T ht+1h T t+1 +λt+1 )−1 其中: O = [ HtHt T +λt − Hth T t+1 (ht+1h T t+1 +λt+1) −1ht+1Ht T ]−1 P = −OHth T t+1 (ht+1h T t+1 +λt+1) −1 R = −(ht+1h T t+1 +λt+1) −1ht+1Ht TO S = −RHth T t+1 (ht+1h T t+1 +λt+1) −1 +(ht+1h T t+1 +λt+1) −1 γ = (HtHt T +λt) −1 , ι = (ht+1h T t+1 +λt+1) −1ht+1Ht T , η = Hth T t+1 , 设 根据 Sherman-Morrison 公式,可得 O = γ+γη(I +ιγη) −1 ιγ 3 实验结果 为了验证本文所提 IOS-ELM 算法的有效性, 利用 keel 数据集和 UCI 数据集对 W-ELM、IFELM-SMOTE、OS-ELM- SMOTE、EWOS-ELM 和 所提 IOS-ELM 算法进行测试。实验数据集分别 是:Dermatology-6、Abalone9-18、Yeast1、Shuttlec0-vs-c4、Segment0、Abalone19、Pageblocks0、 Pdspeechfeaters、Vehicle1、Vehicle3、Biodge、DNA、 Satimage、USPS,具体描述如表 1 所示。本文所有 实验均在同一环境下完成,采用在 Windows 10 环 境下搭建系统,计算机处理器配置 为 Intel® CoreTM i5-8400 CPU@2.8 GHz,内存 12 GB,MATLAB2016b 下完成。 表 1 实验数据集 Table 1 Experimental datasets 数据集 样本数 类别不平衡率 特征数 类别数 Dermatology-6 358 16.9 34 2 Abalone9-20 731 16.4 8 2 Shuttle-c0-vs-c4 1 829 13.87 9 2 Segment0 2 308 6.02 19 2 Abalone19 4 174 129.44 8 2 Pageblocks0 5 472 8.79 10 2 Pdspeechfeaters 756 2.94 754 2 Vehicle1 846 2.9 20 2 Vehicle3 846 2.99 20 2 Biodge 1 055 1.96 41 2 DNA 2 000 2.25 200 3 Satimage 6 435 2.38 36 6 USPS 9 298 2.19 256 10 实验中,将所有数据归一化到 [−1,1] 区间 中。ELM 网络的激活函数均为 Sigmoid 函数,为 了保证实验的有效性,实验使用五折交叉验证 法,每组数据进行 20 次实验,最终结果为 20 次实 验结果的平均值。为了确保 IF-ELM 和 IOSELM 算法网络结构不会无休止增长,隐含层节点 最大增长个数为 50。IF-ELM、OS-ELM 和 WEOSELM 算法使 用 SMOTE 作为过采样方法 [ 1 5 ]。 SMOTE 中的 k 值设置为 5,若少数类样本数量较 少,则 k 值相应地减小。本文采用类别不平衡领 域中的常用评价性能指标几何平均数 (geometric_ mean, G-mean) 来比较各个算法的分类性能[17]。 对于多类问题,本文将多类划分为多个二类问 题,求出每个二类问题的 G-mean 值,取其平均值 作为多类分类最终实验结果。 表 2 给出了隐节点数小于训练样本数的不同 ELM 算法二分类实验结果。大部分的二分类实 验中本文所提出的 IOS-ELM 算法的 G-mean 值最 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·523·
·524· 智能系统学报 第15卷 高且训练时间也较少。以Dermatology6数据集为 本的结果。在隐节点数大于训练样本时,初始时 例,初始的隐含层节点数为5,误差终止条件为 隐含层节点数较多,增加隐节点数对实验结果影 tempmean=-0.98。IOS-ELM算法的G-mean=0.96, 响较小。隐节点数过大也导致训练时间较多。 训练时间为0.0789s,分类准确率明显高于其他 表4给出了多类分类实验结果,证明IOS-ELM算 3种算法。表3给出了隐含层节点数大于训练样 法对多类分类实验也有很好的学习性能。 表2隐节点数大于训练样本数的二分类实验结果 Table 2 Two-class experimental results with the number of hidden nodes more than the number of training samples 训练样本几何 初始隐 初始训练 每次新增训练 数据集 算法 几何平均数 时间/s 平均数 节点数 样本数 样本数 IOSELM 0.9429 0.0656 0.98 200 WELM 0.8353 0.0231 200 IFELM-SMOTE 0.8973 1 Dermatology6 118.4179 0.98 200 OSELM-SMOTE 0.8391 0.0312 200 EWOSELM- 0.8537 0.4789 J 200 SMOTE IOSELM 0.8692 1.2625 0.86 400 WELM 0.7586 0.0707 一 400 1 Abalone9-18 IFELM-SMOTE 0.8498 477.3312 0.86 5 400 1 OSELM-SMOTE 0.8084 0.0367 400 EWOSELM- 0.7286 0.7195 400 SMOTE IOSELM 0.7043 0.4859 0.71 10 700 10 WELM 0.6796 0.0696 10 700 10 Yeastl IFELM-SMOTE 0.7021 104.2031 0.71 10 700 10 OSELM-SMOTE 0.6976 0.0251 10 700 10 EWOSELM- 0.7001 0.7391 10 700 10 SMOTE IOSELM 0.9954 0.0781 0.99 10 1000 10 WELM 0.9957 0.1212 10 1000 10 Shuttle-c0-vs-c4 IFELM-SMOTE 0.9949 4.8343 0.99 10 1000 10 OSELM-SMOTE 0.9966 0.0359 10 1000 10 EWOSELM- 0.9967 1.6296 10 1000 10 SMOTE IOSELM 0.9186 6.6843 0.95 10 1000 10 WELM 0.7618 0.2816 10 1000 10 Segment0 IFELM-SMOTE 0.8932 3425.3976 0.95 10 1000 10 OSELM-SMOTE 0.8652 0.0523 10 1000 10 EWOSELM- 0.8960 2.9703 10 1000 10 SMOTE Abalone19 IOSELM 0.7553 19.6476 0.75 10 2000 10 WELM 0.6672 1.2917 10 2000 10
高且训练时间也较少。以 Dermatology6 数据集为 例,初始的隐含层节点数为 5,误差终止条件为 tempmean=0.98。IOS-ELM 算法的 G-mean=0.96, 训练时间为 0.078 9 s,分类准确率明显高于其他 3 种算法。表 3 给出了隐含层节点数大于训练样 本的结果。在隐节点数大于训练样本时,初始时 隐含层节点数较多,增加隐节点数对实验结果影 响较小。隐节点数过大也导致训练时间较多。 表 4 给出了多类分类实验结果,证明 IOS-ELM 算 法对多类分类实验也有很好的学习性能。 表 2 隐节点数大于训练样本数的二分类实验结果 Table 2 Two-class experimental results with the number of hidden nodes more than the number of training samples 数据集 算法 几何平均数 时间/s 训练样本几何 平均数 初始隐 节点数 初始训练 样本数 每次新增训练 样本数 Dermatology6 IOSELM 0.942 9 0.065 6 0.98 5 200 1 WELM 0.835 3 0.023 1 — 5 200 1 IFELM-SMOTE 0.897 3 118.417 9 0.98 5 200 1 OSELM-SMOTE 0.839 1 0.031 2 — 5 200 1 EWOSELMSMOTE 0.853 7 0.478 9 — 5 200 1 Abalone9-18 IOSELM 0.869 2 1.262 5 0.86 5 400 1 WELM 0.758 6 0.070 7 — 5 400 1 IFELM-SMOTE 0.849 8 477.331 2 0.86 5 400 1 OSELM-SMOTE 0.808 4 0.036 7 — 5 400 1 EWOSELMSMOTE 0.728 6 0.719 5 — 5 400 1 Yeast1 IOSELM 0.704 3 0.485 9 0.71 10 700 10 WELM 0.679 6 0.069 6 — 10 700 10 IFELM-SMOTE 0.702 1 104.203 1 0.71 10 700 10 OSELM-SMOTE 0.697 6 0.025 1 — 10 700 10 EWOSELMSMOTE 0.700 1 0.739 1 — 10 700 10 Shuttle-c0-vs-c4 IOSELM 0.995 4 0.078 1 0.99 10 1 000 10 WELM 0.995 7 0.121 2 — 10 1 000 10 IFELM-SMOTE 0.994 9 4.834 3 0.99 10 1 000 10 OSELM-SMOTE 0.996 6 0.035 9 — 10 1 000 10 EWOSELMSMOTE 0.996 7 1.629 6 — 10 1 000 10 Segment0 IOSELM 0.918 6 6.684 3 0.95 10 1 000 10 WELM 0.761 8 0.281 6 — 10 1 000 10 IFELM-SMOTE 0.893 2 3 425.397 6 0.95 10 1 000 10 OSELM-SMOTE 0.865 2 0.052 3 — 10 1 000 10 EWOSELMSMOTE 0.896 0 2.970 3 — 10 1 000 10 Abalone19 IOSELM 0.755 3 19.647 6 0.75 10 2 000 10 WELM 0.667 2 1.291 7 — 10 2 000 10 ·524· 智 能 系 统 学 报 第 15 卷
第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·525· 续表2 训练样本几何 初始隐 初始训练 每次新增训练 数据集 算法 几何平均数 时间s 平均数 节点数 样本数 样本数 IFELM-SMOTE 0.6476 637.3585 0.75 10 2000 10 OSELM-SMOTE 0.6641 0.0937 10 2000 10 EWOSELM- 0.5642 2.2914 10 2000 10 SMOTE IOSELM 0.8494 26.2164 0.88 10 2000 10 WELM 0.8018 3.2200 10 2000 10 Pageblocks0 IFELM-SMOTE 0.8714 12476.7501 0.88 10 2000 10 OSELM-SMOTE 0.8266 0.1046 10 2000 10 EWOSELM- 0.8190 4.1148 10 2000 10 SMOTE 表3训练样本数大于隐节点数的二分类实验结果 Table 3 Two-class experimental results with the number of training samples more than the number of hidden nodes 训练样本几何 初始隐 初始训练 每次新增训练 数据集 算法 几何平均数 时间/s 平均数 节点数 样本数 样本数 IOSELM 0.6836 38.0648 0.99 700 400 1 WELM 0.5625 4.5138 700 400 Pdspeechfeaters IFELM-SMOTE 0.5266 3184.1812 0.99 700 400 OSELM-SMOTE 0.6567 14.0273 700 400 EWOSELM- 0.6487 286.8218 700 400 SMOTE IOSELM 0.8155 65.7023 0.9 700 400 WELM 0.7746 4.3742 700 400 Vehiclel IFELM-SMOTE 0.6466 46.4960 0.9 700 400 OSELM-SMOTE 0.7658 22.9015 700 400 EWOSELM- 0.7673 457.9382 700 400 SMOTE IOSELM 0.8114 60.6007 0.84 700 400 WELM 0.7574 4.3873 700 400 Vehicle3 IFELM-SMOTE 0.6579 46.9171 0.84 700 400 OSELM-SMOTE 0.7644 22.4273 700 400 EWOSELM- 0.7699 451.3625 700 400 SMOTE IOSELM 0.8420 8.3992 0.89 700 600 10 WELM 0.8938 0.6409 700 600 10 Biodeg IFELM-SMOTE 0.6998 4.7343 0.89 700 600 10 OSELM-SMOTE 0.5248 2.8882 700 600 10 EWOSELM- 0.5163 210.1617 700 600 10 SMOTE
续表 2 数据集 算法 几何平均数 时间/s 训练样本几何 平均数 初始隐 节点数 初始训练 样本数 每次新增训练 样本数 IFELM-SMOTE 0.647 6 637.358 5 0.75 10 2 000 10 OSELM-SMOTE 0.664 1 0.093 7 — 10 2 000 10 EWOSELMSMOTE 0.564 2 2.291 4 — 10 2 000 10 Pageblocks0 IOSELM 0.849 4 26.216 4 0.88 10 2 000 10 WELM 0.801 8 3.220 0 — 10 2 000 10 IFELM-SMOTE 0.871 4 12 476.750 1 0.88 10 2 000 10 OSELM-SMOTE 0.826 6 0.104 6 — 10 2 000 10 EWOSELMSMOTE 0.819 0 4.114 8 — 10 2 000 10 表 3 训练样本数大于隐节点数的二分类实验结果 Table 3 Two-class experimental results with the number of training samples more than the number of hidden nodes 数据集 算法 几何平均数 时间/s 训练样本几何 平均数 初始隐 节点数 初始训练 样本数 每次新增训练 样本数 Pdspeechfeaters IOSELM 0.683 6 38.064 8 0.99 700 400 1 WELM 0.562 5 4.513 8 — 700 400 1 IFELM-SMOTE 0.526 6 3 184.181 2 0.99 700 400 1 OSELM-SMOTE 0.656 7 14.027 3 — 700 400 1 EWOSELMSMOTE 0.648 7 286.821 8 — 700 400 1 Vehicle1 IOSELM 0.815 5 65.702 3 0.9 700 400 1 WELM 0.774 6 4.374 2 — 700 400 1 IFELM-SMOTE 0.646 6 46.496 0 0.9 700 400 1 OSELM-SMOTE 0.765 8 22.901 5 — 700 400 1 EWOSELMSMOTE 0.767 3 457.938 2 — 700 400 1 Vehicle3 IOSELM 0.811 4 60.600 7 0.84 700 400 1 WELM 0.757 4 4.387 3 — 700 400 1 IFELM-SMOTE 0.657 9 46.917 1 0.84 700 400 1 OSELM-SMOTE 0.764 4 22.427 3 — 700 400 1 EWOSELMSMOTE 0.769 9 451.362 5 — 700 400 1 Biodeg IOSELM 0.842 0 8.399 2 0.89 700 600 10 WELM 0.893 8 0.640 9 — 700 600 10 IFELM-SMOTE 0.699 8 4.734 3 0.89 700 600 10 OSELM-SMOTE 0.524 8 2.888 2 — 700 600 10 EWOSELMSMOTE 0.516 3 210.161 7 — 700 600 10 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·525·
·526· 智能系统学报 第15卷 表4多类分类实验结果 Table 4 Experimental results of the multi-class classification 训练样本 初始训练 每次新增 数据集 算法 几何平均数 初始训练 时间s 几何平均数 隐含层节点数 样本数 训练样本数 IOSELM 0.7877 8.2234 0.86 20 1000 10 WELM 0.6453 0.2106 20 1000 10 IFELM-SMOTE DNA 0.8243 1731.5929 0.86 20 1000 10 OSELM-SMOTE 0.6561 0.0468 20 1000 10 EWOSELM- 0.6571 2.3835 20 1000 10 SMOTE IOSELM 0.8848 16.3140 0.9 20 3000 10 WELM 0.8553 2.5489 20 3000 10 IFELM-SMOTE 0.8639 14529.9046 0.9 20 Satimage 3000 10 OSELM-SMOTE 0.8556 0.0851 20 3000 10 EWOSELM- 0.8451 1.6812 20 3000 10 SMOTE IOSELM 0.8956 118.8984 0.9 20 6000 10 WELM 0.7755 8.1634 20 6000 10 IFELM-SMOTE 0.7272 99448.9593 0.9 20 USPS 6000 10 OSELM-SMOTE 0.7968 0.2265 20 6000 10 EWOSELM- 0.7864 6.3085 20 6000 10 SMOTE 4结束语 [3]LI Shuai,YOU Zhuhong,GUO Hongliang,et al.Inverse- free extreme learning machine with optimal information 本文针对类别不平衡环境下的增量学习问 updating[J].IEEE transactions on cybernetics,2016,46(5): 题,提出了面对类别不平衡的增量在线极限学习 1229-1241. 机算法,即IOS-ELM算法。ISO-ELM算法利用 [4]HUANG Shan.WANG Botao,CHEN Yuemei,et al.An Schur complement公式增加隐含层节点获得连接 efficient parallel method for batched OS-ELM training us- 权重的最优解。再引入在线学习思想,使训练样 ing MapReduce[J].Memetic computing,2017,9(3): 本可以逐个或多个地加人到训练模型中。最后调 183-197 节惩罚因子的大小使其适用于类别不平衡环境下 [5]KIM Y,TOH K A,TEOH A B J,et al.An online learning 的学习。针对隐含层节点数小于或大于训练样本 network for biometric scores fusion[J].Neurocomputing, 2013.102:65-77. 数两种情况,本文分别给出了理论推理。实验证 明,与对比算法相比IOS-ELM算法具有较好的泛 [6]LIANG Nanying,HUANG Guangbin,SAR- ATCHANDRAN P,et al.A fast and accurate online se- 化性能和在线预测能力。 quential learning algorithm for feedforward networks[J]. 参考文献 IEEE transactions on neural networks,2006,17(6): 1411-1423. [1]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme [7]张明洋,闻英友,杨晓陶,等.一种基于增量加权平均的 learning machine:theory and applications[J].Neurocom- 在线序贯极限学习机算法).控制与决策,2017,32(10): puting,2006,70(1/2/3):489-501. 1887-1893 [2]HUANG Guangbin,CHEN Lei,SIEW C K.Universal ap- ZHANG Mingyang,WEN Yingyou,YANG Xiaotao,et al. proximation using incremental constructive feedforward An incremental weighted average based online sequential networks with random hidden nodes[J].IEEE transactions extreme learning machine algorithm[J].Control and de- on neural networks,2006,17(4):879-892. cision,2017,32(10):1887-1893
4 结束语 本文针对类别不平衡环境下的增量学习问 题,提出了面对类别不平衡的增量在线极限学习 机算法,即 IOS-ELM 算法。ISO-ELM 算法利用 Schur complement 公式增加隐含层节点获得连接 权重的最优解。再引入在线学习思想,使训练样 本可以逐个或多个地加入到训练模型中。最后调 节惩罚因子的大小使其适用于类别不平衡环境下 的学习。针对隐含层节点数小于或大于训练样本 数两种情况,本文分别给出了理论推理。实验证 明,与对比算法相比 IOS-ELM 算法具有较好的泛 化性能和在线预测能力。 参考文献: HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. [1] HUANG Guangbin, CHEN Lei, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE transactions on neural networks, 2006, 17(4): 879–892. [2] LI Shuai, YOU Zhuhong, GUO Hongliang, et al. Inversefree extreme learning machine with optimal information updating[J]. IEEE transactions on cybernetics, 2016, 46(5): 1229–1241. [3] HUANG Shan, WANG Botao, CHEN Yuemei, et al. An efficient parallel method for batched OS-ELM training using MapReduce[J]. Memetic computing, 2017, 9(3): 183–197. [4] KIM Y, TOH K A, TEOH A B J, et al. An online learning network for biometric scores fusion[J]. Neurocomputing, 2013, 102: 65–77. [5] LIANG Nanying, HUANG Guangbin, SARATCHANDRAN P, et al. A fast and accurate online sequential learning algorithm for feedforward networks[J]. IEEE transactions on neural networks, 2006, 17(6): 1411–1423. [6] 张明洋, 闻英友, 杨晓陶, 等. 一种基于增量加权平均的 在线序贯极限学习机算法 [J]. 控制与决策, 2017, 32(10): 1887–1893. ZHANG Mingyang, WEN Yingyou, YANG Xiaotao, et al. An incremental weighted average based online sequential extreme learning machine algorithm[J]. Control and decision, 2017, 32(10): 1887–1893. [7] 表 4 多类分类实验结果 Table 4 Experimental results of the multi-class classification 数据集 算法 几何平均数 时间/s 训练样本 几何平均数 初始训练 隐含层节点数 初始训练 样本数 每次新增 训练样本数 DNA IOSELM 0.787 7 8.223 4 0.86 20 1 000 10 WELM 0.645 3 0.210 6 — 20 1 000 10 IFELM-SMOTE 0.824 3 1 731.592 9 0.86 20 1 000 10 OSELM-SMOTE 0.656 1 0.046 8 — 20 1 000 10 EWOSELMSMOTE 0.657 1 2.383 5 — 20 1 000 10 Satimage IOSELM 0.884 8 16.314 0 0.9 20 3 000 10 WELM 0.855 3 2.548 9 — 20 3 000 10 IFELM-SMOTE 0.863 9 14 529.904 6 0.9 20 3 000 10 OSELM-SMOTE 0.855 6 0.085 1 — 20 3 000 10 EWOSELMSMOTE 0.845 1 1.681 2 — 20 3 000 10 USPS IOSELM 0.895 6 118.898 4 0.9 20 6 000 10 WELM 0.775 5 8.163 4 — 20 6 000 10 IFELM-SMOTE 0.727 2 99 448.959 3 0.9 20 6 000 10 OSELM-SMOTE 0.796 8 0.226 5 — 20 6 000 10 EWOSELMSMOTE 0.786 4 6.308 5 — 20 6 000 10 ·526· 智 能 系 统 学 报 第 15 卷
第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·527· [8]DOUZAS G,BACAO F,LAST F.Improving imbalanced [15]BATUWITA R,PALADE V.FSVM-CIL:fuzzy support learning through a heuristic oversampling method based on vector machines for class imbalance learning[J].IEEE k-means and SMOTE[J].Information sciences,2018,465: transactions on fuzzy systems,2010,18(3):558-571. 1-20. [16]DING Shuya,MIRZA B,LIN Zhiping,et al.Kernel based [9]BATUWITA R,PALADE V.Class imbalance learning online learning for imbalance multiclass classification[J]. methods for support vector machines[Ml//HE Haibo,MA Neurocomputing,2017,277:139-148. Yungian.Imbalanced Learning:Foundations,Algorithms, [17]HE H,GARCIA E A.Learning from imbalance data[J]. and Applications.New York:John Wiley Sons,Inc., IEEE transactions on knowledge and data engineering, 2013:145-168. 2009,21(9y:1263-1284. [10]XIA Shixiong,MENG Fanrong,LIU Bing,et al.A Ker- nel Clustering-based possibilistic fuzzy extreme learning 作者简介: machine for class imbalance learning[J].Cognitive com- 左鹏玉,硕士研究生,主要研究方 putation,2015,7(1)74-85. 向为人工智能、模式识别。 [11]ZONG Weiwei,HUANG Guangbin,CHEN Yiqiang. Weighted extreme learning machine for imbalance learn- ing[J].Neurocomputing,2013,101:229-242. [12]MIRZA B,LIN Zhiping,TOH K A.Weighted online se- quential extreme learning machine for class imbalance 周洁,博士研究生,主要研究方向 learning[J].Neural processing letters,2013,38(3): 为人工智能、模式识别、机器学习。 465-486. [13]HUANG Guangbin,ZHOU Hongming,DING Xiaojian, et al.Extreme learning machine for regression and multi- class classification[J].IEEE transactions on systems,man, and cybernetics,part B(cybernetics),2012,42(2): 513-529. 王士同,教授,博土生导师,CCF [14]RAO C R,MITRA S K.Generalized inverse of a matrix 会员,主要研究方向为人工智能、模式 识别。作为第一作者发表学术论文百 and its applications[C]//Proceedings of the Sixth Berke- 余篇。 ley Symposium on Mathematical Statistics and Probabil- ity,Volume 1:Theory of Statistics.Berkeley,:Uni- versity of California Press,1972:601-620
DOUZAS G, BACAO F, LAST F. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences, 2018, 465: 1–20. [8] BATUWITA R, PALADE V. Class imbalance learning methods for support vector machines[M]//HE Haibo, MA Yunqian. Imbalanced Learning: Foundations, Algorithms, and Applications. New York: John Wiley & Sons, Inc., 2013: 145–168. [9] XIA Shixiong, MENG Fanrong, LIU Bing, et al. A Kernel Clustering-based possibilistic fuzzy extreme learning machine for class imbalance learning[J]. Cognitive computation, 2015, 7(1): 74–85. [10] ZONG Weiwei, HUANG Guangbin, CHEN Yiqiang. Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013, 101: 229–242. [11] MIRZA B, LIN Zhiping, TOH K A. Weighted online sequential extreme learning machine for class imbalance learning[J]. Neural processing letters, 2013, 38(3): 465–486. [12] HUANG Guangbin, ZHOU Hongming, DING Xiaojian, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE transactions on systems, man, and cybernetics, part B (cybernetics), 2012, 42(2): 513–529. [13] RAO C R, MITRA S K. Generalized inverse of a matrix and its applications[C]//Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Theory of Statistics. Berkeley, : University of California Press, 1972: 601–620. [14] BATUWITA R, PALADE V. FSVM-CIL: fuzzy support vector machines for class imbalance learning[J]. IEEE transactions on fuzzy systems, 2010, 18(3): 558–571. [15] DING Shuya, MIRZA B, LIN Zhiping, et al. Kernel based online learning for imbalance multiclass classification[J]. Neurocomputing, 2017, 277: 139–148. [16] HE H, GARCIA E A. Learning from imbalance data[J]. IEEE transactions on knowledge and data engineering, 2009, 21(9): 1263–1284. [17] 作者简介: 左鹏玉,硕士研究生,主要研究方 向为人工智能、模式识别。 周洁,博士研究生,主要研究方向 为人工智能、模式识别、机器学习。 王士同,教授,博士生导师,CCF 会员,主要研究方向为人工智能、模式 识别。作为第一作者发表学术论文百 余篇。 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·527·