当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

【人工智能基础】面对类别不平衡的增量在线序列极限学习机

资源类别:文库,文档格式:PDF,文档页数:8,文件大小:3.96MB,团购合买
点击下载完整版文档(PDF)

第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0L:10.11992tis.201904040 面对类别不平衡的增量在线序列极限学习机 左鹏玉',周洁,王士同2 (1.江南大学数字媒体学院,江苏无锡214122;2.江苏省媒体设计与软件设计重点实验室,江苏无锡 214122) 摘要:针对在线序列极限学习机对于类别不平衡数据的学习效率低、分类准确率差的问题.提出了面对类别 不平衡的增量在线序列极限学习机IOS-ELM)。该算法根据类别不平衡比例调整平衡因子,利用分块矩阵的 广义逆矩阵对隐含层节点数进行寻优,提高了模型对类别不平衡数据的在线处理能力,最后通过14个二类和 多类不平衡数据集对该算法有效性和可行性进行验证。实验结果表明:该算法与同类其他算法相比具有更好 的泛化性和准确率,适用于类别不平衡场景下的在线学习。 关键词:类别不平衡学习;增量:无逆矩阵:在线学习:极限学习机:分类:多类不平衡:神经网络 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)03-0520-08 中文引用格式:左鹏玉,周洁,王士同.面对类别不平衡的增量在线序列极限学习机J.智能系统学报,2020,15(3): 520-527. 英文引用格式:ZUO Pengyu,.ZHOUJie,,WANG Shitong..Incremental online sequential extreme learning machine for imbalanced data[J].CAAI transactions on intelligent systems,2020,15(3):520-527. Incremental online sequential extreme learning machine for imbalanced data ZUO Pengyu',ZHOU Jie',WANG Shitong 2 (1.College of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangsu Province Key Lab.of Media Design Software Technologies,Wuxi214122,China) Abstract:In this paper,an incremental online sequential extreme learning machine(IOS-ELM)is proposed to solve the problems of low efficiency and poor classification accuracy of OS-ELM for class imbalance learning.The basic idea is to adjust the balance factor according to the category imbalance ratio in an imbalanced dataset and then determine an op- timal number of hidden nodes using the generalized inverse of the block matrix,thereby improving the online learning ability of IOS-ELM.The experiments on the effectiveness and feasibility of 14 binary-class and multi-class imbalanced datasets show that the proposed IOS-ELM has better generalization capability and classification performance than other comparative methods. Keywords:class imbalance;incremental learning;inverse-free matrix:online learning;extreme learning machine;clas- sification:multi-class imbalanced:neural network 近年来,极限学习机(extreme learning ma- 数,可应用于回归问题和分类问题山。固定型 chine,ELM)已经得到了广泛的研究和应用。 ELM为了获得较好的学习能力,通常采用高维的 ELM是基于前馈神经网络(single hidden-layer 网络结构,学习规模较大,因此寻找最优隐节点 feedforward neural network,SLFN)的最小二乘算 个数和有效控制网络结构复杂性成为急需解决的 法,同时具有最小的训练误差和最小的权重范 问题。Huang等提出了增量型极限学习机(in- cremental extreme learning machine,.I-ELM),通过增 收稿日期:2019-04-17. 基金项目:国家自然科学基金项目(61170122). 加隐含层节点数减少训练误差,但是其使用增量 通信作者:左鹏玉.E-mail:1253712018@qq.com 式策略后得到的新输出权重与具有同样隐含层参

DOI: 10.11992/tis.201904040 面对类别不平衡的增量在线序列极限学习机 左鹏玉1 ,周洁1 ,王士同1,2 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 江苏省媒体设计与软件设计重点实验室,江苏 无锡 214122) 摘 要:针对在线序列极限学习机对于类别不平衡数据的学习效率低、分类准确率差的问题,提出了面对类别 不平衡的增量在线序列极限学习机 (IOS-ELM)。该算法根据类别不平衡比例调整平衡因子,利用分块矩阵的 广义逆矩阵对隐含层节点数进行寻优,提高了模型对类别不平衡数据的在线处理能力,最后通过 14 个二类和 多类不平衡数据集对该算法有效性和可行性进行验证。实验结果表明:该算法与同类其他算法相比具有更好 的泛化性和准确率,适用于类别不平衡场景下的在线学习。 关键词:类别不平衡学习;增量;无逆矩阵;在线学习;极限学习机;分类;多类不平衡;神经网络 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)03−0520−08 中文引用格式:左鹏玉, 周洁, 王士同. 面对类别不平衡的增量在线序列极限学习机 [J]. 智能系统学报, 2020, 15(3): 520–527. 英文引用格式:ZUO Pengyu, ZHOU Jie, WANG Shitong. Incremental online sequential extreme learning machine for imbalanced data[J]. CAAI transactions on intelligent systems, 2020, 15(3): 520–527. Incremental online sequential extreme learning machine for imbalanced data ZUO Pengyu1 ,ZHOU Jie1 ,WANG Shitong1,2 (1. College of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Province Key Lab. of Media Design & Software Technologies, Wuxi 214122, China) Abstract: In this paper, an incremental online sequential extreme learning machine (IOS-ELM) is proposed to solve the problems of low efficiency and poor classification accuracy of OS-ELM for class imbalance learning. The basic idea is to adjust the balance factor according to the category imbalance ratio in an imbalanced dataset and then determine an op￾timal number of hidden nodes using the generalized inverse of the block matrix, thereby improving the online learning ability of IOS-ELM. The experiments on the effectiveness and feasibility of 14 binary-class and multi-class imbalanced datasets show that the proposed IOS-ELM has better generalization capability and classification performance than other comparative methods. Keywords: class imbalance; incremental learning; inverse-free matrix; online learning; extreme learning machine; clas￾sification; multi-class imbalanced; neural network 近年来,极限学习机 (extreme learning ma￾chine, ELM) 已经得到了广泛的研究和应用。 ELM 是基于前馈神经网络 (single hidden-layer feedforward neural network, SLFN) 的最小二乘算 法,同时具有最小的训练误差和最小的权重范 数,可应用于回归问题和分类问题[ 1 ]。固定型 ELM 为了获得较好的学习能力,通常采用高维的 网络结构,学习规模较大,因此寻找最优隐节点 个数和有效控制网络结构复杂性成为急需解决的 问题。Huang 等 [2] 提出了增量型极限学习机 (in￾cremental extreme learning machine,I-ELM),通过增 加隐含层节点数减少训练误差,但是其使用增量 式策略后得到的新输出权重与具有同样隐含层参 收稿日期:2019−04−17. 基金项目:国家自然科学基金项目 (61170122). 通信作者:左鹏玉. E-mail:1253712018@qq.com. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020

第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·521· 数的标准ELM求得的输出权重结果不同。文 能。ELM是批量学习算法,训练样本数是固定 献[3]提出了不同的增量式策略,根据分块矩 的。2006年,Huang等W正式提出极限学习机的 阵的广义逆矩阵分析确定输出权重,且其具有 理论及应用。 ELM的最优性。以上所述均为批量学习算法,只 能将数据一次性输入给训练模型。而现实生活 yi= Bg(w,ex),j=1,2,…,i (1) 中,很多数据都不是一次性获得的。数据依次加 1 入到训练模型中,批量学习算法需将旧的数据和 式中:y是第j个训练样本的输出值;w,为第i个 新的数据一起重新训练,需要花费大量的时间。 隐含层节点的输入权重;e,为第i个隐含层节点 文献[6]提出了在线序列极限学习机(online se-. 的偏差;x为第j个输入节点。由式(1)可推出输 quence extreme learning machine,.OS-ELM),可以将 出权重B为 训练数据逐个或多个地加入到训练模型中,丢掉 HT(HH)Y,样本数隐<节点数 B= 已经训练过的数据以减少空间消耗。文献[7]提 (HH)HY,隐节点数<样本数 出了一种基于增量平均加权的在线序贯极限学习 ELM没有迭代调整的过程,相对于传统的前 机算法(incremental weighted average based online 馈神经网络极大地提高了学习速度。 sequential extreme learning machine,IWOS-ELM), 1.2在线序列极限学习机 利用原始数据来弱化增量数据的波动,使在线学 OS-ELM是ELM增加训练样本而得的一种 习机具有良好的稳定性。然而,现实生活中存在 在线学习算法,具有ELM所有的优点。OS-ELM 着大量的不平衡数据,例如生物医学应用和网络 包括一个初始的ELM批量学习过程和在线序列 入侵等,ELM并不适用于此类不平衡数据。在不 学习过程。在初始化阶段,根据广义逆矩阵的公 平衡数据中,分为多数类和少数类,一般学习算 式,初始的输出权重B的计算公式为 法中大多数类将分离边界推向少数类,以期望获 得更好的自身分类效果1。文献[11]提出了应 Bo=KoHo Yo 式中:Ho是隐含层输出矩阵;K。=HgHo。当增加 用于不平衡数据的W-ELM算法。此算法增加了 一个训练样本后,隐含层输出矩阵H1和训练样 权数,使得数据具有新的平衡程度。对于在线学 习,文献[12]在OS-ELM的基础上提出了加权在 本的期望输出值Y1分别为 线序列极限学习机(weighted online sequential ex- H44= H .Y= Y, y41 treme learning machine,.WOS-ELM),设置适当的权 重,使得不平衡分类的学习性能更好。但是这些 式中:h1为新增节点的隐含层输出矩阵;y1为新 在线学习算法有着和ELM一样的问题一如何 增训练样本的期望输出向量。当第+1块数据集 寻找最优隐含层节点数。 加入到训练样本时,输出矩阵可由第1块数据集 本文提出了针对类别不平衡问题的增量在线 加入到训练样本后的输出矩阵分析求得,计算公 序列极限学习机(incremental and online sequence 式为 extreme learning machine for class imbalance learn- B41=B,+Kh,(Y41-h+iB) ing,IOS-ELM)。首先根据类别不平衡比率调整平 K=K-Kh(I+hKh)hK 衡因子,增大少数类样本的平衡因子使得分离超 1.3 无逆矩阵极限学习机 平面靠近多类样本。再根据分类误差大小决定是 在极限学习机的模型中,训练误差随着隐含 否增加隐节点数,通常情况下隐节点数小于训练 层节点数的增加而减小。但在实验中,考虑到 样本,利用Schur complement公式增加隐节点;当 计算复杂度,应尽量减少隐含层节点数。为了 隐节点数较大时利用Sherman-Morrison公式增加 平衡训练误差与计算复杂度这两个因素,寻找 隐节点。寻找到最优隐节点数后,可逐个或多个 隐含层节点数的最优值成为迫切需要解决的问 地加入新训练样本获得更好的训练模型。 题。无逆矩阵极限学习机(F-ELM)应运而生。 1相关工作 该算法采用了隐节点增加策略,具有+1个隐含 层节点的输出权重可由原I个隐含层节点的输 1.1极限学习机 出权重求出,而不需要重新计算所有的隐含层 ELM随机产生隐含层参数且不需要进行调 节点输出权重。 整,通过最小二乘法直接确定隐含层的输出权 当增加一个隐含层节点时,输入权重W和 重,极大地提高了运行速度且具有良好的泛化性 偏值E更新为如下形式:

数的标准 ELM 求得的输出权重结果不同。文 献 [3] 提出了不同的增量式策略,根据分块矩 阵的广义逆矩阵分析确定输出权重,且其具有 ELM 的最优性。以上所述均为批量学习算法,只 能将数据一次性输入给训练模型。而现实生活 中,很多数据都不是一次性获得的。数据依次加 入到训练模型中,批量学习算法需将旧的数据和 新的数据一起重新训练,需要花费大量的时间[4-5]。 文献 [6] 提出了在线序列极限学习机 (online se￾quence extreme learning machine, OS-ELM),可以将 训练数据逐个或多个地加入到训练模型中,丢掉 已经训练过的数据以减少空间消耗。文献 [7] 提 出了一种基于增量平均加权的在线序贯极限学习 机算法 (incremental weighted average based online sequential extreme learning machine, IWOS-ELM), 利用原始数据来弱化增量数据的波动,使在线学 习机具有良好的稳定性。然而,现实生活中存在 着大量的不平衡数据,例如生物医学应用和网络 入侵等,ELM 并不适用于此类不平衡数据。在不 平衡数据中,分为多数类和少数类,一般学习算 法中大多数类将分离边界推向少数类,以期望获 得更好的自身分类效果[8-10]。文献 [11]提出了应 用于不平衡数据的 W-ELM 算法。此算法增加了 权数,使得数据具有新的平衡程度。对于在线学 习,文献 [12] 在 OS-ELM 的基础上提出了加权在 线序列极限学习机 (weighted online sequential ex￾treme learning machine, WOS-ELM),设置适当的权 重,使得不平衡分类的学习性能更好。但是这些 在线学习算法有着和 ELM 一样的问题−如何 寻找最优隐含层节点数。 本文提出了针对类别不平衡问题的增量在线 序列极限学习机 (incremental and online sequence extreme learning machine for class imbalance learn￾ing,IOS-ELM)。首先根据类别不平衡比率调整平 衡因子,增大少数类样本的平衡因子使得分离超 平面靠近多类样本。再根据分类误差大小决定是 否增加隐节点数,通常情况下隐节点数小于训练 样本,利用 Schur complement 公式增加隐节点;当 隐节点数较大时利用 Sherman-Morrison 公式增加 隐节点。寻找到最优隐节点数后,可逐个或多个 地加入新训练样本获得更好的训练模型。 1 相关工作 1.1 极限学习机 ELM 随机产生隐含层参数且不需要进行调 整,通过最小二乘法直接确定隐含层的输出权 重,极大地提高了运行速度且具有良好的泛化性 能 [13]。ELM 是批量学习算法,训练样本数是固定 的。2006 年,Huang 等 [1] 正式提出极限学习机的 理论及应用。 yj = ∑l i=1 βig ( wi , ei , xj ) , j = 1,2,··· ,t (1) β 式中:yj 是第 j 个训练样本的输出值;wi 为第 i 个 隐含层节点的输入权重;ei 为第 i 个隐含层节点 的偏差;xj 为第 j 个输入节点。由式 (1) 可推出输 出权重 为 β = { HT ( HHT )−1 Y, 样本数隐 < 节点数 ( HTH )−1HTY, 隐节点数 < 样本数 ELM 没有迭代调整的过程,相对于传统的前 馈神经网络极大地提高了学习速度。 1.2 在线序列极限学习机 β0 OS-ELM 是 ELM 增加训练样本而得的一种 在线学习算法,具有 ELM 所有的优点。OS-ELM 包括一个初始的 ELM 批量学习过程和在线序列 学习过程。在初始化阶段,根据广义逆矩阵的公 式,初始的输出权重 的计算公式为 β0 = K −1 0 H T 0Y0 K0 = HT 式中:H0 是隐含层输出矩阵; 0 H0。当增加 一个训练样本后,隐含层输出矩阵 Ht+1 和训练样 本的期望输出值 Yt+1 分别为 Ht+1 = [ Ht ht+1 ] , Yt+1= [ Yt yt+1 ] 式中:ht+1 为新增节点的隐含层输出矩阵;yt+1 为新 增训练样本的期望输出向量。当第 t+1 块数据集 加入到训练样本时,输出矩阵可由第 t 块数据集 加入到训练样本后的输出矩阵分析求得,计算公 式为 βt+1 = βt + K −1 t+1h T t+1 (Yt+1 − ht+1βt) K −1 t+1 = K −1 t − K −1 t h T t+1 (I+ ht+1K −1 t ht+1 T ) −1ht+1K −1 t 1.3 无逆矩阵极限学习机 在极限学习机的模型中,训练误差随着隐含 层节点数的增加而减小。但在实验中,考虑到 计算复杂度,应尽量减少隐含层节点数。为了 平衡训练误差与计算复杂度这两个因素,寻找 隐含层节点数的最优值成为迫切需要解决的问 题。无逆矩阵极限学习机 (IF-ELM) 应运而生。 该算法采用了隐节点增加策略,具有 l+1 个隐含 层节点的输出权重可由原 l 个隐含层节点的输 出权重求出,而不需要重新计算所有的隐含层 节点输出权重。 当增加一个隐含层节点时,输入权重 W l+1 和 偏值 E l+1 更新为如下形式: 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·521·

·522· 智能系统学报 第15卷 W1=[Ww41,E1=[Eea1] 2.2 算法推导 式中W和E是具有1个隐含层节点数的输入权 现实生活中有很多类别不平衡现象,例如欺 重和偏差。w+1为新增隐含层节点输出权重, 诈交易识别中,绝大多数交易属于正常交易,只 e#1为新增隐含层节点偏差,两者均为随机选取的 有少数交易为欺诈交易,这就形成了类别不平衡 参数。则具有+1个隐含层节点的ELM的隐含 现象。在经典ELM中,为了获得更高的分类准 层输出矩阵H为 确率,ELM将分离超平面推向少数类,降低了少 数类的识别率61刀。本文为了提高少数类的识别 H1=g(W+X+E+)= 8(wx+[)=1) 率,为每个不同的类别设置不同的1值,少数类 的1值比多数类的1大,将分离超平面推向多数 具有+1个隐含层节点的输出权重B1计算 类。新的1值为k×k的矩阵,设置如下: 公式为 100 B41=(H1)Y= :=第谈样本个数 (Hh T[HhHh JY=UY 本文所提算法分为两种情况:一种为隐含层 式中:(H)是H1的广义逆矩阵啊,U=(①Hh]下 节点数小于训练样本数,另一种为训练样本数小 [Hh)[Hh「。为了避免产生过拟合现象, 于隐含层节点数。 加入正则化项a,则 1)隐含层节点数小于训练样本数是比较常见 U=(d21+[Hh[Hh[Hh= 的情况。将1设置为矩阵后,具有1个隐含层节 d1+HH HhH 点的输出权重β由式(1)可得: d2+hh h B=(AH+)HλY (3) [A BH AH+Bh 初始化阶段增加隐含层节点数后,隐含层输 C Dh=CH+Dh 出权重H更新如式(2)所示,将式(2)代人到式 由Schur complement公式可得 (3)可得到新的输出权重B+: A=dh+HH-h(d+hh)WH B=(Hh A Hh]+DHλY= B=-AHTh(a2+hh) [HAH+In H ah C=-(a2+hh)hHA hAH D=-CHh(a2+hh)+(2+hh) 式中A可由Sherman-Morrison公式求得: C:D:h aY A=(aI+H)+(a21+HH)Hh. 其中: I+(d2+hh)hH(d21+H)Hh]. A =[HH+Ix-HAh(hTah+1)hH]- (d2+hh)-hH(a2+H) B:=-A HT ah(hTah+1) C=-(hh+1)hAHA 2基于类别不平衡的增量在线ELM D:=-CHAh(hh+1)+(hTh+1) 式中A,可由Sherman-Morrison公式求得: 2.1算法思想 A=(HAH+Ind)+(HAH+I)H Ah. OS-ELM算法通过不断地增加训练样本更好 [U+(hλh+1)hλH(HH+I)Hhr 地反应数据模型。现实生活中有很多类别不平衡 (hAh+1)hAH(HH+Id) 数据,为了获得更高的分类准确率OS-ELM算法 将分离超平面推向少数类,降低了少类的识别 在线学习阶段,增加隐含层节点数以减小训 率。此外,隐节点个数太少降低了分类准确率, 练误差,当隐含层节点数与训练误差都具有合适 但隐含层节点个数太多使网络结构变得复杂。 的值的时候,再继续增加训练样本数,更多的样 OS-ELM算法只是逐个增加训练样本个数,并未 本以更好地反映数据模型。当增加样本时,参数 对隐含层节点个数进行调整。 2、隐含层输出矩阵H和预期输出Y分别为 本文提出了面向类别不平衡的无逆矩阵在线 =[&a] 序列极限学习机。所提算法首先利用参数1平衡 类别不平衡数据中分离边界的距离和训练误差之 故在线学习的输出权重为 间的关系,然后通过增加隐节点来调整网络结 B+1=B.+Kh入+1(Y+1-h4B) 构,最后使用在线学习方式,训练模型在线的加 K=Kl-Kh(+Kh)ihiK 入训练数据以更好地反映数据模型。 2)OS-ELM和IF-ELM中都只讨论了隐含层

Wl+1 = [ Wl wl+1 ] , E l+1 = [ E l el+1 ] Hl+1 式中 W l 和 E l 是具有 l 个隐含层节点数的输入权 重和偏差。wl + 1 为新增隐含层节点输出权重, el+1 为新增隐含层节点偏差,两者均为随机选取的 参数。则具有 l+1 个隐含层节点的 ELM 的隐含 层输出矩阵 为 Hl+1 = g ( Wl+1X+ E l+1 ) = g ([ Wl wl+1 ] X+ [ E l el+1 ]) = [ H h ] (2) β 具有 l+1 l+1 个隐含层节点的输出权重 计算 公式为 β l+1 = ( Hl+1 )† Y = ([ H h ] T [ H h ])−1 [ H h ] TY = UY ( Hl+1 )† Hl+1 U = ([ H h ] T · [ H h ])−1 [ H h ] T 式中: 是 的广义逆矩阵[14] ; 。为了避免产生过拟合现象, 加入正则化项 a,则 U = (a 2 Il+1 +[ H h ] T [ H h ])−1 [ H h ] T = [ a 2 Il + HTH HT h h TH a 2 + h T h ]−1 [ H h ] = [ A B C D ] [ H h ] = [ AH + Bh CH + Dh ] 由 Schur complement 公式可得 A = [ a 2 Il + HTH − HT h ( a 2 + h T h )−1 h TH ]−1 B = −AHT h ( a 2 + h T h )−1 C = − ( a 2 + h T h )−1 h THA D = −CHT h ( a 2 + h T h )−1 + ( a 2 + h T h )−1 式中 A 可由 Sherman-Morrison 公式求得: A = (a 2 Il + HTH) −1 +(a 2 Il + HTH) −1HT h· [ I+(a 2 + h T h) −1h TH(a 2 Il + HTH) −1HT h ]−1 · (a 2 + h T h) −1h TH(a 2 Il + HTH) −1 2 基于类别不平衡的增量在线 ELM 2.1 算法思想 OS-ELM 算法通过不断地增加训练样本更好 地反应数据模型。现实生活中有很多类别不平衡 数据,为了获得更高的分类准确率 OS-ELM 算法 将分离超平面推向少数类,降低了少类的识别 率。此外,隐节点个数太少降低了分类准确率, 但隐含层节点个数太多使网络结构变得复杂。 OS-ELM 算法只是逐个增加训练样本个数,并未 对隐含层节点个数进行调整。 本文提出了面向类别不平衡的无逆矩阵在线 序列极限学习机。所提算法首先利用参数 λ 平衡 类别不平衡数据中分离边界的距离和训练误差之 间的关系,然后通过增加隐节点来调整网络结 构,最后使用在线学习方式,训练模型在线的加 入训练数据以更好地反映数据模型。 2.2 算法推导 现实生活中有很多类别不平衡现象,例如欺 诈交易识别中,绝大多数交易属于正常交易,只 有少数交易为欺诈交易,这就形成了类别不平衡 现象[15]。在经典 ELM 中,为了获得更高的分类准 确率,ELM 将分离超平面推向少数类,降低了少 数类的识别率[16-17]。本文为了提高少数类的识别 率,为每个不同的类别设置不同的 λ 值,少数类 的 λ 值比多数类的 λ 大,将分离超平面推向多数 类。新的 λ 值为 k×k 的矩阵,设置如下: λii = 100 第i类样本个数 本文所提算法分为两种情况:一种为隐含层 节点数小于训练样本数,另一种为训练样本数小 于隐含层节点数。 β l 1) 隐含层节点数小于训练样本数是比较常见 的情况。将 λ 设置为矩阵后,具有 l 个隐含层节 点的输出权重 由式 (1) 可得: β l = (H T λH + I) −1H T λY (3) β l+1 初始化阶段增加隐含层节点数后,隐含层输 出权重 H l+1 更新如式 (2) 所示,将式 (2) 代入到式 (3) 可得到新的输出权重 : β l+1 = ([ H h ] Tλ[ H h ]+ I) −1HTλY = [ HTλH + Il×l HTλh h TλH hTλh+1 ]−1 [ HT h T ] λY = [ A1 B1 C1 D1 ] [ HT h T ] λY 其中: A1 = [HTλH + Il×l − HTλh(h Tλh+1)−1h TλH] −1 B1 = −A1HTλh(h Tλh+1)−1 C1 = −(h Tλh+1)−1h TλHA1 D1 = −C1HTλh(h Tλh+1)−1 +(h Tλh+1)−1 式中 A1 可由 Sherman-Morrison 公式求得: A1 = (HTλH + Il×l) −1 +(HTλH + Il×l) −1HTλh· [ I +(h Tλh+1)−1h TλH(HTλH + Il×l) −1HTλh ]−1 · (h Tλh+1)−1h TλH(HTλH + Il×l) −1 在线学习阶段,增加隐含层节点数以减小训 练误差,当隐含层节点数与训练误差都具有合适 的值的时候,再继续增加训练样本数,更多的样 本以更好地反映数据模型。当增加样本时,参数 λ、隐含层输出矩阵 H 和预期输出 Y 分别为 λt+1 = [ λt 0 0 λt+1 ] ,Ht+1= [ Ht ht+1 ] ,Yt+1= [ Yt yt+1 ] 故在线学习的输出权重为 βt+1 = βt + K −1 t+1h T t+1 λt+1 (Yt+1 − ht+1βt) K −1 t+1 = K −1 t − K −1 t h T t+1 ( I+λt+1ht+1K −1 t ht+1 T )−1 λt+1ht+1K −1 t 2) OS-ELM 和 IF-ELM 中都只讨论了隐含层 ·522· 智 能 系 统 学 报 第 15 卷

第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·523· 节点数小于训练样本数的情况,而当隐含层节点 是:Dermatology-.6、Abalones9-l8、Yeastl、Shuttle- 数大于训练样本数时,这两种算法都不符合最小 c0-vs-c4、Segment0、Abalone 19、Pageblocks0、 二乘定律。有些数据结构比较复杂,数据之间的 Pdspeechfeaters、Vehicle1、Vehicle3、Biodge、DNA、 关系或是属性较多,此时需要较多的隐含层节点 Satimage、USPS,具体描述如表1所示。本文所有 数。接下来将讨论隐含层节点数大于训练样本数 实验均在同一环境下完成,采用在Windows 10环 的情况,初始化阶段,将1设置为矩阵后,由式 境下搭建系统,计算机处理器配置为Intel® (1)可得具有I个隐含层节点的输出权重B为 CoreTM i5-8400CPU@2.8GHz,内存12GB,MAT- B=H(HH+A)Y LAB2016b下完成, 设 0=(HH+) (4) 表1实验数据集 Table 1 Experimental datasets 增加隐含层节点后,新的输出权重B41为 B1=[Hh T([HhHh+)-Y= 数据集 样本数类别不平衡率特征数类别数 Hh ](H+hh+Y= Dermatology-6 358 16.9 34 Hh ]QY Abalone9-20 731 16.4 2 式中g=(I+CHHr+Chh),根据Sherman-Mor- Shuttle-c0-vs-c4 1 829 13.87 9 2 rison公式可得 Q1=(HH+')1-(HH+ Segmento 2308 6.02 19 [I+h(H+h]h(H) (5) Abalone19 4174 129.44 2 将式(4)代入到式(5)中得 Pageblocks0 5472 8.1 10 2 0=0-0h(I+ho'h)ho 在线学习阶段增加新训练样本后,参数2、隐 Pdspeechfeaters 756 29 754 2 含层输出矩阵H和预期输出Y的变化与隐含层 Vehiclel 846 20 2 节点数小于训练样本数的情况相同,增加训练样 Vehicle3 846 2.9 20 2 本后新的输出权重为 H Biodge 1055 1q6 41 2 B+= DNA 2000 2.25 200 3 ay Satimage 6435 2.38 36 6 USPS 9298 2.19 256 9 H,H,+入 H.hia huH huihi+ 实验中,将所有数据归一化到[-1,1]区间 由Schur complement公式可得: 中。ELM网络的激活函数均为Sigmoid函数,为 0P1 H,H+入 H.hi 了保证实验的有效性,实验使用五折交叉验证 hut H:T hohi+A 法,每组数据进行20次实验,最终结果为20次实 其中: 验结果的平均值。为了确保IF-ELM和IOS- 0=A,H+-H,hhh+i)hH ELM算法网络结构不会无休止增长,隐含层节点 P=-OH,hi(hh+ 最大增长个数为50。F-ELM、OS-ELM和WEOS- R=-(hh+)hH.O ELM算法使用SMOTE作为过采样方法Is1。 S=-RH,hi(h++(h+ SMOTE中的k值设置为5,若少数类样本数量较 设y=(HH,+入),t=(h4h+i)h4H,, 少,则k值相应地减小。本文采用类别不平衡领 n=H,h,根据Sherman--Morrison公式,可得 域中的常用评价性能指标几何平均数(geometric O=y+yn(+yn)y mean,G-mean)来比较各个算法的分类性能m。 3实验结果 对于多类问题,本文将多类划分为多个二类问 题,求出每个二类问题的G-mean值,取其平均值 为了验证本文所提IOS-ELM算法的有效性, 作为多类分类最终实验结果。 利用keel数据集和UCI数据集对W-ELM、IF- 表2给出了隐节点数小于训练样本数的不同 ELM-SMOTE、OS-ELM-SMOTE、EWOS-ELM和 ELM算法二分类实验结果。大部分的二分类实 所提IOS-ELM算法进行测试。实验数据集分别 验中本文所提出的IOS-ELM算法的G-mean值最

β l 节点数小于训练样本数的情况,而当隐含层节点 数大于训练样本数时,这两种算法都不符合最小 二乘定律。有些数据结构比较复杂,数据之间的 关系或是属性较多,此时需要较多的隐含层节点 数。接下来将讨论隐含层节点数大于训练样本数 的情况,初始化阶段,将 λ 设置为矩阵后,由式 (1) 可得具有 l 个隐含层节点的输出权重 为 β l = H T (HHT +λ −1 ) −1Y 设 Q l = (HHT +λ −1 ) −1 (4) β 增加隐含层节点后,新的输出权重 l+1 为 β l+1 = [ H h ] T ([ H h ][ H h ] T +λ −1 ) −1Y = [ H h ] T (HHT + hhT +λ −1 ) −1Y = [ H h ] TQ l+1Y Q l+1 = (I+CHHT +ChhT ) 式中 −1,根据 Sherman-Mor￾rison 公式可得 Q l+1 = (HHT +λ −1 ) −1 −(HHT +λ −1 ) −1h· [ I+ h T (HHT +λ −1 ) −1h ]−1 h T (HHT +λ −1 ) −1 (5) 将式 (4) 代入到式 (5) 中得 Q l+1 = Q l −Q lh(I+ h TQ lh) −1h TQ l 在线学习阶段增加新训练样本后,参数 λ、隐 含层输出矩阵 H 和预期输出 Y 的变化与隐含层 节点数小于训练样本数的情况相同,增加训练样 本后新的输出权重为 β t+1 = [ Ht ht+1 ]T   [ Ht ht+1 ] [ Ht ht+1 ]T + [ λt 0 0 λt+1 ]−1   −1 [ Yt yt+1 ] = [ Ht ht+1 ]T( HtHt T +λt Hth T t+1 ht+1Ht T ht+1h T t+1 +λt+1 )−1 [ Yt yt+1 ] 由 Schur complement 公式可得: [ O P R S ] = ( HtHt T +λt Hth T t+1 ht+1Ht T ht+1h T t+1 +λt+1 )−1 其中: O = [ HtHt T +λt − Hth T t+1 (ht+1h T t+1 +λt+1) −1ht+1Ht T ]−1 P = −OHth T t+1 (ht+1h T t+1 +λt+1) −1 R = −(ht+1h T t+1 +λt+1) −1ht+1Ht TO S = −RHth T t+1 (ht+1h T t+1 +λt+1) −1 +(ht+1h T t+1 +λt+1) −1 γ = (HtHt T +λt) −1 , ι = (ht+1h T t+1 +λt+1) −1ht+1Ht T , η = Hth T t+1 , 设 根据 Sherman-Morrison 公式,可得 O = γ+γη(I +ιγη) −1 ιγ 3 实验结果 为了验证本文所提 IOS-ELM 算法的有效性, 利用 keel 数据集和 UCI 数据集对 W-ELM、IF￾ELM-SMOTE、OS-ELM- SMOTE、EWOS-ELM 和 所提 IOS-ELM 算法进行测试。实验数据集分别 是:Dermatology-6、Abalone9-18、Yeast1、Shuttle￾c0-vs-c4、Segment0、Abalone19、Pageblocks0、 Pdspeechfeaters、Vehicle1、Vehicle3、Biodge、DNA、 Satimage、USPS,具体描述如表 1 所示。本文所有 实验均在同一环境下完成,采用在 Windows 10 环 境下搭建系统,计算机处理器配置 为 Intel® CoreTM i5-8400 CPU@2.8 GHz,内存 12 GB,MAT￾LAB2016b 下完成。 表 1 实验数据集 Table 1 Experimental datasets 数据集 样本数 类别不平衡率 特征数 类别数 Dermatology-6 358 16.9 34 2 Abalone9-20 731 16.4 8 2 Shuttle-c0-vs-c4 1 829 13.87 9 2 Segment0 2 308 6.02 19 2 Abalone19 4 174 129.44 8 2 Pageblocks0 5 472 8.79 10 2 Pdspeechfeaters 756 2.94 754 2 Vehicle1 846 2.9 20 2 Vehicle3 846 2.99 20 2 Biodge 1 055 1.96 41 2 DNA 2 000 2.25 200 3 Satimage 6 435 2.38 36 6 USPS 9 298 2.19 256 10 实验中,将所有数据归一化到 [−1,1] 区间 中。ELM 网络的激活函数均为 Sigmoid 函数,为 了保证实验的有效性,实验使用五折交叉验证 法,每组数据进行 20 次实验,最终结果为 20 次实 验结果的平均值。为了确保 IF-ELM 和 IOS￾ELM 算法网络结构不会无休止增长,隐含层节点 最大增长个数为 50。IF-ELM、OS-ELM 和 WEOS￾ELM 算法使 用 SMOTE 作为过采样方法 [ 1 5 ]。 SMOTE 中的 k 值设置为 5,若少数类样本数量较 少,则 k 值相应地减小。本文采用类别不平衡领 域中的常用评价性能指标几何平均数 (geometric_ mean, G-mean) 来比较各个算法的分类性能[17]。 对于多类问题,本文将多类划分为多个二类问 题,求出每个二类问题的 G-mean 值,取其平均值 作为多类分类最终实验结果。 表 2 给出了隐节点数小于训练样本数的不同 ELM 算法二分类实验结果。大部分的二分类实 验中本文所提出的 IOS-ELM 算法的 G-mean 值最 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·523·

·524· 智能系统学报 第15卷 高且训练时间也较少。以Dermatology6数据集为 本的结果。在隐节点数大于训练样本时,初始时 例,初始的隐含层节点数为5,误差终止条件为 隐含层节点数较多,增加隐节点数对实验结果影 tempmean=-0.98。IOS-ELM算法的G-mean=0.96, 响较小。隐节点数过大也导致训练时间较多。 训练时间为0.0789s,分类准确率明显高于其他 表4给出了多类分类实验结果,证明IOS-ELM算 3种算法。表3给出了隐含层节点数大于训练样 法对多类分类实验也有很好的学习性能。 表2隐节点数大于训练样本数的二分类实验结果 Table 2 Two-class experimental results with the number of hidden nodes more than the number of training samples 训练样本几何 初始隐 初始训练 每次新增训练 数据集 算法 几何平均数 时间/s 平均数 节点数 样本数 样本数 IOSELM 0.9429 0.0656 0.98 200 WELM 0.8353 0.0231 200 IFELM-SMOTE 0.8973 1 Dermatology6 118.4179 0.98 200 OSELM-SMOTE 0.8391 0.0312 200 EWOSELM- 0.8537 0.4789 J 200 SMOTE IOSELM 0.8692 1.2625 0.86 400 WELM 0.7586 0.0707 一 400 1 Abalone9-18 IFELM-SMOTE 0.8498 477.3312 0.86 5 400 1 OSELM-SMOTE 0.8084 0.0367 400 EWOSELM- 0.7286 0.7195 400 SMOTE IOSELM 0.7043 0.4859 0.71 10 700 10 WELM 0.6796 0.0696 10 700 10 Yeastl IFELM-SMOTE 0.7021 104.2031 0.71 10 700 10 OSELM-SMOTE 0.6976 0.0251 10 700 10 EWOSELM- 0.7001 0.7391 10 700 10 SMOTE IOSELM 0.9954 0.0781 0.99 10 1000 10 WELM 0.9957 0.1212 10 1000 10 Shuttle-c0-vs-c4 IFELM-SMOTE 0.9949 4.8343 0.99 10 1000 10 OSELM-SMOTE 0.9966 0.0359 10 1000 10 EWOSELM- 0.9967 1.6296 10 1000 10 SMOTE IOSELM 0.9186 6.6843 0.95 10 1000 10 WELM 0.7618 0.2816 10 1000 10 Segment0 IFELM-SMOTE 0.8932 3425.3976 0.95 10 1000 10 OSELM-SMOTE 0.8652 0.0523 10 1000 10 EWOSELM- 0.8960 2.9703 10 1000 10 SMOTE Abalone19 IOSELM 0.7553 19.6476 0.75 10 2000 10 WELM 0.6672 1.2917 10 2000 10

高且训练时间也较少。以 Dermatology6 数据集为 例,初始的隐含层节点数为 5,误差终止条件为 tempmean=0.98。IOS-ELM 算法的 G-mean=0.96, 训练时间为 0.078 9 s,分类准确率明显高于其他 3 种算法。表 3 给出了隐含层节点数大于训练样 本的结果。在隐节点数大于训练样本时,初始时 隐含层节点数较多,增加隐节点数对实验结果影 响较小。隐节点数过大也导致训练时间较多。 表 4 给出了多类分类实验结果,证明 IOS-ELM 算 法对多类分类实验也有很好的学习性能。 表 2 隐节点数大于训练样本数的二分类实验结果 Table 2 Two-class experimental results with the number of hidden nodes more than the number of training samples 数据集 算法 几何平均数 时间/s 训练样本几何 平均数 初始隐 节点数 初始训练 样本数 每次新增训练 样本数 Dermatology6 IOSELM 0.942 9 0.065 6 0.98 5 200 1 WELM 0.835 3 0.023 1 — 5 200 1 IFELM-SMOTE 0.897 3 118.417 9 0.98 5 200 1 OSELM-SMOTE 0.839 1 0.031 2 — 5 200 1 EWOSELM￾SMOTE 0.853 7 0.478 9 — 5 200 1 Abalone9-18 IOSELM 0.869 2 1.262 5 0.86 5 400 1 WELM 0.758 6 0.070 7 — 5 400 1 IFELM-SMOTE 0.849 8 477.331 2 0.86 5 400 1 OSELM-SMOTE 0.808 4 0.036 7 — 5 400 1 EWOSELM￾SMOTE 0.728 6 0.719 5 — 5 400 1 Yeast1 IOSELM 0.704 3 0.485 9 0.71 10 700 10 WELM 0.679 6 0.069 6 — 10 700 10 IFELM-SMOTE 0.702 1 104.203 1 0.71 10 700 10 OSELM-SMOTE 0.697 6 0.025 1 — 10 700 10 EWOSELM￾SMOTE 0.700 1 0.739 1 — 10 700 10 Shuttle-c0-vs-c4 IOSELM 0.995 4 0.078 1 0.99 10 1 000 10 WELM 0.995 7 0.121 2 — 10 1 000 10 IFELM-SMOTE 0.994 9 4.834 3 0.99 10 1 000 10 OSELM-SMOTE 0.996 6 0.035 9 — 10 1 000 10 EWOSELM￾SMOTE 0.996 7 1.629 6 — 10 1 000 10 Segment0 IOSELM 0.918 6 6.684 3 0.95 10 1 000 10 WELM 0.761 8 0.281 6 — 10 1 000 10 IFELM-SMOTE 0.893 2 3 425.397 6 0.95 10 1 000 10 OSELM-SMOTE 0.865 2 0.052 3 — 10 1 000 10 EWOSELM￾SMOTE 0.896 0 2.970 3 — 10 1 000 10 Abalone19 IOSELM 0.755 3 19.647 6 0.75 10 2 000 10 WELM 0.667 2 1.291 7 — 10 2 000 10 ·524· 智 能 系 统 学 报 第 15 卷

第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·525· 续表2 训练样本几何 初始隐 初始训练 每次新增训练 数据集 算法 几何平均数 时间s 平均数 节点数 样本数 样本数 IFELM-SMOTE 0.6476 637.3585 0.75 10 2000 10 OSELM-SMOTE 0.6641 0.0937 10 2000 10 EWOSELM- 0.5642 2.2914 10 2000 10 SMOTE IOSELM 0.8494 26.2164 0.88 10 2000 10 WELM 0.8018 3.2200 10 2000 10 Pageblocks0 IFELM-SMOTE 0.8714 12476.7501 0.88 10 2000 10 OSELM-SMOTE 0.8266 0.1046 10 2000 10 EWOSELM- 0.8190 4.1148 10 2000 10 SMOTE 表3训练样本数大于隐节点数的二分类实验结果 Table 3 Two-class experimental results with the number of training samples more than the number of hidden nodes 训练样本几何 初始隐 初始训练 每次新增训练 数据集 算法 几何平均数 时间/s 平均数 节点数 样本数 样本数 IOSELM 0.6836 38.0648 0.99 700 400 1 WELM 0.5625 4.5138 700 400 Pdspeechfeaters IFELM-SMOTE 0.5266 3184.1812 0.99 700 400 OSELM-SMOTE 0.6567 14.0273 700 400 EWOSELM- 0.6487 286.8218 700 400 SMOTE IOSELM 0.8155 65.7023 0.9 700 400 WELM 0.7746 4.3742 700 400 Vehiclel IFELM-SMOTE 0.6466 46.4960 0.9 700 400 OSELM-SMOTE 0.7658 22.9015 700 400 EWOSELM- 0.7673 457.9382 700 400 SMOTE IOSELM 0.8114 60.6007 0.84 700 400 WELM 0.7574 4.3873 700 400 Vehicle3 IFELM-SMOTE 0.6579 46.9171 0.84 700 400 OSELM-SMOTE 0.7644 22.4273 700 400 EWOSELM- 0.7699 451.3625 700 400 SMOTE IOSELM 0.8420 8.3992 0.89 700 600 10 WELM 0.8938 0.6409 700 600 10 Biodeg IFELM-SMOTE 0.6998 4.7343 0.89 700 600 10 OSELM-SMOTE 0.5248 2.8882 700 600 10 EWOSELM- 0.5163 210.1617 700 600 10 SMOTE

续表 2 数据集 算法 几何平均数 时间/s 训练样本几何 平均数 初始隐 节点数 初始训练 样本数 每次新增训练 样本数 IFELM-SMOTE 0.647 6 637.358 5 0.75 10 2 000 10 OSELM-SMOTE 0.664 1 0.093 7 — 10 2 000 10 EWOSELM￾SMOTE 0.564 2 2.291 4 — 10 2 000 10 Pageblocks0 IOSELM 0.849 4 26.216 4 0.88 10 2 000 10 WELM 0.801 8 3.220 0 — 10 2 000 10 IFELM-SMOTE 0.871 4 12 476.750 1 0.88 10 2 000 10 OSELM-SMOTE 0.826 6 0.104 6 — 10 2 000 10 EWOSELM￾SMOTE 0.819 0 4.114 8 — 10 2 000 10 表 3 训练样本数大于隐节点数的二分类实验结果 Table 3 Two-class experimental results with the number of training samples more than the number of hidden nodes 数据集 算法 几何平均数 时间/s 训练样本几何 平均数 初始隐 节点数 初始训练 样本数 每次新增训练 样本数 Pdspeechfeaters IOSELM 0.683 6 38.064 8 0.99 700 400 1 WELM 0.562 5 4.513 8 — 700 400 1 IFELM-SMOTE 0.526 6 3 184.181 2 0.99 700 400 1 OSELM-SMOTE 0.656 7 14.027 3 — 700 400 1 EWOSELM￾SMOTE 0.648 7 286.821 8 — 700 400 1 Vehicle1 IOSELM 0.815 5 65.702 3 0.9 700 400 1 WELM 0.774 6 4.374 2 — 700 400 1 IFELM-SMOTE 0.646 6 46.496 0 0.9 700 400 1 OSELM-SMOTE 0.765 8 22.901 5 — 700 400 1 EWOSELM￾SMOTE 0.767 3 457.938 2 — 700 400 1 Vehicle3 IOSELM 0.811 4 60.600 7 0.84 700 400 1 WELM 0.757 4 4.387 3 — 700 400 1 IFELM-SMOTE 0.657 9 46.917 1 0.84 700 400 1 OSELM-SMOTE 0.764 4 22.427 3 — 700 400 1 EWOSELM￾SMOTE 0.769 9 451.362 5 — 700 400 1 Biodeg IOSELM 0.842 0 8.399 2 0.89 700 600 10 WELM 0.893 8 0.640 9 — 700 600 10 IFELM-SMOTE 0.699 8 4.734 3 0.89 700 600 10 OSELM-SMOTE 0.524 8 2.888 2 — 700 600 10 EWOSELM￾SMOTE 0.516 3 210.161 7 — 700 600 10 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·525·

·526· 智能系统学报 第15卷 表4多类分类实验结果 Table 4 Experimental results of the multi-class classification 训练样本 初始训练 每次新增 数据集 算法 几何平均数 初始训练 时间s 几何平均数 隐含层节点数 样本数 训练样本数 IOSELM 0.7877 8.2234 0.86 20 1000 10 WELM 0.6453 0.2106 20 1000 10 IFELM-SMOTE DNA 0.8243 1731.5929 0.86 20 1000 10 OSELM-SMOTE 0.6561 0.0468 20 1000 10 EWOSELM- 0.6571 2.3835 20 1000 10 SMOTE IOSELM 0.8848 16.3140 0.9 20 3000 10 WELM 0.8553 2.5489 20 3000 10 IFELM-SMOTE 0.8639 14529.9046 0.9 20 Satimage 3000 10 OSELM-SMOTE 0.8556 0.0851 20 3000 10 EWOSELM- 0.8451 1.6812 20 3000 10 SMOTE IOSELM 0.8956 118.8984 0.9 20 6000 10 WELM 0.7755 8.1634 20 6000 10 IFELM-SMOTE 0.7272 99448.9593 0.9 20 USPS 6000 10 OSELM-SMOTE 0.7968 0.2265 20 6000 10 EWOSELM- 0.7864 6.3085 20 6000 10 SMOTE 4结束语 [3]LI Shuai,YOU Zhuhong,GUO Hongliang,et al.Inverse- free extreme learning machine with optimal information 本文针对类别不平衡环境下的增量学习问 updating[J].IEEE transactions on cybernetics,2016,46(5): 题,提出了面对类别不平衡的增量在线极限学习 1229-1241. 机算法,即IOS-ELM算法。ISO-ELM算法利用 [4]HUANG Shan.WANG Botao,CHEN Yuemei,et al.An Schur complement公式增加隐含层节点获得连接 efficient parallel method for batched OS-ELM training us- 权重的最优解。再引入在线学习思想,使训练样 ing MapReduce[J].Memetic computing,2017,9(3): 本可以逐个或多个地加人到训练模型中。最后调 183-197 节惩罚因子的大小使其适用于类别不平衡环境下 [5]KIM Y,TOH K A,TEOH A B J,et al.An online learning 的学习。针对隐含层节点数小于或大于训练样本 network for biometric scores fusion[J].Neurocomputing, 2013.102:65-77. 数两种情况,本文分别给出了理论推理。实验证 明,与对比算法相比IOS-ELM算法具有较好的泛 [6]LIANG Nanying,HUANG Guangbin,SAR- ATCHANDRAN P,et al.A fast and accurate online se- 化性能和在线预测能力。 quential learning algorithm for feedforward networks[J]. 参考文献 IEEE transactions on neural networks,2006,17(6): 1411-1423. [1]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme [7]张明洋,闻英友,杨晓陶,等.一种基于增量加权平均的 learning machine:theory and applications[J].Neurocom- 在线序贯极限学习机算法).控制与决策,2017,32(10): puting,2006,70(1/2/3):489-501. 1887-1893 [2]HUANG Guangbin,CHEN Lei,SIEW C K.Universal ap- ZHANG Mingyang,WEN Yingyou,YANG Xiaotao,et al. proximation using incremental constructive feedforward An incremental weighted average based online sequential networks with random hidden nodes[J].IEEE transactions extreme learning machine algorithm[J].Control and de- on neural networks,2006,17(4):879-892. cision,2017,32(10):1887-1893

4 结束语 本文针对类别不平衡环境下的增量学习问 题,提出了面对类别不平衡的增量在线极限学习 机算法,即 IOS-ELM 算法。ISO-ELM 算法利用 Schur complement 公式增加隐含层节点获得连接 权重的最优解。再引入在线学习思想,使训练样 本可以逐个或多个地加入到训练模型中。最后调 节惩罚因子的大小使其适用于类别不平衡环境下 的学习。针对隐含层节点数小于或大于训练样本 数两种情况,本文分别给出了理论推理。实验证 明,与对比算法相比 IOS-ELM 算法具有较好的泛 化性能和在线预测能力。 参考文献: HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocom￾puting, 2006, 70(1/2/3): 489–501. [1] HUANG Guangbin, CHEN Lei, SIEW C K. Universal ap￾proximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE transactions on neural networks, 2006, 17(4): 879–892. [2] LI Shuai, YOU Zhuhong, GUO Hongliang, et al. Inverse￾free extreme learning machine with optimal information updating[J]. IEEE transactions on cybernetics, 2016, 46(5): 1229–1241. [3] HUANG Shan, WANG Botao, CHEN Yuemei, et al. An efficient parallel method for batched OS-ELM training us￾ing MapReduce[J]. Memetic computing, 2017, 9(3): 183–197. [4] KIM Y, TOH K A, TEOH A B J, et al. An online learning network for biometric scores fusion[J]. Neurocomputing, 2013, 102: 65–77. [5] LIANG Nanying, HUANG Guangbin, SAR￾ATCHANDRAN P, et al. A fast and accurate online se￾quential learning algorithm for feedforward networks[J]. IEEE transactions on neural networks, 2006, 17(6): 1411–1423. [6] 张明洋, 闻英友, 杨晓陶, 等. 一种基于增量加权平均的 在线序贯极限学习机算法 [J]. 控制与决策, 2017, 32(10): 1887–1893. ZHANG Mingyang, WEN Yingyou, YANG Xiaotao, et al. An incremental weighted average based online sequential extreme learning machine algorithm[J]. Control and de￾cision, 2017, 32(10): 1887–1893. [7] 表 4 多类分类实验结果 Table 4 Experimental results of the multi-class classification 数据集 算法 几何平均数 时间/s 训练样本 几何平均数 初始训练 隐含层节点数 初始训练 样本数 每次新增 训练样本数 DNA IOSELM 0.787 7 8.223 4 0.86 20 1 000 10 WELM 0.645 3 0.210 6 — 20 1 000 10 IFELM-SMOTE 0.824 3 1 731.592 9 0.86 20 1 000 10 OSELM-SMOTE 0.656 1 0.046 8 — 20 1 000 10 EWOSELM￾SMOTE 0.657 1 2.383 5 — 20 1 000 10 Satimage IOSELM 0.884 8 16.314 0 0.9 20 3 000 10 WELM 0.855 3 2.548 9 — 20 3 000 10 IFELM-SMOTE 0.863 9 14 529.904 6 0.9 20 3 000 10 OSELM-SMOTE 0.855 6 0.085 1 — 20 3 000 10 EWOSELM￾SMOTE 0.845 1 1.681 2 — 20 3 000 10 USPS IOSELM 0.895 6 118.898 4 0.9 20 6 000 10 WELM 0.775 5 8.163 4 — 20 6 000 10 IFELM-SMOTE 0.727 2 99 448.959 3 0.9 20 6 000 10 OSELM-SMOTE 0.796 8 0.226 5 — 20 6 000 10 EWOSELM￾SMOTE 0.786 4 6.308 5 — 20 6 000 10 ·526· 智 能 系 统 学 报 第 15 卷

第3期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·527· [8]DOUZAS G,BACAO F,LAST F.Improving imbalanced [15]BATUWITA R,PALADE V.FSVM-CIL:fuzzy support learning through a heuristic oversampling method based on vector machines for class imbalance learning[J].IEEE k-means and SMOTE[J].Information sciences,2018,465: transactions on fuzzy systems,2010,18(3):558-571. 1-20. [16]DING Shuya,MIRZA B,LIN Zhiping,et al.Kernel based [9]BATUWITA R,PALADE V.Class imbalance learning online learning for imbalance multiclass classification[J]. methods for support vector machines[Ml//HE Haibo,MA Neurocomputing,2017,277:139-148. Yungian.Imbalanced Learning:Foundations,Algorithms, [17]HE H,GARCIA E A.Learning from imbalance data[J]. and Applications.New York:John Wiley Sons,Inc., IEEE transactions on knowledge and data engineering, 2013:145-168. 2009,21(9y:1263-1284. [10]XIA Shixiong,MENG Fanrong,LIU Bing,et al.A Ker- nel Clustering-based possibilistic fuzzy extreme learning 作者简介: machine for class imbalance learning[J].Cognitive com- 左鹏玉,硕士研究生,主要研究方 putation,2015,7(1)74-85. 向为人工智能、模式识别。 [11]ZONG Weiwei,HUANG Guangbin,CHEN Yiqiang. Weighted extreme learning machine for imbalance learn- ing[J].Neurocomputing,2013,101:229-242. [12]MIRZA B,LIN Zhiping,TOH K A.Weighted online se- quential extreme learning machine for class imbalance 周洁,博士研究生,主要研究方向 learning[J].Neural processing letters,2013,38(3): 为人工智能、模式识别、机器学习。 465-486. [13]HUANG Guangbin,ZHOU Hongming,DING Xiaojian, et al.Extreme learning machine for regression and multi- class classification[J].IEEE transactions on systems,man, and cybernetics,part B(cybernetics),2012,42(2): 513-529. 王士同,教授,博土生导师,CCF [14]RAO C R,MITRA S K.Generalized inverse of a matrix 会员,主要研究方向为人工智能、模式 识别。作为第一作者发表学术论文百 and its applications[C]//Proceedings of the Sixth Berke- 余篇。 ley Symposium on Mathematical Statistics and Probabil- ity,Volume 1:Theory of Statistics.Berkeley,:Uni- versity of California Press,1972:601-620

DOUZAS G, BACAO F, LAST F. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences, 2018, 465: 1–20. [8] BATUWITA R, PALADE V. Class imbalance learning methods for support vector machines[M]//HE Haibo, MA Yunqian. Imbalanced Learning: Foundations, Algorithms, and Applications. New York: John Wiley & Sons, Inc., 2013: 145–168. [9] XIA Shixiong, MENG Fanrong, LIU Bing, et al. A Ker￾nel Clustering-based possibilistic fuzzy extreme learning machine for class imbalance learning[J]. Cognitive com￾putation, 2015, 7(1): 74–85. [10] ZONG Weiwei, HUANG Guangbin, CHEN Yiqiang. Weighted extreme learning machine for imbalance learn￾ing[J]. Neurocomputing, 2013, 101: 229–242. [11] MIRZA B, LIN Zhiping, TOH K A. Weighted online se￾quential extreme learning machine for class imbalance learning[J]. Neural processing letters, 2013, 38(3): 465–486. [12] HUANG Guangbin, ZHOU Hongming, DING Xiaojian, et al. Extreme learning machine for regression and multi￾class classification[J]. IEEE transactions on systems, man, and cybernetics, part B (cybernetics), 2012, 42(2): 513–529. [13] RAO C R, MITRA S K. Generalized inverse of a matrix and its applications[C]//Proceedings of the Sixth Berke￾ley Symposium on Mathematical Statistics and Probabil￾ity, Volume 1: Theory of Statistics. Berkeley, : Uni￾versity of California Press, 1972: 601–620. [14] BATUWITA R, PALADE V. FSVM-CIL: fuzzy support vector machines for class imbalance learning[J]. IEEE transactions on fuzzy systems, 2010, 18(3): 558–571. [15] DING Shuya, MIRZA B, LIN Zhiping, et al. Kernel based online learning for imbalance multiclass classification[J]. Neurocomputing, 2017, 277: 139–148. [16] HE H, GARCIA E A. Learning from imbalance data[J]. IEEE transactions on knowledge and data engineering, 2009, 21(9): 1263–1284. [17] 作者简介: 左鹏玉,硕士研究生,主要研究方 向为人工智能、模式识别。 周洁,博士研究生,主要研究方向 为人工智能、模式识别、机器学习。 王士同,教授,博士生导师,CCF 会员,主要研究方向为人工智能、模式 识别。作为第一作者发表学术论文百 余篇。 第 3 期 左鹏玉,等:面对类别不平衡的增量在线序列极限学习机 ·527·

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有