第14卷第5期 智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sept.2019 D0:10.11992/tis.201807037 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20181224.1044.003html 缺失数据的混合式重建方法 于本成,丁世飞 (1.中国矿业大学计算机科学与技术学院,江苏徐州221116;2.徐州工业职业技术学院信息与电气工程学 院,江苏徐州221004) 摘要:缺失数据的问题在各领域中是不可避免的,而传统的数据挖掘算法在处理不完整的数据集时表现不 佳。本文将协方差矩阵及协方差矩阵的行列式应用于粒子群优化算法的适应度函数中,并以迭代的方式得出 最佳阈值,再使用最佳阈值进行基于进化聚类算法的缺失值重建,解决了阈值的选取困难及其对数据重建结果 的影响问题。然后,在自联想极限学习机中调用具有最佳阈值的进化聚类算法,解决了自联想极限学习机输入 权值选择的随机性。最后,选取6个UCI标准数据集及9个激活函数来进行验证。实验结果表明,相对于现有 的大多数数据重建方法,所提的混合式重建方法可以更有效地完成缺失数据的重建。 关键词:数据挖掘;协方差矩阵:适应度函数;粒子群优化;最佳阈值;进化聚类算法;数据重建;自联想的极限 学习机 中图分类号:TP301.6文献标志码:A文章编号:1673-4785(2019)05-0947-06 中文引用格式:于本成,丁世飞.缺失数据的混合式重建方法.智能系统学报,2019,14(5):947-952. 英文引用格式:YU Bencheng,DING Shifei..Hybrid reconstruction method for missing dataJ.CAAI transactions on intelligent systems,,2019,145:947-952. Hybrid reconstruction method for missing data YU Bencheng,DING Shifei' (1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;2.School of Information and Electrical Engineering,Xuzhou College of Industrial Technology,Xuzhou 221004,China) Abstract:The problem of missing data is inevitable in different areas.However,traditional data mining algorithms do not process incomplete data sets well.The covariance matrix and its determinant were applied to the fitness function of particle swarm optimization,and the optimal threshold was obtained through iteration.Then,the missing data were re- constructed based on the evolving clustering method using the optimal threshold,which solved the difficulty in optimal threshold selection and determined its influence on data reconstruction results.Furthermore,the randomness of the auto- associative extreme learning machine was removed by invoking the evolving clustering method with the optimal threshold.Finally,six UCI standard data sets and nine activation functions were selected to verify the method.The res- ults showed that compared with most existing reconstruction methods,the proposed hybrid reconstruction method can complete the reconstruction of the missing data more effectively. Keywords:data mining;covariance matrix;fitness function;particle swarm optimization;optimal threshold,evolving clustering method;data reconstruction;auto-associative extreme learning machine 鉴于缺失数据重建的重要性,研究人员已经群优化(particle swarm optimization,PSO)在 就缺失数据重建问题提出了多种解决方法。粒子I995年由Kennedy和Eberhart提出-。PSO通过 群体内个体之间的信息共享来对问题的解进行协 收稿日期:2018-07-31.网络出版日期:2018-12-25. 基金项目:国家自然科学基金项目(61379101). 同搜索),即初始化一群随机粒子,并通过迭代找 通信作者:丁世飞.E-mail:dingsf@cumt.edu.cn, 到最优解。在每一次迭代中,粒子通过跟踪局部
DOI: 10.11992/tis.201807037 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181224.1044.003.html 缺失数据的混合式重建方法 于本成1,2,丁世飞1 (1. 中国矿业大学 计算机科学与技术学院,江苏 徐州 221116; 2. 徐州工业职业技术学院 信息与电气工程学 院,江苏 徐州 221004) 摘 要:缺失数据的问题在各领域中是不可避免的,而传统的数据挖掘算法在处理不完整的数据集时表现不 佳。本文将协方差矩阵及协方差矩阵的行列式应用于粒子群优化算法的适应度函数中,并以迭代的方式得出 最佳阈值,再使用最佳阈值进行基于进化聚类算法的缺失值重建,解决了阈值的选取困难及其对数据重建结果 的影响问题。然后,在自联想极限学习机中调用具有最佳阈值的进化聚类算法,解决了自联想极限学习机输入 权值选择的随机性。最后,选取 6 个 UCI 标准数据集及 9 个激活函数来进行验证。实验结果表明,相对于现有 的大多数数据重建方法,所提的混合式重建方法可以更有效地完成缺失数据的重建。 关键词:数据挖掘;协方差矩阵;适应度函数;粒子群优化;最佳阈值;进化聚类算法;数据重建;自联想的极限 学习机 中图分类号:TP301.6 文献标志码:A 文章编号:1673−4785(2019)05−0947−06 中文引用格式:于本成, 丁世飞. 缺失数据的混合式重建方法 [J]. 智能系统学报, 2019, 14(5): 947–952. 英文引用格式:YU Bencheng, DING Shifei. Hybrid reconstruction method for missing data[J]. CAAI transactions on intelligent systems, 2019, 14(5): 947–952. Hybrid reconstruction method for missing data YU Bencheng1,2 ,DING Shifei1 (1. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China; 2. School of Information and Electrical Engineering, Xuzhou College of Industrial Technology, Xuzhou 221004, China) Abstract: The problem of missing data is inevitable in different areas. However, traditional data mining algorithms do not process incomplete data sets well. The covariance matrix and its determinant were applied to the fitness function of particle swarm optimization, and the optimal threshold was obtained through iteration. Then, the missing data were reconstructed based on the evolving clustering method using the optimal threshold, which solved the difficulty in optimal threshold selection and determined its influence on data reconstruction results. Furthermore, the randomness of the autoassociative extreme learning machine was removed by invoking the evolving clustering method with the optimal threshold. Finally, six UCI standard data sets and nine activation functions were selected to verify the method. The results showed that compared with most existing reconstruction methods, the proposed hybrid reconstruction method can complete the reconstruction of the missing data more effectively. Keywords: data mining; covariance matrix; fitness function; particle swarm optimization; optimal threshold; evolving clustering method; data reconstruction; auto-associative extreme learning machine 鉴于缺失数据重建的重要性,研究人员已经 就缺失数据重建问题提出了多种解决方法。粒子 群优化 (particle swarm optimization,PSO) 在 1995 年由 Kennedy 和 Eberhart 提出[1-2]。PSO 通过 群体内个体之间的信息共享来对问题的解进行协 同搜索[3] ,即初始化一群随机粒子,并通过迭代找 到最优解。在每一次迭代中,粒子通过跟踪局部 收稿日期:2018−07−31. 网络出版日期:2018−12−25. 基金项目:国家自然科学基金项目 (61379101). 通信作者:丁世飞. E-mail:dingsf@cumt.edu.cn. 第 14 卷第 5 期 智 能 系 统 学 报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sept. 2019
·948· 智能系统学 报 第14卷 最优值和全局最优值来更新自己的速度与位置 我们称之为改进型的AAELM(MAAELM), 文献[5]通过调整惯性权重的取值,提出了自适 应混沌粒子群优化算法,该算法避免了粒子早熟 1基础理论 收敛情况。文献[6]中Krishna和Ravi提出了一 1.1PS0算法 种基于粒子群优化和矩阵协方差结构的数据重建 在D维搜索空间中,由n个粒子组成的群体 方法,他们使用PSO重建缺失值。 中粒子ii=1,2,…,n)的位置表示为D维位置矢 进化聚类算法(evolving clustering method, 量乙=(亿,2,…,a,…,乙o),每次迭代中粒子i移动 ECM)是一步到位的快速聚类算法,在ECM中, 的距离为速度矢量或飞行速度=(,V2,…,Va,…, 由用户定义的阈值参数τ会影响群集合数量的估 v),粒子迄今为止搜索到的最优位置 计,π值太大或太小都不利于找出群集合数量。 Ravi等9-1o提出了4种用于重建的混合方法。在 p=(p,P2,…,Pa,…,PD),整个粒子群迄今为止搜 索到的最优位置为Pg=(Pg1,P2,…,Pd,…,PD) 线重建中使用了具有广义回归神经网络的 每次迭代中任一粒子根据式(1)、式(2)来更新自 ECM(ECM+GRNN),在离线重建中使用了K- 己的速度和位置: means+-GRNN和K-medoids+GRNN以及具有多层 v结=w哈a+a(Pa-+a2(Pd-) (1) 感知机的K-medoidst(K-medoids+MLP)。他们虽然 城=点+州 (2) 提出了基于ECM的数据重建,但t值选择涉及了 式中:i=1,2,…,n;w是惯性权重;k是迭代次数; 试错法,结果都不同程度地受到τ值的影响。 a、a2是加速系数;1、2是[0,1]范围内的随机 极限学习机(extreme learning machine,ELM) 是由Huang等1提出的,它是一种新颖的前馈 数。PSO算法的描述如下: 1)随机初始化群体,设定粒子的位置和速度; 神经网络,不需要权重更新。目前ELM的理论与 2)根据适应度函数计算粒子的适应度值,选 算法研究主要集中在随机生成参数的优化、最优 取具有最优适应度值的粒子位置作为Pg,每个粒 外权的求解、最优隐藏层节点个数的选取、ELM 核函数、在线极限学习机算法等方面。文献[14] 子当前位置为P: 3)根据式(1)、式(2)更新粒子的速度和位置: 发现自联想的极限学习机(auto associative ex- 4)把每个粒子的适应度值与P:的适应度值 treme learning machine,.AAELM)在同一个数据集 进行比较,若优于P,的值,则将其值设为P: 合中的不同运行产生了不同的结果。有时,连接 输入层和隐藏层的随机加权会使结果出现很大的 5)把每个粒子的适应度值与Pg的适应度值 进行比较,若优于P的值,则将其值设置为P; 波动。在文献[I5]中Ravi和Krishna为重建提出 了多种在线和离线方法,即粒子群优化训练后的 6)检查是否满足终止条件,如果满足则终止 自动关联神经网络PSOAANN)、粒子群优化训练 迭代,否则返回2)。 后的自动关联子波神经网络(PSOAAWNN)、径向 1.2ECM算法 基函数自动关联神经网络(RBFAANN)、广义回归 创建新群集C时,定义群集中心C,并将群 自动关联神经网络(GRAANN),这些算法仍有待 集半径R初始为零。随着样本的相继出现,已经 于进一步改进。 创建的群集可以通过改变群集中心C'位置和增 鉴于以上研究中存在的PSO重建缺失值效 加群集半径R来更新。当群集半径R达到阈值t 率低、t值的选取会影响基于ECM的数据重建、 值时,将不再更新群集。ECM算法过程如下: AAELM结构中连接输人层和隐藏层的随机加权 1)创建第一个群集C,并将输人数据中的第 导致重建结果波动较大以及文献[15]中所提的神 一个样本作为群集中心C',设置群集半径R1=0。 经网络的重建效率低等问题,本文根据协方差矩 2)如果输人数据流的所有样本都已处理完 阵具有旋转不变性的特征,在PS0适应度函数 毕,则算法结束。否则,取当前样本,计算:与 中用到了协方差矩阵及协方差矩阵的行列式,选 已经创建的所有n个集群中心C:之间的距离, 取了最佳x值,使用具有最佳t值的ECM进行缺 D=x-Cl,其中j=1,2.…,no 失数据重建,我们称之为PSOECM方法,PSOECM 3)如果存在群集中心C,其中j=1,2,…,n, 方法解决了T值的选取困难及其对基于ECM重 使得D=:-C≤R,则假定当前样本x属于最 建结果的影响问题。随后,在AAELM中调用具 近群集Cm,Dm=x-Cm‖=min(x-CD。在这种 有最佳T值的ECM,去除了AAELM的随机性, 情况下,既不创建新群集,也不更新现有群集,并
最优值和全局最优值来更新自己的速度与位置[4]。 文献 [5] 通过调整惯性权重的取值,提出了自适 应混沌粒子群优化算法,该算法避免了粒子早熟 收敛情况。文献 [6] 中 Krishna 和 Ravi 提出了一 种基于粒子群优化和矩阵协方差结构的数据重建 方法,他们使用 PSO 重建缺失值。 τ τ τ τ 进化聚类算法 (evolving clustering method, ECM) 是一步到位的快速聚类算法,在 ECM 中, 由用户定义的阈值参数 会影响群集合数量的估 计, 值太大或太小都不利于找出群集合数量[7-8]。 Ravi 等 [9-10] 提出了 4 种用于重建的混合方法。在 线重建中使用了具有广义回归神经网络 的 ECM(ECM+GRNN),在离线重建中使用了 Kmeans+GRNN 和 K-medoids+GRNN 以及具有多层 感知机的 K-medoids(K-medoids+MLP)。他们虽然 提出了基于 ECM 的数据重建,但 值选择涉及了 试错法,结果都不同程度地受到 值的影响。 极限学习机 (extreme learning machine,ELM) 是由 Huang 等 [11-12] 提出的,它是一种新颖的前馈 神经网络,不需要权重更新。目前 ELM 的理论与 算法研究主要集中在随机生成参数的优化、最优 外权的求解、最优隐藏层节点个数的选取、ELM 核函数、在线极限学习机算法等方面[13]。文献 [14] 发现自联想的极限学习机 (auto associative extreme learning machine,AAELM) 在同一个数据集 合中的不同运行产生了不同的结果。有时,连接 输入层和隐藏层的随机加权会使结果出现很大的 波动。在文献 [15] 中 Ravi 和 Krishna 为重建提出 了多种在线和离线方法,即粒子群优化训练后的 自动关联神经网络 (PSOAANN)、粒子群优化训练 后的自动关联子波神经网络 (PSOAAWNN)、径向 基函数自动关联神经网络 (RBFAANN)、广义回归 自动关联神经网络 (GRAANN),这些算法仍有待 于进一步改进。 τ τ τ τ τ 鉴于以上研究中存在的 PSO 重建缺失值效 率低、 值的选取会影响基于 ECM 的数据重建、 AAELM 结构中连接输入层和隐藏层的随机加权 导致重建结果波动较大以及文献 [15] 中所提的神 经网络的重建效率低等问题,本文根据协方差矩 阵具有旋转不变性的特征[16] ,在 PSO 适应度函数 中用到了协方差矩阵及协方差矩阵的行列式,选 取了最佳 值,使用具有最佳 值的 ECM 进行缺 失数据重建,我们称之为 PSOECM 方法,PSOECM 方法解决了 值的选取困难及其对基于 ECM 重 建结果的影响问题。随后,在 AAELM中调用具 有最佳 值的 ECM,去除了 AAELM 的随机性, 我们称之为改进型的 AAELM(MAAELM)。 1 基础理论 1.1 PSO 算法 n i i = 1,2,··· ,n zi = (zi1,zi2,··· ,zid,··· ,ziD) i vi = (vi1, vi2,··· , vid,··· , viD) pi = (pi1, pi2,··· , pid,··· , piD) pg = ( pg1, pg2,··· , pgd,··· , pgD) 在 D 维搜索空间中,由 个粒子组成的群体 中粒子 ( ) 的位置表示为 D 维位置矢 量 ,每次迭代中粒子 移动 的距离为速度矢量或飞行速度 ,粒子迄今为止搜索到的最优位置 ,整个粒子群迄今为止搜 索到的最优位置为 , 每次迭代中任一粒子根据式 (1)、式 (2) 来更新自 己的速度和位置: v k+1 id = ωv k id +a1r1 ( pid −z k id) +a2r2 ( pgd −z k id) (1) z k+1 id = z k id +v k+1 id (2) i = 1,2,··· ,n ω k a1 a2 r1 r2 式中: ; 是惯性权重; 是迭代次数; 、 是加速系数; 、 是 [0,1] 范围内的随机 数。PSO 算法的描述如下: 1) 随机初始化群体,设定粒子的位置和速度; pg pi 2) 根据适应度函数计算粒子的适应度值,选 取具有最优适应度值的粒子位置作为 ,每个粒 子当前位置为 ; 3) 根据式 (1)、式 (2) 更新粒子的速度和位置; pi pi pi 4) 把每个粒子的适应度值与 的适应度值 进行比较,若优于 的值,则将其值设为 ; pg pg pg 5) 把每个粒子的适应度值与 的适应度值 进行比较,若优于 的值,则将其值设置为 ; 6) 检查是否满足终止条件,如果满足则终止 迭代,否则返回 2)。 1.2 ECM 算法 C C ′ R C ′ R R τ 创建新群集 时,定义群集中心 ,并将群 集半径 初始为零。随着样本的相继出现,已经 创建的群集可以通过改变群集中心 位置和增 加群集半径 来更新。当群集半径 达到阈值 值时,将不再更新群集。ECM 算法过程如下: C1 C ′ 1 R1 = 0 1) 创建第一个群集 ,并将输入数据中的第 一个样本作为群集中心 ,设置群集半径 。 xi xi n C ′ j Di j = xi −C ′ j j = 1,2,··· ,n 2) 如果输入数据流的所有样本都已处理完 毕,则算法结束。否则,取当前样本 ,计算 与 已经创建的所有 个集群中心 之间的距离, ,其中 。 C ′ j j = 1,2,··· ,n Di j = xi −C ′ j ⩽ R xi Cm Dim = xi −C ′ m = min( xi −C ′ j ) 3) 如果存在群集中心 ,其中 , 使得 ,则假定当前样本 属于最 近群集 , 。在这种 情况下,既不创建新群集,也不更新现有群集,并 ·948· 智 能 系 统 学 报 第 14 卷
第5期 于本成,等:缺失数据的混合式重建方法 ·949· 返回到2),否则进入4)。 H(a1,…,aL,b1,…,b,x1,…,xn)= 4)从已经创建的所有n个集群的中心中,通 G(a1,b1,x1) ..G(aL,bL,x1) (8) 过计算S=D+R,j=1,2,…,n,找出一个群集 Ca。再通过计算算出最小的Sa值,Sa=Da+Ra= G(a1,b1,xN) … G(aL,bL.xN) min{Sl,j=1,2,…,n,来找出Ca的群集中心Ca。 阳 5)如果Sa>2x,则样本:不属于任何现有群 B B= (9) 集,那么以与1)的相同方式创建新集群,执 行2)。 阳 Lxm 6)如果S。≤2r,则通过移动群集中心C:和 在已知权值和偏置的情况下,上面问题的求 增加群集半径R.来更新群集Ca,返回2)。 解就转化为求解线性系统Hβ=T的最小范数最 ECM算法不保持已传递样本的任何信息,但 小二乘解: B=H'T (10) 任一群集C:的群集中心C:到该群集的最远样本 之间距离都小于阈值t,即max(R)<T。 式中:H是H的Moore-penrose广义逆矩阵;B的 在ECM算法中,向量x和y之间的距离计算 范数是最小且唯一的。 使用归一化欧几里德距离,即 2提出的混合式重建方法 Igi,x.yER (3) i=l 2.1 PSOECM方法 在5)、6)中?值的大小影响到群集合数量, 全部数据记录X,可以分为两个部分:用于训 所以t值的选取影响到了基于ECM的数据重建 练模型的完整记录集X。和用于检验模型的不完 结果。 整记录集Xc。 1.3ELM算法 PSOECM方法步骤: 输入层的节点个数为n,隐藏层节点个数为 1)计算出X的协方差矩阵。 L,输出层节点个数为m,a代表第i个输入层节 2)在具有PSO随机初始化τ值的X.上应用 点与第j个隐藏层节点间的权值,b,代表隐藏层 ECM 中第j个节点的偏置。B:是需要计算的值,代表 3)对X执行基于ECM的重建:通过测量除 第方个隐藏层节点与第k个输出层节点间的权 去缺失值的不完整记录与除去相同位置上值的群 值。训练集实例个数为N的输入矩阵X以及输 集中心C'之间的欧几里德距离确定最近群集中 出矩阵T分别为 心,由最近群集中心的对应属性值重建不完整记 X11X12 XIN 录的属性值(x)。欧几里德距离的测定公式为 X22 X2N (11) X= (4) D,=∑k-C Xn2 XaN 式中:j为群集中心的数量;n为每条记录中完整 tu 成分的数量。 t21 t taN T= (5) 4)数据重建后计算X,的协方差矩阵。如果 X,为m×m)秩序的矩阵,则它的协方差矩阵Tcov 就是一个n×n矩阵。如果MSE(Xcow,Tcow)<E且 第i个实例在第j个隐藏层神经元上的输出 (Det(Xcow)-Det(Tcov))<E,则退出计算。否则,调 为G(a,b,x),整个的输出层值为 用PSO选出改善后的τ值。其中ε为预先设定的 BG(anbrx)=t i1.2...N (6) 小正值,MSE(Xcov,Tcow)为Xcov和Tcov元素之间 的均方差,Det(Xcow)是Xcov的行列式,Det(Tcov) 式(6)也可以表示为 是Tcov的行列式。 HB=T (7) 5)重复1)~4)直至收敛。 式中H表示隐藏层的矩阵。H矩阵第i行代表输 计算平均绝对百分比误差(mean absolute per- 人层中第ⅰ个实例在隐藏层所有神经元上的输 centage error,MAPE)值: 出,H矩阵的第j列代表所有训练样本在第j个隐 MAPE=1 ×100% (12) 藏层神经元上的输出,即 n
返回到 2),否则进入 4)。 n S i j = Di j +Rj , j = 1,2,··· ,n Ca S ia S ia = Dia +Ra = min{ S i j} j = 1,2,··· ,n Ca C ′ a 4) 从已经创建的所有 个集群的中心中,通 过计算 ,找出一个群集 。再通过计算算出最小的 值, , ,来找出 的群集中心 。 5) 如果 S ia > 2τ,则样本 xi 不属于任何现有群 集,那么以 与 1 ) 的相同方式创建新集群,执 行 2)。 S ia ⩽ 2τ C ′ a Ra Ca 6) 如果 ,则通过移动群集中心 和 增加群集半径 来更新群集 ,返回 2)。 Ci C ′ i τ max(Ri) < τ ECM 算法不保持已传递样本的任何信息,但 任一群集 的群集中心 到该群集的最远样本 之间距离都小于阈值 ,即 。 在 ECM 算法中,向量 x 和 y 之间的距离计算 使用归一化欧几里德距离,即 ∥x− y∥ = ∑q i=1 |xi − yi | 2 1/2 /q 1/2 , x, y ∈ R q (3) τ τ 在 5)、6) 中 值的大小影响到群集合数量, 所以 值的选取影响到了基于 ECM 的数据重建 结果。 1.3 ELM 算法 n L m ai j i j bj j βjk j k N X T 输入层的节点个数为 ,隐藏层节点个数为 ,输出层节点个数为 , 代表第 个输入层节 点与第 个隐藏层节点间的权值, 代表隐藏层 中第 个节点的偏置。 是需要计算的值, 代表 第 个隐藏层节点与第 个输出层节点间的权 值。训练集实例个数为 的输入矩阵 以及输 出矩阵 分别为 X = x11 x12 ··· x1N x21 x22 ··· x2N . . . . . . . . . xn1 xn2 ··· xnN (4) T = t11 t12 ··· t1N t21 t22 ··· t2N . . . . . . . . . tn1 tn2 ··· tnN (5) i j G ( aj ,bj , xi ) 第 个实例在第 个隐藏层神经元上的输出 为 ,整个的输出层值为 ∑L j=1 βjG ( aj ,bj , xi ) = ti , i = 1,2,··· ,N (6) 式 (6) 也可以表示为 Hβ = T (7) 式中 H 表示隐藏层的矩阵。H 矩阵第 i 行代表输 入层中第 i 个实例在隐藏层所有神经元上的输 出,H 矩阵的第 j 列代表所有训练样本在第 j 个隐 藏层神经元上的输出,即 H(a1,··· ,aL,b1,··· ,bl , x1,··· , xn) = G(a1,b1, x1) ... G(aL,bL, x1) . . . . . . G(a1,b1, xN) ... G(aL,bL, xN) N×L (8) β = β T 1 β T 2 . . . β T L L×m T = t T 1 t T 2 . . . t T N N×m (9) Hβ = T 在已知权值和偏置的情况下,上面问题的求 解就转化为求解线性系统 的最小范数最 小二乘解: βˆ = H †T (10) 式中: H† 是 H 的 Moore-penros βˆ e 广义逆矩阵; 的 范数是最小且唯一的。 2 提出的混合式重建方法 2.1 PSOECM 方法 Xt Xc Xic 全部数据记录 可以分为两个部分:用于训 练模型的完整记录集 和用于检验模型的不完 整记录集 。 PSOECM 方法步骤: 1) 计算出 Xc 的协方差矩阵。 2) 在具有 PSO 随机初始化 τ 值的 Xc 上应用 ECM。 Xic C ′ xk 3) 对 执行基于 ECM 的重建:通过测量除 去缺失值的不完整记录与除去相同位置上值的群 集中心 之间的欧几里德距离确定最近群集中 心,由最近群集中心的对应属性值重建不完整记 录的属性值 ( )。欧几里德距离的测定公式为 Dj = ∑n i=1;i,k xi −C ′ j 2 (11) 式中: j 为群集中心的数量;n 为每条记录中完整 成分的数量。 Xt Xt (m×n) TCOV n×n MSE(XCOV,TCOV) < ε (|Det(XCOV)−Det(TCOV)|) < ε τ ε MSE(XCOV,TCOV) XCOV TCOV Det(XCOV) XCOV Det(TCOV) TCOV 4) 数据重建后计算 的协方差矩阵。如果 为 秩序的矩阵,则它的协方差矩阵 就是一个 矩阵。如果 且 ,则退出计算。否则,调 用 PSO 选出改善后的 值。其中 为预先设定的 小正值, 为 和 元素之间 的均方差, 是 的行列式, 是 的行列式。 5) 重复 1)~4) 直至收敛。 计算平均绝对百分比误差 (mean absolute percentage error,MAPE) 值: MAPE = 1 n ∑n i=1 xi − xˆi xi ×100% (12) 第 5 期 于本成,等:缺失数据的混合式重建方法 ·949·
·950· 智能系统学报 第14卷 式中:x为实际值;为预测值;n为缺失值的全 6)计算得到各个群集中心之间的归一化欧几 部样本数量。 里德距离。 PSOECM方法采用与文献[6]相同的适应度 为了估算出隐藏层和输出层之间的权重,在 函数MSE(Xcov,Tcov)和(Det(Xcow)-Det(Tcov)D, 6)得到的距离中应用激活函数并进行非线性转 但文献[6)使用PSO重建缺失值,而PSOECM方 换,再应用Moore--Penrose广义逆矩阵得出H。 法使用P$O以迭代的方式完成了上述两个适应 最后,根据文献[12]使用Moore-Penrose广义 度函数的最小化工作,只有两个适应度函数在两 逆矩阵求解Hβ=T估算出隐藏层和输出层之间 个连续迭代中都小于预先设定ε值才停止运算, 的权重,其中B为权向量,T为目标向量。利用 并计算出最佳x值,再在ECM中使用PSO选择 式(12)计算平均绝对百分误差(MAPE)值。 最佳τ值进行缺失数据重建。这样不仅可以得出 最佳的数据重建,还可以保存数据的协方差结构。 3选取实验数据集与激活函数 2.2 MAAELM方法 实验选取UCI机器学习数据库中的6个标准 MAAELM方法采用PSOECM与AAELM混 数据集来进行验证,实验数据集如表1所示。同 合重建缺失数据。MAAELM结构如图1所示。 时,在选取的实验数据集上使用9个激活函数来 输人 隐藏 输出 研究它们对文章所提方法的影响。实验选取激活 (4 C 函数如表2所示。所选数据集中除Auto-mpg中 的马力属性值存在缺失,其他5个数据集均不存 PSOECM PSOECM (C2 在属性缺失值,所以通过随机删除原始数据集的 些值来进行实验,并创建了除目标变量以外的 所有变量中的缺失值。每一个数据集被分成 10个相等的小集合,其中9个小集合经过聚类处 理,剩下的1个留下为缺失值备用。 第1步 第2步 为了在每一个小集合中创建缺失值,随机删 图1 MAAELM结构 除了近10%的值(单元),并确保从每个记录中删 Fig.1 Architecture of the MAAELM 除至少一个单元。因此,在10倍交叉验证中,有 MAAELM方法步骤: 不同缺失记录的10个小集合。 1)将数据归一化至[0,1]范围内。 对于完整记录集合中的各个小集合,将它们 2)将数据集合分为完整记录集合和不完整记 从全部记录中分理并用于聚类。在完整记录集合 录集合。 中应用ECM算法,并通过最近群集中心属性的 3)在1)中执行基于PSOECM的重建,确定群 对应值重建出不完整记录集合中的属性缺失值。 集中心。 使用PSO优化算法和文献[6]提及的两个适 4)在2)中使用1)中得出的最佳τ值在完整 应度函数为PSOECM选出最佳τ值,并将相同的 记录集合中应用ECM。这相当于使用1)中得到 x值提供给MAAELM。对于所有数据集合,对比 的群集中心作为MAAELM结构中的隐藏节点。 了本文所提方法与文献[6,9-10,15,17]所提多种 5)执行PSOECM方法的3)。 混合方法的MAPE平均值。 表1实验数据集 Table 1 Data sets for the experiment 数据集名称 实例数属性数 链接地址 Auto-mpg 398 9 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg Boston Housing 506 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/housing Forest Fires 517 12 HTTP://archive.ics.uci.eduml/machine-learning-databases/forest-fires Iris Plants 150 4 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/iris Spectf heart 267 45 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/spect Wine ecognition 178 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/wine
式中: xi 为实际值;xˆi 为预测值;n 为缺失值的全 部样本数量。 MSE(XCOV,TCOV) (|Det(XCOV)−Det(TCOV)|) ε τ τ PSOECM 方法采用与文献 [6] 相同的适应度 函 数 和 , 但文献 [6] 使用 PSO 重建缺失值,而 PSOECM 方 法使用 PSO 以迭代的方式完成了上述两个适应 度函数的最小化工作,只有两个适应度函数在两 个连续迭代中都小于预先设定 值才停止运算, 并计算出最佳 值,再在 ECM 中使用 PSO 选择 最佳 值进行缺失数据重建。这样不仅可以得出 最佳的数据重建,还可以保存数据的协方差结构。 2.2 MAAELM 方法 MAAELM 方法采用 PSOECM 与 AAELM 混 合重建缺失数据。MAAELM 结构如图 1 所示。 PSOECM PSOECM 输入 第1步 第2步 隐藏 输出 I1 C1 I′1 I′2 I′n C2 I2 In Cn ... ... ... 图 1 MAAELM 结构 Fig. 1 Architecture of the MAAELM MAAELM 方法步骤: 1) 将数据归一化至 [0,1] 范围内。 2) 将数据集合分为完整记录集合和不完整记 录集合。 3) 在 1) 中执行基于 PSOECM 的重建,确定群 集中心。 4) 在 2) 中使用 1) 中得出的最佳 τ 值在完整 记录集合中应用 ECM。这相当于使用 1) 中得到 的群集中心作为 MAAELM 结构中的隐藏节点。 5) 执行 PSOECM 方法的 3)。 6) 计算得到各个群集中心之间的归一化欧几 里德距离。 H 为了估算出隐藏层和输出层之间的权重,在 6) 得到的距离中应用激活函数并进行非线性转 换,再应用 Moore-Penrose 广义逆矩阵得出 。 Hβ = T β T 最后,根据文献 [12] 使用 Moore-Penrose 广义 逆矩阵求解 估算出隐藏层和输出层之间 的权重,其中 为权向量, 为目标向量。利用 式 (12) 计算平均绝对百分误差 (MAPE) 值。 3 选取实验数据集与激活函数 实验选取 UCI 机器学习数据库中的 6 个标准 数据集来进行验证,实验数据集如表 1 所示。同 时,在选取的实验数据集上使用 9 个激活函数来 研究它们对文章所提方法的影响。实验选取激活 函数如表 2 所示。所选数据集中除 Auto-mpg 中 的马力属性值存在缺失,其他 5 个数据集均不存 在属性缺失值,所以通过随机删除原始数据集的 一些值来进行实验,并创建了除目标变量以外的 所有变量中的缺失值。每一个数据集被分成 10 个相等的小集合,其中 9 个小集合经过聚类处 理,剩下的 1 个留下为缺失值备用。 为了在每一个小集合中创建缺失值,随机删 除了近 10% 的值 (单元),并确保从每个记录中删 除至少一个单元。因此,在 10 倍交叉验证中,有 不同缺失记录的 10 个小集合。 对于完整记录集合中的各个小集合,将它们 从全部记录中分理并用于聚类。在完整记录集合 中应用 ECM 算法,并通过最近群集中心属性的 对应值重建出不完整记录集合中的属性缺失值。 τ τ 使用 PSO 优化算法和文献 [6] 提及的两个适 应度函数为 PSOECM 选出最佳 值,并将相同的 值提供给 MAAELM。对于所有数据集合,对比 了本文所提方法与文献 [6, 9-10, 15, 17] 所提多种 混合方法的 MAPE 平均值。 表 1 实验数据集 Table 1 Data sets for the experiment 数据集名称 实例数 属性数 链接地址 Auto-mpg 398 9 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg Boston Housing 506 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/housing Forest Fires 517 12 HTTP://archive.ics.uci.eduml/machine-learning-databases/forest-fires Iris Plants 150 4 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/iris Spectf heart 267 45 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/spect Wine ecognition 178 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/wine ·950· 智 能 系 统 学 报 第 14 卷
第5期 于本成,等:缺失数据的混合式重建方法 ·951· 表2激活函数表 Table 2 Activation functions 函数名称 函数公式 函数名称 函数公式 Sin Tribas(x)= 1-abs(x). -1≤x≤1 H=sin (x) Tribas 0,其他 Sinh Sinh(x)=e*-e Radial basis function x RBF()=exp2}c为宽度 1 Sigmoid Sigmoid(x)= 1+e- Softplus Softplus(x)=log(1+e*) 1-e Bipolar sigmoid Bsigmoid(x)= Gaussian Gaussian(x)=aexp -(x-b)2 1+e-t ,a、b、c是实数 1,x≥0 Hardlim Hardlim(x)= 0, 其他 4 实验结果和分析 表现最差,而其他激活函数对于MAAELM的 MAPE值影响基本相同。Hardlim激活函数表现 不同激活函数作用于MAAELM所得的 最差是因为它将一个输入空间只分割为0和1两 MAPE值以及PSOECM、MAAELM与其他算法比 个类别。 较的结果如图2和图3所示。 图3中将本文所提算法与Krishna M和Ravi V胸 70 的PSO_COV算法,Nishanth和Ravi的K-means+ 60 GRNN、K-medoids+MLP、K-medoids-+GRNN、 50 ECM+GRNN等算法,Gautam和Ravio的ECM Imputation算法,Ravi和Krishnal1的PSOAANN PSOAAWNN、RBFAANN、GRAANN等算法, 20 Ankaiah和Ravil的K-Means+-MLP算法的结果 10 进行对比,对比结果显示了最佳τ值在所提方法 中可以更有效地进行基于ECM的重建,以及在 res Auto housing Forest Spectf 大部分数据集合上局部学习和整体学习混合使用 Bosto 优于文献[6,9-10,15,17刀所提方法。 在Auto-mpg数据集合方面,只有K-medoids+ 图2不同激活函数对MAAELM的影响 GRNN、ECM+GRNN和GRAANN这3种混合法 Fig.2 Influence of different activation functions on the 的结果与PSOECM方法接近,分别落后1.31%、 MAAELM 1.65%和0.19%。PSOECM通过选择最佳t值, 100 Mean 在Auto-mpg数据集合中的表现优于ECM重建。 IS+GRN 80 medoi s+GRNN Imputation 将PSOECM得出的相同t值带入MAAELM时, SO COM 误差又降低了0.96%。 60 在Boston Housing数据集合方面,除了 GRAANN方法与PSOECM方法相差0.88%之外, 其他方法的MAPE值至少比PSOECM高3%。 PSOECM通过选择最佳T值,在Boston Housing Bostom housing uto- Spectf 数据集合中的表现同样优于ECM重建。在 Fores MAAELM中应用PSOECM得出的最佳T值之 后,MAPE值便可以进一步降低0.32%。 图3不同算法的MAPE值 在Forest fires数据集合方面,可以观察到与 Fig.3 MAPE value of different algorithms Boston Housing数据集合相似的性能。除了GRAANN 根据图2所展示的不同激活函数作用于 落后PSOECM的结果0.13%之外,其他方法的 MAAELM所得的MAPE值可以发现:Sigmoid MAPE值比PSOECM至少高4%。PSOECM通过 在所有激活函数中的表现最佳,Hardlim激活函数 选择最佳r值,MAPE同样有所下降。在MAAELM
表 2 激活函数表 Table 2 Activation functions 函数名称 函数公式 函数名称 函数公式 Sin H = sin(x) Tribas Tribas(x) = { 1−abs(x), −1 ⩽ x ⩽ 1 0, 其他 Sinh Sinh(x) = e x −e −x 2 Radial basis function RBF(x) = exp( − x 2 2σ2 ) ,σ 为宽度 Sigmoid Sigmoid(x) = 1 1+e −x Softplus Softplus(x) = log(1+e x ) Bipolar sigmoid Bsigmoid(x) = 1−e −x 1+e −x Gaussian Gaussian(x) = aexp −(x−b) 2 c 2 ,a、b、c是实数 Hardlim Hardlim(x) = { 1, 0, x ⩾ 0 其他 4 实验结果和分析 不同激活函数作用 于 MAAELM 所 得 的 MAPE 值以及 PSOECM、MAAELM 与其他算法比 较的结果如图 2 和图 3 所示。 70 60 50 40 30 20 10 0 MAPE Auto-mpg Bostom housing Forest fires lris Spectf Wine Sin Sinh Sigmoid Bsigmoid Hardlim Tribas RBF Softplus Gaussian 图 2 不同激活函数对 MAAELM 的影响 Fig. 2 Influence of different activation functions on the MAAELM 100 80 60 40 20 0 Auto-mpg Bostom housing Forest fires lris Spectf Wine Mean K-Means+MLP K-medoids+MLP K-medoids+GRNN K-means+GRNN ECM+GRNN PSO_COV PSOAANN PSOAAWMM RBFAANN GRAANN ECM lmputation PSOECM MAAELM MAPE 图 3 不同算法的 MAPE 值 Fig. 3 MAPE value of different algorithms 根 据 图 2 所展示的不同激活函数作用 于 MAAELM 所得的 MAPE 值可以发现:Sigmoid 在所有激活函数中的表现最佳,Hardlim 激活函数 表现最差,而其他激活函数对于 MAAELM 的 MAPE 值影响基本相同。Hardlim 激活函数表现 最差是因为它将一个输入空间只分割为 0 和 1 两 个类别。 τ 图 3 中将本文所提算法与 Krishna M 和 Ravi V[6] 的 PSO_COV 算法,Nishanth 和 Ravi[9] 的 K-means+ GRNN、K-medoids+MLP、K-medoids+GRNN、 ECM+GRNN 等算法,Gautam 和 Ravi[10] 的 ECM Imputation 算法,Ravi 和 Krishna[15] 的 PSOAANN、 PSOAAWNN、RBFAANN、GRAANN 等算法, Ankaiah 和 Ravi[17] 的 K-Means+MLP 算法的结果 进行对比,对比结果显示了最佳 值在所提方法 中可以更有效地进行基于 ECM 的重建,以及在 大部分数据集合上局部学习和整体学习混合使用 优于文献 [6, 9-10, 15, 17] 所提方法。 τ τ 在 Auto-mpg 数据集合方面,只有 K-medoids+ GRNN、ECM+GRNN 和 GRAANN 这 3 种混合法 的结果与 PSOECM 方法接近,分别落后 1.31%、 1.65% 和 0.19%。PSOECM 通过选择最佳 值, 在 Auto-mpg 数据集合中的表现优于 ECM 重建。 将 PSOECM 得出的相同 值带入 MAAELM 时, 误差又降低了 0.96%。 τ τ 在 Boston Housin g 数据集合方面,除 了 GRAANN 方法与 PSOECM 方法相差 0.88% 之外, 其他方法的 MAPE 值至少比 PSOECM 高 3%。 PSOECM 通过选择最佳 值,在 Boston Housing 数据集合中的表现同样优 于 E CM 重建。 在 MAAELM 中应用 PSOECM 得出的最佳 值之 后,MAPE 值便可以进一步降低 0.32%。 τ 在 Forest fires 数据集合方面,可以观察到与 Boston Housing 数据集合相似的性能。除了 GRAANN 落后 PSOECM 的结果 0.13% 之外,其他方法的 MAPE 值比 PSOECM 至少高 4%。PSOECM 通过 选择最佳 值,MAPE 同样有所下降。在 MAAELM 第 5 期 于本成,等:缺失数据的混合式重建方法 ·951·
·952· 智能系统学报 第14卷 中应用PSOECM得出最佳τ值之后,误差又降低 1-6 了0.68%。 [7]KASABOV N K,SONG Qun.DENFIS:dynamic evolving neural-fuzzy inference system and its application for time- 除了在Spectf数据集合中,PSOECM略逊于 series prediction[J].IEEE transactions on fuzzy systems, GRAANN之外,在Iris、Spectf和Wine recognition 2002,10(2):144154. 数据集合中,PSOECM与MAAELM同样表现出 [8]KASABOV N,SONG Qun,MA Tianmin.Fuzzy-neuro 了类似在Auto-mpg、Boston Housing、Forest fires systems for local and personalized modelling[M]// NIKRAVESH M,KACPRZYK J,ZADEH L A.Forging 数据集合中的优势。 New Frontiers:Fuzzy Pioneers II.Berlin,Heidelberg: 经上述实验结果的分析得出:1)PSOECM通 Springer,.2008:175-197. [9]NISHANTH K J.RAVI V.A computational intelligence 过选择最佳τ值,在各个数据集合中的表现优于 based online data imputation method:an application for ECM重建;2)将PSOECM得出的相同T值代入 banking[J].Journal of information processing systems, MAAELM时,所得MAPE值均有所降低。 2013,9(9):633650. [10]GAUTAM C,RAVI V.Evolving clustering based data im- 5结束语 putation[C]//Proceedings of 2014 International Conference on Circuits,Power and Computing Technologies.Nager- coil,Tamil Nadu,India,2014:1763-1769. 本文提出了2种新颖的缺失数据的混合式重 [11]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme 建方法,并使用6个数据集验证了所提方法的有 learning machine:a new learning scheme of feedforward 效性。发现由PSO为ECM选出的最佳T值在 neural networks[C]//Proceedings of 2004 IEEE Interna- PSOECM和MAAELM的优异性能方面起到了重 tional Joint Conference on Neural Networks.Budapest, Hungary,2004:985-990 要作用,解决了T值的选取困难和?值对ECM重 [12]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme 建结果的影响问题,同时去除了AAELM的随机 learning machine:theory and applications[J].Neurocom- 性。下一步研究将增大实验数据集,验证本文所 puting,2006,70(1/2/3):489-501. [13]任阳晖.极限学习机算法及应用研究D].沈阳:沈阳航 提方法在原始数据缺失不同百分比时的结果,以 空航天大学,2017. 及使用更多的激活函数来进一步验证所提方法的 REN Yanghui.Extreme learning machine alorithm and ap 有效性,并对所提方法与现有方法进行威尔克森 plication[D].Shenyang:Shenyang Aerospace University, 2017. 符号秩检验,验证所提方法的显著性。 [14]GAUTAM C.RAVI V.Data imputation via evolutionary computation,clustering and a neural network[J].Neuro- 参考文献: computing,2015,156:134-142. [15]RAVI V,KRISHNA M.A new online data imputation [1]KENNEDY J.Particle swarm optimization[M]//SAM- method based on general regression auto associative neur- MUT C.WEBB G I.Encyclopedia of Machine Learning. al network[J].Neurocomputing,2014,138:106-113. Boston,MA:Springer,2010. [16]申小征.基于维数约简的区域协方差矩阵及其在人脸识 [2]EBERHART R C,SHI Y.Comparing inertia weights and 别中的应用D1云南:云南财经大学,2017 constriction factors in particle swarm optimization[C]// [17]ANKAIAH N,RAVI V.A novel soft computing hybrid for Proceedings of the 2000 Congress on Evolutionary Com- putation.La Jolla,USA,2000:84-88. data imputation[C]//Proceedings of the 7th International [3]张庆科.粒子群优化算法及差分进行算法研究D].济 Conference on Data Mining.Las Vegas,Nevada,USA, 2011. 南:山东大学,2017. ZHANG Qingke.Research on the particle swarm optimiza- 作者简介: tion and differential evolution algorithms[D].Ji'nan:Shan- 于本成,男.1981年生,副教授 dong University,2017 [4]王永贵,林琳,刘宪国.基于改进粒子群优化的文本聚类 博士,主要研究方向为人工智能与数 算法研究[.计算机工程,2014.40(11):172-177. 据挖掘。参与国家、省级科研课题 WANG Yonggui,LIN Lin,LIU Xianguo.Research on text 2项,授权专利、软件著作权22项。 clustering algorithm based on improved particle swarm op- 发表学术论文20余篇。 timization[J].Computer engineering,2014,40(11): 172-177. [5]徐林粒子群优化算法的改进及其应用研究).西安文 理学院学报(自然科学版),2017,20(4):51-54. 丁世飞,男.1963年生,教授,博 XU Lin.Research on improvement and application of the 士生导师,CCF理事,CAAI理事,主 particle swarm optimization algorithm[J].Journal of Xi'an 要研究方向为人工智能与模式识别。 University (natural science edition),2017,20(4):51-54. [6]KRISHNA M.RAVI V.Particle swarm optimization and 主持国家、省级课题8项,取得发明专 covariance matrix based data imputation[C]//Proceedings 利10项。发表学术论文200余篇,出 of 2013 IEEE International Conference on Computational 版专著4部。 Intelligence and Computing Research.Enathi,India,2013:
中应用 PSOECM 得出最佳 τ 值之后,误差又降低 了 0.68%。 除了在 Spectf 数据集合中,PSOECM 略逊于 GRAANN 之外,在 Iris、Spectf 和 Wine recognition 数据集合中,PSOECM 与 MAAELM 同样表现出 了类似在 Auto-mpg、Boston Housing、Forest fires 数据集合中的优势。 τ τ 经上述实验结果的分析得出:1)PSOECM 通 过选择最佳 值,在各个数据集合中的表现优于 ECM 重建;2) 将 PSOECM 得出的相同 值代入 MAAELM 时,所得 MAPE 值均有所降低。 5 结束语 τ τ τ 本文提出了 2 种新颖的缺失数据的混合式重 建方法,并使用 6 个数据集验证了所提方法的有 效性。发现由 PSO 为 ECM 选出的最佳 值在 PSOECM 和 MAAELM 的优异性能方面起到了重 要作用,解决了 值的选取困难和 值对 ECM 重 建结果的影响问题,同时去除了 AAELM 的随机 性。下一步研究将增大实验数据集,验证本文所 提方法在原始数据缺失不同百分比时的结果,以 及使用更多的激活函数来进一步验证所提方法的 有效性,并对所提方法与现有方法进行威尔克森 符号秩检验,验证所提方法的显著性。 参考文献: KENNEDY J. Particle swarm optimization[M]//SAMMUT C, WEBB G I. Encyclopedia of Machine Learning. Boston, MA: Springer, 2010. [1] EBERHART R C, SHI Y. Comparing inertia weights and constriction factors in particle swarm optimization[C]// Proceedings of the 2000 Congress on Evolutionary Computation. La Jolla, USA, 2000: 84−88. [2] 张庆科. 粒子群优化算法及差分进行算法研究 [D]. 济 南: 山东大学, 2017. ZHANG Qingke. Research on the particle swarm optimization and differential evolution algorithms[D]. Ji'nan: Shandong University, 2017. [3] 王永贵, 林琳, 刘宪国. 基于改进粒子群优化的文本聚类 算法研究 [J]. 计算机工程, 2014, 40(11): 172–177. WANG Yonggui, LIN Lin, LIU Xianguo. Research on text clustering algorithm based on improved particle swarm optimization[J]. Computer engineering, 2014, 40(11): 172–177. [4] 徐林. 粒子群优化算法的改进及其应用研究 [J]. 西安文 理学院学报 (自然科学版), 2017, 20(4): 51–54. XU Lin. Research on improvement and application of the particle swarm optimization algorithm[J]. Journal of Xi’an University (natural science edition), 2017, 20(4): 51–54. [5] KRISHNA M, RAVI V. Particle swarm optimization and covariance matrix based data imputation[C]//Proceedings of 2013 IEEE International Conference on Computational Intelligence and Computing Research. Enathi, India, 2013: [6] 1–6. KASABOV N K, SONG Qun. DENFIS: dynamic evolving neural-fuzzy inference system and its application for timeseries prediction[J]. IEEE transactions on fuzzy systems, 2002, 10(2): 144–154. [7] KASABOV N, SONG Qun, MA Tianmin. Fuzzy-neuro systems for local and personalized modelling[M]// NIKRAVESH M, KACPRZYK J, ZADEH L A. Forging New Frontiers: Fuzzy Pioneers II. Berlin, Heidelberg: Springer, 2008: 175−197. [8] NISHANTH K J, RAVI V. A computational intelligence based online data imputation method: an application for banking[J]. Journal of information processing systems, 2013, 9(9): 633–650. [9] GAUTAM C, RAVI V. Evolving clustering based data imputation[C]//Proceedings of 2014 International Conference on Circuits, Power and Computing Technologies. Nagercoil, Tamil Nadu, India, 2014: 1763–1769. [10] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//Proceedings of 2004 IEEE International Joint Conference on Neural Networks. Budapest, Hungary, 2004: 985–990. [11] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. [12] 任阳晖. 极限学习机算法及应用研究 [D]. 沈阳: 沈阳航 空航天大学, 2017. REN Yanghui. Extreme learning machine alorithm and application[D]. Shenyang: Shenyang Aerospace University, 2017. [13] GAUTAM C, RAVI V. Data imputation via evolutionary computation, clustering and a neural network[J]. Neurocomputing, 2015, 156: 134–142. [14] RAVI V, KRISHNA M. A new online data imputation method based on general regression auto associative neural network[J]. Neurocomputing, 2014, 138: 106–113. [15] 申小征. 基于维数约简的区域协方差矩阵及其在人脸识 别中的应用 [D]. 云南: 云南财经大学, 2017. [16] ANKAIAH N, RAVI V. A novel soft computing hybrid for data imputation[C]//Proceedings of the 7th International Conference on Data Mining. Las Vegas, Nevada, USA, 2011. [17] 作者简介: 于本成,男,1981 年生,副教授, 博士,主要研究方向为人工智能与数 据挖掘。参与国家、省级科研课题 2 项,授权专利、软件著作权 22 项。 发表学术论文 20 余篇。 丁世飞,男,1963 年生,教授,博 士生导师,CCF 理事,CAAI 理事,主 要研究方向为人工智能与模式识别。 主持国家、省级课题 8 项,取得发明专 利 10 项。发表学术论文 200 余篇,出 版专著 4 部。 ·952· 智 能 系 统 学 报 第 14 卷