【人工智能基础】缺失数据的混合式重建方法

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.02MB

第14卷第5期智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sept.2019 D0:10.11992/tis.201807037 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20181224.1044.003html 缺失数据的混合式重建方法于本成，丁世飞 (1.中国矿业大学计算机科学与技术学院，江苏徐州221116；2.徐州工业职业技术学院信息与电气工程学院，江苏徐州221004) 摘要：缺失数据的问题在各领域中是不可避免的，而传统的数据挖掘算法在处理不完整的数据集时表现不佳。本文将协方差矩阵及协方差矩阵的行列式应用于粒子群优化算法的适应度函数中，并以迭代的方式得出最佳阈值，再使用最佳阈值进行基于进化聚类算法的缺失值重建，解决了阈值的选取困难及其对数据重建结果的影响问题。然后，在自联想极限学习机中调用具有最佳阈值的进化聚类算法，解决了自联想极限学习机输入权值选择的随机性。最后，选取6个UCI标准数据集及9个激活函数来进行验证。实验结果表明，相对于现有的大多数数据重建方法，所提的混合式重建方法可以更有效地完成缺失数据的重建。关键词：数据挖掘；协方差矩阵：适应度函数；粒子群优化；最佳阈值；进化聚类算法；数据重建；自联想的极限学习机中图分类号：TP301.6文献标志码：A文章编号：1673-4785(2019)05-0947-06 中文引用格式：于本成，丁世飞.缺失数据的混合式重建方法.智能系统学报，2019,14(5)：947-952. 英文引用格式：YU Bencheng,DING Shifei..Hybrid reconstruction method for missing dataJ.CAAI transactions on intelligent systems,,2019,145:947-952. Hybrid reconstruction method for missing data YU Bencheng,DING Shifei' (1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;2.School of Information and Electrical Engineering,Xuzhou College of Industrial Technology,Xuzhou 221004,China) Abstract:The problem of missing data is inevitable in different areas.However,traditional data mining algorithms do not process incomplete data sets well.The covariance matrix and its determinant were applied to the fitness function of particle swarm optimization,and the optimal threshold was obtained through iteration.Then,the missing data were re- constructed based on the evolving clustering method using the optimal threshold,which solved the difficulty in optimal threshold selection and determined its influence on data reconstruction results.Furthermore,the randomness of the auto- associative extreme learning machine was removed by invoking the evolving clustering method with the optimal threshold.Finally,six UCI standard data sets and nine activation functions were selected to verify the method.The res- ults showed that compared with most existing reconstruction methods,the proposed hybrid reconstruction method can complete the reconstruction of the missing data more effectively. Keywords:data mining;covariance matrix;fitness function;particle swarm optimization;optimal threshold,evolving clustering method;data reconstruction;auto-associative extreme learning machine 鉴于缺失数据重建的重要性，研究人员已经群优化(particle swarm optimization,PSO)在就缺失数据重建问题提出了多种解决方法。粒子I995年由Kennedy和Eberhart提出-。PSO通过群体内个体之间的信息共享来对问题的解进行协收稿日期：2018-07-31.网络出版日期：2018-12-25. 基金项目：国家自然科学基金项目(61379101). 同搜索)，即初始化一群随机粒子，并通过迭代找通信作者：丁世飞.E-mail:dingsf@cumt.edu.cn, 到最优解。在每一次迭代中，粒子通过跟踪局部

DOI: 10.11992/tis.201807037 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181224.1044.003.html 缺失数据的混合式重建方法于本成1,2，丁世飞1 （1. 中国矿业大学计算机科学与技术学院，江苏徐州 221116; 2. 徐州工业职业技术学院信息与电气工程学院，江苏徐州 221004）摘要：缺失数据的问题在各领域中是不可避免的，而传统的数据挖掘算法在处理不完整的数据集时表现不佳。本文将协方差矩阵及协方差矩阵的行列式应用于粒子群优化算法的适应度函数中，并以迭代的方式得出最佳阈值，再使用最佳阈值进行基于进化聚类算法的缺失值重建，解决了阈值的选取困难及其对数据重建结果的影响问题。然后，在自联想极限学习机中调用具有最佳阈值的进化聚类算法，解决了自联想极限学习机输入权值选择的随机性。最后，选取 6 个 UCI 标准数据集及 9 个激活函数来进行验证。实验结果表明，相对于现有的大多数数据重建方法，所提的混合式重建方法可以更有效地完成缺失数据的重建。关键词：数据挖掘；协方差矩阵；适应度函数；粒子群优化；最佳阈值；进化聚类算法；数据重建；自联想的极限学习机中图分类号：TP301.6 文献标志码：A 文章编号：1673−4785(2019)05−0947−06 中文引用格式：于本成, 丁世飞. 缺失数据的混合式重建方法 [J]. 智能系统学报, 2019, 14(5): 947–952. 英文引用格式：YU Bencheng, DING Shifei. Hybrid reconstruction method for missing data[J]. CAAI transactions on intelligent systems, 2019, 14(5): 947–952. Hybrid reconstruction method for missing data YU Bencheng1,2 ，DING Shifei1 (1. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China; 2. School of Information and Electrical Engineering, Xuzhou College of Industrial Technology, Xuzhou 221004, China) Abstract: The problem of missing data is inevitable in different areas. However, traditional data mining algorithms do not process incomplete data sets well. The covariance matrix and its determinant were applied to the fitness function of particle swarm optimization, and the optimal threshold was obtained through iteration. Then, the missing data were reconstructed based on the evolving clustering method using the optimal threshold, which solved the difficulty in optimal threshold selection and determined its influence on data reconstruction results. Furthermore, the randomness of the autoassociative extreme learning machine was removed by invoking the evolving clustering method with the optimal threshold. Finally, six UCI standard data sets and nine activation functions were selected to verify the method. The results showed that compared with most existing reconstruction methods, the proposed hybrid reconstruction method can complete the reconstruction of the missing data more effectively. Keywords: data mining; covariance matrix; fitness function; particle swarm optimization; optimal threshold; evolving clustering method; data reconstruction; auto-associative extreme learning machine 鉴于缺失数据重建的重要性，研究人员已经就缺失数据重建问题提出了多种解决方法。粒子群优化 (particle swarm optimization，PSO) 在 1995 年由 Kennedy 和 Eberhart 提出[1-2]。PSO 通过群体内个体之间的信息共享来对问题的解进行协同搜索[3] ，即初始化一群随机粒子，并通过迭代找到最优解。在每一次迭代中，粒子通过跟踪局部收稿日期：2018−07−31. 网络出版日期：2018−12−25. 基金项目：国家自然科学基金项目 (61379101). 通信作者：丁世飞. E-mail：dingsf@cumt.edu.cn. 第 14 卷第 5 期智能系统学报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sept. 2019

·948· 智能系统学报第14卷最优值和全局最优值来更新自己的速度与位置我们称之为改进型的AAELM(MAAELM), 文献[5]通过调整惯性权重的取值，提出了自适应混沌粒子群优化算法，该算法避免了粒子早熟 1基础理论收敛情况。文献[6]中Krishna和Ravi提出了一 1.1PS0算法种基于粒子群优化和矩阵协方差结构的数据重建在D维搜索空间中，由n个粒子组成的群体方法，他们使用PSO重建缺失值。中粒子ii=1,2,…,n)的位置表示为D维位置矢进化聚类算法(evolving clustering method, 量乙=（亿，2，…，a,…,乙o),每次迭代中粒子i移动 ECM)是一步到位的快速聚类算法，在ECM中，的距离为速度矢量或飞行速度=(，V2,…,Va,…, 由用户定义的阈值参数τ会影响群集合数量的估 v),粒子迄今为止搜索到的最优位置计，π值太大或太小都不利于找出群集合数量。 Ravi等9-1o提出了4种用于重建的混合方法。在 p=(p,P2,…,Pa,…,PD),整个粒子群迄今为止搜索到的最优位置为Pg=(Pg1,P2,…,Pd,…,PD) 线重建中使用了具有广义回归神经网络的每次迭代中任一粒子根据式(1)、式(2)来更新自 ECM(ECM+GRNN),在离线重建中使用了K- 己的速度和位置： means+-GRNN和K-medoids+GRNN以及具有多层 v结=w哈a+a（Pa-+a2(Pd-) (1) 感知机的K-medoidst(K-medoids+MLP)。他们虽然城=点+州 (2) 提出了基于ECM的数据重建，但t值选择涉及了式中：i=1,2,…,n;w是惯性权重；k是迭代次数；试错法，结果都不同程度地受到τ值的影响。 a、a2是加速系数；1、2是[0,1]范围内的随机极限学习机(extreme learning machine,ELM) 是由Huang等1提出的，它是一种新颖的前馈数。PSO算法的描述如下： 1)随机初始化群体，设定粒子的位置和速度；神经网络，不需要权重更新。目前ELM的理论与 2)根据适应度函数计算粒子的适应度值，选算法研究主要集中在随机生成参数的优化、最优取具有最优适应度值的粒子位置作为Pg,每个粒外权的求解、最优隐藏层节点个数的选取、ELM 核函数、在线极限学习机算法等方面。文献[14] 子当前位置为P: 3)根据式(1)、式(2)更新粒子的速度和位置：发现自联想的极限学习机(auto associative ex- 4)把每个粒子的适应度值与P:的适应度值 treme learning machine,.AAELM)在同一个数据集进行比较，若优于P,的值，则将其值设为P: 合中的不同运行产生了不同的结果。有时，连接输入层和隐藏层的随机加权会使结果出现很大的 5)把每个粒子的适应度值与Pg的适应度值进行比较，若优于P的值，则将其值设置为P; 波动。在文献[I5]中Ravi和Krishna为重建提出了多种在线和离线方法，即粒子群优化训练后的 6)检查是否满足终止条件，如果满足则终止自动关联神经网络PSOAANN)、粒子群优化训练迭代，否则返回2)。后的自动关联子波神经网络(PSOAAWNN)、径向 1.2ECM算法基函数自动关联神经网络(RBFAANN)、广义回归创建新群集C时，定义群集中心C,并将群自动关联神经网络(GRAANN),这些算法仍有待集半径R初始为零。随着样本的相继出现，已经于进一步改进。创建的群集可以通过改变群集中心C'位置和增鉴于以上研究中存在的PSO重建缺失值效加群集半径R来更新。当群集半径R达到阈值t 率低、t值的选取会影响基于ECM的数据重建、值时，将不再更新群集。ECM算法过程如下： AAELM结构中连接输人层和隐藏层的随机加权 1)创建第一个群集C,并将输人数据中的第导致重建结果波动较大以及文献[15]中所提的神一个样本作为群集中心C',设置群集半径R1=0。经网络的重建效率低等问题，本文根据协方差矩 2)如果输人数据流的所有样本都已处理完阵具有旋转不变性的特征，在PS0适应度函数毕，则算法结束。否则，取当前样本，计算：与中用到了协方差矩阵及协方差矩阵的行列式，选已经创建的所有n个集群中心C:之间的距离，取了最佳x值，使用具有最佳t值的ECM进行缺 D=x-Cl,其中j=1,2.…,no 失数据重建，我们称之为PSOECM方法，PSOECM 3)如果存在群集中心C,其中j=1,2,…,n, 方法解决了T值的选取困难及其对基于ECM重使得D=:-C≤R,则假定当前样本x属于最建结果的影响问题。随后，在AAELM中调用具近群集Cm,Dm=x-Cm‖=min(x-CD。在这种有最佳T值的ECM,去除了AAELM的随机性，情况下，既不创建新群集，也不更新现有群集，并

最优值和全局最优值来更新自己的速度与位置[4]。文献 [5] 通过调整惯性权重的取值，提出了自适应混沌粒子群优化算法，该算法避免了粒子早熟收敛情况。文献 [6] 中 Krishna 和 Ravi 提出了一种基于粒子群优化和矩阵协方差结构的数据重建方法，他们使用 PSO 重建缺失值。 τ τ τ τ 进化聚类算法 (evolving clustering method， ECM) 是一步到位的快速聚类算法，在 ECM 中，由用户定义的阈值参数会影响群集合数量的估计，值太大或太小都不利于找出群集合数量[7-8]。 Ravi 等 [9-10] 提出了 4 种用于重建的混合方法。在线重建中使用了具有广义回归神经网络的 ECM(ECM+GRNN)，在离线重建中使用了 Kmeans+GRNN 和 K-medoids+GRNN 以及具有多层感知机的 K-medoids(K-medoids+MLP)。他们虽然提出了基于 ECM 的数据重建，但值选择涉及了试错法，结果都不同程度地受到值的影响。极限学习机 (extreme learning machine，ELM) 是由 Huang 等 [11-12] 提出的，它是一种新颖的前馈神经网络，不需要权重更新。目前 ELM 的理论与算法研究主要集中在随机生成参数的优化、最优外权的求解、最优隐藏层节点个数的选取、ELM 核函数、在线极限学习机算法等方面[13]。文献 [14] 发现自联想的极限学习机 (auto associative extreme learning machine，AAELM) 在同一个数据集合中的不同运行产生了不同的结果。有时，连接输入层和隐藏层的随机加权会使结果出现很大的波动。在文献 [15] 中 Ravi 和 Krishna 为重建提出了多种在线和离线方法，即粒子群优化训练后的自动关联神经网络 (PSOAANN)、粒子群优化训练后的自动关联子波神经网络 (PSOAAWNN)、径向基函数自动关联神经网络 (RBFAANN)、广义回归自动关联神经网络 (GRAANN)，这些算法仍有待于进一步改进。 τ τ τ τ τ 鉴于以上研究中存在的 PSO 重建缺失值效率低、值的选取会影响基于 ECM 的数据重建、 AAELM 结构中连接输入层和隐藏层的随机加权导致重建结果波动较大以及文献 [15] 中所提的神经网络的重建效率低等问题，本文根据协方差矩阵具有旋转不变性的特征[16] ，在 PSO 适应度函数中用到了协方差矩阵及协方差矩阵的行列式，选取了最佳值，使用具有最佳值的 ECM 进行缺失数据重建，我们称之为 PSOECM 方法，PSOECM 方法解决了值的选取困难及其对基于 ECM 重建结果的影响问题。随后，在 AAELM中调用具有最佳值的 ECM，去除了 AAELM 的随机性，我们称之为改进型的 AAELM(MAAELM)。 1 基础理论 1.1 PSO 算法 n i i = 1,2,··· ,n zi = (zi1,zi2,··· ,zid,··· ,ziD) i vi = (vi1, vi2,··· , vid,··· , viD) pi = (pi1, pi2,··· , pid,··· , piD) pg = ( pg1, pg2,··· , pgd,··· , pgD) 在 D 维搜索空间中，由个粒子组成的群体中粒子 ( ) 的位置表示为 D 维位置矢量 ,每次迭代中粒子移动的距离为速度矢量或飞行速度，粒子迄今为止搜索到的最优位置，整个粒子群迄今为止搜索到的最优位置为，每次迭代中任一粒子根据式 (1)、式 (2) 来更新自己的速度和位置： v k+1 id = ωv k id +a1r1 ( pid −z k id) +a2r2 ( pgd −z k id) (1) z k+1 id = z k id +v k+1 id (2) i = 1,2,··· ,n ω k a1 a2 r1 r2 式中：；是惯性权重；是迭代次数；、是加速系数；、是 [0,1] 范围内的随机数。PSO 算法的描述如下： 1) 随机初始化群体，设定粒子的位置和速度； pg pi 2) 根据适应度函数计算粒子的适应度值，选取具有最优适应度值的粒子位置作为，每个粒子当前位置为； 3) 根据式 (1)、式 (2) 更新粒子的速度和位置； pi pi pi 4) 把每个粒子的适应度值与的适应度值进行比较，若优于的值，则将其值设为； pg pg pg 5) 把每个粒子的适应度值与的适应度值进行比较，若优于的值，则将其值设置为； 6) 检查是否满足终止条件，如果满足则终止迭代，否则返回 2)。 1.2 ECM 算法 C C ′ R C ′ R R τ 创建新群集时，定义群集中心，并将群集半径初始为零。随着样本的相继出现，已经创建的群集可以通过改变群集中心位置和增加群集半径来更新。当群集半径达到阈值值时，将不再更新群集。ECM 算法过程如下： C1 C ′ 1 R1 = 0 1) 创建第一个群集，并将输入数据中的第一个样本作为群集中心，设置群集半径。 xi xi n C ′ j Di j = xi −C ′ j j = 1,2,··· ,n 2) 如果输入数据流的所有样本都已处理完毕，则算法结束。否则，取当前样本，计算与已经创建的所有个集群中心之间的距离，，其中。 C ′ j j = 1,2,··· ,n Di j = xi −C ′ j ⩽ R xi Cm Dim = xi −C ′ m = min( xi −C ′ j ) 3) 如果存在群集中心，其中，使得，则假定当前样本属于最近群集，。在这种情况下，既不创建新群集，也不更新现有群集，并 ·948· 智能系统学报第 14 卷

第5期于本成，等：缺失数据的混合式重建方法 ·949· 返回到2)，否则进入4)。 H(a1,…,aL,b1,…,b,x1,…,xn)= 4)从已经创建的所有n个集群的中心中，通 G(a1,b1,x1) ..G(aL,bL,x1) (8) 过计算S=D+R,j=1,2,…,n,找出一个群集 Ca。再通过计算算出最小的Sa值，Sa=Da+Ra= G(a1,b1,xN) … G(aL,bL.xN) min{Sl,j=1,2,…,n,来找出Ca的群集中心Ca。阳 5)如果Sa>2x,则样本：不属于任何现有群 B B= (9) 集，那么以与1)的相同方式创建新集群，执行2)。阳 Lxm 6)如果S。≤2r,则通过移动群集中心C:和在已知权值和偏置的情况下，上面问题的求增加群集半径R.来更新群集Ca,返回2)。解就转化为求解线性系统Hβ=T的最小范数最 ECM算法不保持已传递样本的任何信息，但小二乘解： B=H'T (10) 任一群集C:的群集中心C:到该群集的最远样本之间距离都小于阈值t,即max(R)<T。式中：H是H的Moore-penrose广义逆矩阵；B的在ECM算法中，向量x和y之间的距离计算范数是最小且唯一的。使用归一化欧几里德距离，即 2提出的混合式重建方法 Igi,x.yER (3) i=l 2.1 PSOECM方法在5)、6)中？值的大小影响到群集合数量，全部数据记录X,可以分为两个部分：用于训所以t值的选取影响到了基于ECM的数据重建练模型的完整记录集X。和用于检验模型的不完结果。整记录集Xc。 1.3ELM算法 PSOECM方法步骤：输入层的节点个数为n,隐藏层节点个数为 1)计算出X的协方差矩阵。 L,输出层节点个数为m,a代表第i个输入层节 2)在具有PSO随机初始化τ值的X.上应用点与第j个隐藏层节点间的权值，b,代表隐藏层 ECM 中第j个节点的偏置。B:是需要计算的值，代表 3)对X执行基于ECM的重建：通过测量除第方个隐藏层节点与第k个输出层节点间的权去缺失值的不完整记录与除去相同位置上值的群值。训练集实例个数为N的输入矩阵X以及输集中心C'之间的欧几里德距离确定最近群集中出矩阵T分别为心，由最近群集中心的对应属性值重建不完整记 X11X12 XIN 录的属性值(x)。欧几里德距离的测定公式为 X22 X2N (11) X= (4) D,=∑k-C Xn2 XaN 式中：j为群集中心的数量；n为每条记录中完整 tu 成分的数量。 t21 t taN T= (5) 4)数据重建后计算X,的协方差矩阵。如果 X,为m×m)秩序的矩阵，则它的协方差矩阵Tcov 就是一个n×n矩阵。如果MSE(Xcow,Tcow)<E且第i个实例在第j个隐藏层神经元上的输出 (Det(Xcow)-Det(Tcov))<E,则退出计算。否则，调为G(a,b,x),整个的输出层值为用PSO选出改善后的τ值。其中ε为预先设定的 BG(anbrx)=t i1.2...N (6) 小正值，MSE(Xcov,Tcow)为Xcov和Tcov元素之间的均方差，Det(Xcow)是Xcov的行列式，Det(Tcov) 式(6)也可以表示为是Tcov的行列式。 HB=T (7) 5)重复1)~4)直至收敛。式中H表示隐藏层的矩阵。H矩阵第i行代表输计算平均绝对百分比误差(mean absolute per- 人层中第ⅰ个实例在隐藏层所有神经元上的输 centage error,MAPE)值：出，H矩阵的第j列代表所有训练样本在第j个隐 MAPE=1 ×100% (12) 藏层神经元上的输出，即 n

返回到 2)，否则进入 4)。 n S i j = Di j +Rj , j = 1,2,··· ,n Ca S ia S ia = Dia +Ra = min{ S i j} j = 1,2,··· ,n Ca C ′ a 4) 从已经创建的所有个集群的中心中，通过计算，找出一个群集。再通过计算算出最小的值，，，来找出的群集中心。 5) 如果 S ia > 2τ，则样本 xi 不属于任何现有群集，那么以与 1 ) 的相同方式创建新集群，执行 2)。 S ia ⩽ 2τ C ′ a Ra Ca 6) 如果，则通过移动群集中心和增加群集半径来更新群集，返回 2)。 Ci C ′ i τ max(Ri) < τ ECM 算法不保持已传递样本的任何信息，但任一群集的群集中心到该群集的最远样本之间距离都小于阈值，即。在 ECM 算法中，向量 x 和 y 之间的距离计算使用归一化欧几里德距离，即 ∥x− y∥ =   ∑q i=1 |xi − yi | 2   1/2 /q 1/2 , x, y ∈ R q (3) τ τ 在 5)、6) 中值的大小影响到群集合数量，所以值的选取影响到了基于 ECM 的数据重建结果。 1.3 ELM 算法 n L m ai j i j bj j βjk j k N X T 输入层的节点个数为，隐藏层节点个数为，输出层节点个数为，代表第个输入层节点与第个隐藏层节点间的权值，代表隐藏层中第个节点的偏置。是需要计算的值, 代表第个隐藏层节点与第个输出层节点间的权值。训练集实例个数为的输入矩阵以及输出矩阵分别为 X =   x11 x12 ··· x1N x21 x22 ··· x2N . . . . . . . . . xn1 xn2 ··· xnN   (4) T =   t11 t12 ··· t1N t21 t22 ··· t2N . . . . . . . . . tn1 tn2 ··· tnN   (5) i j G ( aj ,bj , xi ) 第个实例在第个隐藏层神经元上的输出为，整个的输出层值为 ∑L j=1 βjG ( aj ,bj , xi ) = ti , i = 1,2,··· ,N (6) 式 (6) 也可以表示为 Hβ = T (7) 式中 H 表示隐藏层的矩阵。H 矩阵第 i 行代表输入层中第 i 个实例在隐藏层所有神经元上的输出，H 矩阵的第 j 列代表所有训练样本在第 j 个隐藏层神经元上的输出，即 H(a1,··· ,aL,b1,··· ,bl , x1,··· , xn) =   G(a1,b1, x1) ... G(aL,bL, x1) . . . . . . G(a1,b1, xN) ... G(aL,bL, xN)   N×L (8) β =   β T 1 β T 2 . . . β T L   L×m T =   t T 1 t T 2 . . . t T N   N×m (9) Hβ = T 在已知权值和偏置的情况下，上面问题的求解就转化为求解线性系统的最小范数最小二乘解： βˆ = H †T (10) 式中： H† 是 H 的 Moore-penros βˆ e 广义逆矩阵；的范数是最小且唯一的。 2 提出的混合式重建方法 2.1 PSOECM 方法 Xt Xc Xic 全部数据记录可以分为两个部分：用于训练模型的完整记录集和用于检验模型的不完整记录集。 PSOECM 方法步骤： 1) 计算出 Xc 的协方差矩阵。 2) 在具有 PSO 随机初始化 τ 值的 Xc 上应用 ECM。 Xic C ′ xk 3) 对执行基于 ECM 的重建：通过测量除去缺失值的不完整记录与除去相同位置上值的群集中心之间的欧几里德距离确定最近群集中心，由最近群集中心的对应属性值重建不完整记录的属性值 ( )。欧几里德距离的测定公式为 Dj = ∑n i=1;i,k xi −C ′ j 2 (11) 式中： j 为群集中心的数量；n 为每条记录中完整成分的数量。 Xt Xt (m×n) TCOV n×n MSE(XCOV,TCOV) < ε (|Det(XCOV)−Det(TCOV)|) < ε τ ε MSE(XCOV,TCOV) XCOV TCOV Det(XCOV) XCOV Det(TCOV) TCOV 4) 数据重建后计算的协方差矩阵。如果为秩序的矩阵，则它的协方差矩阵就是一个矩阵。如果且，则退出计算。否则，调用 PSO 选出改善后的值。其中为预先设定的小正值，为和元素之间的均方差，是的行列式，是的行列式。 5) 重复 1)～4) 直至收敛。计算平均绝对百分比误差 (mean absolute percentage error，MAPE) 值： MAPE = 1 n ∑n i=1 xi − xˆi xi ×100% (12) 第 5 期于本成，等：缺失数据的混合式重建方法 ·949·

·950· 智能系统学报第14卷式中：x为实际值；为预测值；n为缺失值的全 6)计算得到各个群集中心之间的归一化欧几部样本数量。里德距离。 PSOECM方法采用与文献[6]相同的适应度为了估算出隐藏层和输出层之间的权重，在函数MSE(Xcov,Tcov)和(Det(Xcow)-Det(Tcov)D, 6)得到的距离中应用激活函数并进行非线性转但文献[6)使用PSO重建缺失值，而PSOECM方换，再应用Moore--Penrose广义逆矩阵得出H。法使用P$O以迭代的方式完成了上述两个适应最后，根据文献[12]使用Moore-Penrose广义度函数的最小化工作，只有两个适应度函数在两逆矩阵求解Hβ=T估算出隐藏层和输出层之间个连续迭代中都小于预先设定ε值才停止运算，的权重，其中B为权向量，T为目标向量。利用并计算出最佳x值，再在ECM中使用PSO选择式(12)计算平均绝对百分误差(MAPE)值。最佳τ值进行缺失数据重建。这样不仅可以得出最佳的数据重建，还可以保存数据的协方差结构。 3选取实验数据集与激活函数 2.2 MAAELM方法实验选取UCI机器学习数据库中的6个标准 MAAELM方法采用PSOECM与AAELM混数据集来进行验证，实验数据集如表1所示。同合重建缺失数据。MAAELM结构如图1所示。时，在选取的实验数据集上使用9个激活函数来输人隐藏输出研究它们对文章所提方法的影响。实验选取激活 (4 C 函数如表2所示。所选数据集中除Auto-mpg中的马力属性值存在缺失，其他5个数据集均不存 PSOECM PSOECM (C2 在属性缺失值，所以通过随机删除原始数据集的些值来进行实验，并创建了除目标变量以外的所有变量中的缺失值。每一个数据集被分成 10个相等的小集合，其中9个小集合经过聚类处理，剩下的1个留下为缺失值备用。第1步第2步为了在每一个小集合中创建缺失值，随机删图1 MAAELM结构除了近10%的值（单元），并确保从每个记录中删 Fig.1 Architecture of the MAAELM 除至少一个单元。因此，在10倍交叉验证中，有 MAAELM方法步骤：不同缺失记录的10个小集合。 1)将数据归一化至[0,1]范围内。对于完整记录集合中的各个小集合，将它们 2)将数据集合分为完整记录集合和不完整记从全部记录中分理并用于聚类。在完整记录集合录集合。中应用ECM算法，并通过最近群集中心属性的 3)在1)中执行基于PSOECM的重建，确定群对应值重建出不完整记录集合中的属性缺失值。集中心。使用PSO优化算法和文献[6]提及的两个适 4)在2)中使用1)中得出的最佳τ值在完整应度函数为PSOECM选出最佳τ值，并将相同的记录集合中应用ECM。这相当于使用1)中得到 x值提供给MAAELM。对于所有数据集合，对比的群集中心作为MAAELM结构中的隐藏节点。了本文所提方法与文献[6,9-10,15,17]所提多种 5)执行PSOECM方法的3)。混合方法的MAPE平均值。表1实验数据集 Table 1 Data sets for the experiment 数据集名称实例数属性数链接地址 Auto-mpg 398 9 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg Boston Housing 506 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/housing Forest Fires 517 12 HTTP://archive.ics.uci.eduml/machine-learning-databases/forest-fires Iris Plants 150 4 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/iris Spectf heart 267 45 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/spect Wine ecognition 178 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/wine

式中： xi 为实际值；xˆi 为预测值；n 为缺失值的全部样本数量。 MSE(XCOV,TCOV) (|Det(XCOV)−Det(TCOV)|) ε τ τ PSOECM 方法采用与文献 [6] 相同的适应度函数和，但文献 [6] 使用 PSO 重建缺失值，而 PSOECM 方法使用 PSO 以迭代的方式完成了上述两个适应度函数的最小化工作，只有两个适应度函数在两个连续迭代中都小于预先设定值才停止运算，并计算出最佳值，再在 ECM 中使用 PSO 选择最佳值进行缺失数据重建。这样不仅可以得出最佳的数据重建，还可以保存数据的协方差结构。 2.2 MAAELM 方法 MAAELM 方法采用 PSOECM 与 AAELM 混合重建缺失数据。MAAELM 结构如图 1 所示。 PSOECM PSOECM 输入第1步第2步隐藏输出 I1 C1 I′1 I′2 I′n C2 I2 In Cn ... ... ... 图 1 MAAELM 结构 Fig. 1 Architecture of the MAAELM MAAELM 方法步骤： 1) 将数据归一化至 [0,1] 范围内。 2) 将数据集合分为完整记录集合和不完整记录集合。 3) 在 1) 中执行基于 PSOECM 的重建，确定群集中心。 4) 在 2) 中使用 1) 中得出的最佳 τ 值在完整记录集合中应用 ECM。这相当于使用 1) 中得到的群集中心作为 MAAELM 结构中的隐藏节点。 5) 执行 PSOECM 方法的 3)。 6) 计算得到各个群集中心之间的归一化欧几里德距离。 H 为了估算出隐藏层和输出层之间的权重，在 6) 得到的距离中应用激活函数并进行非线性转换，再应用 Moore-Penrose 广义逆矩阵得出。 Hβ = T β T 最后，根据文献 [12] 使用 Moore-Penrose 广义逆矩阵求解估算出隐藏层和输出层之间的权重，其中为权向量，为目标向量。利用式 (12) 计算平均绝对百分误差 (MAPE) 值。 3 选取实验数据集与激活函数实验选取 UCI 机器学习数据库中的 6 个标准数据集来进行验证，实验数据集如表 1 所示。同时，在选取的实验数据集上使用 9 个激活函数来研究它们对文章所提方法的影响。实验选取激活函数如表 2 所示。所选数据集中除 Auto-mpg 中的马力属性值存在缺失，其他 5 个数据集均不存在属性缺失值，所以通过随机删除原始数据集的一些值来进行实验，并创建了除目标变量以外的所有变量中的缺失值。每一个数据集被分成 10 个相等的小集合，其中 9 个小集合经过聚类处理，剩下的 1 个留下为缺失值备用。为了在每一个小集合中创建缺失值，随机删除了近 10% 的值 (单元)，并确保从每个记录中删除至少一个单元。因此，在 10 倍交叉验证中，有不同缺失记录的 10 个小集合。对于完整记录集合中的各个小集合，将它们从全部记录中分理并用于聚类。在完整记录集合中应用 ECM 算法，并通过最近群集中心属性的对应值重建出不完整记录集合中的属性缺失值。 τ τ 使用 PSO 优化算法和文献 [6] 提及的两个适应度函数为 PSOECM 选出最佳值，并将相同的值提供给 MAAELM。对于所有数据集合，对比了本文所提方法与文献 [6, 9-10, 15, 17] 所提多种混合方法的 MAPE 平均值。表 1 实验数据集 Table 1 Data sets for the experiment 数据集名称实例数属性数链接地址 Auto-mpg 398 9 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg Boston Housing 506 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/housing Forest Fires 517 12 HTTP://archive.ics.uci.eduml/machine-learning-databases/forest-fires Iris Plants 150 4 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/iris Spectf heart 267 45 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/spect Wine ecognition 178 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/wine ·950· 智能系统学报第 14 卷

第5期于本成，等：缺失数据的混合式重建方法 ·951· 表2激活函数表 Table 2 Activation functions 函数名称函数公式函数名称函数公式 Sin Tribas(x)= 1-abs(x). -1≤x≤1 H=sin (x) Tribas 0,其他 Sinh Sinh(x)=e*-e Radial basis function x RBF()=exp2}c为宽度 1 Sigmoid Sigmoid(x)= 1+e- Softplus Softplus(x)=log(1+e*) 1-e Bipolar sigmoid Bsigmoid(x)= Gaussian Gaussian(x)=aexp -(x-b)2 1+e-t ，a、b、c是实数 1,x≥0 Hardlim Hardlim(x)= 0, 其他 4 实验结果和分析表现最差，而其他激活函数对于MAAELM的 MAPE值影响基本相同。Hardlim激活函数表现不同激活函数作用于MAAELM所得的最差是因为它将一个输入空间只分割为0和1两 MAPE值以及PSOECM、MAAELM与其他算法比个类别。较的结果如图2和图3所示。图3中将本文所提算法与Krishna M和Ravi V胸 70 的PSO_COV算法，Nishanth和Ravi的K-means+ 60 GRNN、K-medoids+MLP、K-medoids-+GRNN、 50 ECM+GRNN等算法，Gautam和Ravio的ECM Imputation算法，Ravi和Krishnal1的PSOAANN PSOAAWNN、RBFAANN、GRAANN等算法， 20 Ankaiah和Ravil的K-Means+-MLP算法的结果 10 进行对比，对比结果显示了最佳τ值在所提方法中可以更有效地进行基于ECM的重建，以及在 res Auto housing Forest Spectf 大部分数据集合上局部学习和整体学习混合使用 Bosto 优于文献[6,9-10,15,17刀所提方法。在Auto-mpg数据集合方面，只有K-medoids+ 图2不同激活函数对MAAELM的影响 GRNN、ECM+GRNN和GRAANN这3种混合法 Fig.2 Influence of different activation functions on the 的结果与PSOECM方法接近，分别落后1.31%、 MAAELM 1.65%和0.19%。PSOECM通过选择最佳t值， 100 Mean 在Auto-mpg数据集合中的表现优于ECM重建。 IS+GRN 80 medoi s+GRNN Imputation 将PSOECM得出的相同t值带入MAAELM时， SO COM 误差又降低了0.96%。 60 在Boston Housing数据集合方面，除了 GRAANN方法与PSOECM方法相差0.88%之外，其他方法的MAPE值至少比PSOECM高3%。 PSOECM通过选择最佳T值，在Boston Housing Bostom housing uto- Spectf 数据集合中的表现同样优于ECM重建。在 Fores MAAELM中应用PSOECM得出的最佳T值之后，MAPE值便可以进一步降低0.32%。图3不同算法的MAPE值在Forest fires数据集合方面，可以观察到与 Fig.3 MAPE value of different algorithms Boston Housing数据集合相似的性能。除了GRAANN 根据图2所展示的不同激活函数作用于落后PSOECM的结果0.13%之外，其他方法的 MAAELM所得的MAPE值可以发现：Sigmoid MAPE值比PSOECM至少高4%。PSOECM通过在所有激活函数中的表现最佳，Hardlim激活函数选择最佳r值，MAPE同样有所下降。在MAAELM

表 2 激活函数表 Table 2 Activation functions 函数名称函数公式函数名称函数公式 Sin H = sin(x) Tribas Tribas(x) = { 1−abs(x), −1 ⩽ x ⩽ 1 0, 其他 Sinh Sinh(x) = e x −e −x 2 Radial basis function RBF(x) = exp( − x 2 2σ2 ) ，σ 为宽度 Sigmoid Sigmoid(x) = 1 1+e −x Softplus Softplus(x) = log(1+e x ) Bipolar sigmoid Bsigmoid(x) = 1−e −x 1+e −x Gaussian Gaussian(x) = aexp −(x−b) 2 c 2 ，a、b、c是实数 Hardlim Hardlim(x) = { 1, 0, x ⩾ 0 其他 4 实验结果和分析不同激活函数作用于 MAAELM 所得的 MAPE 值以及 PSOECM、MAAELM 与其他算法比较的结果如图 2 和图 3 所示。 70 60 50 40 30 20 10 0 MAPE Auto-mpg Bostom housing Forest fires lris Spectf Wine Sin Sinh Sigmoid Bsigmoid Hardlim Tribas RBF Softplus Gaussian 图 2 不同激活函数对 MAAELM 的影响 Fig. 2 Influence of different activation functions on the MAAELM 100 80 60 40 20 0 Auto-mpg Bostom housing Forest fires lris Spectf Wine Mean K-Means+MLP K-medoids+MLP K-medoids+GRNN K-means+GRNN ECM+GRNN PSO_COV PSOAANN PSOAAWMM RBFAANN GRAANN ECM lmputation PSOECM MAAELM MAPE 图 3 不同算法的 MAPE 值 Fig. 3 MAPE value of different algorithms 根据图 2 所展示的不同激活函数作用于 MAAELM 所得的 MAPE 值可以发现：Sigmoid 在所有激活函数中的表现最佳，Hardlim 激活函数表现最差，而其他激活函数对于 MAAELM 的 MAPE 值影响基本相同。Hardlim 激活函数表现最差是因为它将一个输入空间只分割为 0 和 1 两个类别。 τ 图 3 中将本文所提算法与 Krishna M 和 Ravi V[6] 的 PSO_COV 算法，Nishanth 和 Ravi[9] 的 K-means+ GRNN、K-medoids+MLP、K-medoids+GRNN、 ECM+GRNN 等算法，Gautam 和 Ravi[10] 的 ECM Imputation 算法，Ravi 和 Krishna[15] 的 PSOAANN、 PSOAAWNN、RBFAANN、GRAANN 等算法， Ankaiah 和 Ravi[17] 的 K-Means+MLP 算法的结果进行对比，对比结果显示了最佳值在所提方法中可以更有效地进行基于 ECM 的重建，以及在大部分数据集合上局部学习和整体学习混合使用优于文献 [6, 9-10, 15, 17] 所提方法。 τ τ 在 Auto-mpg 数据集合方面，只有 K-medoids+ GRNN、ECM+GRNN 和 GRAANN 这 3 种混合法的结果与 PSOECM 方法接近，分别落后 1.31%、 1.65% 和 0.19%。PSOECM 通过选择最佳值，在 Auto-mpg 数据集合中的表现优于 ECM 重建。将 PSOECM 得出的相同值带入 MAAELM 时，误差又降低了 0.96%。 τ τ 在 Boston Housin g 数据集合方面，除了 GRAANN 方法与 PSOECM 方法相差 0.88% 之外，其他方法的 MAPE 值至少比 PSOECM 高 3%。 PSOECM 通过选择最佳值，在 Boston Housing 数据集合中的表现同样优于 E CM 重建。在 MAAELM 中应用 PSOECM 得出的最佳值之后，MAPE 值便可以进一步降低 0.32%。 τ 在 Forest fires 数据集合方面，可以观察到与 Boston Housing 数据集合相似的性能。除了 GRAANN 落后 PSOECM 的结果 0.13% 之外，其他方法的 MAPE 值比 PSOECM 至少高 4%。PSOECM 通过选择最佳值，MAPE 同样有所下降。在 MAAELM 第 5 期于本成，等：缺失数据的混合式重建方法 ·951·

·952· 智能系统学报第14卷中应用PSOECM得出最佳τ值之后，误差又降低 1-6 了0.68%。 [7]KASABOV N K,SONG Qun.DENFIS:dynamic evolving neural-fuzzy inference system and its application for time- 除了在Spectf数据集合中，PSOECM略逊于 series prediction[J].IEEE transactions on fuzzy systems, GRAANN之外，在Iris、Spectf和Wine recognition 2002,10(2):144154. 数据集合中，PSOECM与MAAELM同样表现出 [8]KASABOV N,SONG Qun,MA Tianmin.Fuzzy-neuro 了类似在Auto-mpg、Boston Housing、Forest fires systems for local and personalized modelling[M]// NIKRAVESH M,KACPRZYK J,ZADEH L A.Forging 数据集合中的优势。 New Frontiers:Fuzzy Pioneers II.Berlin,Heidelberg: 经上述实验结果的分析得出：1)PSOECM通 Springer,.2008:175-197. [9]NISHANTH K J.RAVI V.A computational intelligence 过选择最佳τ值，在各个数据集合中的表现优于 based online data imputation method:an application for ECM重建；2)将PSOECM得出的相同T值代入 banking[J].Journal of information processing systems, MAAELM时，所得MAPE值均有所降低。 2013,9(9):633650. [10]GAUTAM C,RAVI V.Evolving clustering based data im- 5结束语 putation[C]//Proceedings of 2014 International Conference on Circuits,Power and Computing Technologies.Nager- coil,Tamil Nadu,India,2014:1763-1769. 本文提出了2种新颖的缺失数据的混合式重 [11]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme 建方法，并使用6个数据集验证了所提方法的有 learning machine:a new learning scheme of feedforward 效性。发现由PSO为ECM选出的最佳T值在 neural networks[C]//Proceedings of 2004 IEEE Interna- PSOECM和MAAELM的优异性能方面起到了重 tional Joint Conference on Neural Networks.Budapest, Hungary,2004:985-990 要作用，解决了T值的选取困难和？值对ECM重 [12]HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme 建结果的影响问题，同时去除了AAELM的随机 learning machine:theory and applications[J].Neurocom- 性。下一步研究将增大实验数据集，验证本文所 puting,2006,70(1/2/3):489-501. [13]任阳晖.极限学习机算法及应用研究D].沈阳：沈阳航提方法在原始数据缺失不同百分比时的结果，以空航天大学，2017. 及使用更多的激活函数来进一步验证所提方法的 REN Yanghui.Extreme learning machine alorithm and ap 有效性，并对所提方法与现有方法进行威尔克森 plication[D].Shenyang:Shenyang Aerospace University, 2017. 符号秩检验，验证所提方法的显著性。 [14]GAUTAM C.RAVI V.Data imputation via evolutionary computation,clustering and a neural network[J].Neuro- 参考文献： computing,2015,156:134-142. [15]RAVI V,KRISHNA M.A new online data imputation [1]KENNEDY J.Particle swarm optimization[M]//SAM- method based on general regression auto associative neur- MUT C.WEBB G I.Encyclopedia of Machine Learning. al network[J].Neurocomputing,2014,138:106-113. Boston,MA:Springer,2010. [16]申小征.基于维数约简的区域协方差矩阵及其在人脸识 [2]EBERHART R C,SHI Y.Comparing inertia weights and 别中的应用D1云南：云南财经大学，2017 constriction factors in particle swarm optimization[C]// [17]ANKAIAH N,RAVI V.A novel soft computing hybrid for Proceedings of the 2000 Congress on Evolutionary Com- putation.La Jolla,USA,2000:84-88. data imputation[C]//Proceedings of the 7th International [3]张庆科.粒子群优化算法及差分进行算法研究D].济 Conference on Data Mining.Las Vegas,Nevada,USA, 2011. 南：山东大学，2017. ZHANG Qingke.Research on the particle swarm optimiza- 作者简介： tion and differential evolution algorithms[D].Ji'nan:Shan- 于本成，男.1981年生，副教授 dong University,2017 [4]王永贵，林琳，刘宪国.基于改进粒子群优化的文本聚类博士，主要研究方向为人工智能与数算法研究[.计算机工程，2014.40(11)：172-177. 据挖掘。参与国家、省级科研课题 WANG Yonggui,LIN Lin,LIU Xianguo.Research on text 2项，授权专利、软件著作权22项。 clustering algorithm based on improved particle swarm op- 发表学术论文20余篇。 timization[J].Computer engineering,2014,40(11): 172-177. [5]徐林粒子群优化算法的改进及其应用研究).西安文理学院学报（自然科学版），2017,20(4)：51-54. 丁世飞，男.1963年生，教授，博 XU Lin.Research on improvement and application of the 士生导师，CCF理事，CAAI理事，主 particle swarm optimization algorithm[J].Journal of Xi'an 要研究方向为人工智能与模式识别。 University (natural science edition),2017,20(4):51-54. [6]KRISHNA M.RAVI V.Particle swarm optimization and 主持国家、省级课题8项，取得发明专 covariance matrix based data imputation[C]//Proceedings 利10项。发表学术论文200余篇，出 of 2013 IEEE International Conference on Computational 版专著4部。 Intelligence and Computing Research.Enathi,India,2013:

中应用 PSOECM 得出最佳 τ 值之后，误差又降低了 0.68%。除了在 Spectf 数据集合中，PSOECM 略逊于 GRAANN 之外，在 Iris、Spectf 和 Wine recognition 数据集合中，PSOECM 与 MAAELM 同样表现出了类似在 Auto-mpg、Boston Housing、Forest fires 数据集合中的优势。 τ τ 经上述实验结果的分析得出：1)PSOECM 通过选择最佳值，在各个数据集合中的表现优于 ECM 重建；2) 将 PSOECM 得出的相同值代入 MAAELM 时，所得 MAPE 值均有所降低。 5 结束语 τ τ τ 本文提出了 2 种新颖的缺失数据的混合式重建方法，并使用 6 个数据集验证了所提方法的有效性。发现由 PSO 为 ECM 选出的最佳值在 PSOECM 和 MAAELM 的优异性能方面起到了重要作用，解决了值的选取困难和值对 ECM 重建结果的影响问题，同时去除了 AAELM 的随机性。下一步研究将增大实验数据集，验证本文所提方法在原始数据缺失不同百分比时的结果，以及使用更多的激活函数来进一步验证所提方法的有效性，并对所提方法与现有方法进行威尔克森符号秩检验，验证所提方法的显著性。参考文献： KENNEDY J. Particle swarm optimization[M]//SAMMUT C, WEBB G I. Encyclopedia of Machine Learning. Boston, MA: Springer, 2010. [1] EBERHART R C, SHI Y. Comparing inertia weights and constriction factors in particle swarm optimization[C]// Proceedings of the 2000 Congress on Evolutionary Computation. La Jolla, USA, 2000: 84−88. [2] 张庆科. 粒子群优化算法及差分进行算法研究 [D]. 济南: 山东大学, 2017. ZHANG Qingke. Research on the particle swarm optimization and differential evolution algorithms[D]. Ji'nan: Shandong University, 2017. [3] 王永贵, 林琳, 刘宪国. 基于改进粒子群优化的文本聚类算法研究 [J]. 计算机工程, 2014, 40(11): 172–177. WANG Yonggui, LIN Lin, LIU Xianguo. Research on text clustering algorithm based on improved particle swarm optimization[J]. Computer engineering, 2014, 40(11): 172–177. [4] 徐林. 粒子群优化算法的改进及其应用研究 [J]. 西安文理学院学报 (自然科学版), 2017, 20(4): 51–54. XU Lin. Research on improvement and application of the particle swarm optimization algorithm[J]. Journal of Xi’an University (natural science edition), 2017, 20(4): 51–54. [5] KRISHNA M, RAVI V. Particle swarm optimization and covariance matrix based data imputation[C]//Proceedings of 2013 IEEE International Conference on Computational Intelligence and Computing Research. Enathi, India, 2013: [6] 1–6. KASABOV N K, SONG Qun. DENFIS: dynamic evolving neural-fuzzy inference system and its application for timeseries prediction[J]. IEEE transactions on fuzzy systems, 2002, 10(2): 144–154. [7] KASABOV N, SONG Qun, MA Tianmin. Fuzzy-neuro systems for local and personalized modelling[M]// NIKRAVESH M, KACPRZYK J, ZADEH L A. Forging New Frontiers: Fuzzy Pioneers II. Berlin, Heidelberg: Springer, 2008: 175−197. [8] NISHANTH K J, RAVI V. A computational intelligence based online data imputation method: an application for banking[J]. Journal of information processing systems, 2013, 9(9): 633–650. [9] GAUTAM C, RAVI V. Evolving clustering based data imputation[C]//Proceedings of 2014 International Conference on Circuits, Power and Computing Technologies. Nagercoil, Tamil Nadu, India, 2014: 1763–1769. [10] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//Proceedings of 2004 IEEE International Joint Conference on Neural Networks. Budapest, Hungary, 2004: 985–990. [11] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489–501. [12] 任阳晖. 极限学习机算法及应用研究 [D]. 沈阳: 沈阳航空航天大学, 2017. REN Yanghui. Extreme learning machine alorithm and application[D]. Shenyang: Shenyang Aerospace University, 2017. [13] GAUTAM C, RAVI V. Data imputation via evolutionary computation, clustering and a neural network[J]. Neurocomputing, 2015, 156: 134–142. [14] RAVI V, KRISHNA M. A new online data imputation method based on general regression auto associative neural network[J]. Neurocomputing, 2014, 138: 106–113. [15] 申小征. 基于维数约简的区域协方差矩阵及其在人脸识别中的应用 [D]. 云南: 云南财经大学, 2017. [16] ANKAIAH N, RAVI V. A novel soft computing hybrid for data imputation[C]//Proceedings of the 7th International Conference on Data Mining. Las Vegas, Nevada, USA, 2011. [17] 作者简介：于本成，男，1981 年生，副教授，博士，主要研究方向为人工智能与数据挖掘。参与国家、省级科研课题 2 项，授权专利、软件著作权 22 项。发表学术论文 20 余篇。丁世飞，男，1963 年生，教授，博士生导师，CCF 理事，CAAI 理事，主要研究方向为人工智能与模式识别。主持国家、省级课题 8 项，取得发明专利 10 项。发表学术论文 200 余篇，出版专著 4 部。 ·952· 智能系统学报第 14 卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录