基于协同进化机制的欠采样方法

针对非平衡数据集分类中"少数类样本精度难以提高"这一瓶颈问题,提出了一种基于协同进化机制的欠采样方法.此方法将少数类样本与多数类样本划分为两类种群,采用种群协同进化原理,利用提出的动态交叉变异算子自适应协同进化过程,实现种群间自动调节和自动适应.仿真试验结果表明,此采样方法增强了局部随机搜索能力,改善了种群的分布特性,加强了算法的全局收敛能力,在不降低多数类样本分类性能的基础上有效提高了少数类样本的精度.与其他经典重采样方法相比,本文办法抗噪能力好,具有更强的鲁棒性.

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：664.98KB

D0I:10.13374/.issn1001-053x.2011.12.020 第33卷第12期北京科技大学学报 Vol.33 No.12 2011年12月 Journal of University of Science and Technology Beijing Dec.2011 基于协同进化机制的欠采样方法翟云12)✉杨炳儒) 王树鹏》张德政》安冰” 1)聊城大学计算机学院，聊城2520592)北京科技大学计算机与通信工程学院，北京100083 3)中国科学院计算技术研究所，北京100190 ☒通信作者，E-mail:yunfei_.2001_1@yahoo.com.cn 摘要针对非平衡数据集分类中“少数类样本精度难以提高”这一瓶颈问题，提出了一种基于协同进化机制的欠采样方法. 此方法将少数类样本与多数类样本划分为两类种群，采用种群协同进化原理，利用提出的动态交叉变异算子自适应协同进化过程，实现种群间自动调节和自动适应.仿真试验结果表明，此采样方法增强了局部随机搜索能力，改善了种群的分布特性，加强了算法的全局收敛能力，在不降低多数类样本分类性能的基础上有效提高了少数类样本的精度.与其他经典重采样方法相比，本文办法抗噪能力好，具有更强的鲁棒性. 关键词非平衡数据集；分类；采样；协同进化；自适应算法分类号TP181 Under-sampling method based on cooperative co-evolutionary mechanism ZHAI Yun'2☒，YANG Bing-u,WANG Shu-peng2》,ZHANG De--heng2,AN Bing' 1)College of Computer Science,Liaocheng University,Liaocheng 252059,China 2)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 3)Institute of Computer Technology,China Academy of Sciences,Beijing 100190,China Corresponding author,E-mail:yunfei_2001_1@yahoo.com.cn ABSTRACT For the bottleneck of improving the accuracy of minority class samples within the paradigm of imbalanced datasets,a novel under-sampling method based on the cooperative co-evolutionary mechanism was presented in this paper.During the employment of the method,the majority and the minority samples were divided into two populations,which adopted the cooperative co-evolutionary mechanism,dynamically adaptive crossovers and mutation operators to automatically adjust the evolution process within populations. Simulation results prove that the method enhances the capacity of local search,improves the distribution characteristics of populations and strengthens the capacity of global convergence.Moreover,the method notably improves the accuracy of the minority samples with- out degrading that of the majority ones.Compared to other classical resampling methods,the method shows good noise immunity with more powerful robustness. KEY WORDS imbalanced datasets;classification:sampling:cooperative co-evolution:adaptive algorithms 在两分类数据集中，当其中一类样本数量相当处理非平衡数据集分类问题的方法在样本层次归为少时被称为少数类(minority class),而另一类则被两类：过采样技术和欠采样技术.尽管文献]论证称为多数类(majority class),具有这样特征的两分了过采样方法的有效性，但Drummond认为，欠采样类数据集则被称为非平衡数据集，该分类问题被称技术在多数时间优于过采样技术回.此外，文献作非平衡数据集分类问题，少数类样本和多数类样 B]提出了一种基于聚类的欠采样方法，该方法选本分别被称为正样本（positive examples)和负样本择具有代表性的训练样本来提高少数类样本精度 (negative examples).随着研究的不断深入，界内把 Kim提出了一种基于自组织映射的欠采样技术，收稿日期：2010-12-10 基金项目：国家高技术研究发展计划重大专项(2009AA01403):国家自然科学基金资助项目(61003260：60875029：61070101)

第 33 卷第 12 期 2011 年 12 月北京科技大学学报 Journal of University of Science and Technology Beijing Vol． 33 No． 12 Dec． 2011 基于协同进化机制的欠采样方法翟云1，2) 杨炳儒2) 王树鹏3) 张德政2) 安冰1) 1) 聊城大学计算机学院，聊城 252059 2) 北京科技大学计算机与通信工程学院，北京 100083 3) 中国科学院计算技术研究所，北京 100190 通信作者，E-mail: yunfei_2001_1@ yahoo． com． cn 摘要针对非平衡数据集分类中“少数类样本精度难以提高”这一瓶颈问题，提出了一种基于协同进化机制的欠采样方法．此方法将少数类样本与多数类样本划分为两类种群，采用种群协同进化原理，利用提出的动态交叉变异算子自适应协同进化过程，实现种群间自动调节和自动适应．仿真试验结果表明，此采样方法增强了局部随机搜索能力，改善了种群的分布特性，加强了算法的全局收敛能力，在不降低多数类样本分类性能的基础上有效提高了少数类样本的精度．与其他经典重采样方法相比，本文办法抗噪能力好，具有更强的鲁棒性．关键词非平衡数据集; 分类; 采样; 协同进化; 自适应算法分类号 TP181 Under-sampling method based on cooperative co-evolutionary mechanism ZHAI Yun1，2) ，YANG Bing-ru2) ，WANG Shu-peng3) ，ZHANG De-zheng2) ，AN Bing1) 1) College of Computer Science，Liaocheng University，Liaocheng 252059，China 2) School of Computer and Communication Engineering，University of Science and Technology Beijing，Beijing 100083，China 3) Institute of Computer Technology，China Academy of Sciences，Beijing 100190，China Corresponding author，E-mail: yunfei_2001_1@ yahoo． com． cn ABSTRACT For the bottleneck of improving the accuracy of minority class samples within the paradigm of imbalanced datasets，a novel under-sampling method based on the cooperative co-evolutionary mechanism was presented in this paper． During the employment of the method，the majority and the minority samples were divided into two populations，which adopted the cooperative co-evolutionary mechanism，dynamically adaptive crossovers and mutation operators to automatically adjust the evolution process within populations． Simulation results prove that the method enhances the capacity of local search，improves the distribution characteristics of populations and strengthens the capacity of global convergence． Moreover，the method notably improves the accuracy of the minority samples without degrading that of the majority ones． Compared to other classical resampling methods，the method shows good noise immunity with more powerful robustness． KEY WORDS imbalanced datasets; classification; sampling; cooperative co-evolution; adaptive algorithms 收稿日期: 2010--12--10 基金项目: 国家高技术研究发展计划重大专项( 2009AA01403) ; 国家自然科学基金资助项目( 61003260; 60875029; 61070101) 在两分类数据集中，当其中一类样本数量相当少时被称为少数类( minority class) ，而另一类则被称为多数类( majority class) ，具有这样特征的两分类数据集则被称为非平衡数据集，该分类问题被称作非平衡数据集分类问题，少数类样本和多数类样本分别被称为正样本( positive examples) 和负样本 ( negative examples) ．随着研究的不断深入，界内把处理非平衡数据集分类问题的方法在样本层次归为两类: 过采样技术和欠采样技术．尽管文献［1］论证了过采样方法的有效性，但 Drummond 认为，欠采样技术在多数时间优于过采样技术［2］．此外，文献［3］提出了一种基于聚类的欠采样方法，该方法选择具有代表性的训练样本来提高少数类样本精度． Kim 提出了一种基于自组织映射的欠采样技术［4］． DOI:10.13374/j.issn1001-053x.2011.12.020

第12期翟云等：基于协同进化机制的欠采样方法 ·1551· 文献5]提出了EasyEnsemble和BalanceCascade两群体，每个子群体代表求解问题的一个子目标，所有种策略作为欠采样学习的方法.尽管上述欠采样技子群体在独立进化的同时，子群体之间基于信息迁术在一定程度上解决了非平衡数据集分类问题，但移与知识共享，共同进化.最常见的协同进化模型仍存在若干亟需改进之处：(1)欠采样技术由于丢是邻域模型（neighborhood model)与孤岛模型弃分类过程中部分潜在的重要数据而可能会影响分 (island model).这两种模型将群体中的个体划分为类器的性能；(2)传统的欠采样方法一般通过各种若干子群体，每一子群体代表解空间中一个子区域策略在多数类样本中选取与少数类样本等同数量的 (子空间)，其中每一个体代表问题的一个解因.每样本，实现样本集数量平衡，进而达到提高少数类样一个子群体用单独的种群演化，问题的解由来自不本精度之目的，但这些方法带有极大的随机性和偶同种群的个体组成，通过问题分解，搜索空间变小，然性，而且对分类器依赖性强，移植性能较差，泛化更容易维持多样性.在协同进化过程中，假设一个能力有限：(3)传统的欠采样方法往往使用确定性待求解问题的解空间被映射为一个包含m个个体的采样技术，即仅简单地通过随机选取部分多数类的群体，其中每一个体均由一个n维向量表示，则样本达到样本类间数量平衡的目的，这种方法往往群体中所有个体划分为个一维向量个体，然后有可能使得分类精度永远达不到最优点，因而限制同一分量方向上的m个一维向量相互组合，从而了算法的应用范围. 形成n个子群体.此时每个子群体并不能独立完协同进化机制属于一种自适应概率搜索技术，成求解优化问题，必须由来自n个不同子群体中随着进化的不断进行，新群体中总会产生更多性能的n个个体共同组合构成.因此在协同进化过程优良的个体，而这些个体将更有助于提升整体分类中，所有子群体必须进行相互协调，以提高各自和精度.而且在样本分类过程中，样本并非孤立存在全局的性能的，而是与其他样本或多或少存在某种关联（亲和或排斥)，进而从宏观上表现出样本子集对整体样 2基于协同进化机制的欠采样方法本分类精度的影响.基于此，笔者提出了一种基于 2.1种群划分协同进化机制的欠采样方法，主要思想是把多数类定义1训练样本集Ω中，多数类样本和少数样本和少数类样本视为两个种群，根据需要将多数类样本规模分别为M和N,把M个多数类样本组成类样本进而划分为若干子种群，在协同进化框架下的种群称作多数类样本群R,由N个少数类样本组实现多种群的协同进化，在以不牺牲多数类样本精成的种群称作少数类样本群X.则2=RUX,R∩ 度的前提下，提高了少数类样本的精度，进而提升了 X=O.在保持样本分布前提下，把多数类样本群数据集整体分类性能. R分为n个规模相等的子集，记作D,D2,,Dn,则 1协同进化机制有R=UD 协同进化是模仿自然界生态系统中物种间的进定义2在协同进化过程中，由每个样本子集化机制而得到的进化计算思想，它借鉴了种群协同 D构成的种群称作样本种群，i=1,2,,n,种群中原理，实现了种群间的自动调节和自动适应.所谓每个元素称为样本染色体（样本个体）.少数类样本协同进化，是指将目标空间中的群体划分为若干子群公构成一个独立而又特殊的样本种群样本 0100101.0 D 本 11010011 样 00001111 样本： 0000100.1 多数类划分子集构造染色体形成样本子群个样木样本样本- 10101D1.1 样 1000111.0 D - 样本 10111D11 10011111 D. 图1样本子群划分 Fig.1 Division of sample sub-populations

第 12 期翟云等: 基于协同进化机制的欠采样方法文献［5］提出了 EasyEnsemble 和 BalanceCascade 两种策略作为欠采样学习的方法．尽管上述欠采样技术在一定程度上解决了非平衡数据集分类问题，但仍存在若干亟需改进之处: ( 1) 欠采样技术由于丢弃分类过程中部分潜在的重要数据而可能会影响分类器的性能; ( 2) 传统的欠采样方法一般通过各种策略在多数类样本中选取与少数类样本等同数量的样本，实现样本集数量平衡，进而达到提高少数类样本精度之目的，但这些方法带有极大的随机性和偶然性，而且对分类器依赖性强，移植性能较差，泛化能力有限; ( 3) 传统的欠采样方法往往使用确定性的采样技术，即仅简单地通过随机选取部分多数类样本达到样本类间数量平衡的目的，这种方法往往有可能使得分类精度永远达不到最优点，因而限制了算法的应用范围．协同进化机制属于一种自适应概率搜索技术，随着进化的不断进行，新群体中总会产生更多性能优良的个体，而这些个体将更有助于提升整体分类精度．而且在样本分类过程中，样本并非孤立存在的，而是与其他样本或多或少存在某种关联( 亲和或排斥) ，进而从宏观上表现出样本子集对整体样本分类精度的影响．基于此，笔者提出了一种基于协同进化机制的欠采样方法，主要思想是把多数类样本和少数类样本视为两个种群，根据需要将多数类样本进而划分为若干子种群，在协同进化框架下实现多种群的协同进化，在以不牺牲多数类样本精度的前提下，提高了少数类样本的精度，进而提升了数据集整体分类性能．图 1 样本子群划分 Fig． 1 Division of sample sub-populations 1 协同进化机制协同进化是模仿自然界生态系统中物种间的进化机制而得到的进化计算思想，它借鉴了种群协同原理，实现了种群间的自动调节和自动适应．所谓协同进化，是指将目标空间中的群体划分为若干子群体，每个子群体代表求解问题的一个子目标，所有子群体在独立进化的同时，子群体之间基于信息迁移与知识共享，共同进化．最常见的协同进化模型是邻域模型 ( neighborhood model ) 与孤岛模型 ( island model) ．这两种模型将群体中的个体划分为若干子群体，每一子群体代表解空间中一个子区域 ( 子空间) ，其中每一个体代表问题的一个解［6］．每一个子群体用单独的种群演化，问题的解由来自不同种群的个体组成，通过问题分解，搜索空间变小，更容易维持多样性．在协同进化过程中，假设一个待求解问题的解空间被映射为一个包含 m 个个体的群体，其中每一个体均由一个 n 维向量表示，则群体中所有个体划分为 n 个一维向量个体，然后同一分量方向上的 m 个一维向量相互组合，从而形成 n 个子群体．此时每个子群体并不能独立完成求解优化问题，必须由来自 n 个不同子群体中的 n 个个体共同组合构成．因此在协同进化过程中，所有子群体必须进行相互协调，以提高各自和全局的性能． 2 基于协同进化机制的欠采样方法 2. 1 种群划分定义 1 训练样本集 Ω 中，多数类样本和少数类样本规模分别为 M 和 N，把 M 个多数类样本组成的种群称作多数类样本群 R，由 N 个少数类样本组成的种群称作少数类样本群．则 Ω = R∪，R∩  = ．在保持样本分布前提下，把多数类样本群 R 分为 n 个规模相等的子集，记作 D1，D2，…，Dn，则有 R = ∪ n i = 1 Di ．定义 2 在协同进化过程中，由每个样本子集 Di 构成的种群称作样本种群，i = 1，2，…，n，种群中每个元素称为样本染色体( 样本个体) ．少数类样本群构成一个独立而又特殊的样本种群． ·1551·

·1552· 北京科技大学学报第33卷如图1所示，一个样本染色体有r个基因组成，本组合种群进化I代，由于样本种群和样本组合种每个基因表示一个样本，当基因位为1时，说明该样群内在的关联性，使得它们一方面独立完成各自种本被选中参与进化过程，当基因位为0时，说明该样群内的进化过程，同时发生协同进化，两者的关系如本未被选中.由图2可知，样本种群SbP:对应着图2所示.进化起始，全部样本染色体基因位全部由m个这样的样本染色体构成的样本子集D 置1，随着进化过程的深入，选择出的部分具有代表定义3对d:∈SubP:,i=1,2,…,n,令性的精英样本染色体基因位置1，而未被选中的基 ComP,=出d对i≠j,d≠d5,则称CONM=NU 因位置0.考虑到此类样本数量较少，故使其所有样本均参与进化，因此在进化过程中这部分染色体基 UComP:为样本组合种群 = 因位保持不变在整个协同进化过程中，样本种群进化L代，样 #1 #2 SubP 5.11.4.…23 10.12,41,…6 7.18.6,…29 组合#1 21 31 Min 果”” y #1 2 并m 组合# SubP 15.9.22.…43 41,16.2.…5 5,23.1.7 7 组合# Min #1 #2 #m Suhp 33.12.5.…23 43.31,4,…2 9.11.47.…13 所有少数类样本图2双群协同进化机制 Fig.2 Cooperative Co-evolutionary mechanism between two populations 2.2适应度函数 j个个体的适应度；(2)Reduction(SubP)为SubP: 基于协同进化机制的欠采样方法(under-sam- 第j个个体的压缩率，记为Reduction(SubP,)= pling method based on cooperative co-evolutionary mechanism,UMCCM)既考虑到了少数类样本的分 1SbP,式中1 SSubP,I为SubP,中染色体基因位 ISSubP,I 类精度，同时力图通过在多数类样本中遴选出具有为1的个数，即选中的样本数目，ISubP,I为SubP 代表性的部分样本参与协同进化，这部分样本能充中所有样本个数：(3)Pre(SubP)为SubP:的第j个分体现出多数类样本集的整体特征，从而使用它们个体的分类精度，即在SubP,中，仅仅利用选中的进行分类时不仅不会降低分类性能，反而通过精简 ISubP,I个样本去预测该子种群全体样本的精度；搜索空间，进而提高搜索效率.基于此，适应度函数 (4)Difference(SubP)为SubP,的第j个个体参与和主要考虑以下因素.(1)少数类样本分类精度.非未参与某一组合两种情况下适应度的差值，表示为平衡数据分布环境下，如何通过有效处理样本集使 1 不同样本数量趋于平衡，从而在不降低多数类样本 Diference(sbr,）=7A IFitness(Comn）- 分类精度的前提下尽可能地提高少数类样本精度是 Fitnesst(Comm）l (2) 最终目标.(2)对多数类样本而言，主要考虑分类精式中：Fitnesswih(Coma)为SubP:的第j个个体参与度、压缩率和区分度三个性能指标，采用以下适应度该组合时的适应度；Fitness仙ut(（Comm）为SubP:的函数对多数类样本种群进化性能评估第j个个体未参与该组合时的适应度.当Difference Fitness (SubP)=aReduction(SubP)+ (SubP:)小于区分度阈值入时，说明该个体对整体分类 B-Pre(SubP)+yDifference(SubP) (1) 精度贡献不大，可将其从所有参与的组合中删除式中，a+B+y=L.对式(1)作如下说明：(1)Fitness 基于以上分析，采用以下适应度函数作为对整 (SubP)为样本子集D:对应的样本种群SubP,的第体性能的评估：

北京科技大学学报第 33 卷如图 1 所示，一个样本染色体有 r 个基因组成，每个基因表示一个样本，当基因位为 1 时，说明该样本被选中参与进化过程，当基因位为 0 时，说明该样本未被选中．由图 2 可知，样本种群 SubPi 对应着由 m 个这样的样本染色体构成的样本子集 Di ．定义 3 对 d' i ∈ SubPi，i = 1，2，…，n，令 ComPi = ∪ n i = 1 d' i，对i≠j，d' i ≠d' j ，则称 COM = ∪ ∪ m i = 1 ComPi为样本组合种群．在整个协同进化过程中，样本种群进化 L 代，样本组合种群进化 I 代，由于样本种群和样本组合种群内在的关联性，使得它们一方面独立完成各自种群内的进化过程，同时发生协同进化，两者的关系如图 2 所示．进化起始，全部样本染色体基因位全部置 1，随着进化过程的深入，选择出的部分具有代表性的精英样本染色体基因位置 1，而未被选中的基因位置 0. 考虑到此类样本数量较少，故使其所有样本均参与进化，因此在进化过程中这部分染色体基因位保持不变．图 2 双群协同进化机制 Fig． 2 Cooperative Co-evolutionary mechanism between two populations 2. 2 适应度函数基于协同进化机制的欠采样方法( under-sampling method based on cooperative co-evolutionary mechanism，UMCCM) 既考虑到了少数类样本的分类精度，同时力图通过在多数类样本中遴选出具有代表性的部分样本参与协同进化，这部分样本能充分体现出多数类样本集的整体特征，从而使用它们进行分类时不仅不会降低分类性能，反而通过精简搜索空间，进而提高搜索效率．基于此，适应度函数主要考虑以下因素． ( 1) 少数类样本分类精度．非平衡数据分布环境下，如何通过有效处理样本集使不同样本数量趋于平衡，从而在不降低多数类样本分类精度的前提下尽可能地提高少数类样本精度是最终目标． ( 2) 对多数类样本而言，主要考虑分类精度、压缩率和区分度三个性能指标，采用以下适应度函数对多数类样本种群进化性能评估． Fitness( SubPij ) = α·Reduction( SubPij ) + β·Pre( SubPij ) + γ·Difference( SubPij ) ( 1) 式中，α + β + γ = 1. 对式( 1) 作如下说明: ( 1) Fitness ( SubPij ) 为样本子集 Di 对应的样本种群 SubPi 的第 j 个个体的适应度; ( 2) Reduction( SubPij ) 为 SubPi 第 j 个个体的压缩率，记为 Reduction ( SubPij ) = | SSubPi | | SubPi | ，式中 | SSubPi | 为 SubPi 中染色体基因位为 1 的个数，即选中的样本数目，| SubPi | 为 SubPi 中所有样本个数; ( 3) Pre( SubPij ) 为 SubPi 的第 j 个个体的分类精度，即在 SubPi 中，仅仅利用选中的 | SubPi |个样本去预测该子种群全体样本的精度; ( 4) Difference( SubPij ) 为 SubPi 的第 j 个个体参与和未参与某一组合两种情况下适应度的差值，表示为 Difference( SubPij ) = 1 l ∑ l m = 1 | Fitnesswith ( Comim ) － Fitnesswithout ( Comim ) | ( 2) 式中: Fitnesswith ( Comim ) 为 SubPi 的第 j 个个体参与该组合时的适应度; Fitnesswithout ( Comim ) 为 SubPi 的第 j 个个体未参与该组合时的适应度．当 Difference ( SubPij ) 小于区分度阈值 λ 时，说明该个体对整体分类精度贡献不大，可将其从所有参与的组合中删除．基于以上分析，采用以下适应度函数作为对整体性能的评估: ·1552·

第12期翟云等：基于协同进化机制的欠采样方法 ·1553· Fitness (Com,)=a'.Prei (Com,)+B'Pre(Com,) 概率P。是决定算法跳出局部最优解的一个关键因 (3) 素，如果取值过大，遗传算法会变成随机搜索方法，对式(3)说明如下：(1)Fitness(Com:)表示在进化过而P。较小，则不宜产生新的个体，影响了个体的多程中第i个组合ComP:的适应度，Fitness(Com;)越样性.为此，笔者提出一种自适应交叉变异算子，使大，表示该组合对进化环境适应程度越高：(2)Prein P。和P能随适应度自动改变.具体做法为：当种表示在组合ComP,中，少数类样本的分类精度；(3) 群收敛时，减小P。、增大P,即降低交叉概率，提高 Pre(Com,)表示在组合ComP,中，多数类样本的变异概率，以保持个体的多样性，同时避免了种群早分类精度：(4)α和B是权重因子，°+B=1.为提熟；当种群个体发散时，增大P。,减小P,即提高交高少数类样本分类精度，在协同进化过程中可适当叉概率，降低变异概率，使种群趋于收敛提高α值，对少数类样本进行合理偏置. 1 11 Pei =k +2了综上所述，式(1)体现了欠采样的思想，但这种 1+exp [2 Fitness;Fitness,)] 欠采样不是随机的，而是综合考虑到了压缩率、精度 (5) 和区分度三个性能指标，从而可以确保找到多数类 1 (6) 样本的最优组合.式(3)则可确保两类样本是内在 Pk+exp (Fitness,-Fitness)] 统一的整体，在进化过程中体现出一种协同关系，从式(5)和式(6)中，P.和P分别为第i个种群的交而确保少数类样本精度的提高不会以降低多数类样叉概率和变异概率，Fitness,为适应度大于该种群个本精度为代价. 体平均适应度的个体的平均适应度，Fitness,为适应 2.3自适应进化算子度小于该种群个体平均适应度的所有个体的平均适文献]己经证明，对于任意初始种群，经过有应度.调节因子k,k3,k,>0,k2<0.由于4= 限次迭代，由选择算子按适应度进行重复选择，最终 Fitness,-Fitness,2≥0，所以P.取值范围在0.5，l] 可以使得全局寻优概率密度在评价函数的峰值处不之间，P取值范围在D,0.5].从式(5)和式(6)可断增强，并收敛到最大适应度个体点.UMCCM在整知，P,和P根据△的变化动态地自适应调整，△越个协同进化中，样本种群进化L代，样本组合种群进大，说明种群越发散，此时P会增大，P会变小，反化I代，两个种群按照遗传算法进行进化.考虑到之亦然样本组合种群在变异过程中会对样本种群产生重大可见，自适应策略能使P。和P在保持种群多影响，在生成新组合过程中，采用稳定态遗传算法样性的同时，保证了算法的收敛性 (steady-state genetic algorithm)图，保证了样本种群 2.3.2样本组合种群的进化过程的进化速度快于样本组合种群. 样本组合种群进化过程中，个体选择亦采用轮 2.3.1样本种群的进化过程盘赌选择方法，对所选个体进行两点交叉.如图2 (1)选择：采用轮盘赌选择方法，即按照适应度所示，交叉和变异均发生在样本种群.例如，对第比例选择样本.对于给定的规模为m的群体G= 个组合按概率P进行交叉时，将对所选个体在样本 {x1,x2,…,xm},样本x:的适应度为f,则x:被选择种群中对应的两个个体（按轮盘赌选择方法选择）的概率为进行交叉.此时进行双替代：一方面，交叉生成的个体替代该样本种群中适应度最差的个体；另一方面， P= (4) 该个体替代组合种群中对应的个体.可见，样本组 i=1 合种群的交叉过程对两个种群同时产生了影响：反可见，适应度较高的样本，由于在轮盘中占有较大的之，样本种群变异过程中，产生的个体同时也进行双份额，被选中的机会也响应较大，它的遗传因子就会替代。这种机制使得随着进化的不断进行，新群体在种群中扩大. 中总会产生更多性能优良的个体，而这些个体将更 (2)交叉和变异：交叉概率P。和变异概率P 有助于提升少数类样本的分类精度.基于此，UMC- 在影响进化行为和性能方面起到了关键作用，直接 CM协同机制算法描述如下影响到算法的收敛性.P。越大，新样本产生的速度输入：训练集S={(x,y1）,(x2y2),,（xn, 就越快，但P。过大时进化模式被破坏的可能性也越 y）},近邻数k,种群迭代数L,L. 大，使得高适应度的个体结构很快被破坏：而P。过输出：少数类样本精度Premin 小时又会延缓新个体的产生，导致算法早熟.变异 Step 1 Initialize SubP

第 12 期翟云等: 基于协同进化机制的欠采样方法 Fitness( Comi ) = α'·Premin ( Comi ) + β'·Premaj ( Comi ) ( 3) 对式( 3) 说明如下: ( 1) Fitness( Comi ) 表示在进化过程中第 i 个组合 ComPi 的适应度，Fitness( Comi ) 越大，表示该组合对进化环境适应程度越高; ( 2) Premin 表示在组合 ComPi 中，少数类样本的分类精度; ( 3) Premaj ( Comi ) 表示在组合 ComPi 中，多数类样本的分类精度; ( 4) α'和 β'是权重因子，α' + β' = 1. 为提高少数类样本分类精度，在协同进化过程中可适当提高 α'值，对少数类样本进行合理偏置．综上所述，式( 1) 体现了欠采样的思想，但这种欠采样不是随机的，而是综合考虑到了压缩率、精度和区分度三个性能指标，从而可以确保找到多数类样本的最优组合．式( 3) 则可确保两类样本是内在统一的整体，在进化过程中体现出一种协同关系，从而确保少数类样本精度的提高不会以降低多数类样本精度为代价． 2. 3 自适应进化算子文献［7］已经证明，对于任意初始种群，经过有限次迭代，由选择算子按适应度进行重复选择，最终可以使得全局寻优概率密度在评价函数的峰值处不断增强，并收敛到最大适应度个体点． UMCCM 在整个协同进化中，样本种群进化 L 代，样本组合种群进化 I 代，两个种群按照遗传算法进行进化．考虑到样本组合种群在变异过程中会对样本种群产生重大影响，在生成新组合过程中，采用稳定态遗传算法 ( steady-state genetic algorithm) ［8］，保证了样本种群的进化速度快于样本组合种群． 2. 3. 1 样本种群的进化过程 ( 1) 选择: 采用轮盘赌选择方法，即按照适应度比例选择样本．对于给定的规模为 m 的群体 G = { x1，x2，…，xm } ，样本 xi 的适应度为 fi，则 xi 被选择的概率为 P = fi ∑ m i = 1 fi ． ( 4) 可见，适应度较高的样本，由于在轮盘中占有较大的份额，被选中的机会也响应较大，它的遗传因子就会在种群中扩大． ( 2) 交叉和变异: 交叉概率 Pc 和变异概率 Pm 在影响进化行为和性能方面起到了关键作用，直接影响到算法的收敛性． Pc 越大，新样本产生的速度就越快，但 Pc 过大时进化模式被破坏的可能性也越大，使得高适应度的个体结构很快被破坏; 而 Pc 过小时又会延缓新个体的产生，导致算法早熟．变异概率 Pm 是决定算法跳出局部最优解的一个关键因素，如果取值过大，遗传算法会变成随机搜索方法，而 Pm 较小，则不宜产生新的个体，影响了个体的多样性．为此，笔者提出一种自适应交叉变异算子，使 Pc 和 Pm 能随适应度自动改变．具体做法为: 当种群收敛时，减小 Pc、增大 Pm，即降低交叉概率，提高变异概率，以保持个体的多样性，同时避免了种群早熟; 当种群个体发散时，增大 Pc，减小 Pm，即提高交叉概率，降低变异概率，使种群趋于收敛． Pci = k1 { 1 1 + exp［k2 ( Fitness1 － Fitness2) ］+ } 1 2 ( 5) Pmi = k3 { 1 1 + exp［k4 ( Fitness1 － Fitness2 } ) ］ ( 6) 式( 5) 和式( 6) 中，Pci和 Pmi分别为第 i 个种群的交叉概率和变异概率，Fitness1为适应度大于该种群个体平均适应度的个体的平均适应度，Fitness2为适应度小于该种群个体平均适应度的所有个体的平均适应度．调节因子 k1，k3，k4 ＞ 0，k2 ＜ 0. 由于 Δ = Fitness1 － Fitness2≥0，所以 Pci取值范围在［0. 5，1］之间，Pmi取值范围在［0，0. 5］．从式( 5) 和式( 6) 可知，Pci和 Pmi根据 Δ 的变化动态地自适应调整，Δ 越大，说明种群越发散，此时 Pci会增大，Pmi会变小，反之亦然．可见，自适应策略能使 Pc 和 Pm 在保持种群多样性的同时，保证了算法的收敛性． 2. 3. 2 样本组合种群的进化过程样本组合种群进化过程中，个体选择亦采用轮盘赌选择方法，对所选个体进行两点交叉．如图 2 所示，交叉和变异均发生在样本种群．例如，对第 i 个组合按概率 Pmi进行交叉时，将对所选个体在样本种群中对应的两个个体( 按轮盘赌选择方法选择) 进行交叉．此时进行双替代: 一方面，交叉生成的个体替代该样本种群中适应度最差的个体; 另一方面，该个体替代组合种群中对应的个体．可见，样本组合种群的交叉过程对两个种群同时产生了影响; 反之，样本种群变异过程中，产生的个体同时也进行双替代．这种机制使得随着进化的不断进行，新群体中总会产生更多性能优良的个体，而这些个体将更有助于提升少数类样本的分类精度．基于此，UMCCM 协同机制算法描述如下．输入: 训练集 S = { ( x1，y1 ) ，( x2，y2 ) ，…，( xn， yn ) } ，近邻数 k，种群迭代数 L，I．输出: 少数类样本精度 Premin ． Step 1 Initialize SubPi ·1553·

·1554· 北京科技大学学报第33卷 Step 2 Initialize ComP progress=false Step 3 progress =true end Step 4 while (progress) output(Premin） for(i=l;i≤n;i++) end Fitness(Com;) 3试验验证 P= Fitness(Com,) ∑Fitness(Com,) 3.1评价指标非平衡数据集两分类问题中，准确率已不适合 Two-point-crossover(Com,) 作为衡量分类精度的性能指标，而采用TP-rate和 Mutate(Com,) FP-ate作为性能指标： Calculate(Fitness) TP-rate= TP (7) Calculate(Fitness2) TP+FN A=Fitness-Fitness2 FP FP-ate=TN +FP (8) if△≤r progress =false 式中，TP和TN分别为预测正确的正样本和负样本 end 数，FP为原本属于负类的样本错误地预测为正类的样本数，N为原本属于正类的样本错误地预测为负 for(=1:j≤mj++） Fitness(SubP) 类的样本数. Fitness(SubP) Kubat和Matwin提出了将G-means作为衡量非 Pi= 平衡数据集分类精度的性能指标，由于G-means是 ∑Fitness(SubP,) 引 TP-ate和FP-rate的几何均值，故Kubat和Matwin HUX-crossover(SubP,-SubP) 认为其能较好地反映分类性能四 Mutate(SubP) G-means /TP-rate x TN-rate (9) Copy (SubP)to all Com,with 为综合考察TP-ate和FP-ate,同时采用了受试 SubP 者操作特征（receiver operating characteristic, Fitness (all-Com,) ROC)@作为衡量少数类样本分类精度的指标. Calculate(Fitness) 3.2数据集 Calculate(Fitness,) 综合样本集非平衡度、样本规模和属性个数等 A=Fitness-Fitness2 因素，选用差异较大的五个UCI数据集，如表1 f△≤r 所示表1实验所用UC数据集 Table 1 UCI data sets 数据集属性数目概念/反概念少数类样本数量多数类样本数量非平衡度 German 20 Bad/Good 300 700 2.33 Vehicle 18 Van/Remainder 199 647 3.25 Satimage 36 4/Remainder 626 5809 9.28 Flag 28 White/Remainder 17 177 10.42 Nursery Not-recom/Remainder 328 12632 38.51 3.3 UMCCM参数确定行十次十交叉试验时，TP-rate、TN-rate和G-means 参数对分类器性能起到至关重要的作用.在式结果如图3所示.可见，当α值变化时，多数类样本 (1)中，=B=y=1/3恒定不变；为确定式(3)中精度影响较小，而少数类样本精度波动较大.当和B值，令权重因子分别取4/5、2/3、1/2、1/3、1/4 aα'=23时，分类器在十次十交叉试验中综合性能和1/5.以Vehicle数据集为例，当在该数据集上执最优.在其他数据集中均得到相同结论

北京科技大学学报第 33 卷 Step 2 Initialize ComPi Step 3 progress = true Step 4 while ( progress) for ( i = 1; i≤n; i + + ) Fitness( Comi ) Pi = Fitness( Comi ) ∑ n i = 1 Fitness( Comi ) Two-point-crossover( Comi ) Mutate( Comi ) Calculate( Fitness1 ) Calculate( Fitness2 ) Δ = Fitness1 － Fitness2 if Δ≤τ progress = false end for ( j = 1; j≤m; j + + ) Fitness( SubPj ) Pj = Fitness( SubPj ) ∑ m i = 1 Fitness( SubPj ) HUX-crossover( SubPi-SubPj ) Mutate( SubPj ) Copy ( SubPj ) to all Comt with SubPj Fitness( all-Comi ) Calculate( Fitness1 ) Calculate( Fitness2 ) Δ = Fitness1 － Fitness2 if Δ≤τ progress = false end output( Premin ) end 3 试验验证 3. 1 评价指标非平衡数据集两分类问题中，准确率已不适合作为衡量分类精度的性能指标，而采用 TP-rate 和 FP-rate 作为性能指标: TP-rate = TP TP + FN ( 7) FP-rate = FP TN + FP ( 8) 式中，TP 和 TN 分别为预测正确的正样本和负样本数，FP 为原本属于负类的样本错误地预测为正类的样本数，FN 为原本属于正类的样本错误地预测为负类的样本数． Kubat 和 Matwin 提出了将 G-means 作为衡量非平衡数据集分类精度的性能指标，由于 G-means 是 TP-rate 和 FP-rate 的几何均值，故 Kubat 和 Matwin 认为其能较好地反映分类性能［9］． G-means = 槡TP-rate × TN-rate ( 9) 为综合考察 TP-rate 和 FP-rate，同时采用了受试者操作特征 ( receiver operating characteristic， ROC) ［10］作为衡量少数类样本分类精度的指标． 3. 2 数据集综合样本集非平衡度、样本规模和属性个数等因素，选用差异较大的五个 UCI 数据集［11］，如表 1 所示．表 1 实验所用 UCI 数据集 Table 1 UCI data sets 数据集属性数目概念/反概念少数类样本数量多数类样本数量非平衡度 German 20 Bad /Good 300 700 2. 33 Vehicle 18 Van /Remainder 199 647 3. 25 Satimage 36 4 /Remainder 626 5809 9. 28 Flag 28 White /Remainder 17 177 10. 42 Nursery 8 Not-recom/Remainder 328 12632 38. 51 3. 3 UMCCM 参数确定参数对分类器性能起到至关重要的作用．在式 ( 1) 中，α = β = γ = 1 /3 恒定不变; 为确定式( 3) 中 α' 和 β'值，令权重因子 α'分别取 4 /5、2 /3、1 /2、1 /3、1 /4 和 1 /5. 以 Vehicle 数据集为例，当在该数据集上执行十次十交叉试验时，TP-rate、TN-rate 和 G-means 结果如图 3 所示．可见，当 α'值变化时，多数类样本精度影响较小，而少数类样本精度波动较大．当 α' = 2 /3 时，分类器在十次十交叉试验中综合性能最优．在其他数据集中均得到相同结论． ·1554·

第12期翟云等：基于协同进化机制的欠采样方法 ·1555· 94F (a) 5% 75% *工75% 509 25% 25% -means TP-rate TN-rate G-means TP-rate TN-rate G-means 性能指标性能指标 4 (C) (d) 759 75% 0 75% 25% 50% % 50% 25% 25% TP-nte TN-rate G-means 84 G-means TP-rate TN-rate G-means TP-rate TN-rate G-means 性能指标性能指标 94 5% 75% 5 90 75% 25 75% 86 50% TP-rate TN-rate 25% G-means 84 means TP-rate TN-rate G-means TP-rate TN-rate G-means 性能指标性能指标图3对分类精度的影响.(a)=4/5:(b)x=2/3;(c)a=12:(d)a=1/3:(e)a°=1/4：(f0a°=1/5 Fig.3 Effect of a'on accuracy:(a)a'=4/5:(b)a'=2/3:(c)a'=1/2:(d)a'=1/3:(e)a'=1/4:(f)a=1/5 3.4性能比较 SMOTE.这主要是由于Flag数据集中正样本数量太为更好地体现对比实验的有效性，用UMCCM 少，仅靠随机欠采样方法无法为分类器提供足够信与合成少数类样本过采样技术(synthetic minority 息，故分类器性能有限；而SMOTE通过合成少数类 over-sampling technique,SMOTE)、随机欠采样技术样本，为分类器提供较多分类特征，因此分类性能得 (random under-resample,RUR)这两种经典的重采到一定程度提升.German数据集非平衡度较小，正样技术进行了比较.实验利用WEKA回实验平台，负样本数量差距不大，该情况下RUR与SMOTE性采用C4.5基分类器，SMOTE采样过程中，knn参数能接近.UMCCM在四个数据集中性能稳定，波动较 (近邻数k)设为5，性能比较指标采用ROC曲线. 小，且均优于SMOTE和RUR这两种传统的重采样为减少冗余特征和噪声对分类精度的影响，对Flag、技术，从而体现出UMCCM的有效性与先进性. German、Nursery和Satimage四个数据集均择取八个 3.5噪声对分类性能的影响相关特征，并利用过滤器清除了噪声数据).实验为比较分类器鲁棒性能，采用文献14]的方法结果如图4所示按不同噪声测度γy在数据集中增加噪声，按照y= 可见：在Flag数据集上，SMOTE优于RUR;在 0%,y=5%,y=10%和y=15%不同噪声测度标 German数据集上，RUR与SMOTE性能差距甚微；准，分别独立进行十次十交叉实验，结果如表2所在Nursery和Satimage数据集上，RUR均优于示.表2中，每个数字单元格内容为对应行的算法

第 12 期翟云等: 基于协同进化机制的欠采样方法图 3 α'对分类精度的影响． ( a) α' = 4 /5; ( b) α' = 2 /3; ( c) α' = 1 /2; ( d) α' = 1 /3; ( e) α' = 1 /4; ( f) α' = 1 /5 Fig． 3 Effect of α' on accuracy: ( a) α' = 4 /5; ( b) α' = 2 /3; ( c) α' = 1 /2; ( d) α' = 1 /3; ( e) α' = 1 /4; ( f) α' = 1 /5 3. 4 性能比较为更好地体现对比实验的有效性，用 UMCCM 与合成少数类样本过采样技术( synthetic minority over-sampling technique，SMOTE) 、随机欠采样技术 ( random under-resample，RUR) 这两种经典的重采样技术进行了比较．实验利用 WEKA［12］实验平台，采用 C4. 5 基分类器，SMOTE 采样过程中，knn 参数 ( 近邻数 k) 设为 5，性能比较指标采用 ROC 曲线．为减少冗余特征和噪声对分类精度的影响，对 Flag、 German、Nursery 和 Satimage 四个数据集均择取八个相关特征，并利用过滤器清除了噪声数据［13］．实验结果如图 4 所示．可见: 在 Flag 数据集上，SMOTE 优于 RUR; 在 German 数据集上，RUR 与 SMOTE 性能差距甚微; 在 Nursery 和 Satimage 数据集上，RUR 均优于 SMOTE．这主要是由于 Flag 数据集中正样本数量太少，仅靠随机欠采样方法无法为分类器提供足够信息，故分类器性能有限; 而 SMOTE 通过合成少数类样本，为分类器提供较多分类特征，因此分类性能得到一定程度提升． German 数据集非平衡度较小，正负样本数量差距不大，该情况下 RUR 与 SMOTE 性能接近． UMCCM 在四个数据集中性能稳定，波动较小，且均优于 SMOTE 和 RUR 这两种传统的重采样技术，从而体现出 UMCCM 的有效性与先进性． 3. 5 噪声对分类性能的影响为比较分类器鲁棒性能，采用文献［14］的方法按不同噪声测度 γ 在数据集中增加噪声，按照 γ = 0% ，γ = 5% ，γ = 10% 和 γ = 15% 不同噪声测度标准，分别独立进行十次十交叉实验，结果如表 2 所示．表 2 中，每个数字单元格内容为对应行的算法 ·1555·

·1556· 北京科技大学学报第33卷 100 100 (a) 80 80 60 60 三40 -UMCCM _UMCCM -RUR 一SMOTE 20 一RUR 一SMOTE 0 0 0 40 60 形 100 0 20 4060 0 100 FP-rate/% FP-rate/% 100 100 d 80 60 60 -UMCCM -UMCCM 一RUR —RR 一SMOTE SMOTE 0 0 0 20 4060 80 100 0 20 4060 80100 FP-rate/% FP-rate/% 图4不同数据集上性能比较.(a)Flag数据集；(b)German数据集：(c)Nursery数据集：(d)Satimage数据集 Fig.4 Performance comparison on different datasets:(a)Flag datasets:(b)German datasets:(c)Nursery datasets:(d)Satimage datasets (分类器)与对应列的算法（分类器）性能比较.如表2按不同噪声测度标准进行十次十交叉实验结果第一个数字单元格内容为1-36，表示与UMCCM Table 2 Results of ten cross-validation according to different noise 相比，C4.5性能好于、等于和差于UMCCM的次数 measurement 分别为1、3和6.由表2可知，SVM和C4.5在各种噪声测度，y/% 算法UMCCM RUR SMOTE SVM 噪声测度下性能基本相当，SMOTE则均好于SVM C4.51-362-35 3-3-42-4-4 与C4.5.当没有添加噪声时，Random Under-Resam- SVM2-4-414-52-3-5 0 ple(RUR)性能优于C4.5和SVM,也优于SMOTE, SM0TE2-264-1-5 这与文献8]结论一致.随着噪声数据不断增多， RUR 2-3-5 RUR性能逐渐下降.当噪声测度为5%时，RUR优 C4.5 1-362443-343-34 于C4.5次数为4，优于SVM的次数为5，优于 SVM1-362-352-4-4 5 SMOTE次数也是5；当噪声测度为10%时，RUR优 SM0TE1-3-62-3-5 于C4.5次数为2，优于SVM的次数为3，优于 RUR 2-2-6 SMOTE次数也是2；当噪声测度为15%时，RUR优 C4.50-283-5-23-2-53-5-2 于C4.5、SVM和SMOTE的次数都仅为1.由此可 SVM 1-2-74-3-32-3-5 见，随机欠采样方法性能与噪声测度关系甚密，当噪 o SM0TE1-2-73-5-2 声测度很大时，分类精度急剧降低.与此相反，UM- RUR 1-3-6 CCM性能在噪声测度较低时性能稍好于其他方法， C4.50-194-5-12-264-24 但随着噪声测度增大，UMCCM优越性愈加明显.这 SVM0-2-85-4-12-26 主要是因为UMCCM借用了协同进化机制，在欠采 15 SM0TE1-367-2-1 样过程中已将噪声数据排除在核集之外，使得噪声 RUR 1-1-8 对其分类精度影响降低到最小.因此与其他四种分类器相比，UMCCM分类性能更稳定，鲁棒性更强. 4结论这充分验证了UMCCM模型在非平衡数据集分类问题中具有较强的普适性，从而对从根本上提高解决本文提出的对非平衡数据集分类的新方法UM- 非平衡数据集分类问题具有重要意义. CCM利用协同进化机制，建立多数类和少数类两个

北京科技大学学报第 33 卷图 4 不同数据集上性能比较． ( a) Flag 数据集; ( b) German 数据集; ( c) Nursery 数据集; ( d) Satimage 数据集 Fig． 4 Performance comparison on different datasets: ( a) Flag datasets; ( b) German datasets; ( c) Nursery datasets; ( d) Satimage datasets ( 分类器) 与对应列的算法( 分类器) 性能比较．如第一个数字单元格内容为 1--3--6，表示与 UMCCM 相比，C4. 5 性能好于、等于和差于 UMCCM 的次数分别为 1、3 和 6．由表 2 可知，SVM 和 C4. 5 在各种噪声测度下性能基本相当，SMOTE 则均好于 SVM 与 C4. 5. 当没有添加噪声时，Random Under-Resample ( RUR) 性能优于 C4. 5 和 SVM，也优于 SMOTE，这与文献［8］结论一致．随着噪声数据不断增多， RUR 性能逐渐下降．当噪声测度为 5% 时，RUR 优于 C4. 5 次数为 4，优于 SVM 的次数为 5，优于 SMOTE 次数也是 5; 当噪声测度为 10% 时，RUR 优于 C4. 5 次数为 2，优于 SVM 的次数为 3，优于 SMOTE 次数也是 2; 当噪声测度为 15% 时，RUR 优于 C4. 5、SVM 和 SMOTE 的次数都仅为 1．由此可见，随机欠采样方法性能与噪声测度关系甚密，当噪声测度很大时，分类精度急剧降低．与此相反，UMCCM 性能在噪声测度较低时性能稍好于其他方法，但随着噪声测度增大，UMCCM 优越性愈加明显．这主要是因为 UMCCM 借用了协同进化机制，在欠采样过程中已将噪声数据排除在核集之外，使得噪声对其分类精度影响降低到最小．因此与其他四种分类器相比，UMCCM 分类性能更稳定，鲁棒性更强．这充分验证了 UMCCM 模型在非平衡数据集分类问题中具有较强的普适性，从而对从根本上提高解决非平衡数据集分类问题具有重要意义．表 2 按不同噪声测度标准进行十次十交叉实验结果 Table 2 Results of ten cross-validation according to different noise measurement 噪声测度，γ /% 算法 UMCCM RUR SMOTE SVM C4. 5 1--3--6 2--3--5 3--3--4 2--4--4 0 SVM 2--4--4 1--4--5 2--3--5 SMOTE 2--2--6 4--1--5 RUR 2--3--5 C4. 5 1--3--6 2--4--4 3--3--4 3--3--4 5 SVM 1--3--6 2--3--5 2--4--4 SMOTE 1--3--6 2--3--5 RUR 2--2--6 C4. 5 0--2--8 3--5--2 3--2--5 3--5--2 10 SVM 1--2--7 4--3--3 2--3--5 SMOTE 1--2--7 3--5--2 RUR 1--3--6 C4. 5 0--1--9 4--5--1 2--2--6 4--2--4 15 SVM 0--2--8 5--4--1 2--2--6 SMOTE 1--3--6 7--2--1 RUR 1--1--8 4 结论本文提出的对非平衡数据集分类的新方法 UMCCM 利用协同进化机制，建立多数类和少数类两个 ·1556·

第12期翟云等：基于协同进化机制的欠采样方法 ·1557· 样本种群之间的合作关系，通过相互作用适应复杂 [6]Garcia-Pedrajas N,Hervis-Martinez C.Munoz-Perez J.COV- 系统的动态演化环境，达到了种群优化的目的.这 NET:a cooperative coevolutionary model for evolving artificial neural networks.IEEE Trans Neural Neticorks,2003,14 (3): 种优化在样本种群中体现为选择出最少量样本，但 575 用它们对整体样本分类时，精度不低于甚至高于用 [7]Harik G R,Lobo F G,Goldberg D E.The compact genetic algo- 整体样本分类结果：在样本组合种群则实现了少数 rithms.IEEE Trans Erol Comput,1999,3(4):287 类样本精度的优化，使得非平衡数据环境下，在不减 [8]Whitley D.Kauth J.GENITOR:a different genetic algorithm// 少多数类样本分类精度的前提下，最大程度提高少 Proceedings of the Rocky Mountain Conference on Artificial Intelli- 数类样本精度成为可能 gence.Denver,1988:118 9]Kubat M,Matwin S.Addressing the curse of imbalanced training sets:one-sided selection /Proceedings of the 14th International 参考文献 Conference on Machine Learning.San Fransisco,1997:179 [Japkowicz N,Stephen S.The class imbalance problem:a system- [1o]Bradley A P.The use of the area under the roc curve in the eval- atic study.Intell Data Anal,2002,6(5):429 uation of machine leamning algorithms.Pattern Recognit,1997, Drummond C.Holte R C.C4.5,elass imbalance,and cost sensi- 30(7):1145 tivity:why under-sampling beats over-sampling /Workshop on [11]Blake C,Keogh E,Merz C J.UCI Repository of Machine Learn- Learning from Imbalanced Datasets II,ICML.Washington DC, ing Databases [DB/O1].2010-49-20].www.ics.uci.edu/~ 2003 mleamn/MLRepository.html B]Yen SJ,Lee Y S.Under-sampling approaches for improving pre- [12]Witten I H,Frank E.Data Mining:Practical Machine Learning diction of the minority class in an imbalanced dataset.Lect Notes Tools and Techniques.San Francisco:Morgan Kaufmann,2005 Control Inf Sci,2006,344:731 [13]Brodley C E,Friedl M A.Identifying and eliminating mislabeled 4]Kim M S.An effective under-sampling method for class imbalance training instances /Proceedings of 13th National Conference on data problem /Proceedings of 8th International Symposium on Ad- Artificial Intelligence.Oregon,1996:799 ranced Intelligent Systems.Sokcho,2007:287 [14]Dietterich TG.An experimental comparison of three methods for [5]Liu X Y,Wu J X,Zhou Z H.Exploratory under-sampling for constructing ensembles of decision trees:bagging,boosting,and class-imbalance learning.IEEE Trans Syst Man Cybern Part B, randomization.Mach Learn,2000,40 (2):139 2009,39(2):539

第 12 期翟云等: 基于协同进化机制的欠采样方法样本种群之间的合作关系，通过相互作用适应复杂系统的动态演化环境，达到了种群优化的目的．这种优化在样本种群中体现为选择出最少量样本，但用它们对整体样本分类时，精度不低于甚至高于用整体样本分类结果; 在样本组合种群则实现了少数类样本精度的优化，使得非平衡数据环境下，在不减少多数类样本分类精度的前提下，最大程度提高少数类样本精度成为可能．参考文献［1］ Japkowicz N，Stephen S． The class imbalance problem: a systematic study． Intell Data Anal，2002，6( 5) : 429 ［2］ Drummond C，Holte R C． C4. 5，class imbalance，and cost sensitivity: why under-sampling beats over-sampling / / Workshop on Learning from Imbalanced Datasets II，ICML． Washington DC， 2003 ［3］ Yen S J，Lee Y S． Under-sampling approaches for improving prediction of the minority class in an imbalanced dataset． Lect Notes Control Inf Sci，2006，344: 731 ［4］ Kim M S． An effective under-sampling method for class imbalance data problem / / Proceedings of 8th International Symposium on Advanced Intelligent Systems． Sokcho，2007: 287 ［5］ Liu X Y，Wu J X，Zhou Z H． Exploratory under-sampling for class-imbalance learning． IEEE Trans Syst Man Cybern Part B， 2009，39( 2) : 539 ［6］ García-Pedrajas N，Hervs-Martínez C，Mun珘oz-Pérez J． COVNET: a cooperative coevolutionary model for evolving artificial neural networks． IEEE Trans Neural Networks，2003，14 ( 3 ) : 575 ［7］ Harik G R，Lobo F G，Goldberg D E． The compact genetic algorithms． IEEE Trans Evol Comput，1999，3( 4) : 287 ［8］ Whitley D，Kauth J． GENITOR: a different genetic algorithm / / Proceedings of the Rocky Mountain Conference on Artificial Intelligence． Denver，1988: 118 ［9］ Kubat M，Matwin S． Addressing the curse of imbalanced training sets: one-sided selection / / Proceedings of the 14th International Conference on Machine Learning． San Fransisco，1997: 179 ［10］ Bradley A P． The use of the area under the roc curve in the evaluation of machine learning algorithms． Pattern Recognit，1997， 30( 7) : 1145 ［11］ Blake C，Keogh E，Merz C J． UCI Repository of Machine Learning Databases［DB /OL］．［2010-09-20］． www． ics． uci． edu / ～ mlearn /MLRepository． html ［12］ Witten I H，Frank E． Data Mining: Practical Machine Learning Tools and Techniques． San Francisco: Morgan Kaufmann，2005 ［13］ Brodley C E，Friedl M A． Identifying and eliminating mislabeled training instances / / Proceedings of 13th National Conference on Artificial Intelligence． Oregon，1996: 799 ［14］ Dietterich T G． An experimental comparison of three methods for constructing ensembles of decision trees: bagging，boosting，and randomization． Mach Learn，2000，40( 2) : 139 ·1557·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

基于协同进化机制的欠采样方法