正在加载图片...
·1552· 北京科技大学学报 第33卷 如图1所示,一个样本染色体有r个基因组成, 本组合种群进化I代,由于样本种群和样本组合种 每个基因表示一个样本,当基因位为1时,说明该样 群内在的关联性,使得它们一方面独立完成各自种 本被选中参与进化过程,当基因位为0时,说明该样 群内的进化过程,同时发生协同进化,两者的关系如 本未被选中.由图2可知,样本种群SbP:对应着 图2所示.进化起始,全部样本染色体基因位全部 由m个这样的样本染色体构成的样本子集D 置1,随着进化过程的深入,选择出的部分具有代表 定义3对d:∈SubP:,i=1,2,…,n,令 性的精英样本染色体基因位置1,而未被选中的基 ComP,=出d对i≠j,d≠d5,则称CONM=NU 因位置0.考虑到此类样本数量较少,故使其所有样 本均参与进化,因此在进化过程中这部分染色体基 UComP:为样本组合种群 = 因位保持不变 在整个协同进化过程中,样本种群进化L代,样 #1 #2 SubP 5.11.4.…23 10.12,41,…6 7.18.6,…29 组合#1 21 31 Min 果”” y #1 2 并m 组合# SubP 15.9.22.…43 41,16.2.…5 5,23.1.7 7 组合# Min #1 #2 #m Suhp 33.12.5.…23 43.31,4,…2 9.11.47.…13 所有少数类样本 图2双群协同进化机制 Fig.2 Cooperative Co-evolutionary mechanism between two populations 2.2适应度函数 j个个体的适应度;(2)Reduction(SubP)为SubP: 基于协同进化机制的欠采样方法(under-sam- 第j个个体的压缩率,记为Reduction(SubP,)= pling method based on cooperative co-evolutionary mechanism,UMCCM)既考虑到了少数类样本的分 1SbP,式中1 SSubP,I为SubP,中染色体基因位 ISSubP,I 类精度,同时力图通过在多数类样本中遴选出具有 为1的个数,即选中的样本数目,ISubP,I为SubP 代表性的部分样本参与协同进化,这部分样本能充 中所有样本个数:(3)Pre(SubP)为SubP:的第j个 分体现出多数类样本集的整体特征,从而使用它们 个体的分类精度,即在SubP,中,仅仅利用选中的 进行分类时不仅不会降低分类性能,反而通过精简 ISubP,I个样本去预测该子种群全体样本的精度; 搜索空间,进而提高搜索效率.基于此,适应度函数 (4)Difference(SubP)为SubP,的第j个个体参与和 主要考虑以下因素.(1)少数类样本分类精度.非 未参与某一组合两种情况下适应度的差值,表示为 平衡数据分布环境下,如何通过有效处理样本集使 1 不同样本数量趋于平衡,从而在不降低多数类样本 Diference(sbr,)=7A IFitness(Comn)- 分类精度的前提下尽可能地提高少数类样本精度是 Fitnesst(Comm)l (2) 最终目标.(2)对多数类样本而言,主要考虑分类精 式中:Fitnesswih(Coma)为SubP:的第j个个体参与 度、压缩率和区分度三个性能指标,采用以下适应度 该组合时的适应度;Fitness仙ut((Comm)为SubP:的 函数对多数类样本种群进化性能评估 第j个个体未参与该组合时的适应度.当Difference Fitness (SubP)=aReduction(SubP)+ (SubP:)小于区分度阈值入时,说明该个体对整体分类 B-Pre(SubP)+yDifference(SubP) (1) 精度贡献不大,可将其从所有参与的组合中删除 式中,a+B+y=L.对式(1)作如下说明:(1)Fitness 基于以上分析,采用以下适应度函数作为对整 (SubP)为样本子集D:对应的样本种群SubP,的第 体性能的评估:北 京 科 技 大 学 学 报 第 33 卷 如图 1 所示,一个样本染色体有 r 个基因组成, 每个基因表示一个样本,当基因位为 1 时,说明该样 本被选中参与进化过程,当基因位为 0 时,说明该样 本未被选中. 由图 2 可知,样本种群 SubPi 对应着 由 m 个这样的样本染色体构成的样本子集 Di . 定义 3 对 d' i ∈ SubPi,i = 1,2,…,n,令 ComPi = ∪ n i = 1 d' i,对i≠j,d' i ≠d' j ,则称 COM = ∪ ∪ m i = 1 ComPi为样本组合种群. 在整个协同进化过程中,样本种群进化 L 代,样 本组合种群进化 I 代,由于样本种群和样本组合种 群内在的关联性,使得它们一方面独立完成各自种 群内的进化过程,同时发生协同进化,两者的关系如 图 2 所示. 进化起始,全部样本染色体基因位全部 置 1,随着进化过程的深入,选择出的部分具有代表 性的精英样本染色体基因位置 1,而未被选中的基 因位置 0. 考虑到此类样本数量较少,故使其所有样 本均参与进化,因此在进化过程中这部分染色体基 因位保持不变. 图 2 双群协同进化机制 Fig. 2 Cooperative Co-evolutionary mechanism between two populations 2. 2 适应度函数 基于协同进化机制的欠采样方法( under-sam￾pling method based on cooperative co-evolutionary mechanism,UMCCM) 既考虑到了少数类样本的分 类精度,同时力图通过在多数类样本中遴选出具有 代表性的部分样本参与协同进化,这部分样本能充 分体现出多数类样本集的整体特征,从而使用它们 进行分类时不仅不会降低分类性能,反而通过精简 搜索空间,进而提高搜索效率. 基于此,适应度函数 主要考虑以下因素. ( 1) 少数类样本分类精度. 非 平衡数据分布环境下,如何通过有效处理样本集使 不同样本数量趋于平衡,从而在不降低多数类样本 分类精度的前提下尽可能地提高少数类样本精度是 最终目标. ( 2) 对多数类样本而言,主要考虑分类精 度、压缩率和区分度三个性能指标,采用以下适应度 函数对多数类样本种群进化性能评估. Fitness( SubPij ) = α·Reduction( SubPij ) + β·Pre( SubPij ) + γ·Difference( SubPij ) ( 1) 式中,α + β + γ = 1. 对式( 1) 作如下说明: ( 1) Fitness ( SubPij ) 为样本子集 Di 对应的样本种群 SubPi 的第 j 个个体的适应度; ( 2) Reduction( SubPij ) 为 SubPi 第 j 个个体的压缩率,记 为 Reduction ( SubPij ) = | SSubPi | | SubPi | ,式中 | SSubPi | 为 SubPi 中染色体基因位 为 1 的个数,即选中的样本数目,| SubPi | 为 SubPi 中所有样本个数; ( 3) Pre( SubPij ) 为 SubPi 的第 j 个 个体的分类精度,即在 SubPi 中,仅仅利用选中的 | SubPi |个样本去预测该子种群全体样本的精度; ( 4) Difference( SubPij ) 为 SubPi 的第 j 个个体参与和 未参与某一组合两种情况下适应度的差值,表示为 Difference( SubPij ) = 1 l ∑ l m = 1 | Fitnesswith ( Comim ) - Fitnesswithout ( Comim ) | ( 2) 式中: Fitnesswith ( Comim ) 为 SubPi 的第 j 个个体参与 该组合时的适应度; Fitnesswithout ( Comim ) 为 SubPi 的 第 j 个个体未参与该组合时的适应度. 当 Difference ( SubPij ) 小于区分度阈值 λ 时,说明该个体对整体分类 精度贡献不大,可将其从所有参与的组合中删除. 基于以上分析,采用以下适应度函数作为对整 体性能的评估: ·1552·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有