正在加载图片...
·868· 智能系统学报 第12卷 20)产生随机数r; 准:F-value以及G-mean值进行评估,经实验分析, 21)根据式(3)合成新样本,得到样本集合new: 选择类内样本间平均距离作为邻域半径。表1 22)train=trainUnew; 与表2分别随机选取5个数据集进行实验分析,选 DS-SMOTE算法中,需要输人非平衡数据集合 取了邻近样本间平均距离ε'值的一系列大于零的 T,以及参数邻域半径e、密度阈值Min Pts。首先在 点,如*0.3、e*0.5、e*0.7以及e*1.3、e*1.5 步骤1)中,排除少数类中的噪声产生新的少数类集 *1.7进行测试。经过测试,在图1与图2中可看 合,S;在步骤2)中,算法选取了少数类样本集合 出,结果呈现出一定的规律性:ε值的变化对不同的 S,进行操作,根据密度的概念:对象o的&-邻域密 数据集的影响不尽相同,在ε值等于ε'或邻近取值 度是指对象0在&邻域内的对象数量,遍历每个少 时F-value以及G-mean值水平较高,随着取值向 数类样本求得其&邻域的密度,并在步骤3)~12)中 e'的两侧远离,F-value以及G-mean值或保持平稳, 取少数类样本密度的均值作为判断少数类集合中样 或有所下降。说明选取类内样本间平均距离作为邻 本是否稠密的密度阈值。 域半径具有一定的普适性,并且对分类器的分类性 如何排除人工的方法,为少数类设置恰当的邻 能有一定的保证。由于其脱离了人工选择的邻域半 域半径是基于密度的分类算法中的一个亟待解决的 径设置方法,所以这种邻域半径的设置方法也提高 问题。本文选择非平衡类分类中一般性的评估标 了DS-SMOTE方法的可操作性。 表1不同邻域半径取值下的G-mean值 Table 1 The G-mean under different neighborhood radius 邻域半径 e*0.3 e*0.5 e*0.7 *1.3 e*1.5 8*1.7 Germany 0.6419 0.6474 0.6147 0.6710 0.6658 0.6615 0.6015 Tie 0.9293 0.9695 0.9736 0.9831 0.9759 0.9682 0.9631 diabetis 0.5125 0.6698 0.6955 0.8047 0.6446 0.6236 0.5709 ionosphere 0.8390 0.8819 0.8848 0.9007 0.8660 0.8575 0.8549 parkinsons 0.7845 0.8367 0.8385 0.8397 0.7868 0.7211 0.6583 表2不同邻域半径取值下的F-value值 Table 2 The F-value under different neighborhood radius 邻域半径 e*0.3 e*0.5 *0.7 e e*1.3 e*1.5 *1.7 Germany 0.5780 0.5935 0.6132 0.6452 0.5971 0.5929 0.5316 Tic 0.8885 0.9579 0.9703 0.9626 0.9420 0.9223 0.8928 diabetis 0.5455 0.6597 0.6850 0.7456 0.6277 0.5650 0.5850 ionosphere 0.7869 0.7820 0.8803 0.8956 0.8506 0.8451 0.8199 parkinsons 0.8205 0.8160 0.8182 0.8926 0.8242 0.6857 0.6122 1.00 1.00 0.90 0.90 d0.70 0.70 0.60 0.601 0.50 0.50 *0.3 *0.5 *07 *13 *15 *1.7 e03 *15 *1.1 ◆一Germany h一Tic ◆-Germany -Tic 米-ionosphere 关-diabetis米-ionosphere ■-parkinsons parkinsons 图1不同邻域半径取值下的G-mean值 图2不同邻域半径取值下的F-value值 Fig.1 The G-mean under different neighborhood radius Fig.2 The F-value under different neighborhood radius 在步骤14)~18)中,使用循环遍历的方式判断 合,作为在步骤21)中合成新样本的素材。在步骤 少数类样本的稀疏性,并将稀疏样本加入种子集 21)中引用了直观、易操作的SMOTE算法的思想20) 产生随机数 r; 21) 根据式 (3) 合成新样本, 得到样本集合 new; 22) train = train∪new; DS-SMOTE 算法中,需要输入非平衡数据集合 T,以及参数邻域半径 ε、密度阈值 Min Pts。首先在 步骤 1) 中,排除少数类中的噪声产生新的少数类集 合,S3;在步骤 2) 中,算法选取了少数类样本集合 S3 进行操作,根据密度的概念:对象 o 的 ε-邻域密 度是指对象 o 在 ε-邻域内的对象数量,遍历每个少 数类样本求得其 ε-邻域的密度,并在步骤 3)~12) 中 取少数类样本密度的均值作为判断少数类集合中样 本是否稠密的密度阈值。 如何排除人工的方法,为少数类设置恰当的邻 域半径是基于密度的分类算法中的一个亟待解决的 问题。本文选择非平衡类分类中一般性的评估标 准:F-value 以及 G-mean 值进行评估,经实验分析, 选择类内样本间平均距离作为邻域半径。表 1 与表 2 分别随机选取 5 个数据集进行实验分析,选 取了邻近样本间平均距离 ε′值的一系列大于零的 点,如 ε′*0.3、ε′*0.5、ε′*0.7 以及 ε′*1.3、ε′*1.5、 ε′*1.7 进行测试。经过测试,在图 1 与图 2 中可看 出,结果呈现出一定的规律性:ε 值的变化对不同的 数据集的影响不尽相同,在 ε 值等于 ε′或邻近取值 时 F-value 以及 G-mean 值水平较高,随着取值向 ε′的两侧远离,F-value 以及 G-mean 值或保持平稳, 或有所下降。说明选取类内样本间平均距离作为邻 域半径具有一定的普适性,并且对分类器的分类性 能有一定的保证。由于其脱离了人工选择的邻域半 径设置方法,所以这种邻域半径的设置方法也提高 了 DS-SMOTE 方法的可操作性。 在步骤 14)~18) 中,使用循环遍历的方式判断 少数类样本的稀疏性,并将稀疏样本加入种子集 合,作为在步骤 21) 中合成新样本的素材。在步骤 21) 中引用了直观、易操作的 SMOTE 算法的思想 0.50 0.60 0.70 0.80 0.90 1.00 G-mean Germany Tic diabetis ionosphere parkinsons ε′*0.3 ε′*0.5 ε′*0.7 ε′*1.3 ε′*1.5 ε′*1.7 ε′ 图 1 不同邻域半径取值下的 G-mean 值 Fig. 1 The G-mean under different neighborhood radius 0.50 0.60 0.70 0.80 0.90 1.00 F-value Germany Tic diabetis ionosphere parkinsons ε′*0.3 ε′*0.5 ε′*0.7 ε′*1.3 ε′*1.5 ε′*1.7 ε′ 图 2 不同邻域半径取值下的 F-value 值 Fig. 2 The F-value under different neighborhood radius 表 1 不同邻域半径取值下的 G-mean 值 Table 1 The G-mean under different neighborhood radius 邻域半径 ε′*0.3 ε′*0.5 ε′*0.7 ε′ ε′*1.3 ε′*1.5 ε′*1.7 Germany 0.641 9 0.647 4 0.614 7 0.671 0 0.665 8 0.661 5 0.601 5 Tic 0.929 3 0.969 5 0.973 6 0.983 1 0.975 9 0.968 2 0.963 1 diabetis 0.512 5 0.669 8 0.695 5 0.804 7 0.644 6 0.623 6 0.570 9 ionosphere 0.839 0 0.881 9 0.884 8 0.900 7 0.866 0 0.857 5 0.854 9 parkinsons 0.784 5 0.836 7 0.838 5 0.839 7 0.786 8 0.721 1 0.658 3 表 2 不同邻域半径取值下的 F-value 值 Table 2 The F-value under different neighborhood radius 邻域半径 ε′*0.3 ε′*0.5 ε′*0.7 ε′ ε′*1.3 ε′*1.5 ε′*1.7 Germany 0.578 0 0.593 5 0.613 2 0.645 2 0.597 1 0.592 9 0.531 6 Tic 0.888 5 0.957 9 0.970 3 0.962 6 0.942 0 0.922 3 0.892 8 diabetis 0.545 5 0.659 7 0.685 0 0.745 6 0.627 7 0.565 0 0.585 0 ionosphere 0.786 9 0.782 0 0.880 3 0.895 6 0.850 6 0.845 1 0.819 9 parkinsons 0.820 5 0.816 0 0.818 2 0.892 6 0.824 2 0.685 7 0.612 2 ·868· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有