李睿峰等:基于空间近邻关系的非平衡数据重采样算法 867. 距离间的中值,令KBMs在0.1~0.9倍样本总数之 和G-mean均值如图4所示.综合考虑,KBMs距离 间取值,以0.1倍为步进,在5个数据集上的F-valve 值取0.5倍样本总数是最合适的 1.0 1.0 1.0 0.9 0.9 2o 0.8 0.8 0.8 0.7 07 0.6 0 50.6 0.5 0.5 iabetes 0.5 iabetes Glass 0.4 0.4 1n6 (a) Regulator (b) Regulator 0.4 (c) Regulator 0.3 0.3 0.3 0 0.2 1.0 0 1.0 0.8 1.0 The ratio of Kays to the total number The ratio of Kavs to the total number The ratio of Ks to the total number of samples of samples of samples 图4BMS算法参数分析.(a)Rc值分析:(b)F-valve值分析:(c)G-mean值分析 Fig.4 Parameter analysis of BMS:(a)analysis of the R;(b)analysis of the F-valve;(c)analysis of the G-mean 3.5结果分析 C和核参数σ,模型参数标注在最后一列.计算 为消除随机因素的影响,取5×10折交叉验证 50个结果中Rc、F-value和G-mean有效数据的统 的方式,每次实验前随机生成训练集和测试集.在 计平均值,将最大值加粗表示:计算实验结果的标 实验之前,运行一次交叉验证以确定正则化参数 准差,将最小值加粗表示.结果如表4. 表4F-value和G-mean性能比较 Table 4 Comparison between the F-value and G-mean F-value G-mean Parameter value Data set Algorithm Mean Std Mean Std Mean Std 0 SMOTE 1 0 0.9714 0.0782 0.9976 0.0045 0.1 4.9849 RU-SMOTE 1 0 0.9849 0.0389 0.9984 0.0034 4.9056 CTG BMS 0.9983 0.0118 0.9825 0.0342 0.9972 0.0068 5.0038 RBNR 1 0 0.9870 0.0382 0.9988 0.0030 5.0123 SMOTE 0.6966 0.0852 0.6515 0.0694 0.7318 0.0486 2.7590 RU-SMOTE 0.5775 0.1121 0.6330 0.0830 0.7079 0.0670 3.3938 Diabetes BMS 0.6656 0.1102 0.6595 0.0801 0.7357 0.0652 0.1 3.0312 RBNR 0.7871 0.0895 0.6832 0.0624 0.7554 0.0497 01 3.0156 SMOTE 0.8985 0.1529 0.8902 0.1125 0.9319 0.0865 0 1.2357 RU-SMOTE 0.8523 0.1934 0.8608 0.1266 0.8915 0.1558 10 1.2156 Glass BMS 0.8656 0.2157 0.8909 0.1371 0.9062 0.1670 10 33978 RBNR 0.9086 0.1295 0.9062 0.0996 0.9416 0.0693 1.4562 SMOTE 1 0 0.9818 0.0513 0.9949 0.0152 10 3.9758 RU-SMOTE 1 0 0.9770 0.0507 0.9914 0.0181 10 3.6135 Wine BMS 0.9971 0.0202 0.9600 0.0827 0.9874 0.0230 100 4.0360 RBNR 1 0 0.9789 0.0454 0.9919 0.0146 10 3.7833 SMOTE 0.9272 0.1303 0.8496 0.1067 0.9314 0.0715 1000 1.5781 RU-SMOTE 0.9320 0.2114 0.8304 0.1118 0.8999 0.1931 10 4.7342 Regulator BMS 0.8685 0.1930 0.8731 0.1007 0.9025 0.1526 0.01 3.6821 RBNR 0.9075 0.1248 0.8947 0.1043 0.9361 0.0699 10 4.6943 由实验结果可以得出以下结论:①无论是选 RBNR算法取得的Rc均值、F-value均值和G- 用UCI数据集还是电路实测数据进行训练, mean均值在绝大多数情况下是最高的.②虽然距离间的中值,令 KBMS 在 0.1~0.9 倍样本总数之 间取值,以 0.1 倍为步进,在 5 个数据集上的 F-valve 和 G-mean 均值如图 4 所示. 综合考虑, KBMS 距离 值取 0.5 倍样本总数是最合适的. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (a) Diabetes Glass Wine Regulator RC 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (b) Diabetes Glass Wine Regulator F-value 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.4 0.6 0.8 1.0 The ratio of KBMS to the total number of samples CTG (c) Diabetes Glass Wine Regulator G-mean 0 图 4 BMS 算法参数分析. (a)RC 值分析;(b)F-valve 值分析;(c)G-mean 值分析 Fig.4 Parameter analysis of BMS: (a) analysis of the RC; (b) analysis of the F-valve; (c) analysis of the G-mean 3.5    结果分析 为消除随机因素的影响,取 5×10 折交叉验证 的方式,每次实验前随机生成训练集和测试集. 在 实验之前,运行一次交叉验证以确定正则化参数 C 和核参数 σ,模型参数标注在最后一列. 计算 50 个结果中 RC、F-value 和 G-mean 有效数据的统 计平均值,将最大值加粗表示;计算实验结果的标 准差,将最小值加粗表示. 结果如表 4. 表 4 F-value 和 G-mean 性能比较 Table 4 Comparison between the F-value and G-mean Data set Algorithm RC F-value G-mean Parameter value Mean Std Mean Std Mean Std C σ CTG SMOTE 1 0 0.9714 0.0782 0.9976 0.0045 0.1 4.9849 RU-SMOTE 1 0 0.9849 0.0389 0.9984 0.0034 1 4.9056 BMS 0.9983 0.0118 0.9825 0.0342 0.9972 0.0068 1 5.0038 RBNR 1 0 0.9870 0.0382 0.9988 0.0030 1 5.0123 Diabetes SMOTE 0.6966 0.0852 0.6515 0.0694 0.7318 0.0486 1 2.7590 RU-SMOTE 0.5775 0.1121 0.6330 0.0830 0.7079 0.0670 1 3.3938 BMS 0.6656 0.1102 0.6595 0.0801 0.7357 0.0652 0.1 3.0312 RBNR 0.7871 0.0895 0.6832 0.0624 0.7554 0.0497 0.1 3.0156 Glass SMOTE 0.8985 0.1529 0.8902 0.1125 0.9319 0.0865 10 1.2357 RU-SMOTE 0.8523 0.1934 0.8608 0.1266 0.8915 0.1558 10 1.2156 BMS 0.8656 0.2157 0.8909 0.1371 0.9062 0.1670 10 3.3978 RBNR 0.9086 0.1295 0.9062 0.0996 0.9416 0.0693 1 1.4562 Wine SMOTE 1 0 0.9818 0.0513 0.9949 0.0152 10 3.9758 RU-SMOTE 1 0 0.9770 0.0507 0.9914 0.0181 10 3.6135 BMS 0.9971 0.0202 0.9600 0.0827 0.9874 0.0230 100 4.0360 RBNR 1 0 0.9789 0.0454 0.9919 0.0146 10 3.7833 Regulator SMOTE 0.9272 0.1303 0.8496 0.1067 0.9314 0.0715 1000 1.5781 RU-SMOTE 0.9320 0.2114 0.8304 0.1118 0.8999 0.1931 10 4.7342 BMS 0.8685 0.1930 0.8731 0.1007 0.9025 0.1526 0.01 3.6821 RBNR 0.9075 0.1248 0.8947 0.1043 0.9361 0.0699 10 4.6943 由实验结果可以得出以下结论:① 无论是选 用 UCI 数据集还是电路实测数据进行训练 , RBNR 算 法 取 得 的 RC 均 值 、 F-value 均 值 和 G￾mean 均值在绝大多数情况下是最高的. ②虽然 李睿峰等: 基于空间近邻关系的非平衡数据重采样算法 · 867 ·
©2008-现在 cucdc.com 高等教育资讯网 版权所有