正在加载图片...
第5期 马楠等:一种模糊认知图分类器构造方法 ·593· 1 P=1-1+exp (I Fitness-Fitness"1)' (7) 1.0 式中:P和P分别表示第i个种群的交叉概率和变 异概率;Fitness表示适应度大于该种群个体平均适 应度的个体平均适应度;itness"表示适应度小于该 种群个体平均适应度的所有个体平均适应度;参数 0.4 k1>0,k2<0. 2.5.3终止条件 在模型学习过程中,适度的终止条件对分类性 50 100150200250300 迭代次数 能至关重要.本文利用总错误率Er指标作为终止 条件设置的标准.Er的设置方法参见2.2节.当 图2不同迭代次数下的算法精度 Fig.2 Accuracy of the algorithms in different iterations Er≤ε时算法终止 3.3性能比较 3 实验验证 为更好地体现对比实验的有效性,用本文模型 3.1数据集 与C4.5、SVM和BP神经网络这三种经典的分类方 综合样本集的样本规模、属性个数等因素,选用 法进行了比较.其中,BP神经网络输入层神经元数 差异较大的四个UCI数据集6,如表1所示.为方 目由各数据集属性个数m决定,网络输出应为分类 便测试,对这四个数据集进行如下处理:Car采用 结果,其数目应与各数据集期望输出结果(类别)数 Unacc和Acc两类样本,它们占样本总量的 目相对应,采用包含一个隐层的神经网络结构,经 92.24%,其中将Unace标为类别1,Acc标注为类别 比较计算,隐层神经元数目定为8.因此,网络结构 0:Iis采用Setosa和Versicolour两类样本,占Iris总 为m8m.实验采用了Sigmod函数,参见式(3),学 样本数量的66.7%,其中将Setosa标为类别1, 习速率取7=0.01,最大训练迭代为1000次 Versicolour标注为类别0:Wine采用其中的Class1 SVM最初用于解决模式识别问题,主要思想 和Class2类样本,占Wine总样本数量的70.0%,实 是:通过某种事先定义的非线性映射,将输入向量映 验中分别被标注为1类和0类:所有数据集属性值 射到一个高维特征空间,在这个空间中构成一个超 均为实数.Steel Annealing是较难处理的数据集,去 平面作为决策曲面.它克服了神经网络学习过程中 掉其中的非实数型属性,并利用过滤器清除噪声数 易过学习、欠学习的缺点,常用于小样本、高维、非线 据叼,选取Class3和Class5两类样本,分别标注为 性的数据集分类问题中.实验中,取RBF(radial 1类和0类,它们占样本总量的85%. basis function)为算法核函数阁,即 表1实验采用UCI数据集 Table 1 UCI data set =-2] 数据集 属性数目 类数目 样本数量 实验中,=1.0,惩罚因子C=10.实验结果如 Car 6 4 1728 图3所示 Iris 4 3 150 由图3可知:在Car、ris、Wine和Steel Annea- Wine 13 3 178 lig四个数据集中,本文模型均好于其他三种分类 Steel annealing 子 798 方法:C4.5、SVM与BP神经网络三种方法性能互有 优劣,其中除Steel Annealing外,SVM在其他三个数 3.2算法参数对模糊认知图分类器模型的影响 据集上性能均不逊于C4.5和BP神经网络(在 为了测试在不同的循环次数对模型运行精度的 Wine数据集上SVM和BP神经网络性能相当):除 影响,分别考虑采用循环次数在50、100、150、200、 Steel Annealing外,BP神经网络在其他三个数据集 250和300次的情况下,模型在四个数据集上的收 上性能均优于C4.5. 敛情况.算法运行完毕后,模型的收敛情况如图2 3.4噪声对分类性能的影响 所示. 为比较分类器鲁棒性能,采用文献19]的方法 可以看到:尽管在四个数据集上略有区别,但在 按不同噪声测度r在四个UCI数据集中增加噪声, 循环次数达到200次以后,FCMCM均趋向稳定. 按照T=0、?=5%、?=10%和T=15%不同噪声测第 5 期 马 楠等: 一种模糊认知图分类器构造方法 Pmi = 1 - 1 1 + exp( k2 | Fitness' - Fitness″| ) . ( 7) 式中: Pci和 Pmi分别表示第 i 个种群的交叉概率和变 异概率; Fitness'表示适应度大于该种群个体平均适 应度的个体平均适应度; Fitness″表示适应度小于该 种群个体平均适应度的所有个体平均适应度; 参数 k1 > 0,k2 < 0. 2. 5. 3 终止条件 在模型学习过程中,适度的终止条件对分类性 能至关重要. 本文利用总错误率 Err 指标作为终止 条件设置的标准. Err 的设置方法参见 2. 2 节. 当 Err≤ε 时算法终止. 3 实验验证 3. 1 数据集 综合样本集的样本规模、属性个数等因素,选用 差异较大的四个 UCI 数据集[16],如表 1 所示. 为方 便测试,对这四个数据集进行如下处理: Car 采用 Unacc 和 Acc 两 类 样 本,它们占样本总量的 92. 24% ,其中将 Unacc 标为类别 1,Acc 标注为类别 0; Iris 采用 Setosa 和 Versicolour 两类样本,占 Iris 总 样本 数 量 的 66. 7% ,其 中 将 Setosa 标 为 类 别 1, Versicolour标注为类别 0; Wine 采用其中的 Class 1 和 Class 2 类样本,占 Wine 总样本数量的70. 0% ,实 验中分别被标注为 1 类和 0 类; 所有数据集属性值 均为实数. Steel Annealing 是较难处理的数据集,去 掉其中的非实数型属性,并利用过滤器清除噪声数 据[17],选取 Class 3 和 Class 5 两类样本,分别标注为 1 类和 0 类,它们占样本总量的 85% . 表 1 实验采用 UCI 数据集 Table 1 UCI data set 数据集 属性数目 类数目 样本数量 Car 6 4 1 728 Iris 4 3 150 Wine 13 3 178 Steel annealing 38 5 798 3. 2 算法参数对模糊认知图分类器模型的影响 为了测试在不同的循环次数对模型运行精度的 影响,分别考虑采用循环次数在 50、100、150、200、 250 和 300 次的情况下,模型在四个数据集上的收 敛情况. 算法运行完毕后,模型的收敛情况如图 2 所示. 可以看到: 尽管在四个数据集上略有区别,但在 循环次数达到 200 次以后,FCMCM 均趋向稳定. 图 2 不同迭代次数下的算法精度 Fig. 2 Accuracy of the algorithms in different iterations 3. 3 性能比较 为更好地体现对比实验的有效性,用本文模型 与 C4. 5、SVM 和 BP 神经网络这三种经典的分类方 法进行了比较. 其中,BP 神经网络输入层神经元数 目由各数据集属性个数 m 决定,网络输出应为分类 结果,其数目应与各数据集期望输出结果( 类别) 数 目 n 相对应,采用包含一个隐层的神经网络结构,经 比较计算,隐层神经元数目定为 8. 因此,网络结构 为 m--8--n. 实验采用了 Sigmod 函数,参见式( 3) ,学 习速率取 η = 0. 01,最大训练迭代为 1 000 次. SVM 最初用于解决模式识别问题,主要思想 是: 通过某种事先定义的非线性映射,将输入向量映 射到一个高维特征空间,在这个空间中构成一个超 平面作为决策曲面. 它克服了神经网络学习过程中 易过学习、欠学习的缺点,常用于小样本、高维、非线 性的数据集分类问题中. 实 验 中,取 RBF ( radial basis function) 为算法核函数[18],即 k( x,y) = [ exp - ( x - y) 2 2ξ 2 ] . 实验中,ξ = 1. 0,惩罚因子 C = 10. 实验结果如 图 3 所示. 由图 3 可知: 在 Car、Iris、Wine 和 Steel Annea￾ling 四个数据集中,本文模型均好于其他三种分类 方法; C4. 5、SVM 与 BP 神经网络三种方法性能互有 优劣,其中除 Steel Annealing 外,SVM 在其他三个数 据集上 性 能 均 不 逊 于 C4. 5 和 BP 神 经 网 络 ( 在 Wine 数据集上 SVM 和 BP 神经网络性能相当) ; 除 Steel Annealing 外,BP 神经网络在其他三个数据集 上性能均优于 C4. 5. 3. 4 噪声对分类性能的影响 为比较分类器鲁棒性能,采用文献[19]的方法 按不同噪声测度 τ 在四个 UCI 数据集中增加噪声, 按照 τ = 0、τ = 5% 、τ = 10% 和 τ = 15% 不同噪声测 ·593·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有