正在加载图片...
·1084· 智能系统学报 第15卷 加实例将存在如下6种情况:1)只增加有标记实 为:CPU Intel(R)Core(TM)i5-6500(3.20Hz),内存 例{}={[a,b,*,0.62,0],原属性约简能够维持最大 8.0GB,操作系统为Windows10,采用Python编 区分度,根据性质2属性约简集维持不变,ed= 程语言,开发工具为Pycharm2018.2.4。 {ca:2)只增加有标记实例{x}={[a,a,*,0.62,0]l, 表2数据集描述 原属性约简无法维持最大区分度,3c∈C-red'使 Table 2 Description of UCI data sets 得RSig(c,C-c,△Pairad)≠0,根据性质2可知red'= 数据集 实例个数 属性个数属性值缺失 {c2}不满足约简条件,在算法2的4)中属性约简 Automobile 205 26 是 更新为ed={c4,c2};3)只增加无标记的实例 Soybean(Large) 307 35 是 {x}={[b,a,b,0.68,*,同理根据性质2属性约简集 Dermatology 366 34 是 维持不变,red={ca;4)只增加无标记的实例 Cylinder Bands 512 40 {x}={[b,a,*,0.62,0,原属性约简集无法维持最大 shroom 8124 22 是 区分度,同理属性约简更新为red={c4,c;5)同 Letter Recognition 20000 17 否 时增加有标记的实例{}={[a,b,*,0.77,1]}和无标 记的实例{xs}={[b,a,a,0.65,*,同理属性约简集维 本节详细讨论标记缺失对算法1的影响,首 持不变,red={c;6)同时增加有标记的实例 先以数据集的40%为基础数据,数据集大小的 {x}={[a,b,*,0.77,1]}和无标记的实例{xg}={[b,a,a, 10%为梯度递增,对数据集的标记进行随机缺失 0.65,,原属性约简无法维持最大区分度,同理可 处理。然后分别对弱标记的数据(weak labeled 得属性约简集更新为red'={c4,c3l。 data)采用算法I(WIDAR)、SemiD算法 通过上述实例分析可知,本文算法1采用相 Semi P算法o进行属性约简,并和算法1对有标 对重要度为属性重要度的度量标准,在迭代过程 记数据(Labeled data)的约简结果进行比较分析。 中不断剔除当前属性集已能够区分的区分对和相 对属性约简结果的分类性能评估,将采用KNN、 对冗余的属性,使得每次迭代的搜索空间不断缩 CART、Naive Bayes三个分类器的精度作为约简 减,避免了大量的重复计算。算法2通过分析实 结果的评价指标,将Automobile、Soybean、Derma- tology、Cylinder Bands数据集随机分为两部分,一 例动态变化对原属性约简集的影响,在实例变化 部分作为训练集,另一部分作为测试集,获取分 后动态获取属性约简集,无需重新计算属性约简 类精度;Mushroom和Letter Recognition数据集采 集。在删除实例后,对可能存在的冗余属性逆向 用10倍交叉验证,获取分类精度。针对数据中的 剔除:增加实例后,通过搜索原属性约简集无法 连续型属性,本文的6计算方式为6=(S:/n)/d, 辨识的区分对,确定算法的搜索空间。为弱标记 其中,S,为每个连续型属性的标准差,S:/n为连 混合数据的属性约简提供了一种可借鉴的处理 续型属性标准差的平均值,由于每个数据集的连 方法。 续型属性的平均标准差为固定值,6的取值由入 5实验分析 决定2。在本文中先对连续型的属性采用Min- Max Normalization归一化方法处理,d取0.6。由 为进一步验证本文算法的有效性,从UCI数 于Semi P和Semi D算法的属性约简结果的分类 据集中选取了6个真实数据集进行测试和分析, 精度基本相同,本节以Semi D算法为例进行比 数据的详细信息如表2所示。实验的运行环境 较分析,实验结果如图35所示。 1.0r WIDAR 0.7 ◆WIDAR Labeled data -Labeled data 0.9 -o-Semi D 0.6 o-Semi D 09 0.7 04 0.6 0.3 0.5d 02 0.4 0.1 40 50 60 70 0 40 50 60 70 80 90 标记缺失比例/% 标记缺失比例% (a)Automobile (b)Soybean (Large){x7} = {[a,b,∗,0.62,0]} red′ = {c4} {x7} = {[a,a,∗,0.62,0]} ∃c ∈ C −red′ RSig(c,C −c,∆Pairad) , 0 red′ = {c2} red′ = {c4, c2} {x7} = {[b,a,b,0.68,∗]} red′ = {c4} {x7} = {[b,a,∗,0.62,0]} red′ = {c4, c1} {x7} = {[a,b,∗,0.77,1]} {x8} = {[b,a,a,0.65,∗]} red′ = {c4} {x7} = {[a,b,∗,0.77,1]} {x8} = {[b,a,a, 0.65,∗]} red′ = {c4, c3} 加实例将存在如下 6 种情况:1) 只增加有标记实 例 ,原属性约简能够维持最大 区分度,根据性质 2 属性约简集维持不变, ; 2) 只增加有标记实例 , 原属性约简无法维持最大区分度, 使 得 ,根据性质 2 可知 不满足约简条件,在算法 2 的 4) 中属性约简 更新为 ; 3 ) 只增加无标记的实例 ,同理根据性质 2 属性约简集 维持不变, ; 4 ) 只增加无标记的实例 ,原属性约简集无法维持最大 区分度,同理属性约简更新为 ;5) 同 时增加有标记的实例 和无标 记的实例 ,同理属性约简集维 持不变, ; 6 ) 同时增加有标记的实例 和无标记的实例 ,原属性约简无法维持最大区分度,同理可 得属性约简集更新为 。 通过上述实例分析可知,本文算法 1 采用相 对重要度为属性重要度的度量标准,在迭代过程 中不断剔除当前属性集已能够区分的区分对和相 对冗余的属性,使得每次迭代的搜索空间不断缩 减,避免了大量的重复计算。算法 2 通过分析实 例动态变化对原属性约简集的影响,在实例变化 后动态获取属性约简集,无需重新计算属性约简 集。在删除实例后,对可能存在的冗余属性逆向 剔除;增加实例后,通过搜索原属性约简集无法 辨识的区分对,确定算法的搜索空间。为弱标记 混合数据的属性约简提供了一种可借鉴的处理 方法。 5 实验分析 为进一步验证本文算法的有效性,从 UCI 数 据集中选取了 6 个真实数据集进行测试和分析, 数据的详细信息如表 2 所示。实验的运行环境 为:CPU Intel(R)Core(TM)i5-6500(3.20 Hz),内存 8.0 GB,操作系统为 Windows 10,采用 Python 编 程语言,开发工具为 Pycharm 2018.2.4。 表 2 数据集描述 Table 2 Description of UCI data sets 数据集 实例个数 属性个数 属性值缺失 Automobile 205 26 是 Soybean(Large) 307 35 是 Dermatology 366 34 是 Cylinder Bands 512 40 否 shroom 8124 22 是 Letter Recognition 20000 17 否 δ δ = (S i/n)/λ S i S i/n δ λ λ 本节详细讨论标记缺失对算法 1 的影响,首 先以数据集的 40% 为基础数据,数据集大小的 10% 为梯度递增,对数据集的标记进行随机缺失 处理。然后分别对弱标记的数据 (weak labeled data) 采用算法 1(WIDAR)、Semi_D 算法[ 1 3 ] 、 Semi_P 算法[10] 进行属性约简,并和算法 1 对有标 记数据 (Labeled data) 的约简结果进行比较分析。 对属性约简结果的分类性能评估,将采用 KNN、 CART、Naive Bayes 三个分类器的精度作为约简 结果的评价指标,将 Automobile、Soybean、Derma￾tology、Cylinder Bands 数据集随机分为两部分,一 部分作为训练集,另一部分作为测试集,获取分 类精度;Mushroom 和 Letter Recognition 数据集采 用 10 倍交叉验证,获取分类精度。针对数据中的 连续型属性,本文的 计算方式为 , 其中, 为每个连续型属性的标准差, 为连 续型属性标准差的平均值,由于每个数据集的连 续型属性的平均标准差为固定值, 的取值由 决定[22]。在本文中先对连续型的属性采用 Min￾Max Normalization 归一化方法处理, 取 0.6。由 于 Semi_P 和 Semi_D 算法的属性约简结果的分类 精度基本相同,本节以 Semi_D 算法为例进行比 较分析,实验结果如图 3~5 所示。 WIDAR Labeled data Semi_D WIDAR Labeled data Semi_D 40 50 60 70 80 90 0.4 0.5 0.6 0.7 0.8 0.9 1.0 分类精度 标记缺失比例/% (a) Automobile 40 50 60 70 80 90 0.1 0.2 0.3 0.4 0.5 0.6 0.7 分类精度 标记缺失比例/% (b) Soybean (Large) ·1084· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有