正在加载图片...
.688· 工程科学学报,第41卷,第5期 (a) (b) M 2 4 6 2 4 6 2 数据对象个数 数据对象个数 数据对象个数 d (e) ) M 01 0 N N■ M M■ 恒K L K K 2 10 50 100 150 数据对象个数 数据对象个数 数据对象个数 图2子集的属性值分布图.(a)子集C,的属性值分布图;(b)子集C2的属性值分布图:()子集C,的属性值分布图:(d)子集C,的属 性值分布图:(©)子集C,的属性值分布图:()子集C,的属性值分布图 Fig.2 Distribution of attribute values for six subsets:(a)distribution of subset C(b)distribution of subset C2(e)distribution of subset C (d)distribution of subset C(e)distribution of subset Cs;(f)distribution of subset C 2×4 [52+82+12+12 5+8+1+1 别,但其所属数据集的可取值个数不同,C,的属性域 4-1 4 4 有5个属性值:C的属性域有4个属性值.由图2 2×4 152+02+02+02 15+0+0+0 4-1× (c)和图2(d)可得,C,中的数据对象分布在全部可 4 4 取值上,而C,中各数据对象集中在5个可取值中的 0.2059, 4个属性值上,因此C,中各数据对象分布相对于C4 DCRP(C ,C2)=DCRPA,(CI,C2)= 更加集中,即从集中程度的角度判断,C3中各数据对 10.33-01+10.53-0.531+ 象的相似度更高.k-modes算法由于没有考虑到原 10-01+10-01=0.33. 数据集的全部信息,得到两子集的所有对象到类中 对比子集C,和C2,由于来自同一数据集,子集 心差异度和均为15,未识别出两子集的差异.但此 C,和C,在该属性上域是相同的.由图2(a)图2(b) 时CONC(C3,A,)>CONC(C4,A,),CONC更真实 可以看出C,中各属性值分布比C,更集中,且CONC 的反映了两个子集的不同.CONC可以综合考虑子 (C1,A,)>C0NC(C2,A1).但在k-modes算法中, 集所处的数据集本身的结构,即CONC在衡量类内 两数据集的各对象到类中心差异度和均为7,由于 相似性时不局限与类本身的信息,而是综合考虑了 此时判断类中的差异度时只衡量各数据对象和类中 整个数据集的全部信息.同理,对于CU指标,两个 心的差异度,故不能区分子集C,和C,的类内相似 子集P(A=IC)的计算结果也全部相同:对于 度.CONC不仅考虑到属性取值为K的数据对象, CDCS指标,两个子集的intra(π)值同为10.2857; 还综合考虑到其他取值.此外,由强度向量SV可以 对于E指标,两子集的E指标取值同为1.3734. 发现,子集C,中除了有8个数据对象取值为K,取 因此,F指标、CU指标、CDCS指标和E指标在评价 值为J的5个对象由于比例较高,不应被忽略.取 过程中未考虑整体数据集信息,在一定程度影响了 值为L和M的数据对象由于数量明显较低,在计算 评价效果 DCRP时不予考虑,从而消除了噪音影响.同理,对 对比子集C,和C6,由表1可知C6在所有属性值 于CDCS指标,两子集的intra(π)值同为34.1333; 上的数据对象同C,相比扩大了10倍.由图2(e)和 CU指标、CDCS指标、IE指标可以区分此情况.因 图2(d)可以发现,C,和C。的各属性值的集中程度相 此,F指标和CDCS指标受类中心影响很大,在一定 同.对于k-modes算法,两子集中各对象到类中心差 程度影响了评价效果 异度和分别为6和60,但此时CONC(C5,A,)= 对比子集C,和C4,由表1可知两子集本身无差 CONC(C6,A).此外,两子集的强度向量也相同.因工程科学学报,第 41 卷,第 5 期 图 2 子集的属性值分布图. (a) 子集 C1的属性值分布图; (b) 子集 C2的属性值分布图; (c) 子集 C3的属性值分布图; (d) 子集 C4的属 性值分布图; (e) 子集 C5的属性值分布图; (f) 子集 C6的属性值分布图 Fig. 2 Distribution of attribute values for six subsets: (a) distribution of subset C1 ; (b) distribution of subset C2 ; ( c) distribution of subset C3 ; (d) distribution of subset C4 ;(e) distribution of subset C5 ; (f) distribution of subset C6 2 伊 4 4 - 1 伊 [ 5 2 + 8 2 + 1 2 + 1 2 4 - ( 5 + 8 + 1 + 1 ) 4 ] 2 2 伊 4 4 - 1 伊 [ 15 2 + 0 2 + 0 2 + 0 2 4 - ( 15 + 0 + 0 + 0 ) 4 ] 2 = 0郾 2059, DCRP(C1 ,C2 ) = DCRPAj (C1 ,C2 ) = |0郾 33 - 0 | + |0郾 53 - 0郾 53 | + |0 - 0 | + |0 - 0 | = 0郾 33. 对比子集 C1和 C2 ,由于来自同一数据集,子集 C1和 C2在该属性上域是相同的. 由图 2(a)图 2(b) 可以看出 C1中各属性值分布比 C2更集中,且 CONC (C1 , A1 ) > CONC(C2 , A1 ). 但在 k鄄modes 算法中, 两数据集的各对象到类中心差异度和均为 7,由于 此时判断类中的差异度时只衡量各数据对象和类中 心的差异度,故不能区分子集 C1 和 C2 的类内相似 度. CONC 不仅考虑到属性取值为 K 的数据对象, 还综合考虑到其他取值. 此外,由强度向量 SV 可以 发现,子集 C1中除了有 8 个数据对象取值为 K,取 值为 J 的 5 个对象由于比例较高,不应被忽略. 取 值为 L 和 M 的数据对象由于数量明显较低,在计算 DCRP 时不予考虑,从而消除了噪音影响. 同理,对 于 CDCS 指标,两子集的 intra(仔)值同为 34郾 1333; CU 指标、CDCS 指标、IE 指标可以区分此情况. 因 此,F 指标和 CDCS 指标受类中心影响很大,在一定 程度影响了评价效果. 对比子集 C3和 C4 ,由表 1 可知两子集本身无差 别,但其所属数据集的可取值个数不同,C3的属性域 有 5 个属性值;C4 的属性域有 4 个属性值. 由图 2 (c)和图 2(d)可得,C4中的数据对象分布在全部可 取值上,而 C3中各数据对象集中在 5 个可取值中的 4 个属性值上,因此 C3中各数据对象分布相对于 C4 更加集中,即从集中程度的角度判断,C3中各数据对 象的相似度更高. k鄄modes 算法由于没有考虑到原 数据集的全部信息,得到两子集的所有对象到类中 心差异度和均为 15,未识别出两子集的差异. 但此 时 CONC(C3 , A1 ) > CONC(C4 , A1 ),CONC 更真实 的反映了两个子集的不同. CONC 可以综合考虑子 集所处的数据集本身的结构,即 CONC 在衡量类内 相似性时不局限与类本身的信息,而是综合考虑了 整个数据集的全部信息. 同理,对于 CU 指标,两个 子集 P( Aj = v j p | Ck) 的计算结果也全部相同;对于 CDCS 指标,两个子集的 intra(仔) 值同为 10郾 2857; 对于 IE 指标,两子集的 IE 指标取值同为 1郾 3734. 因此,F 指标、CU 指标、CDCS 指标和 IE 指标在评价 过程中未考虑整体数据集信息,在一定程度影响了 评价效果. 对比子集 C5和 C6 ,由表 1 可知 C6在所有属性值 上的数据对象同 C5相比扩大了 10 倍. 由图 2(e)和 图 2(d)可以发现,C5和 C6的各属性值的集中程度相 同. 对于 k鄄modes 算法,两子集中各对象到类中心差 异度和分别为 6 和 60,但此时 CONC (C5 , A1 ) = CONC(C6 , A1 ). 此外,两子集的强度向量也相同. 因 ·688·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有