正在加载图片...
傅立伟等:基于属性值集中度的分类数据聚类有效性内部评价指标 ·687· 虑数据集各属性上的所有属性值,充分利用了整个2.4聚类内部评价指标CVC 数据集的信息,反映了类C中各属性值的集中 CONC体现了类中各属性值的集成程度,从而 程度 衡量类内各数据对象的相似度,DCRP依托SV的差 2.3类间差异度DCRP 异衡量类间的差异度.基于CONC和DCRP,构建基 特征属性值体现了类的主要信息,因此对于数 于属性值集中度的内部评价指标(clustering valida- 据集X任意两个类,类间差异度主要体现在两个类 tion based on concentration of attribute values,CVC). 在各特征属性值的差异程度,即强度向量SV的差 令Sim(π)为各个类的类内相似度,dis(π)为类间 异程度. 差异度,w为一个整数参数则 定义4:基于强度向量差异的类间差异度(ds- CVC(r)=Sim(π)×dis(π) (16) similarity based on discrepancy of SVs,DCRP).DCRP 通过两个类特征属性值的差异衡量两个类的类间差 Sim(r)=台 coxc(C) (17) 异度.令DCRPA,(C,C,)为类C和类C,在属性A,上 ne lo 的差异度,DCRP(C,C,)表示类C,和类C,的差异 2"2芝DCRP(C,C,) 度,两个类的强度向量分别为SV(C,A)=(,, dis(π)=白e1 nc×(nc-1) (18) …,小,…,)和SV(C,A)=(,,…,,…, 其中,当类内相似度Sim(π)或类间差异度dis(π) ),则 越大,即CVC越大时,聚类效果越好 DCRP,(C,,C,)= (14) 3示例及特性 n=1 3.1CONC及DCRP示例及特性 DCRP(C.,C,)= ∑DCRP,(C,C,)(I5) 假设C1、C2、C3、C4、C5、C6为6个一维分类数据 其中,I3-|为s与sm差的绝对值.通过对比不 子集,属性均记为A,属性的可取值分别用J、K、L、 同类的强度向量差异,DCRP聚焦两个类特征属性 M、N、O、P标识.各子集的属性分布向量DV见表 值,选择性地忽略了其他属性值的影响,从而有效避 1,其中C,、C,来自同一个数据集,C,∩C2=0.数据 免了噪音的影响 对象分布图见图2. 表16个子集的DV向量表 Table 1 Distribution vector for six subsets 子集 属性取值 C C2 C3 Ca Cs Cs 5 3 6 6 14 140 K 8 5 5 1 10 L 1 3 5 5 1 10 M 10 N 0 10 0 1 10 P 1 10 域值个数 4 7 7 数据对象个数 公 15 之 21 20 200 ACONC 23.17 16.5 11.4 0.5 48.29 4828.57 ACONC- 112.5 112.5 176.4 220.5 114.29 11428.57 属性的CONC 0.2059 0.1467 0.0646 0.0023 0.4225 0.4225 各子集的强度向量为SV(C1,A1)=(0.33, 0),SV(C6,A1)=(0.70,0,0,0,0,0,0).以子集C1 0.53,0,0),SV(C2,A1)=(0,0.53,0,0),SV(C3, 为例计算CONC,以C,和C,为例,计算DCRP如下: A1)=(0.29,0.24,0.24,0.24,0),SV(C4,A1)= ACONC(C,A) (0.29,0,0,0,0),SV(C5,A1)=(0.70,0,0,0,0,0, CONC(C,)=CONC(C)=ACONC(C)=傅立伟等: 基于属性值集中度的分类数据聚类有效性内部评价指标 虑数据集各属性上的所有属性值,充分利用了整个 数据集的信息, 反映了类 Ck 中各属性值的集中 程度. 2郾 3 类间差异度 DCRP 特征属性值体现了类的主要信息,因此对于数 据集 X 任意两个类,类间差异度主要体现在两个类 在各特征属性值的差异程度,即强度向量 SV 的差 异程度. 定义 4:基于强度向量差异的类间差异度( dis鄄 similarity based on discrepancy of SVs,DCRP). DCRP 通过两个类特征属性值的差异衡量两个类的类间差 异度. 令DCRPAj (Cs,Ct)为类 Cs和类 Ct在属性 Aj上 的差异度,DCRP(Cs, Ct) 表示类 Cs和类 Ct 的差异 度,两个类的强度向量分别为 SV(Cs,Aj) = (s j 1s,s j 2s, …,s j ps,…,s j r j s ) 和 SV( Ct,Aj ) = ( s j 1t,s j 2t,…,s j pt,…, s j r j t),则 DCRPAj (Cs,Ct) = 移 r j p = 1 |s j ps - s j pt | (14) DCRP(Cs,Ct) = 移 m j = 1 DCRPAj (Cs,Ct) (15) 其中, |s j ps - s j pt | 为 sps与 spt差的绝对值. 通过对比不 同类的强度向量差异,DCRP 聚焦两个类特征属性 值,选择性地忽略了其他属性值的影响,从而有效避 免了噪音的影响. 2郾 4 聚类内部评价指标 CVC CONC 体现了类中各属性值的集成程度,从而 衡量类内各数据对象的相似度,DCRP 依托 SV 的差 异衡量类间的差异度. 基于 CONC 和 DCRP,构建基 于属性值集中度的内部评价指标( clustering valida鄄 tion based on concentration of attribute values,CVC). 令 Sim(仔)为各个类的类内相似度,dis(仔) 为类间 差异度,棕 为一个整数参数则 CVC(仔) = Sim(仔) 伊 dis(仔) (16) Sim(仔) = 移 nc k = 1 CONC(Ck) nc 1 / 棕 (17) dis(仔) = 2 移 nc - 1 s = 1 移 nc t = s + 1 DCRP(Cs,Ct) nc 伊 (nc - 1) (18) 其中,当类内相似度 Sim(仔)或类间差异度 dis(仔) 越大,即 CVC 越大时,聚类效果越好. 3 示例及特性 3郾 1 CONC 及 DCRP 示例及特性 假设 C1 、C2 、C3 、C4 、C5 、C6为 6 个一维分类数据 子集,属性均记为 A1 ,属性的可取值分别用 J、K、L、 M、N、O、P 标识. 各子集的属性分布向量 DV 见表 1,其中 C1 、C2来自同一个数据集,C1疑C2 = 芰. 数据 对象分布图见图 2. 表 1 6 个子集的 DV 向量表 Table 1 Distribution vector for six subsets 属性取值 子集 C1 C2 C3 C4 C5 C6 J 5 2 6 6 14 140 K 8 8 5 5 1 10 L 1 3 5 5 1 10 M 1 2 5 5 1 10 N 0 1 10 O 1 10 P 1 10 域值个数 4 4 5 4 7 7 数据对象个数 15 15 21 21 20 200 ACONC 23郾 17 16郾 5 11郾 4 0郾 5 48郾 29 4828郾 57 ACONCmax 112郾 5 112郾 5 176郾 4 220郾 5 114郾 29 11428郾 57 属性的 CONC 0郾 2059 0郾 1467 0郾 0646 0郾 0023 0郾 4225 0郾 4225 各子集的强度向量为 SV( C1 , A1 ) = (0郾 33, 0郾 53,0,0),SV(C2 , A1 ) = (0,0郾 53,0,0),SV(C3 , A1 ) = (0郾 29,0郾 24,0郾 24,0郾 24,0),SV( C4 , A1 ) = (0郾 29,0,0,0,0),SV(C5 , A1 ) = (0郾 70,0,0,0,0,0, 0),SV(C6 , A1 ) = (0郾 70,0,0,0,0,0,0). 以子集 C1 为例计算 CONC,以 C1和 C2为例,计算 DCRP 如下: CONC(C1 ) = CONC(C1 ,A1 ) = ACONC(C1 ,A1 ) ACONCmax(C1 ,A1 ) = ·687·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有