傅立伟等: 基于属性值集中度的分类数据聚类有效性内部评价指标计算简便且拥

正在加载图片...

傅立伟等：基于属性值集中度的分类数据聚类有效性内部评价指标 .685· 计算简便且拥有良好的效果，是常用的外部评价方其中，I{x:∈C4l=}I为该类中取值为，的数据式.对于有n个数据对象的数据集，令π，={C, 对象的个数，记特征属性值的个数为n,(Ck,A). C2,…C}和π2={C,C,…C2}为其两个划分，特征属性值的搜索方法为：对于类C,在属性A,将 nc,和nc2为类个数.对于两个划分中的类C和类 DV(C4,A)中各元素从大到小的顺序重新排列得 C,IC∩C1为两个类共同的对象的个数，1C1和到DVm(Ck,A)=(d1,d2,…,d,…),l,为重新 IC2I分别为两个类的对象个数.记两个划分的NMI 排序后的角标.对DV(Ck,A)逐项求差后，得到值为NMI(π1，T2),则 eDVm(C,4y)=(,,…,）,其中n=dn1- NMI(π1，T2)= ,·搜索eDVm(C,A)中的最大值，取其角标 c:nCIxlog 2 n xl C n C2 I la在DVm(Ck,A)中搜索不小于dn的元素， I C I xI C2 I 这些元素对应的属性值为该类的特征属性值.搜索 I C I I C I 21C21×1og 特征属性值的过程如图1，其中灰色的属性值为特 n 征属性值.与DV不同，SV作用主要体现在两个方 (8) 面：(1)标识特征属性值，即SV并不描述每个属性值的取值情况，它只表示特征属性值的取值，对于其 2 聚类内部评价指标CVC相关定义他属性值，SV中对应元素取值为0，从而消除了噪聚类分析的主要思想是将相似的数据对象划分音影响：(2)SV在描述特征属性值取值情况时，采到同一个类中，从而使同一个类中的数据对象尽可用标准化方式进行处理，从而突出了类的特征属性能相似，不同类中的数据对象尽可能不同.对于分值强度类数据，相似度越高的类在各属性上取相同属性值的数据对象的个数越多.对于一个类的某一属性，属性可取值可以用属性值的集中程度表示数据对象之间的相似度，即集中程度越高，类内相似度越大.本节基于各 DV(C A 属性的集中程度，提出分类数据聚类内部有效性评价指标.对于数据集X的一个类C:的属性A:,记属 DV(C 性分布向量(DV)是一个有，个元素的向量，令 eDV(C.A DV(Ck,4)=(d,,…,d。,…),其中d=1{x:∈ Ck=}I,即d为属性A上取值为的数据对最大值象的个数，且立4，=1C1.当没有数据对象在该属图1特征属性值搜索示意图 p=l Fig.1 Schematic diagram for selecting the characteristic attribute 性上取值为时，d。=0. values 2.1基础定义 2.2类内相似度CONC 定义I:强度向量SV(strength of concentration 定义2：基于集中度的绝对类内相似度(absolute vector for a cluster).对于数据集X的任意一个类Ce similarity based on concentration,ACONC).C 的任意一个属性A,若数据对象的取值集中在某几在属性A,上取各属性值的数据对象个数越接近，即个属性值上，即DV(C,A)中存在明显较大的几个 DV(Ck,A)中的各个元素大小越接近，则类C在属元素，这些元素对应的属性值体现了类C:在A,上的性A表现出的相似度越差.反之，若类C,在属性A 主要特征，定义其为该类的特征属性值.为进一步上取某些属性值的数据对象越集中，即DV(Ck,A) 衡量各特征属性值的强度，定义类C在A,上的强度中的某几个元素明显大于其他元素，则类内的各数向量SV(Ck,A)为：据对象之间越相似，类C在属性A,上表现的类内相 SV(C4,A)=(,,…,2,…） (9) 似度越高.ACONC是通过衡量这个集中程度，判断 = 类内相似度.令Q(C,A)和M(C,A)分别为 I{x:∈C4l=}I ,,是该类特征属性值 DV(C,A)中各元素的平方平均数和算术平均数， ICl (10) 则该类在属性A,上的类内绝对相似度ACONC定义 0 ,。非该类特征属性值如下：傅立伟等: 基于属性值集中度的分类数据聚类有效性内部评价指标计算简便且拥有良好的效果,是常用的外部评价方式. 对于有 n 个数据对象的数据集,令仔1 = { C 1 1 , C 1 2 ,…C 1 nc1 } 和仔2 = {C 2 1 ,C 2 2 ,…C 2 nc2 }为其两个划分, nc1和 nc2为类个数. 对于两个划分中的类 C 1 t 和类 C 2 s , | C 1 t 疑C 2 s | 为两个类共同的对象的个数, | C 1 t | 和 | C 2 s |分别为两个类的对象个数. 记两个划分的 NMI 值为 NMI(仔1 ,仔2 ),则 NMI(仔1 ,仔2 ) = 移 nc1 t = 1 移 nc2 s = 1 | C 1 t 疑 C 2 s | 伊 log n 伊| C 1 t 疑 C 2 s | | C 1 t | 伊| C 2 s | 移 nc1 t = 1 | C 1 t | 伊 log | C 1 t | n 伊移 nc2 s = 1 | C 2 s | 伊 log | C 2 s | n (8) 2 聚类内部评价指标 CVC 相关定义聚类分析的主要思想是将相似的数据对象划分到同一个类中,从而使同一个类中的数据对象尽可能相似,不同类中的数据对象尽可能不同. 对于分类数据,相似度越高的类在各属性上取相同属性值的数据对象的个数越多. 对于一个类的某一属性, 可以用属性值的集中程度表示数据对象之间的相似度,即集中程度越高,类内相似度越大. 本节基于各属性的集中程度,提出分类数据聚类内部有效性评价指标. 对于数据集 X 的一个类 Ck的属性 Aj,记属性分布向量( DV) 是一个有 rj 个元素的向量,令 DV(Ck,Aj) = (a j 1 ,a j 2 ,…,a j p,…a j r j ),其中 a j p = | {xi 沂 Ck | x j i = v j p} | ,即 a j p 为属性 Aj上取值为 v j p 的数据对象的个数,且移 r j p = 1 a j p = | C | . 当没有数据对象在该属性上取值为 v j p 时,a j p = 0. 2郾 1 基础定义定义 1:强度向量 SV( strength of concentration vector for a cluster). 对于数据集 X 的任意一个类 Ck 的任意一个属性 Aj,若数据对象的取值集中在某几个属性值上,即 DV(Ck, Aj)中存在明显较大的几个元素,这些元素对应的属性值体现了类 Ck在 Aj上的主要特征,定义其为该类的特征属性值. 为进一步衡量各特征属性值的强度,定义类 Ck在 Aj上的强度向量 SV(Ck, Aj)为: SV(Ck,Aj) = (s j 1 ,s j 2 ,…,s j p,…s j r j ) (9) s j p = | {xi沂Ck | x j i = v j p} | | Ck | ,v j p 是该类特征属性值 0 ,v j p ì î í ïï ïï 非该类特征属性值 (10) 其中, | {xi沂Ck | x j i = v j p} | 为该类中取值为 v j p 的数据对象的个数,记特征属性值的个数为 ns (Ck, Aj ). 特征属性值的搜索方法为:对于类 Ck在属性 Aj,将 DV(Ck, Aj)中各元素从大到小的顺序重新排列得到 DVsort(Ck,Aj) = (a j l1 ,a j l2 ,…,a j lp ,…a j l r j ),l p为重新排序后的角标. 对 DVsort(Ck, Aj)逐项求差后,得到 eDVsort(Ck,Aj) = ( e j 1 ,e j 2 ,…,e j l r j - 1 ),其中e j lp = a j lp + 1 - a j lp . 搜索 eDVsort ( Ck, Aj ) 中的最大值,取其角标 l target . 在 DVsort(Ck, Aj)中搜索不小于 a j l target的元素, 这些元素对应的属性值为该类的特征属性值. 搜索特征属性值的过程如图 1,其中灰色的属性值为特征属性值. 与 DV 不同,SV 作用主要体现在两个方面:(1)标识特征属性值,即 SV 并不描述每个属性值的取值情况,它只表示特征属性值的取值,对于其他属性值,SV 中对应元素取值为 0,从而消除了噪音影响;(2) SV 在描述特征属性值取值情况时,采用标准化方式进行处理,从而突出了类的特征属性值强度. 图 1 特征属性值搜索示意图 Fig. 1 Schematic diagram for selecting the characteristic attribute values 2郾 2 类内相似度 CONC 定义2:基于集中度的绝对类内相似度(absolute similarity based on concentration,ACONC). 若类 Ck 在属性 Aj上取各属性值的数据对象个数越接近,即 DV(Ck, Aj)中的各个元素大小越接近,则类 Ck在属性 Aj表现出的相似度越差. 反之,若类 Ck在属性 Aj 上取某些属性值的数据对象越集中,即 DV(Ck, Aj) 中的某几个元素明显大于其他元素,则类内的各数据对象之间越相似,类 Ck在属性 Aj上表现的类内相似度越高. ACONC 是通过衡量这个集中程度,判断类内相似度. 令 Q( Ck, Aj ) 和 M( Ck, Aj ) 分别为 DV(Ck, Aj)中各元素的平方平均数和算术平均数, 则该类在属性 Aj上的类内绝对相似度 ACONC 定义如下: ·685·

<<向上翻页向下翻页>>

点击下载：基于属性值集中度的分类数据聚类有效性内部评价指标