正在加载图片...
·686· 工程科学学报,第41卷,第5期 ACONC(C,A,)= (C,A)=0.若d。=|C41,d==…=d。-1= 产[0G4-MG4月 (11) 心1=…=心=0,即全部数据对象取相同属性值, 此时ACONC(C,A)取值最大,类C中数据对象在 属性A,上集中程度最高,记此时ACONC为ACONC 其中,Q(Ck,A)= M(C,A)= (C4,A). 三号ACONC(C,)表示DvV(C,)中任意两 定理2:对于类C:上的任意一个属性A,所有数 据对象取值相同时ACONC取最大值. 项差的平方和的均值,即DV(Ck,A)反映了各元素 证明: 之间的差异情况,体现了属性A,上各属性值上数据 对于类C:上的任意一个属性A,令,为可取值 对象的集中程度.当ACONC(C:,A;)越大,DV(C, 个数.记其ACONC为ACONC(C4,A),d为其DV A)中各元素大小相差越大,属性值集中度越高.反 向量的任意一个元素,I≤p≤r其DV向量各元素 之,属性值集中度越低.因此,ACONC(Ce,A)越 的平方平均数和算数平均数为Q,M.当类中所有数 大,类内相似度越高. 据对象取值相同时,记此时ACONC为ACONC 定理1:AC0NC(Ck,A)为类Ck属性A,上 (C4,A),其DV向量各元素的平方平均数和算数 DV(C:,A)中任意两项差的平方和的均值 平均数为Qr,M故Q2=(∑d.), 证明: M=M=(∑d),则 ACONC(C,A)-ACONC(C,A)= 名4-(三4+三至川 Q--Q-r1= 2(Σ°-(∑)°- %-n会听-2三三4小 Σ(d)+(Σd)]= 至立d-川 2I(4)-(a] 式中,么(a,-a,)尸为C=[巧×(-1)] 三+ ÷(军三dd)0 2项的和. 故ACONC(C,A)≥ACONC(C,A,),即类 ACONC(C:,A,)= C:中所有数据对象取值相同时,ACONC取最大值. 产[0G4r-G- 证明完毕 定义3:基于属性值集中度的类内相似度(simi- 产引层三以川 larity based on concentration of attribute values, CONC).将ACONC标准化处理后得到CONC,令 至龙d- CONC(C:,A)表示类C,在属性A,上的相似度.在 [巧×(-1)]/2= 综合考虑特征属性值个数n,(C:,A,)和类中数据对 象个数比重后,定义类的类内相似度CONC(C:),则 至2d-d小: CONC(C,A,)= 5=1t=s+1 C ACONC(Ck,A)子×Q(Ck,A)2-1Ck2 ACONC(Ck,A)为类C.在属性A上DV(Ck, ACONC(C,A (5,-1)×1C42 4)中任意两项差的平方和的均值.证明完毕 (12) 由均值不等式可得Q(C,A)≥M(Ck,A),当 ICCONC(CA (13) 且仅当d==…=d时,Q(Ck,A)=M(C4,A). C0NC(C)=xI-m名n,(CA) 此时,数据对象在各属性值上平均分布,即ACONC CONC在衡量每个类的类内相似度时,统筹考工程科学学报,第 41 卷,第 5 期 ACONC(Ck,Aj) = 2rj rj - 1 [Q(Ck,Aj) 2 - M(Ck,Aj) 2 ] (11) 其 中 , Q ( Ck , Aj ) = 移 r j p = 1 (a j p) 2 rj , M(Ck,Aj) = 移 r j p = 1 a j p rj . ACONC(Ck, Aj)表示 DV(Ck, Aj)中任意两 项差的平方和的均值,即 DV(Ck, Aj)反映了各元素 之间的差异情况,体现了属性 Aj上各属性值上数据 对象的集中程度. 当 ACONC(Ck, Aj)越大,DV(Ck, Aj)中各元素大小相差越大,属性值集中度越高. 反 之,属性值集中度越低. 因此,ACONC(Ck, Aj ) 越 大,类内相似度越高. 定理 1: ACONC ( Ck, Aj ) 为 类 Ck 属 性 Aj 上 DV(Ck, Aj)中任意两项差的平方和的均值. 证明: Q(Ck,Aj) 2 - M(Ck,Aj) 2 = 移 r j p = 1 a j2 p rj æ è ç - ç 移 r j p = 1 a j p r ö ø ÷÷ j 2 = 1 r 2 [ j rj 移 r j p = 1 a j2 p - ( 移 r j p = 1 a j2 p + 2 移 r j-1 s = 1 移 r j t = s+1 a j s·a ) ] j t = 1 r 2 [ j (rj - 1) 移 r j p = 1 a j2 p - 2 移 r j-1 s = 1 移 r j t = s+1 a j s·a ] j t = 1 r 2 [ j 移 r j-1 s = 1 移 r j t = s+1 (a j s - a j t) ] 2 上式中, 移 r j-1 s = 1 移 r j t = s+1 (as - at) 2 为 C 2 r j = [rj 伊 (rj - 1)] / 2 项的和. ACONC(Ck,Aj) = 2rj rj - 1 [Q(Ck,Aj) 2 - M(Ck,Aj) 2 ] = 2rj rj - 1 · 1 r 2 [ j 移 r j-1 s = 1 移 r j t = s+1 (a j s - a j t) ] 2 = 移 r j-1 s = 1 移 r j t = s+1 (a j s - a j t) 2 [rj 伊 (rj - 1)] / 2 = 移 r j-1 s = 1 移 r j t = s+1 (a j s - a j t) 2 C 2 r j ACONC(Ck, Aj ) 为类 Ck 在属性 Aj 上 DV(Ck, Aj)中任意两项差的平方和的均值. 证明完毕. 由均值不等式可得 Q(Ck, Aj)逸M(Ck, Aj),当 且仅当 a j 1 = a j 2 = … = a j r j时,Q(Ck, Aj) = M(Ck, Aj). 此时,数据对象在各属性值上平均分布,即 ACONC (Ck, Aj ) = 0. 若 a j p = | Ck | ,a j 1 = a j 2 = … = a j p - 1 = a j p + 1 = … = a j r j = 0,即全部数据对象取相同属性值, 此时 ACONC(Ck, Aj)取值最大,类 Ck中数据对象在 属性 Aj上集中程度最高,记此时 ACONC 为ACONCmax (Ck, Aj). 定理 2:对于类 Ck上的任意一个属性 Aj,所有数 据对象取值相同时 ACONC 取最大值. 证明: 对于类 Ck上的任意一个属性 Aj,令 rj为可取值 个数. 记其 ACONC 为 ACONC(Ck, Aj),a j p 为其 DV 向量的任意一个元素,1臆p臆rj . 其 DV 向量各元素 的平方平均数和算数平均数为 Q,M. 当类中所有数 据对象取值相同时,记此时 ACONC 为 ACONCmax (Ck, Aj),其 DV 向量各元素的平方平均数和算数 平均 数 为 Qmax, Mmax . 故 Q 2 max = ( 移 a ) j p 2 / rj, Mmax = M = ( 移 a ) j p / rj,则 ACONCmax(Ck,Aj) - ACONC(Ck,Aj) = 2rj rj - 1 [Q 2 max - M 2 max) - (Q 2 - M 2 )] = 2 rj [ ( - 1 移 a ) j t 2 - ( 移 a ) j t 2 / rj - 移 (a j t) 2 + ( 移 a ) j t 2 / rj ] = 2 rj [ ( - 1 移 a ) j t 2 - 移 (a j t) ] 2 = 4 rj ( - 1 移 r j-1 s = 1 移 r j t = s+1 a j s 伊 a ) j t 逸0 故 ACONCmax(Ck, Aj)逸ACONC(Ck, Aj),即类 Ck中所有数据对象取值相同时,ACONC 取最大值. 证明完毕. 定义 3:基于属性值集中度的类内相似度(simi鄄 larity based on concentration of attribute values, CONC). 将 ACONC 标准化处理后得到 CONC,令 CONC(Ck, Aj)表示类 Ck在属性 Aj上的相似度. 在 综合考虑特征属性值个数 ns(Ck, Aj)和类中数据对 象个数比重后,定义类的类内相似度 CONC(Ck),则 CONC(Ck,Aj) = ACONC(Ck,Aj) ACONCmax(Ck,Aj) = r 2 j 伊 Q(Ck,Aj) 2 - | Ck | 2 (rj - 1) 伊 | Ck | 2 (12) CONC(Ck) = | Ck | | X |·m 移 m j = 1 CONC(Ck,Aj) ns(Ck,Aj) (13) CONC 在衡量每个类的类内相似度时,统筹考 ·686·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有