(4)，其中的 sensitivity 和 specificity 同 F

正在加载图片...

第6期谢娟英，等：聚类有效性评价新指标 ·875· (4),其中的sensitivity和specificity同F-measure指 TP、FN、FP和TN也可根据表2所示的相依表计算标在两类问题中的定义一致。由此可见，我们定义得到。计算公式如式(6)所示。基于样本对的sensi- 的新指标S2适用于任意类的聚类问题。 tivity,specificity定义如式(7)所示，则基于样本对表2聚类结果相依表的新聚类评价指标PS2定义为式(8)。 Table 2 The contingency table of a clustering 表3聚类结果混淆矩阵 UIV V Ve SUM Table 3 Confusion matrix of a clustering U 聚类前/聚类后 T F 11 112 nle nik n TP FN Uz 21 122 ne n2K n2. ◇ FP TN TP=((x.)I(x)=I(x )L(x )L(x) Ue ncl ne nck ne FN={(x,x)Ilx）=Ix,L(x)≠L(x)川 (5) FP=I(x,x)Il(x)≠Ix,L(c)=L(x)川 Uc nCI nc. TN=x,x)Ilx)≠l(x),L(x)≠L(x)川 SUM n.I -2 ne n.K P=( TPe={il(x)=L(x)=c,1≤i≤nl=nc 2 FNe=HiHZ()=c}A{L(x)≠c,l≤i≤nl=ne-nc p (6) FP.=l{ill(x)≠cA{L(x)=ch,1≤i≤n‖=ne-n TNe=l{ill(x)≠c,L(x)≠c,1≤i≤n川=n-ne.-ne+ne m-2 -TP (1) TN=N-(TP+FN+FP) sensitivity= TP:=" TP TPe+FNe ne sensitivity TN。=n-n-ne+ne (2) TP+FN specificity=TN+FP. (7) TN n-ne. specificity=TN+FP 1 S2= 2xsensitivityXspecificity (3) 2×sensitivity×specificity min(C,K] PS2= sensitivity.specificity. sensitivity +specificity (8) S2= 2×sensitivity×specificity 2XTP×TN sensitivity+specificity (4) TP FP+TN)+TN(TP+FN) 外部评价指标中的Rand index、Adjusted rand index、Jaccard系数，AM等均是基于样本对的聚类 2内部指标评价指标。因此，本文类似地提出基于样本对的聚方差作为一种度量样本分布情况的概率统计类结果外部评价指标PS2,调和聚类结果的正类识量，通常用来描述样本的离散程度。样本方差越别率和负类识别率，以评价聚类结果的有效性。小，样本分布越密集，反之则越分散。方差的性质任意两样本点x、x,若I(x)=1(x),且Lx)= 可以用于计算类内距离和类间距离，同一类簇中样 L(x,即聚类前后属于同一类，则称为正事件T;反本分布越密集，方差越小，因此将同一类簇中样本之，如果I(x)=1(x),但L(x,)≠L(x,),即聚类前属于的方差作为类内距离，度量类簇内部的紧促性。同类簇，但聚类后不属于同一类，称之为负事件F。基于“类内尽可能紧密，类间尽可能分离”原则，依据正负事件，可得表3所示混淆矩阵。其中，TP、利用方差思想定义度量类内距离和类间距离测度， FN、FP和TN分别表示聚类前后都在同一类簇的类间距离越大越好，类内距离越小越好，提出将类样本对数；聚类前在同一类簇，聚类后不在同一类间距离与类内距离之比作为聚类效果的内部评价指簇的样本对数：聚类前不在同一类簇，聚类后在于标STDI(standard deviation based index),如式(9)所同一类簇的样本对数；和聚类前后都不在同一类簇示。从式(9)STDI的定义可知，其值越大，表明聚类的样本对数。其形式化定义如式（⑤）所示。由定义结果越好。可知，TP和TN统计了聚类所得划分与原始分布的 -致性，FN和FP统计了聚类所得划分与原始分布 STDI= 9 的差异性。设N表示规模为n的数据集的所有样本对数，则w= 2 ）=",即，AeP=NP4TN 式中：c是类簇k的质心，是所有样本的质心，七是(4)，其中的 sensitivity 和 specificity 同 F-measure 指标在两类问题中的定义一致。由此可见，我们定义的新指标 S2 适用于任意类的聚类问题。    TPc = |{i|l(xi) = L(xi) = c,1 ⩽ i ⩽ n}| = ncc FNc = |{i|{l(xi) = c}∧{L(xi) , c},1 ⩽ i ⩽ n}| = nc· −ncc FPc = |{i|{l(xi) , c}∧{L(xi) = c},1 ⩽ i ⩽ n}| = n·c −ncc TNc = |{i|l(xi) , c, L(xi),c,1 ⩽ i ⩽ n}|=n−nc· −n·c+ncc (1) sensitivityc = TPc TPc +FNc = ncc nc· specificityc = TNc TNc +FPc = n−nc· −n·c +ncc n−nc· (2) S 2 = 1 min{C,K} min∑ {C,K} c=1 2×sensitivityc ×specificityc sensitivityc +specificityc (3) S 2 = 2×sensitivity×specificity sensitivity+specificity (4) 外部评价指标中的 Rand index、Adjusted rand index、Jaccard 系数，AMI 等均是基于样本对的聚类评价指标。因此，本文类似地提出基于样本对的聚类结果外部评价指标 PS2，调和聚类结果的正类识别率和负类识别率，以评价聚类结果的有效性。 l(xi) = l ( xj ) L(xi) = L ( xj ) l(xi) = l ( xj ) L(xi) , L ( xj ) N = ( n 2 ) = n(n−1) 2 任意两样本点 xi、xj，若，且，即聚类前后属于同一类，则称为正事件 T；反之，如果，但，即聚类前属于同类簇，但聚类后不属于同一类，称之为负事件 F。依据正负事件，可得表 3 所示混淆矩阵。其中，TP、 FN、FP 和 TN 分别表示聚类前后都在同一类簇的样本对数；聚类前在同一类簇，聚类后不在同一类簇的样本对数；聚类前不在同一类簇，聚类后在于同一类簇的样本对数；和聚类前后都不在同一类簇的样本对数。其形式化定义如式 (5) 所示。由定义可知，TP 和 TN 统计了聚类所得划分与原始分布的一致性，FN 和 FP 统计了聚类所得划分与原始分布的差异性。设 N 表示规模为 n 的数据集的所有样本对数，则，即，N=TP+FN+FP+TN。 TP、FN、FP 和 TN 也可根据表 2 所示的相依表计算得到。计算公式如式 (6) 所示。基于样本对的 sensitivity，specificity 定义如式 (7) 所示，则基于样本对的新聚类评价指标 PS2 定义为式 (8)。    TP = {(xi , xj ) |l(xi) = l(xj), L(xi) = L(xj) } FN= {(xi , xj ) |l(xi) = l(xj), L(xi) , L(xj) } FP = {(xi , xj ) |l(xi) , l(xj), L(xi) = L(xj) } TN= {(xi , xj ) |l(xi) , l(xj), L(xi) , L(xj) } (5)    TP = ∑C i=1 ∑K j=1 ( ni j 2 ) FN = ∑C i=1 ( ni· 2 ) −TP FP = ∑K j=1 ( n· j 2 ) −TP TN = N −(TP+FN+FP) (6)    sensitivity = TP TP+FN specificity = TN TN+FP (7)    PS2 = 2×sensitivity×specificity sensitivity+specificity = 2×TP×TN TP(FP+TN)+TN(TP+FN) (8) 2 内部指标方差作为一种度量样本分布情况的概率统计量，通常用来描述样本的离散程度[32]。样本方差越小，样本分布越密集，反之则越分散。方差的性质可以用于计算类内距离和类间距离，同一类簇中样本分布越密集，方差越小，因此将同一类簇中样本的方差作为类内距离，度量类簇内部的紧促性。基于“类内尽可能紧密，类间尽可能分离”原则，利用方差思想定义度量类内距离和类间距离测度，类间距离越大越好，类内距离越小越好，提出将类间距离与类内距离之比作为聚类效果的内部评价指标 STDI(standard deviation based index)，如式 (9) 所示。从式 (9)STDI 的定义可知，其值越大，表明聚类结果越好。 STDI = 1 K ( ∑K k=1 ∥ck − x¯∥ 2 ) ∑K k=1 1 nk ( ∑nk i=1 ∥xi − ck∥ 2 ) (9) 式中：c x¯ k 是类簇 k 的质心，是所有样本的质心，xi 是表 2 聚类结果相依表 Table 2 The contingency table of a clustering U/V V1 V2 ··· Vc VK SUM U1 n11 n12 ··· n1c n1K n1· U2 n21 n22 ··· n2c n2K n2· . . . . . . . . . . . . . . . . . . Uc nc1 nc2 ··· ncc ncK nc· . . . . . . . . . . . . . . . . . . UC nC1 nC2 ··· nCc nCK nC· SUM n·1 n·2 ··· n·c n·K n 表 3 聚类结果混淆矩阵 Table 3 Confusion matrix of a clustering 聚类前/聚类后 T' F' T TP FN F FP TN 第 6 期谢娟英，等：聚类有效性评价新指标 ·875·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】聚类有效性评价新指标