ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ

正在加载图片...

·304. 智能系统学报第11卷如果知道了样本DB-Index函数值的概率分布 DBI= max( Di 就可以根据原始聚类结果的函数值算出精确的p 由S,的定义可以得出： value了。聚类是一种半监督的机器学习，其本质对元素所属类别的划分。如果对元素随机划分无 S:= 13- 穷次。那么质量特别高的划分的比例会很小。同样 m 的，质量极端差的划分占的比例也会很小。很大比式中m,是簇zi中元素的数目。z,是簇i中第j个元重的划分都介于它们之间。而正态分布的特点是：素的属性向量，z是簇i质心的属性向量。由于数据极端概率很小，中间的概率很大。经过对数据的分是d维的，所以3-乏‖2就是各个维度的平方和。析，聚类划分的DB-Index函数值比较符合正态分因此可以单独对每一维计算，然后再把所有维度的布。因此可以假设抽样样本DB-ndex的函数值符平方相加即可：合正态分布。实际上正态分布符合很多自然概率分 ∑3-2=∑∑(4-a,)2, 布的指标。下面要做的就是得到正态分布的参数。对于一维的正态分布均值和方差用式(1)和(2) 式中：aa是簇i中第j个元素的第t个属性值，a,是得到：簇i质心的第t个属性值。下面直接讨论第t维的计算方法： i=1 u= (1) ∑3-2∑∑(a-a)2 N m m d= (2) ∑(4-a2 N-1 有了概率分布函数，就能将原始聚类结果x。代入概率分布算出p-value了。其中：这样估出概率分布函数实现了在整体复杂度没有增加的前提下用较少的抽样得到更为精确p-val m m: ue的目的了。因此立.>) ∑3-2 2 m=1 2 本文利用公式P perm 一计算p-val- mi =1 mi N ∑，4，是筷中所有元素中第！维的平方和， u实际上是利用了大数定律。大数定律的本质是如果有无穷次试验，事件出现的频率就会无限趋近 a,是簇i中所有元素第t维的平均值。所以为了计于事件发生的概率。而由于抽样次数有限，本文假算S,每一维只需要维护两个值就可以了：平方和与设了DB-Index的函数值符合正态分布。不过对于平均值。当簇标号交换的话，能在O(1)复杂度内抽样N次后发现，已经有足够的样本可以精确算出修正这两个值。修改完每个维度的这两个值后，就 p-vaue的话，就不需要用正态分布计算了。然而如可以用DB-Index算出函数值了。果抽样N次后没有足够的样本可以用大数定律精可以看出修改一个簇的平方和与平均值复杂度确地计算p-value的话就要拟合正态概率分布函数是O(d)的。因此DB-Index的计算复杂度就是了。对于有多少个样本满足x:≤x。算是足够呢？ O(k×k×d)了。没有加速的DB-Index的计算复杂度这是一个阈值问题。上边的过程总结起来如算是O(n×d)。一般情况下，k≤n。所以这种方法的法4。效率有明显的提升。算法4ECP 3.3更准确的p-vaue 抽样N次，算出每次的函数值x 上边提到计算DB-Index的方法的复杂度为统计x:≤x。的数目M O(kx×d)。虽然相比于原先的计算方法已经优化如果M≥Limit利用公式P,mo计算p-value 很多，但是对于p-value非常小的情况，可能依I旧由否则，拟合正态概率分布算出p-value 于抽样数目有限而无法算出精确的p-value。这种其中Limit是ECP的一个参数，是用Ppmo计算情况下算出的p-value就会为O,然而这样的结果是出p-value的最低数目限制。ECP不同于很多其他不准确的。的置换检验方法。这种方法实现了用较少的抽样计ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ）．由Ｓｉ的定义可以得出：Ｓｉ＝ ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ．式中ｍｉ是簇ｚｉ中元素的数目。ｚｊ是簇ｉ中第ｊ个元素的属性向量，ｚ是簇ｉ质心的属性向量。由于数据是ｄ维的，所以‖ｚｊ－ｚ‖２就是各个维度的平方和。因此可以单独对每一维计算，然后再把所有维度的平方相加即可： ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２＝ ∑ ｄｔ＝１∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２，式中：ａｊｔ是簇ｉ中第ｊ个元素的第ｔ个属性值，ａｔ是簇ｉ质心的第ｔ个属性值。下面直接讨论第ｔ维的计算方法： ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ＝ ∑ ｄｔ＝１∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ＝ ∑ ｄｔ＝１ ∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ其中： ∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ＝ ∑ ｍｉｊ＝１ａｊｔ２ｍｉ－ａｔ２因此 ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ＝ ∑ ｄｔ＝１ ∑ ｍｉｊ＝１ａｊｔ２ｍｉ－ａｔ２ ∑ ｍｉｊ＝１ａｊｔ２是簇ｉ中所有元素中第ｔ维的平方和，ａｔ是簇ｉ中所有元素第ｔ维的平均值。所以为了计算Ｓｉ，每一维只需要维护两个值就可以了：平方和与平均值。当簇标号交换的话，能在Ｏ（１）复杂度内修正这两个值。修改完每个维度的这两个值后，就可以用ＤＢ⁃Ｉｎｄｅｘ算出函数值了。可以看出修改一个簇的平方和与平均值复杂度是Ｏ（ｄ）的。因此ＤＢ⁃Ｉｎｄｅｘ的计算复杂度就是Ｏ（ｋ×ｋ×ｄ）了。没有加速的ＤＢ⁃Ｉｎｄｅｘ的计算复杂度是Ｏ（ｎ×ｄ）。一般情况下，ｋ≪ｎ。所以这种方法的效率有明显的提升。３．３更准确的ｐ ⁃ｖａｌｕｅ上边提到计算ＤＢ⁃Ｉｎｄｅｘ的方法的复杂度为Ｏ（ｋ×ｋ×ｄ）。虽然相比于原先的计算方法已经优化很多，但是对于ｐ ⁃ｖａｌｕｅ非常小的情况，可能依旧由于抽样数目有限而无法算出精确的ｐ ⁃ｖａｌｕｅ。这种情况下算出的ｐ ⁃ｖａｌｕｅ就会为０，然而这样的结果是不准确的。如果知道了样本ＤＢ⁃Ｉｎｄｅｘ函数值的概率分布就可以根据原始聚类结果的函数值算出精确的ｐ ⁃ ｖａｌｕｅ了［１４］。聚类是一种半监督的机器学习，其本质对元素所属类别的划分。如果对元素随机划分无穷次。那么质量特别高的划分的比例会很小。同样的，质量极端差的划分占的比例也会很小。很大比重的划分都介于它们之间。而正态分布的特点是：极端概率很小，中间的概率很大。经过对数据的分析，聚类划分的ＤＢ⁃Ｉｎｄｅｘ函数值比较符合正态分布。因此可以假设抽样样本ＤＢ⁃Ｉｎｄｅｘ的函数值符合正态分布。实际上正态分布符合很多自然概率分布的指标。下面要做的就是得到正态分布的参数。对于一维的正态分布均值和方差用式（１）和（２）得到： μ ＝ ∑ Ｎｉ＝１ｘｉＮ（１） ∂ ＝（ｘｉ－ｘ）２Ｎ－１（２）有了概率分布函数，就能将原始聚类结果ｘ０代入概率分布算出ｐ ⁃ｖａｌｕｅ了。这样估出概率分布函数实现了在整体复杂度没有增加的前提下用较少的抽样得到更为精确ｐ ⁃ｖａｌ⁃ ｕｅ的目的了。本文利用公式Ｐｐｅｒｍ０ ∑ Ｎｎ＝１Ｉ（ｙｎ＞ｘ０）Ｎ计算ｐ ⁃ｖａｌ⁃ ｕｅ实际上是利用了大数定律。大数定律的本质是如果有无穷次试验，事件出现的频率就会无限趋近于事件发生的概率。而由于抽样次数有限，本文假设了ＤＢ⁃Ｉｎｄｅｘ的函数值符合正态分布。不过对于抽样Ｎ次后发现，已经有足够的样本可以精确算出ｐ ⁃ｖａｌｕｅ的话，就不需要用正态分布计算了。然而如果抽样Ｎ次后没有足够的样本可以用大数定律精确地计算ｐ ⁃ｖａｌｕｅ的话就要拟合正态概率分布函数了。对于有多少个样本满足ｘｉ ≤ ｘ０算是足够呢？这是一个阈值问题。上边的过程总结起来如算法４。算法４ＥＣＰ抽样Ｎ次，算出每次的函数值ｘｉ统计ｘｉ≤ｘ０的数目Ｍ如果Ｍ≥Ｌｉｍｉｔ利用公式Ｐｐｅｒｍ０计算ｐ ⁃ｖａｌｕｅ否则，拟合正态概率分布算出ｐ ⁃ｖａｌｕｅ其中Ｌｉｍｉｔ是ＥＣＰ的一个参数，是用Ｐｐｅｒｍ０计算出ｐ ⁃ｖａｌｕｅ的最低数目限制。ＥＣＰ不同于很多其他的置换检验方法。这种方法实现了用较少的抽样计 ·３０４· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于置换检验的聚类结果评估编辑部