这样重复大量的次数后，再用评估函数（如ＤＢ⁃Ｉｎ⁃ ｄｅｘ）计算每个样本

正在加载图片...

·302· 智能系统学报第11卷这样重复大量的次数后，再用评估函数（如DB-In- 量不同簇的两个最近成员的距离。全连接：度量不 dex)计算每个样本的函数值。如果原始数据集聚类同簇的两个最远成员的距离。质心比较：度量不同结果的函数值小于大部分随机构造的数据集聚类结簇的中心点的距离。果的函数值，那么说明挖掘出来的信息是可靠的，否链接度链接度指簇中的元素成员至少要跟同则说明聚类结果不可靠。更通俗一点，如果原来数一个簇内的元素比较像。这个可以用来评估簇模型据集没有好的簇结构，那么无论怎么聚类，结果都是不是圆形或者球形的聚类结果，比如DBSCAN的聚不好的。代表性的方法有最大熵模型抽样[】、矩阵类结果。元素交换9]等。利用数据集簇结构来评估聚类质本文用一种无监督评估聚类质量的方法，Da- 量[]的方法能很好地评估出簇结构不好的聚类结 vies-Bouldin Index,DB_Index. 果。实验证实对不同数据集进行聚类，有明显簇结构数据集的p-value会比没有明显簇结构的p-value DBI =1 、+s) max(D, =1 小很多。但是这种方法并不能准确评估聚类的质式中：S表示第i个簇内的元素与质心的标准方差，量。从某种意义上讲，这种方法更适合评估一个数 D,表示第i个簇与第j个簇质心间的欧几里德距据集是否有好的簇结构。离，k表示簇的数目。 1.2 SigClust DBI的思想是一个高质量的聚类结果需要满 SigClust!)认为如果一个数据集符合高斯分足：同一个簇的各元素间相似度大，不同类之间的相布，那么对这个数据集的任何分割都是不合理的。似度小。在DBI中，分子越小意味着簇内元素相似因此这个方法的前提假设是：一个单一的簇的元素度越大，分母越大意味着簇间相似度越小。符合高斯分布。SigClust主要是针对k=2的聚类评 2.2聚类评估的p-value 估。对于>2的情况，还没有比较好的解决办法。给一个数据集X,用DB-ndex计算聚类结果的 l.3层次聚类的p-value计算函数值为xox。数据集X所有可能的聚类结果的函这种方法主要针对层次聚类的评估2，)。层数值为x1,x,xN。置换检验的p-value定义为次聚类后会形成一个二叉树。对二叉树上的每个节点都进行置换检验，算出每个节点划分对应的p ∑a1(xn≤xo） value。这种算法的空假设为：当前节点的左子树和 N 右子树应该属于一个簇。如果算出p-value足够小式中I是一个逻辑函数。当x.≤xo的情况下为1，就说明空假设是一个小概率事件，应该拒绝。该方否则为0。由于要枚举出所有的聚类方案的复杂度法是将当前节点的左子树和右子树打乱，按照一定是指数级别的，所以需要采取其他的策略。抽样出的约束随机分配左子树和右子树的元素。抽样若干所有情况的一个子集Y,并计算子集Y中所有元素次后形成的随机样本集按照某种指标与原始划分对的函数值为x1,x2,xw,其中N≤N。这时候置比计算出p-value.。这个评估只能针对层次聚类，不换检验的p-value被定义为能对其他的聚类算法进行评估。另外这样计算出的 ∑N1(xn≤o） p-value只是每个节点上的p-value,并不是全局聚 N 类的p-value. 一些研究为了避免p-value为0的情况，将p-value 2基本概念的定义修改为 2.1无监督聚类质量评估函数 1+1x≤w) 如果数据集中的元素没有类标签，聚类结果的 Ppeml N+1 评价就只能依赖数据集自身的特征和量值。在这种这种方法把分子加1的理由是把x。也看作置情况下，聚类的度量追求有3个目标：紧密度、分离换检验一个样本的函数值。这就避免了得到p-vl- 度和链接度。 ue为0的试验结果。然而这种做法事实上是不太紧密度簇中的每个元素应该彼此尽可能接合理的。试想如果抽样999次没有发现比x。更小近。紧密度的常用度量是方差，方差越小说明紧密的统计值，这样草率地得出结论当前置换检验的结度越大。果为0.001显然太武断了。因为可能抽样99999次分离度簇与簇之间应该充分分离。有3种常依旧没有比x。更优的样本。那么依照这个计算公用方法来度量两个不同簇之间的距离。单连接：度式p-value又为0.000O1。而实际上p-value的值可这样重复大量的次数后，再用评估函数（如ＤＢ⁃Ｉｎ⁃ ｄｅｘ）计算每个样本的函数值。如果原始数据集聚类结果的函数值小于大部分随机构造的数据集聚类结果的函数值，那么说明挖掘出来的信息是可靠的，否则说明聚类结果不可靠。更通俗一点，如果原来数据集没有好的簇结构，那么无论怎么聚类，结果都是不好的。代表性的方法有最大熵模型抽样［８］、矩阵元素交换［９］等。利用数据集簇结构来评估聚类质量［１０］的方法能很好地评估出簇结构不好的聚类结果。实验证实对不同数据集进行聚类，有明显簇结构数据集的ｐ⁃ｖａｌｕｅ会比没有明显簇结构的ｐ⁃ｖａｌｕｅ小很多。但是这种方法并不能准确评估聚类的质量。从某种意义上讲，这种方法更适合评估一个数据集是否有好的簇结构。１．２ＳｉｇＣｌｕｓｔＳｉｇＣｌｕｓｔ［１１］认为如果一个数据集符合高斯分布，那么对这个数据集的任何分割都是不合理的。因此这个方法的前提假设是：一个单一的簇的元素符合高斯分布。ＳｉｇＣｌｕｓｔ主要是针对ｋ＝２的聚类评估。对于ｋ＞２的情况，还没有比较好的解决办法。１．３层次聚类的ｐ ⁃ｖａｌｕｅ计算这种方法主要针对层次聚类的评估［１２，１３］。层次聚类后会形成一个二叉树。对二叉树上的每个节点都进行置换检验，算出每个节点划分对应的ｐ ⁃ ｖａｌｕｅ。这种算法的空假设为：当前节点的左子树和右子树应该属于一个簇。如果算出ｐ ⁃ｖａｌｕｅ足够小就说明空假设是一个小概率事件，应该拒绝。该方法是将当前节点的左子树和右子树打乱，按照一定的约束随机分配左子树和右子树的元素。抽样若干次后形成的随机样本集按照某种指标与原始划分对比计算出ｐ ⁃ｖａｌｕｅ。这个评估只能针对层次聚类，不能对其他的聚类算法进行评估。另外这样计算出的ｐ ⁃ｖａｌｕｅ只是每个节点上的ｐ ⁃ｖａｌｕｅ，并不是全局聚类的ｐ ⁃ｖａｌｕｅ。２基本概念２．１无监督聚类质量评估函数如果数据集中的元素没有类标签，聚类结果的评价就只能依赖数据集自身的特征和量值。在这种情况下，聚类的度量追求有３个目标：紧密度、分离度和链接度。紧密度簇中的每个元素应该彼此尽可能接近。紧密度的常用度量是方差，方差越小说明紧密度越大。分离度簇与簇之间应该充分分离。有３种常用方法来度量两个不同簇之间的距离。单连接：度量不同簇的两个最近成员的距离。全连接：度量不同簇的两个最远成员的距离。质心比较：度量不同簇的中心点的距离。链接度链接度指簇中的元素成员至少要跟同一个簇内的元素比较像。这个可以用来评估簇模型不是圆形或者球形的聚类结果，比如ＤＢＳＣＡＮ的聚类结果。本文用一种无监督评估聚类质量的方法，Ｄａ⁃ ｖｉｅｓ⁃ＢｏｕｌｄｉｎＩｎｄｅｘ，即ＤＢ＿Ｉｎｄｅｘ。ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ）．式中：Ｓｉ表示第ｉ个簇内的元素与质心的标准方差，Ｄｉｊ表示第ｉ个簇与第ｊ个簇质心间的欧几里德距离，ｋ表示簇的数目。ＤＢＩ的思想是一个高质量的聚类结果需要满足：同一个簇的各元素间相似度大，不同类之间的相似度小。在ＤＢＩ中，分子越小意味着簇内元素相似度越大，分母越大意味着簇间相似度越小。２．２聚类评估的ｐ ⁃ｖａｌｕｅ给一个数据集Ｘ，用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值为ｘ０ｘ０。数据集Ｘ所有可能的聚类结果的函数值为ｘ１，ｘ２，…ｘＮａｌｌ。置换检验的ｐ ⁃ｖａｌｕｅ定义为Ｐｐｅｒｍ＝ ∑ Ｎａｌｌｎ＝１Ｉ（ｘｎ ≤ ｘ０）Ｎａｌｌ式中Ｉ是一个逻辑函数。当ｘｎ≤ｘ０的情况下为１，否则为０。由于要枚举出所有的聚类方案的复杂度是指数级别的，所以需要采取其他的策略。抽样出所有情况的一个子集Ｙ，并计算子集Ｙ中所有元素的函数值为ｘ１，ｘ２，…ｘＮ，其中Ｎ≪ Ｎａｌｌ。这时候置换检验的ｐ ⁃ｖａｌｕｅ被定义为Ｐｐｅｒｍ０＝ ∑ Ｎｎ＝１Ｉ（ｘｎ ≤ ｘ０）Ｎ．一些研究为了避免ｐ ⁃ｖａｌｕｅ为０的情况，将ｐ ⁃ｖａｌｕｅ的定义修改为Ｐｐｅｒｍ１＝１＋ ∑ Ｎｎ＝１１（ｘｎ ≤ ｘ０）Ｎ＋１这种方法把分子加１的理由是把ｘ０也看作置换检验一个样本的函数值。这就避免了得到ｐ ⁃ｖａｌ⁃ ｕｅ为０的试验结果。然而这种做法事实上是不太合理的。试想如果抽样９９９次没有发现比ｘ０更小的统计值，这样草率地得出结论当前置换检验的结果为０．００１显然太武断了。因为可能抽样９９９９９次依旧没有比ｘ０更优的样本。那么依照这个计算公式ｐ ⁃ｖａｌｕｅ又为０．００００１。而实际上ｐ ⁃ｖａｌｕｅ的值可 ·３０２· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于置换检验的聚类结果评估编辑部