（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图２Ｗｉｎｅ数据

正在加载图片...

·306· 智能系统学报第11卷 1.0r 4.2利用p-vaue决定数据集簇的数目k 0.9 很多聚类算法需要预先设定划分数目k。本文研究了p-value与k的关系。对于同一数据集，选择 0.8 不同的k用k-means分别聚类，然后计算对应的p- 0.7 vaue。计算结果如表2。 0.6 。° % 从表2中看出随着k的增加，p-value的值变 0.5 小。因为k越大，对数据集划分得越细，同一个簇内 0.4 ×103 0 2 的元素就会越相似，p-value自然就会越小。然而 p-value 划分的越细并不意味着就一定越好。举个极端的例 (b)p-value与accuracy的关系子，将一个数据量为n的数据集划分成n个簇是毫图2Wine数据集p-value与∫score和accuracy的关系 Fig.2 The relationship between p-value and f-score, 无意义的。 accuracy of wine dataset 本文研究了一种利用p-value的变化幅度来确 2.6 定k的新方法。这里给出一个定义： R(i)=P(i-1) 2.2 p() 20 式中：p(i-1)是当k取i-1时聚类结果的p-val 00 ue,p(i)是当k取i时的聚类结果的p-value。R(i) 1.6 w。的意义是当k增加I时p-value的变化幅度。将表 1.4 000 2的结果按照公式计算的结果如表3。 ×10H 0 2 4 6 8 由实验结果可以看出，对于iis数据集，当k取 p-value 3的时候，R(3)=2.538900最大。事实上iis的类 (a)p-value与f-score的关系 0.54 别数目就是3。接着看wine数据集，当i取3的时 B 0.53 候R(3)=97.836510最大。真实情况wine的类别 0.52 数目就是3。对于yeast数据集当i取4的时候 0.51 R(4)=14.991890最大，以此来确定簇的数目为4。而事实上yeast的类别数目就是4。 0.49 利用本文提出的定义能正确算出数据集中的簇 0.48 0.47 。。。°。数目k。因此可以说明计算聚类的p-value对于确 ×10时 4 6 定聚类数目k也是有一定意义的。不过对于R() p-value 这个定义还存在一定的问题。根据R的定义，i的 (b)p-value与accuracy的关系图3 Yeast数据集p-value与f-score和accuracy的关系取值不小于3。因此对于簇数目为2的情况还不能 Fig.3 The relationship between p-value and f-score, 够做出合适的处理。 accuracy of yeast dataset 表2不同k下的p -value Table 2 The p-value of clusters for differentk 数据 2 3 4 5 6 7 Iris 0.108518 0.042742 0.020435 0.017261 0.006991 0.003208 Wine 0.001946 1.988773e-05 7.579904e-07 2.381891e-08 2.125773e-09 1.537855e-09 Yeast 0.006911 0.001040 6.937873e-05 9.647412e-06 1.327582e-06 3.264579e-06 表3不同k下的R(k) Table 3 The R(k)of clusters for differentk 数据 3 4 5 6 Iris 2.538900 2.091640 1.183870 2.469150 2.179010 Wine 97.836510 26.237440 31.823050 11.204820 1.382300 Yeast 6.644860 14.991890 7.191430 7.266900 0.406660（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图２Ｗｉｎｅ数据集ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的关系Ｆｉｇ．２Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ ⁃ｖａｌｕｅａｎｄｆ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｗｉｎｅｄａｔａｓｅｔ（ａ）ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ的关系（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图３Ｙｅａｓｔ数据集ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的关系Ｆｉｇ．３Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ⁃ｖａｌｕｅａｎｄｆ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｙｅａｓｔｄａｔａｓｅｔ４．２利用ｐ ⁃ｖａｌｕｅ决定数据集簇的数目ｋ很多聚类算法需要预先设定划分数目ｋ。本文研究了ｐ ⁃ｖａｌｕｅ与ｋ的关系。对于同一数据集，选择不同的ｋ用ｋ⁃ｍｅａｎｓ分别聚类，然后计算对应的ｐ ⁃ ｖａｌｕｅ。计算结果如表２。从表２中看出随着ｋ的增加，ｐ ⁃ｖａｌｕｅ的值变小。因为ｋ越大，对数据集划分得越细，同一个簇内的元素就会越相似，ｐ ⁃ｖａｌｕｅ自然就会越小。然而划分的越细并不意味着就一定越好。举个极端的例子，将一个数据量为ｎ的数据集划分成ｎ个簇是毫无意义的。本文研究了一种利用ｐ ⁃ｖａｌｕｅ的变化幅度来确定ｋ的新方法。这里给出一个定义：Ｒ（ｉ）＝ｐ（ｉ－１）ｐ（ｉ），式中：ｐ（ｉ－１）是当ｋ取ｉ – １时聚类结果的ｐ ⁃ｖａｌ⁃ ｕｅ，ｐ（ｉ）是当ｋ取ｉ时的聚类结果的ｐ ⁃ｖａｌｕｅ。Ｒ（ｉ）的意义是当ｋ增加１时ｐ ⁃ｖａｌｕｅ的变化幅度。将表２的结果按照公式计算的结果如表３。由实验结果可以看出，对于ｉｒｉｓ数据集，当ｋ取３的时候，Ｒ（３）＝２．５３８９００最大。事实上ｉｒｉｓ的类别数目就是３。接着看ｗｉｎｅ数据集，当ｉ取３的时候Ｒ（３）＝９７．８３６５１０最大。真实情况ｗｉｎｅ的类别数目就是３。对于ｙｅａｓｔ数据集当ｉ取４的时候Ｒ（４）＝１４．９９１８９０最大，以此来确定簇的数目为４。而事实上ｙｅａｓｔ的类别数目就是４。利用本文提出的定义能正确算出数据集中的簇数目ｋ。因此可以说明计算聚类的ｐ ⁃ｖａｌｕｅ对于确定聚类数目ｋ也是有一定意义的。不过对于Ｒ（ｉ）这个定义还存在一定的问题。根据Ｒ的定义，ｉ的取值不小于３。因此对于簇数目为２的情况还不能够做出合适的处理。表２不同ｋ下的ｐ ⁃ｖａｌｕｅＴａｂｌｅ２Ｔｈｅｐ ⁃ｖａｌｕｅｏｆｃｌｕｓｔｅｒｓｆｏｒｄｉｆｆｅｒｅｎｔｋ数据２３４５６７Ｉｒｉｓ０．１０８５１８０．０４２７４２０．０２０４３５０．０１７２６１０．００６９９１０．００３２０８Ｗｉｎｅ０．００１９４６１．９８８７７３ｅ⁃０５７．５７９９０４ｅ⁃０７２．３８１８９１ｅ⁃０８２．１２５７７３ｅ⁃０９１．５３７８５５ｅ⁃０９Ｙｅａｓｔ０．００６９１１０．００１０４０６．９３７８７３ｅ⁃０５９．６４７４１２ｅ⁃０６１．３２７５８２ｅ⁃０６３．２６４５７９ｅ⁃０６表３不同ｋ下的Ｒ（ｋ）Ｔａｂｌｅ３ＴｈｅＲ（ｋ）ｏｆｃｌｕｓｔｅｒｓｆｏｒｄｉｆｆｅｒｅｎｔｋ数据３４５６７Ｉｒｉｓ２．５３８９００２．０９１６４０１．１８３８７０２．４６９１５０２．１７９０１０Ｗｉｎｅ９７．８３６５１０２６．２３７４４０３１．８２３０５０１１．２０４８２０１．３８２３００Ｙｅａｓｔ６．６４４８６０１４．９９１８９０７．１９１４３０７．２６６９０００．４０６６６０ ·３０６· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于置换检验的聚类结果评估编辑部