而增大 ,对赢者对手的抑制作用随η增大而减小 ,所以需要选取一个合适的η

正在加载图片...

·46 智能系统学报第3卷而增大，对赢者对手的抑制作用随增大而减小，所随机变量，互信息NMI公式定义为NMI(X,Y)= 以需要选取一个合适的1值.实验结果表明，？的取 IX:Y ，I(X:Y)为变量X,Y的互信息值取所有方向数据向量x到聚类中心向量w:的最 JH(x)·H(Y) 大相似性的0.01~0.2左右较为合适，故文中模糊量，H9,H(Y)为变量X和Y的熵.平均准确率程度常数取0.15. atb 基于定理3，得到具有更好鲁棒性的模糊方向 AA的公式定义为：AA(X,)=nx.)/2其中相似性聚类算法RFDSC.下面给出RFDSC算法的 a表示任意2个样本在X、Y中同属于一类的个数，完整描述： b表示任意2个样本都不属于同一类的个数，n表示 1)初始化聚类数目c(2≤c≤N),阈值e(1=1 数据集的样本个数.互信息NMI和平均准确率AA 为迭代次数、权重指数m、尺度参数k、模糊程度常的范围均为0,1]，值越高表示聚类结果越准确，值数刀和最大迭代次数T,并随机产生并归一化中心越小2种划分差距越大，在X、Y完全一致的情况向量w: 下，NMI和AA值为1. 2)根据式7)计算样本的隶属度值1： 3.2实验数据集说明 3)根据式8)计算归一化中心向量W: 实验采用20 Newsgroups!11的数据集及部分 4如果‖1-‖<e或者1>T则停止，算来自CLUTO文本聚类工具箱的10种数据集.数法结束，否则1=1+1，跳转2)：据集含有的样本数从204个到19949不等，数据维 5)当算法收敛，得到各类的中心向量w和样本数最小的为5832维，最大的为43586维，实际聚类数集模糊隶属度最小的为3个，最大的为20个，从以上特征看出这些数据集很好的反映了不同文本数据集所具有的特 3 实验结果及分析征.其中NG20数据平均地选自来自20个不同新闻在本节中首先介绍聚类性能的评价标准，然后组，经过的Bow toolkit!s]对20 Newsgroups文本分别对文本数据集进行说明，最后通过使用SPK 进行了预处理后含有19949个向量文本数据. means)、soft-movMF2、FDSC和RFDSC4种相 NG17-19是NG20数据的一个子集，以往的聚类算似性聚类算法对文本数据集进行测试，以检测各种法对该数据集的聚类结果表明，因为类与类之间有聚类算法的性能.由于DSCM算法在处理高维大量重叠导致对该数据集的聚类难度较高.其他数据均数据时，算法速度太慢，对文本数据集的有所有样本来自CLUTO工具箱4，，这些数据集均已经过预处无法通过有限次迭代过程，自组织的找到所有不动理为向量文本数据.数据集的详细说明见表1，点，因此没有对DSCM算法进行比较表1文本数据集的简要说明 3.1算法性能评价准则 Table 1 Summary of text datasets 对于聚类结果有效性的度量，可以分为面向分 Data Source Kbalance 类的和面向相似性的2种度量方式.第1种度量方 NG20 20-Newsgroups 1994943586200.991 式，如互信息(normalized mutual information, 3 overlapping/ NM)、纯度和F度量，这些度量评估聚类结果包含 NG1719 299815810 30.998 subgroups from N(20 单个类的对象的程度.第2种度量方式，如平均准确 ohscal OHSUMED-233445 1116211465100.437 AA(averaged accuracy or rand index)Jaccard klb WebACE 234021839 6 0043 度量，这些方法度量在多大程度上，同一个类的2个 hitech San Jose Mercury(TREC) 230110080 60.192 对象在同一簇中，或相反⑧1.而衡量传统信息检索系 la12 LA Times(TREC) 627931472 60282 统的性能参数：召回率(Recall)和精度(Precision)也 trll TREC 414 6429 9 0046 是衡量分类算法性能的常用指标，然而聚类的过程 tr23 TREC 2045832 60.066 中并不存在自动分类类别与手工分类类别确定的一 tr41 TREC 878 7454100.037 一对应关系，因而无法像分类一样直接以精度和召 tr45 TREC 6908261100.088 回率作为评价标准.为此在文中采用互信息注：a代表文本数（样本数），代表词项维数)k代 NMI和平均准确率AA2)分别作为算法的面表文本实际类别数，balance是数据的平衡系数即包含最少向分类和面向相似性的2种评价标准.假设X代表文本数的类与包含最多文本数的类中的文本数之比，这个值己知的文本类标随机变量，y代表聚类结果的类标反映了数据集内类与类之间的平衡性 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net而增大 ,对赢者对手的抑制作用随η增大而减小 ,所以需要选取一个合适的η值. 实验结果表明 ,η的取值取所有方向数据向量 x 到聚类中心向量 wi 的最大相似性的 0101～012 左右较为合适 ,故文中模糊程度常数η取 0115. 基于定理 3 ,得到具有更好鲁棒性的模糊方向相似性聚类算法 RFDSC. 下面给出 RFDSC 算法的完整描述 : 1) 初始化聚类数目 c (2 ≤c ≤N) ,阈值ε( l = 1 为迭代次数) 、权重指数 m、尺度参数 k、模糊程度常数η和最大迭代次数 T ,并随机产生并归一化中心向量 w 1 i ; 2) 根据式(7) 计算样本的隶属度值 u l + 1 ij ; 3) 根据式(8) 计算归一化中心向量 w l + 1 i ; 4) 如果 ‖u l + 1 ij - u ( l) ij ‖<ε或者 l > T 则停止 ,算法结束 ,否则 l = l + 1 ,跳转 2) ; 5) 当算法收敛 ,得到各类的中心向量 wi 和样本集模糊隶属度 uij . 3 实验结果及分析在本节中首先介绍聚类性能的评价标准 ,然后分别对文本数据集进行说明 ,最后通过使用 SP K2 means [ 1 ] 、soft2movMF [ 2 ] 、FDSC 和 RFDSC 4 种相似性聚类算法对文本数据集进行测试 ,以检测各种聚类算法的性能. 由于 DSCM 算法在处理高维大量数据时 ,算法速度太慢 ,对文本数据集的有所有样本无法通过有限次迭代过程 ,自组织的找到所有不动点 ,因此没有对 DSCM 算法进行比较. 311 算法性能评价准则对于聚类结果有效性的度量 ,可以分为面向分类的和面向相似性的 2 种度量方式. 第 1 种度量方式 , 如互信息 ( normalized mut ual information , NMI) 、纯度和 F 度量 ,这些度量评估聚类结果包含单个类的对象的程度. 第 2 种度量方式 ,如平均准确率 AA ( averaged accuracy or rand index) 、J accard 度量 ,这些方法度量在多大程度上 ,同一个类的 2 个对象在同一簇中 ,或相反[8 ] . 而衡量传统信息检索系统的性能参数 :召回率(Recall) 和精度(Precision) 也是衡量分类算法性能的常用指标. 然而聚类的过程中并不存在自动分类类别与手工分类类别确定的一一对应关系 ,因而无法像分类一样直接以精度和召回率作为评价标准[9 ] . 为此在文中采用互信息 NMI [10 ]和平均准确率 AA [11212 ] 分别作为算法的面向分类和面向相似性的 2 种评价标准. 假设 X 代表已知的文本类标随机变量 , Y 代表聚类结果的类标随机变量 ,互信息 NMI 公式定义为 NMI( X , Y) = I ( X ; Y) H ( X) ·H ( Y) , I ( X ; Y) 为变量 X , Y 的互信息量 , H ( X) , H ( Y) 为变量 X 和 Y 的熵. 平均准确率 AA 的公式定义为 :AA ( X , Y) = a + b n ×( n - 1) / 2 ,其中 a 表示任意 2 个样本在 X 、Y 中同属于一类的个数 , b表示任意 2 个样本都不属于同一类的个数 , n 表示数据集的样本个数. 互信息 NMI 和平均准确率 AA 的范围均为[0 ,1 ] ,值越高表示聚类结果越准确 ,值越小 2 种划分差距越大 ,在 X 、Y 完全一致的情况下 ,NMI 和 AA 值为 1. 312 实验数据集说明实验采用 202Newsgroup s [13 ] 的数据集及部分来自 CL U TO [ 14 ]文本聚类工具箱的 10 种数据集. 数据集含有的样本数从 204 个到19 949不等 ,数据维数最小的为5 832维 ,最大的为43 586维 ,实际聚类数最小的为 3 个 ,最大的为 20 个 ,从以上特征看出这些数据集很好的反映了不同文本数据集所具有的特征. 其中 N G20 数据平均地选自来自 20 个不同新闻组 ,经过的 Bow toolkit [ 15 ] 对 202Newsgroup s 文本进行了预处理后含有 19 949 个向量文本数据. N G17219 是 N G20 数据的一个子集 ,以往的聚类算法对该数据集的聚类结果表明 ,因为类与类之间有重叠导致对该数据集的聚类难度较高. 其他数据均来自 CL U TO 工具箱[14 ] ,这些数据集均已经过预处理为向量文本数据. 数据集的详细说明见表 1. 表 1 文本数据集的简要说明 Table 1 Summary of text datasets Data Source nd nw K balance N G20 202Newsgroup s 19 949 43 586 20 01991 N G17219 3 overlapping/ subgroups from NG20 2 998 15 810 3 01998 ohscal O HSUMED2233445 11 162 11 465 10 01437 klb WebACE 2 340 21 839 6 01043 hitech San Jose Mercury( TREC) 2 301 10 080 6 01192 la12 LA Times( TREC) 6 279 31 472 6 01282 tr11 TREC 414 6 429 9 01046 tr23 TREC 204 5 832 6 01066 tr41 TREC 878 7 454 10 01037 tr45 TREC 690 8 261 10 01088 注 : nd 代表文本数 (样本数) , nw 代表词项 (维数) , k 代表文本实际类别数 , balance 是数据的平衡系数即包含最少文本数的类与包含最多文本数的类中的文本数之比 ,这个值反映了数据集内类与类之间的平衡性. ·46 · 智能系统学报第 3 卷

<<向上翻页向下翻页>>

点击下载：机器学习：鲁棒的模糊方向相似性聚类算法