正在加载图片...
·1212· 工程科学学报.第41卷.第9期 (开始) 数设定为6. 2.基于LDA模型,话题数C设定为6. Single-Pass聚类后 的话题簇 3.基于LDA文本表示和Single-Pass&HAC的 聚类,话题数C设定为200. 建立话题篪间的 相似度矩阵 4.基于Word2vec&TF-IDF文本表示和Single- 选择最大相似度值 Pass&HAC的聚类,Word2vee的维度设定在100. Max(sim(d.d》 5.基于LDA&Word2vec和Single--Pass&HAC的 文是 聚类,统一LDA的话题数设定为200,Word2vec维 Max是否 否 大于阀值T 度设定为100. 实验结果如表1所示 合并两个话题簇, 更新相似度矩阵 表1各种聚类算法的性能 和话题向量 Table 1 Performance of various clustering algorithms 话题族数 聚类算法 准确率召回率F值 是否满足设定 要求 VSM+K-Means 0.7050.7030.704 是 LDA 0.7280.7420.735 、结束 LDA +Single-Pass &HAC 0.7780.7990.789 图5HAC话题合并流程 Word2vec Single-Pass &HAC 0.7940.801 0.797 Fig.5 HAC topic merge process LDA&Word2vec +Single-Pass &HAC 0.833 0.845 0.839 2071条,所有文本总计184300条,选取了其中10 从表1可以看出,传统的基于VSM+K-Means 个话题,每个话题1000条文本用于实验. 的聚类算法由于只是单纯计算词语出现频率,缺少 首先是中文分词,利用开源工具jiba,停用词 了深层次的语义,因此算法的准确性和召回率都是 表选用的哈工大和百度的词表.然后通过LDA训 最差的,其次是LDA方法,LDA主题模型是可以分 练文档集,话题数定为200,=0.1,B=0.25,得到 析出文本-主题向量,但是LDA用于文本分类的效 文本-主题的特征向量.之后在用Word2vec训练语 果不尽如人意,原因是LDA计算的文本-主题的概 料集,得到每个特征词的向量,再通过T℉-DF值与 率模型,并不代表文本一定属于这个主题,同时由于 Word2vec的特征向量进行加权融合得到完整的文 本表示. 本文话题数为6,因此LDA在计算时大大减少了文 本的维度,丢失了高维文本信息.同时可以看出基 2.1.2实验评价指标 文本聚类中常用的评价指标包括准确率(P)、 于Single-Pass&HAC的聚类算法普遍好于K-Means 召回率(R)、F值.F值是准确率和召回率的几何加 和LDA算法,而在文本向量表示方面,单一的LDA 权均值,可以更好的衡量话题检测精度,F值的具体 或者Word2vec都不能完整的表示文本信息,基于 表达如下: LDA&Word2vec的文本表示用于话题检测的效果明 F=(a2+1)pR 显高于单独使用LDA或Word2vec,因此可以看出基 a(P+R) (7) 于LDA&Word2vec和Single-Pass&HAC算法的 通常,a=1,F值越大则表明聚类的效果越好. 话题检测效果优于其他方法. 2.2实验结果分析 2.2.2不同参数对聚类算法性能比较 2.2.1各种聚类算法性能比较 在LDA&Word2vec和Single-Pass&HAC算法 本次实验是为了验证基于LDA&Word2vec和 中,影响性能的参数包括LDA的维数V,Word2vec Single--Pass&HAC的算法优于传统的VSM+K- 的维数Q,LDA和Word2vec的加强融合系数y,以 Means和LDA分类,以及在文本相似度计算时结合 及Single--Pass的阈值T这四个参数.这四个参数的 LDA和Word2vec的效果好于单独使用LDA或者 选择也直接影响算法的性能.通过对照试验来验证 Word2vec. 参数对算法的影响. 总共5组实验,分布如下: 判断LDA和Word2vee的维度对实验结果的影 l.传统的VSM和KMeans结合的方式,聚类簇 响,V取值为50、100、150、200,y=0.5,T=0.90,Q工程科学学报,第 41 卷,第 9 期 图 5 HAC 话题合并流程 Fig. 5 HAC topic merge process 2071 条,所有文本总计 184300 条,选取了其中 10 个话题,每个话题 1000 条文本用于实验. 首先是中文分词,利用开源工具 jieba,停用词 表选用的哈工大和百度的词表. 然后通过 LDA 训 练文档集,话题数定为 200,琢 = 0郾 1,茁 = 0郾 25,得到 文本鄄鄄主题的特征向量. 之后在用 Word2vec 训练语 料集,得到每个特征词的向量,再通过 TF鄄鄄IDF 值与 Word2vec 的特征向量进行加权融合得到完整的文 本表示. 2郾 1郾 2 实验评价指标 文本聚类中常用的评价指标包括准确率(P)、 召回率(R)、F 值. F 值是准确率和召回率的几何加 权均值,可以更好的衡量话题检测精度,F 值的具体 表达如下: F = (a 2 + 1)P·R a 2 (P + R) (7) 通常,a = 1,F 值越大则表明聚类的效果越好. 2郾 2 实验结果分析 2郾 2郾 1 各种聚类算法性能比较 本次实验是为了验证基于 LDA&Word2vec 和 Single鄄鄄Pass &HAC 的算法优于传统的 VSM + K鄄鄄 Means 和 LDA 分类,以及在文本相似度计算时结合 LDA 和 Word2vec 的效果好于单独使用 LDA 或者 Word2vec. 总共 5 组实验,分布如下: 1. 传统的 VSM 和 KMeans 结合的方式,聚类簇 数设定为 6. 2. 基于 LDA 模型,话题数 C 设定为 6. 3. 基于 LDA 文本表示和 Single鄄鄄 Pass&HAC 的 聚类,话题数 C 设定为 200. 4. 基于 Word2vec&TF鄄鄄 IDF 文本表示和 Single鄄鄄 Pass&HAC 的聚类,Word2vec 的维度设定在 100. 5. 基于 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 的 聚类,统一 LDA 的话题数设定为 200,Word2vec 维 度设定为 100. 实验结果如表 1 所示. 表 1 各种聚类算法的性能 Table 1 Performance of various clustering algorithms 聚类算法 准确率 召回率 F 值 VSM + K鄄鄄Means 0郾 705 0郾 703 0郾 704 LDA 0郾 728 0郾 742 0郾 735 LDA + Single鄄鄄Pass &HAC 0郾 778 0郾 799 0郾 789 Word2vec + Single鄄鄄Pass &HAC 0郾 794 0郾 801 0郾 797 LDA& Word2vec + Single鄄鄄Pass &HAC 0郾 833 0郾 845 0郾 839 从表 1 可以看出,传统的基于 VSM + K鄄鄄 Means 的聚类算法由于只是单纯计算词语出现频率,缺少 了深层次的语义,因此算法的准确性和召回率都是 最差的,其次是 LDA 方法,LDA 主题模型是可以分 析出文本鄄鄄主题向量,但是 LDA 用于文本分类的效 果不尽如人意,原因是 LDA 计算的文本鄄鄄 主题的概 率模型,并不代表文本一定属于这个主题,同时由于 本文话题数为 6,因此 LDA 在计算时大大减少了文 本的维度,丢失了高维文本信息. 同时可以看出基 于 Single鄄鄄Pass&HAC 的聚类算法普遍好于 K鄄鄄Means 和 LDA 算法,而在文本向量表示方面,单一的 LDA 或者 Word2vec 都不能完整的表示文本信息,基于 LDA&Word2vec 的文本表示用于话题检测的效果明 显高于单独使用 LDA 或 Word2vec,因此可以看出基 于 LDA & Word2vec 和 Single鄄鄄 Pass & HAC 算法的 话题检测效果优于其他方法. 2郾 2郾 2 不同参数对聚类算法性能比较 在 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 算 法 中,影响性能的参数包括 LDA 的维数 V,Word2vec 的维数 Q,LDA 和 Word2vec 的加强融合系数 酌,以 及 Single鄄鄄Pass 的阈值 T 这四个参数. 这四个参数的 选择也直接影响算法的性能. 通过对照试验来验证 参数对算法的影响. 判断 LDA 和 Word2vec 的维度对实验结果的影 响,V 取值为 50、100、150、200,酌 = 0郾 5,T = 0郾 90,Q ·1212·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有