正在加载图片...
郑恒毅等:一种面向网络长文本的话题检测方法 ·1213· 取值也为50、100、150、200,实验结果如图6所示. 较为分散的类别再次聚类,兼顾了准确性和效率. 由6可知,在V=200,Q=100时有较好的F值,因 在真实数据集上的实验结果表明,本文提出的方法 此固定V=200,Q=100,修改阈值T,T的变化为 相较于现在常用的话题检测方法,如VSM和Sin- 0.85~0.95,不同阈值下F值的变化如图7所示 gle-Pass等,检测精度提高了10%~20%. 0.840 但是,本文对于网络长文本的话题检测仍有一 ·-V=50 ◆-V-100 些不足之处,归纳起来有以下两点:第一点是本文提 0.835 8-V=150 0-V-200 出的话题检测方法对于特定话题的演化和预测本文 0.830 并没有涉及,故下一步可以在本文基础上增加对话 0.825 题的演化分析和预期估计.第二点是本文的话题检 测方法对于话题的聚类有了良好的效果,但是并未 0.820 对话题的情感倾向性进行分析,在今后的工作中可 0.815 以考虑利用Word2vec进行情感字典的扩建. 0.810 0 100 150 200 参考文献 Word2vec维度,Q [1]AlSumait L S.Online Topic Detection,Tracking,and Significance 图6不同维度下F值的变化 Ranking Using Generatire Topic Models Dissertation].Fairfax: Fig.6 Change in F value for different dimensions George Mason University,2009 [2]Allan J.Harding S,Fisher D,et al.Taking topic detection from 0.840 evaluation to practice//Proceedings of the 38th Anmual Hawaii In- 0.835 ternational Conference on System Sciences.Big Island,2005:1 [3]Allan J,Lavrenko V,Swan R.Explorations within topic tracking 0.830 and detection//Topie Detection and Tracking.Boston:Springer, 2002:197 0.825 [4]Schultz J M,Liberman M Y.Towards a "Universal Dictionary" for multi-language information retrieval applications//Topic Detec- 0.820 tion and Tracking.Boston:Springer,2002:225 0.815 [5]Jiang P.Design and Implementation of Public Opinion Analysis System of Shandong Unirersity Dissertation].Jinan:Shandong 0.818850360.870.880890900910.920.930.94095 University,2015 阈值T (姜朋.山东大学與情分析系统的设计与实现[学位论文], 图7倒值T的影响 济南:山东大学,2015) Fig.7 Change in F value for different thresholds [6]Huang M X.The design and the implementation of the public opinion analysis system based on subject discovery.Beijing U 由图7可以看出,LDA维度为200,Word2vec的 nion Univ Nat Sci,2012,26(1):33) 维度为100,Single--Pass的阈值为0.90时有较好的 (黄美璇.基于主题发现的舆情分析系统的设计与实现.北京 联合大学学报:自然科学版,2012,26(1):33) F值. [7]Ren H G.The Design and Implementation of Public Opinion Analy- 3结论 sis System Based on Topic Events Dissertation].Beijing:Beijing University of Posts and Telecommunications,2012 针对现有的网络长文本话题检测方法文本信息 (任海果.基于主题事件的舆情分析系统的设计与实现[学位 表示不完整,话题发现精度、效率低下的问题,提出 论文].北京:北京邮电大学,2012) 了一种新的方法.在文本表示上,本文研究的基于 [8]Wu L H.Forum Based Topic Detection and Tracking Algorithms Study on Dissertation].Beijing:Beijing University of Posts and LDA&Word2vec的文本向量不仅可以表示文本数据 Telecommunications,2013 的特征词向量,而且可以表示文本隐含的主题信息, (吴利华.基于论坛的话题发现与跟踪算法研究[学位论文]. 对文本的信息进行了较为完整地表达,在进行话题 北京:北京邮电大学,2013) 检测时可以有效地提高精度.在文本聚类方面,本 [9] Gao X.Designing and Building APublic Opinion Monitoring Sys- 文研究的基于Single-Pass&HAC的文本聚类方法, tem Based on Forumn Information [Dissertation ]Harbin:Harbin Institute of Technology,2012 在Single-Pass聚类的基础上引人了时间窗口,解决 (高雄.基于论坛的舆情分析系统设计与实现[学位论文] 了其对于输入文本顺序敏感地问题,再利用HAC对 哈尔滨:哈尔滨工业大学,2012)郑恒毅等: 一种面向网络长文本的话题检测方法 取值也为 50、100、150、200,实验结果如图 6 所示. 由 6 可知,在 V = 200,Q = 100 时有较好的 F 值,因 此固定 V = 200,Q = 100,修改阈值 T,T 的变化为 0郾 85 ~ 0郾 95,不同阈值下 F 值的变化如图 7 所示. 图 6 不同维度下 F 值的变化 Fig. 6 Change in F value for different dimensions 图 7 阈值 T 的影响 Fig. 7 Change in F value for different thresholds 由图 7 可以看出,LDA 维度为 200,Word2vec 的 维度为 100,Single鄄鄄Pass 的阈值为 0郾 90 时有较好的 F 值. 3 结论 针对现有的网络长文本话题检测方法文本信息 表示不完整,话题发现精度、效率低下的问题,提出 了一种新的方法. 在文本表示上,本文研究的基于 LDA&Word2vec 的文本向量不仅可以表示文本数据 的特征词向量,而且可以表示文本隐含的主题信息, 对文本的信息进行了较为完整地表达,在进行话题 检测时可以有效地提高精度. 在文本聚类方面,本 文研究的基于 Single鄄鄄Pass & HAC 的文本聚类方法, 在 Single鄄鄄Pass 聚类的基础上引入了时间窗口,解决 了其对于输入文本顺序敏感地问题,再利用 HAC 对 较为分散的类别再次聚类,兼顾了准确性和效率. 在真实数据集上的实验结果表明,本文提出的方法 相较于现在常用的话题检测方法,如 VSM 和 Sin鄄 gle鄄鄄Pass 等,检测精度提高了 10% ~ 20% . 但是,本文对于网络长文本的话题检测仍有一 些不足之处,归纳起来有以下两点:第一点是本文提 出的话题检测方法对于特定话题的演化和预测本文 并没有涉及,故下一步可以在本文基础上增加对话 题的演化分析和预期估计. 第二点是本文的话题检 测方法对于话题的聚类有了良好的效果,但是并未 对话题的情感倾向性进行分析,在今后的工作中可 以考虑利用 Word2vec 进行情感字典的扩建. 参 考 文 献 [1] AlSumait L S. Online Topic Detection, Tracking, and Significance Ranking Using Generative Topic Models [ Dissertation]. Fairfax: George Mason University, 2009 [2] Allan J, Harding S, Fisher D, et al. Taking topic detection from evaluation to practice / / Proceedings of the 38th Annual Hawaii In鄄 ternational Conference on System Sciences. Big Island, 2005: 1 [3] Allan J, Lavrenko V, Swan R. Explorations within topic tracking and detection / / Topic Detection and Tracking. Boston: Springer, 2002: 197 [4] Schultz J M, Liberman M Y. Towards a “Universal Dictionary冶 for multi鄄language information retrieval applications/ / Topic Detec鄄 tion and Tracking. Boston: Springer, 2002: 225 [5] Jiang P. Design and Implementation of Public Opinion Analysis System of Shandong University [ Dissertation]. Jinan: Shandong University, 2015 (姜朋. 山东大学舆情分析系统的设计与实现[学位论文]. 济南: 山东大学, 2015) [6] Huang M X. The design and the implementation of the public opinion analysis system based on subject discovery. J Beijing U鄄 nion Univ Nat Sci, 2012, 26(1): 33) (黄美璇. 基于主题发现的舆情分析系统的设计与实现. 北京 联合大学学报:自然科学版, 2012, 26(1): 33) [7] Ren H G. The Design and Implementation of Public Opinion Analy鄄 sis System Based on Topic Events [Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2012 (任海果. 基于主题事件的舆情分析系统的设计与实现[学位 论文]. 北京: 北京邮电大学, 2012) [8] Wu L H. Forum Based Topic Detection and Tracking Algorithms Study on [Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2013 (吴利华. 基于论坛的话题发现与跟踪算法研究[学位论文]. 北京: 北京邮电大学, 2013) [9] Gao X. Designing and Building APublic Opinion Monitoring Sys鄄 tem Based on Forum Information [Dissertation]. Harbin: Harbin Institute of Technology, 2012 (高雄. 基于论坛的舆情分析系统设计与实现[学位论文]. 哈尔滨: 哈尔滨工业大学, 2012) ·1213·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有