正在加载图片...
第6卷第6期 智能系统学报 Vol.6 No.6 2011年12月 CAAI Transactions on Intelligent Systems Dec.2011 doi:10.3969/j.issn.16734785.2011.06.002 情感文本分类混合模型及特征扩展策略 夏睿,宗成庆 (中国科学院自动化研究所,北京100190) 摘要:针对篇章级别情感文本分类问题,分析了传统的生成式模型和判别式模型的性能,提出了一种级联式情感 文本分类混合模型以及句法结构特征扩展策略.在该模型中,生成式模型(朴素贝叶斯分类器)和判别式模型(支持 向量机)以级联的方式进行组合,旨在消除对于分类临界样本,模型判决置信度不足引起的误差.在混合模型的基础 上,提出了一种高效扩展依存句法特征的策略.该策略既提高了系统的正确率,又避免了传统特征扩展方法所带来 的计算量增加的问题.实验结果表明,混合模型及特征扩展策略与传统方法相比,在算法准确性和效率上,都有显著 的提高. 关键词:文本分类:情感分类:混合模型:特征扩展 中图分类号:TP391.1文献标志码:A文章编号:16734785(2011)06048306 A hybrid approach to sentiment classification and feature expansion strategy XIA Rui,ZONG Chengqing (Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China) Abstract:In this paper,focusing on sentiment text classification,the performance of generative and discriminative models for sentiment classification was studied,and a hybrid approach to sentiment classification was proposed. The individual generative classifier(naive Bayes,(NB)and the discriminative classifier (support vector machines, SVM)were merged into a hybrid version in a two-stage process in order to overcome individual drawbacks and ben- efit from the merits of both systems.On the basis of the hybrid classifier,an efficient strategy of incorporating de- pendency features was also presented.The strategy not only increases the accuracy of the system,but also avoids the defects of increased computing volume brought by the traditional feature expansion method.Experimental results show the apparent advantages of this approach in both classification accuracy and efficiency. Keywords:text classification;sentiment classification;hybrid model;feature expansion 近10年来文本分类成为自然语言处理和模式题进行:1)设计合适的分类器模型;2)寻找能够有 识别领域的一个研究热点.传统的文本分类技术关效体现情感信息的特征表示方法, 注的是文本的客观内容,如文本主题.基于主题的文 对于问题1),情感文本分类沿袭了传统的主题 本分类技术已有多年的研究基础,发展较为成熟并 文本分类模型,常见的分类器有朴素贝叶斯模型 且得到了广泛应用;而情感文本分类所研究的对 (NB)、支持向量机(SVM)和最大熵模型(MaxEnt). 象是文本的主观内容,如作者的倾向度,近年来逐渐 文献[3]对这3种分类器在情感文本分类任务中的 发展成为一种独特的文本分类任务,国内外都有着 性能进行了比较,实验结果显示在电影评论语料 广泛的研究21 (Cornel movie-review dataset)中SVM表现最好, 情感文本分类的相关研究主要围绕下面2个问 MaxEnt次之,NB最后,不过三者之间的差距并不显 著.然而后续研究表明,分类器的性能具有领域依赖 收稿日期:201105-12. 性,对不同的领域而言,任何一个分类器性能都无法 基金项目:国家自然科学基金项目资助项目(60975053):中科院-爱 丁堡皇家学会交流项目. 始终占优41,例如在多领域情感分类语料(muli-do 通信作者:夏睿.E-mail:ia@lpr.in.ac.cm main sentiment dataset)中,NB性能要优于SVM.因 此,对于情感文本分类,生成式模型和判别式模型孰
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有