第6卷第6期 智能系统学报 Vol.6 No.6 2011年12月 CAAI Transactions on Intelligent Systems Dec.2011 doi:10.3969/j.issn.16734785.2011.06.002 情感文本分类混合模型及特征扩展策略 夏睿,宗成庆 (中国科学院自动化研究所,北京100190) 摘要:针对篇章级别情感文本分类问题,分析了传统的生成式模型和判别式模型的性能,提出了一种级联式情感 文本分类混合模型以及句法结构特征扩展策略.在该模型中,生成式模型(朴素贝叶斯分类器)和判别式模型(支持 向量机)以级联的方式进行组合,旨在消除对于分类临界样本,模型判决置信度不足引起的误差.在混合模型的基础 上,提出了一种高效扩展依存句法特征的策略.该策略既提高了系统的正确率,又避免了传统特征扩展方法所带来 的计算量增加的问题.实验结果表明,混合模型及特征扩展策略与传统方法相比,在算法准确性和效率上,都有显著 的提高. 关键词:文本分类:情感分类:混合模型:特征扩展 中图分类号:TP391.1文献标志码:A文章编号:16734785(2011)06048306 A hybrid approach to sentiment classification and feature expansion strategy XIA Rui,ZONG Chengqing (Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China) Abstract:In this paper,focusing on sentiment text classification,the performance of generative and discriminative models for sentiment classification was studied,and a hybrid approach to sentiment classification was proposed. The individual generative classifier(naive Bayes,(NB)and the discriminative classifier (support vector machines, SVM)were merged into a hybrid version in a two-stage process in order to overcome individual drawbacks and ben- efit from the merits of both systems.On the basis of the hybrid classifier,an efficient strategy of incorporating de- pendency features was also presented.The strategy not only increases the accuracy of the system,but also avoids the defects of increased computing volume brought by the traditional feature expansion method.Experimental results show the apparent advantages of this approach in both classification accuracy and efficiency. Keywords:text classification;sentiment classification;hybrid model;feature expansion 近10年来文本分类成为自然语言处理和模式题进行:1)设计合适的分类器模型;2)寻找能够有 识别领域的一个研究热点.传统的文本分类技术关效体现情感信息的特征表示方法, 注的是文本的客观内容,如文本主题.基于主题的文 对于问题1),情感文本分类沿袭了传统的主题 本分类技术已有多年的研究基础,发展较为成熟并 文本分类模型,常见的分类器有朴素贝叶斯模型 且得到了广泛应用;而情感文本分类所研究的对 (NB)、支持向量机(SVM)和最大熵模型(MaxEnt). 象是文本的主观内容,如作者的倾向度,近年来逐渐 文献[3]对这3种分类器在情感文本分类任务中的 发展成为一种独特的文本分类任务,国内外都有着 性能进行了比较,实验结果显示在电影评论语料 广泛的研究21 (Cornel movie-review dataset)中SVM表现最好, 情感文本分类的相关研究主要围绕下面2个问 MaxEnt次之,NB最后,不过三者之间的差距并不显 著.然而后续研究表明,分类器的性能具有领域依赖 收稿日期:201105-12. 性,对不同的领域而言,任何一个分类器性能都无法 基金项目:国家自然科学基金项目资助项目(60975053):中科院-爱 丁堡皇家学会交流项目. 始终占优41,例如在多领域情感分类语料(muli-do 通信作者:夏睿.E-mail:ia@lpr.in.ac.cm main sentiment dataset)中,NB性能要优于SVM.因 此,对于情感文本分类,生成式模型和判别式模型孰
484 智能系统学报 第6卷 优孰劣,一直是一个难以回答的问题 模型.SVM的基本思想一是寻找具有最大类间距离 对于问题2),传统的文本分类方法基于词袋模 的决策面,二是将低维不可分问题转化为高维可分 型(bag-of-words,BOW)进行文本表示,以单个词作 问题,并且通过核函数在低维空间计算并构建分类 为特征的基本单元.情感分类有别于主题分类,它需 面.然而,SVM分类器存在容易过学习的缺点,而 要在特征中体现更多的情感信息,因此,很多研究者 且,在特征的独立性条件满足较好的情况下,性能不 立足于挖掘文本中更多能够有效表达情感的信息作 如贝叶斯模型, 为新的特征,如词序及其组合信息3,51、词性(pat of-speech,POS)信息[61、高阶n元语法(n 2生成式/判别式混合模型 gam)B4等,但是这些特征所达到的效果并不明 2.1NB:足够的置信度? 显.也有学者尝试挖掘更深层次的文本信息,比如句 通过对NB和SVM这2类模型的错误性分析 法结构信息等山,以期捕捉更加复杂的语法及语 发现,错分样本的分布是交叉的,一部分NB错分的 义特征(包括否定、转折等),这些方法在一定程度 样本SVM可以正确划分,反之亦然.在Kitchen语料 上超过了基于词袋的传统方法,但是系统性能的提 (将在4.1节中详细介绍)中抽出100个正例样本 高仍然有限.同时,引入句法特征所带来的最大问题 和100个负例样本,计算归一化对数联合概率,作分 就是特征空间的急剧增加,以及分类任务计算量的 布图,如图1所示,图中加号(+)和点号(·)分别 指数级增加.因此,如何更加有效地利用句法结构特 表示2类判决值log(p(x,+))和log(p(x,-),虚 征也是一个亟待解决的难题, 线左边表示正例样本,虚线右边表示负类样本 立足于解决上述2个问题,提出了一种基于生 ·l1ogp(d-)+Logp(d+) 成式和判别式模型融合的情感文本分类方法.生成 0.515 4 式和判别式分类器以一种级联的方式进行结合,旨 0.510 在利用判别式模型消除生成式模型对分类临界处样 本的判决置信度不高引起的误差.此外,遵循“奥卡 盖。500好:行 姆剃刀”(Occam's razor)原则,在二级判别式分类 器上,只对部分临界样本进行特征向量扩展,引入句 0.490. 法结构特征,目的在于向难于分辨的样本中加入更 0.485 40 80 120 160 200 多的情感信息,同时又回避了将所有样本都进行向 样木数 量扩展所带来的计算量的增加 正例样本 负类样本 图12类归一化对数联合概率分布 1传统模型 Fig.1 Distribution of log-likelihood by NB 情感文本分类任务的主流分类方法是基于机器 由图1可见,纵坐标在0.5附近的水平中轴区 学习的统计模型.从建模本质加以区别,可以分为生 域,2类判决值非常接近,正负2类样本中出现错分 成式模型(generative model)和判别式模型(discrimi- 的比率较大;离水平中轴越远,错分比率越小.给定 native model)2种. 文档x,为了衡量2类判决的置信度,定义2类归一 生成式模型对特征和类别的联合概率进行建 化对数联合概率距离作为刻画分类判决置信度的一 模,然后利用贝叶斯公式计算后验概率.这一类以贝 个指标: 叶斯决策理论为核心的分类器称作贝叶斯分类器, dist(x)=log(p(+)-log(p(1 它们是理论上的最优分类器.其中,朴素贝叶斯分类 I log(p(z,+))log(p(x,-))I' 器(NB)假设了在给定类别的条件下,各个特征项之 对相同的样本作概率距离分布曲线,如图2所 间相互独立(条件独立性假设),大大简化了类条件 示.与正确划分的样本相比,错分样本的概率距离统 概率密度的估计,是一种最简单的生成式模型,在文 计上更加接近0.虽然也有一部分概率距离接近0 本分类任务中被广泛应用[2].然而,NB的假设条件 的样本也被正确划分,认为它们的置信度仍然不高, 过强,在样本的特征相关性较大的情况下,分类性能 这样的判决带有很大风险, 往往得不到保证 用水平线(如图2中纵坐标为0.004的直线) 判别式模型则直接对后验概率进行建模,通常 表示置信度阈值,通过设置一个合理的阈值去衡量 依据一定的准则从样本数据中训练模型参数.支持 置信度,如果概率距离高于阈值,表示判决可信,否 向量机(SVM)[B1是文本分类任务中常用的判别式 则认为判决不可信
第6期 夏睿,等:情感文本分类混合模型及特征扩展策略 485 .log(p(d.-))+log(p(d.+) 0.035 3特征扩展策略 0.030 0.025 3.1引入依存句法结构特征 0.020 传统的词袋模型(B0W)中,一篇文档被看作一 0.015 个词袋,完全忽略了词之间的排序信息和句法关系。 0.010 虽然高阶n元语法,如二元语法(bigrams)和三元语 0.005 法(trigrams),被用于代替单一的一元语法(uni- 40 80 120 160200 grams)作为BOW的基本特征,然而文献[3]表明在 样本 正例样本 负类样本 电影评论领域语料中,bigrams的效果还不如uni- g?ams,其原因可能是传统的bigrams和trigrams难于 图2相同样本归一化对数联合概率距离分布 Fig.2 Distributions of distance between two-state log- 捕捉长距离的依赖关系,对情感分类作用不大. likelihood 依存句法信息被认为是情感分类中的有效特 2.2混合模型结构 征0,4.作为一种句子级粒度的文本结构表示方法,依 依据前面的分析,得到这样的结论:当样本处在 存句法树利用树中父子节点的关系来表述句子中各词 2类空间的临界面附近时,生成式模型NB的分类精 之间的依存关系.以句子“I definitely recommend this 度不高.而判别式模型SVM基于最大正负样本分类 flm.”为例,它的依存句法树如图4所示. 距离准则,相对前者,它对于分类边界处的样本有着 较高的判别能力. SUB OBJ 基于上述想法,论文提出了一个生成式/判别式 VMOD NMOD 混合模型,模型结构如图3所示.其中生成式分类器 NB作为第1级分类器,判别式分类器SVM作为2 definitely recommend this film PRP RB VBP DT NN 级分类器,它们以级联的方式进行组合.概率距离阈 图4依存句法结构树示例 值作为衡量判决置信度的参数,决定2个分类器结 Fig.4 Example of dependency parsing tree 合的程度.当NB判决的概率距离低于阈值时,转由 得到依存句法树之后,抽取每个父子节点的词 SVM进行二次判别. 对作为新的特征(如例句中的“definitely recom- mend”和“film recommend”),这些词对特征能够捕 训练集 测试样本 捉句子中词序信息和词之间的长距离依赖关系,经 常包含一元语法以外的情感信息.表1中列举了3 文木表示 文木表示 种不同的特征表示方法。 表1情感特征表示方法示例 Table 1 Examples of different feature representation 特征选择 特征选择 方法 特征表示 Text I definitely recommend this film. NB/SVMs NB分类 训练 Unigrams I,definitely,recommend,this,film I_definitely,definitely_recommend,recom Bigrams 概率“距离” mend this,this film 阈值 概率“距离” Dependency I_recommend,definitely_recommend,this_ Pairs film,film recommend 置信度达标 SVMs 虽然句法结构可以表达更多的文本信息,但是 分类 它带来的最大问题就是特征空间变成了原来的平方 Y 级,特征空间的急剧增加给后续任务,如特征选择、 分类判决 分类,带来了严重的计算负担, 3.2依存句法特征扩展策略 图3级联式混合模型结构 为了解决这个问题,在混合模型的基础上,提出 Fig.3 Structure of the hybrid model 了一种高效引入独立依存关系特征的策略:在混合
486 智能系统学报 第6卷 模型生成式分类器中,概率距离高于阈值的样本有 的交叉验证,最后使用4次循环的均值作为最后的 较高的置信度,无需进行特征扩展;而概率距离低于 参数,最优参数可以表示为 阈值的样本,在第1级分类器中被拒绝判决,在第2 级分类器中需要引入句法结构特征以提高其可分 性,如图5所示.该策略不仅能够提高分类精度,而 式中:F表示当前测试集,F表示当前训练集,f表示 且在效率上也占据优势, 当前训练集中用于训练参数的开发集,在 (0,0.01]范围内以0.005为步长寻找最优值, 4.3实验1 测试样本 首先,将NB和SVM作为基线系统,给出Hy- bid模型的对比实验结果,如表2所示.3个系统都 NB分类 Unigrams特征 以Unigrams作为B0W模型基本特征,分别用U@ NB、U@SVM和U@Hybrid表示,特征选择方法使用 概率“距离” 依行句法特征 的是信息增益法(information gain,IG)u6,表2给 出了2类实验结果:一类是使用全部特征的分类正 确率,表格中用A表示;另一类是经过IG特征选 置信度达标 SVMs 分类 择的最优特征子集的结果,用Best@IG表示. 表2使用Unigrams特征时的系统性能比较 Table 2 The system performance with Unigram features 分类判决 数据集 特征选择U@NB U@SVM U@Hybrid 图5混合模型依存句法特征扩展策略 A 0.7760 0.7475 0.7870 Fig.5 Structure of the hybrid model with feature ex- Book Best@IG 0.7880 0.7520 0.7930 pansion strategy AlI 0.7960 0.7710 0.8055 4实验设计与结果分析 DVD Best@IG 0.8015 0.7760 0.8055 4.1语料及工具 All 0.8175 0.8045 0.8205 Electronics 1)语料:本文选用了多领域情感数据集(muli- Best@IG 0.8185 0.8045 0.8270 domain sentiment dataset)进行实验.该语料由文献 All 0.82800.82800.8530 [15]首次引入,之后也得到广泛使用.该数据集由 Kitchen Best@IG 0.829 5 0.82800.8530 从Amazon..com抽取的4个领域(Book、DVD、Elec tronics和Kitchen)的产品评论语料组成,每个领域 从表2的结果可以看出,与基线系统NB和 包含正负例评论文档各1000篇.实验采用了全部4 SVM相比,Hybrid模型无论是使用全部特征集还是 个领域的语料。 使用最优特征子集,在4个数据集中均表现出了明 2)语言分析工具:词性分析是句法分析的预处 显的优势. 理步骤之一,选用MXPOST作为词性分析器.另外, 此外,给出了在递增的特征选择子集下,3个模 使用MSTParser进行依存句法分析,训练集使用的 型特征数-分类正确率的曲线,如图6所示。 是宾州书库的WSJ部分. 3)分类器:本文使用开源软件OpenPR-NB3]和 0.80 0.78 LibSVM+作为2种分类器的实现工具.其中OpenPR- 解0.76 NB的参数设置为多项式模型和拉普拉斯平滑21 LibSVM采用线性核函数,其他参数均保持默认. 04 米 0.72 4.2实验设置 0.70 UnigramsNB 1)交叉验证:每个数据集被平均分成5份,所 0.68 UnigramsSVM -e-Unigrams@Hybri 有的实验结果均经过5倍交叉验证.交叉验证的每 0.010.4 0.81.21.6 202.0 次循环,4份作为训练集,剩余1份作为测试集。 特征数 2)阈值参数训练:阈值是混合模型的一个重要 (a)Book领域 参数,为防止过拟合,参数训练在训练集内使用4倍
第6期 夏睿,等:情感文本分类混合模型及特征扩展策略 487… 0.84 0日 0.82 0.82 0.80 0.80 0.78 0.785 0.76 0.76 0.74 UnigramsNB 日0.74 -UnigramsNB 0.72 Unigrams@SVM UnigramsSVM e-Unigrams@Hybrid 0.72 0.701 ×10 e-Unigrams@Hybrid 0.2 0.40.60.81.2 0.70 0.81.21.6 2.020 特征数 0.010.4 特征数 (d)Kitchen领域 (b)DVD领域 图6系统在IG特征选择下的分类性能 Fig.6 The accuracy curve under IG feature selection 0.84 图6中横轴最右边的数值就是使用全部特征的 0.82 结果,3条曲线的纵轴最高点就是最优特征子集的 0.80 结果(参见表2).由图6可见,无论是在哪个特征子 0.78 集上,混合模型的曲线均在最上方 0.76 4.4实验2 0.74 ÷Unigrams@NB Unigrams@SVM 实验2中首先在2个基线系统上对全部样本都 0.72 --Unigrams@Hybrid 0.70 进行依存句法特征扩展(以unigrams和依存句法特 .01 0.3 0.6 0.9 征的合集作为新的特征集),接着在混合模型中引 特征数 入第3节所述的句法结构特征扩展策略,表3给出 (c)Electronics领域 了综合对比结果. 表3句法结构特征扩展后各方法的性能比较 Table.3 The system performance with feature expansion strategy U@NB 数据集 U@NB U@SVM U@Hybrid U+P@NB U+P@SVM U+P@SVM Book 0.7760 0.7475 0.7870 0.7960 0.7725 0.8100 DVD 0.7960 0.7710 0.8055 0.8125 0.7805 0.8230 Electronics 0.8175 0.8045 0.8205 0.8165 0.8240 0.8420 Kitchen 0.8280 0.8280 0.8530 0.8610 0.8455 0.8675 其中U+P@NB和U+P@SVM分别表示NB 构特征在2个方向的比较上都有显著优势 分类器和SVM分类器加入依存句法特征的结果.非 由于该方法只在2级分类器上扩展句法特征的 常明显地看出,在加入句法结构特征之后,NB和 策略,训练语料里绝大部分的样本不需要特征扩展, SVM分类器的性能都有了显著提高.这样的实验结 仅仅需要对分类边界的样本进行扩展,因此该方法 果充分证实了句法结构信息确实是情感文本分类的 大大节省了系统开销, 显著特征, 用U@NB&U+P@SVM表示在混合模型上引 5结束语 入句法结构特征的实验结果,表3给出了2个方向 本文提出了一种情感文本分类混合模型,将生 上的结果比较:与混合模型使用原始特征相比,在2 成式、判别式基分类器以一种级联的方式进行组合, 级分类器上扩展句法特征之后,分类正确率在5个 旨在消除传统方法对分类边界附近样本由于判决置 领域上均有提高,提高幅值为(1.5~3.5)%;与NB 信度不高而带来的误差.2类概率“距离”用于衡量 和SVM扩展句法结构特征(U@NB、U+P@SVM) 生成式模型判决的置信度,对于置信度不高的样本, 两者之中最好的结果相比,各个领域都有(0.5~ 生成式模型拒绝判决,交由判别式模型进行分类.此 2)%的提高.因此综合来看,混合模型辅以句法结 外,还提出了在2级判别式模型中扩展句法结构特
488 智能系统学报 第6卷 征的策略,通过对难以判决的临界样本增加依存句 putational Intelligence,2006,22:110-125. 法信息,以提高其分类的精度,同时只在必要的样本 [11]DAVE K.Mining the peanut gallery:opinion extraction 上进行特征扩展.实验表明,与传统方法相比,提出 and semantic classification of product reviews[C]//Pro- 的混合模型及特征扩展策略不仅在分类精度上有显 ceedings of the International World Wide Web Conference (WWW).Budapest,Hungary,2003:519-528. 著的、鲁棒的提高,而且在算法效率上,避免了传统 [12]MCCALLUM A,NIGAM K.A comparison of event models 特征扩展所带来的高维计算负担,提高了系统效率. for naive Bayes text classification[C]//Proceedings of the 如何更好地将生成式模型和判别式模型融合到 AAAI Workshop on Leaming for Text Categorization.Mad- 一起,以及如何有效地对句法结构特征进行特征选 ison,USA,1998:15-18. 择,是值得进一步研究的问题,这也是下一步即将进 [13]JOACHIMS T.Text categorization with support vector ma- 行的工作, chines:learning with many relevant features[C]//Chem- nitz,Germany:Springer,1998:237-243. 参考文献: [14]KUDO T,MATSUMOTO Y.A boosting algorithm for clas- sification of semi-structured text[C]//Proceedings of the [1]宗成庆.统计自然语言处理[M].北京:清华大学出版 Conference on Empirical Methods in Natural Language Pro- 社,2008:23-28. cessing (EMNLP).Barcelona,Spain,2004:35-41. [2]PANG B,LEE L.Opinion mining and sentiment analysis [15]BLITZER J.Biographies,bollywood,boom-boxes and blend- [J].Foundations and Trends in Information Retrieval, ers:domain adaptation for sentiment classification[C]/Pro 2008,2:1-135 ceedings of the Association for Computational Linguistics [3]PANG B.Thumbs up?sentiment classification using ma- (ACL).Prague,Czech Republic,2007:151-156. chine learning techniques[C]//Proceedings of the Confer- [16]YANG Y,PEDERSEN J.A comparative study on feature ence on Empirical Methods in Natural Language Processing selection in text categorization C]//Proceedings of the EMNLP).Philadelphia.USA,2002:79-86. Fourteenth International Conference on Machine Learning [4]XIA R.Ensemble of feature sets and classification algo- (ICML).Nashville,USA,1997:412-420. rithms for sentiment classification[J].Information Sci- ence8,2011,181:1138-1152. 作者简介: 5]RILOFF E,PATWARDHAN S,WIEBE J,et al.Feature 夏容,男,1981年生,博士,主要研 subsumption for opinion analysis[C]//Proceedings of the 究方向为模式识别、机器学习、自然语 Conference on Empirical Methods in Natural Language Pro- 言处理和文本挖掘等。 cessing EMNLP).Stroudsburg,PA,USA,2006:440- 448. [6]HATZIVASSILOGLOU V,WIEBE J.Effects of adjective o- rientation and gradability on sentence subjectivity[C]//Pro- ceedings of the Intemational Conference on Computational 宗成庆,男,1963年生,研究员,博 Linguistics (COLING).Saarbrucken,Germany,2000: 士生导师,中科院自动化所模式识别国 299-305. 家重点实验室副主任.亚洲自然语言处 [7]XIA R,ZONG C Q.Exploring the use of word relation fea- 理联合会(AFNLP)执行理事、国际学术 tures for sentiment classification[C]//Proceedings of the 期刊EEE Intelligent Systems副主编、 23rd Intemational Conference on Computational Linguistics ACM Transactions on Asian Language In- (COLING).Beijing,China,2010:1336-1344. formation Processing副主编、International Joumal of Computer [8]XIA R,ZONG C Q.A POS-based ensemble model for Processing of Languages副主编、Journal of Computer Science cross-domain sentiment classification[C]//Proceedings of and Technolog罗编委、《自动化学报》编委、中国中文信息学会 the International Joint Conference on Natural Language Pro- 常务理事、中国人工智能学会理事,并曾在若干国际学术会 cessing IJCNLP )Chiang Mai,Thailand,2011:614- 议(包括ACL、COLING等本领域顶级国际会议)上担任程序 622. 委员会及组织委员会主席、Area Chair、委员等职务.主要研 9]GAMON M.Sentiment classification on customer feedback 究方向为自然语言处理的理论与方法、机器翻译、文本分类 data:noisy data,large feature vectors,and the role of lin- 等.在大规模口语语料库建设、口语理解与翻译、文本机器翻 guistic analysis[C]//Proceedings of the International Con- 译和自动分类等方面,提出了一系列新的技术和方法,多次 ference on Computational Linguistics (COLING).Barcelo- 在国际口语翻译权威评测中获得优异成绩.申请国家发明专 na,Spain,2004:841847. 利10余项。在国内外重要学术刊物和会议上发表学术论文 [10]KENNEDY A,INKPEN D.Sentiment classification of 70余篇,出版学术专著1部.。 movie reviews using contextual valence shifters[J].Com-