正在加载图片...
第6卷第6期 智能系统学报 Vol.6 No.6 2011年12月 CAAI Transactions on Intelligent Systems Dec.2011 doi:10.3969/i.i8sn.1673-4785.2011.06.003 基于概念的词汇情感倾向识别方法 陈岳峰12,苗夺谦2,李文12,张志飞12 (1.同济大学计算机科学与技术系,上海201804:2.同济大学嵌入式系统与服务计算教育部重,点实验室,上海200092) 摘要:词汇的语义倾向是文本倾向性分析的基础课题.现有的词汇语义倾向计算通常是以词汇为基准,而词是包 括了多种不同情感倾向概念的粒度范畴,影响分析的精度和效率.据此,提出在更细的粒度下,利用HowNet工具中 的“概念”进行倾向性分析,设计了基于概念的语义倾向计算方法.该方法使用聚类的概念,利用K-EDOIDS算法寻 找基准概念.实验结果表明,基于概念的方法较传统基于词汇的方法准确率更高 关键词:文本倾向性分析;HowNet;概念;聚类;K-MEDOIDS 中图分类号:TP391文献标志码:A文章编号:16734785(2011)06048906 Semantic orientation computing based on concepts CHEN Yuefeng'2,MIAO Duogian'2,LI Wen'2,ZHANG Zhifei1.2 (1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.The Key Laboratory of Embed- ded System and Service Computing,Ministry of Education,Tongji University,Shanghai 200092,China) Abstract:The semantic orientation of words is the foundation of sentiment analysis.Current methods to compute se- mantic orientation of words are mostly based on reference words,while words belonging to the granularity category, including various sentiment orientation concepts,affect the analytical precision and efficiency.In this paper,a new method of semantic orientation computing was proposed based on the reference concepts using the HowNet tool to analyze the tendency.The clustering algorithm K-Mediods was used to search for the reference concepts.The ex- perimental results show that the concept-based method outperforms the word-based method. Keywords:sentiment analysis;HowNet;concept;clustering;K-Medoids 近年来,文本的倾向性分析愈发受到人们的关cellent)的互信息,减去它与程度强烈的贬义词(如 注.文本倾向性分析是指通过挖掘和分析文本中的bd)的互信息,来计算词汇的倾向度;文献[3]利用 立场、观点、看法、情绪、好恶等主观信息,对文本的 搜索引擎的NEAR关键字进行类似的研究.在国 情感倾向做出类别判断.文本倾向性分析可包含3 内,刘挺51、王素格6对文本倾向性分析做了全面 个粒度:词汇级别、句子级别以及文档级别.词汇的 性的研究.此外,朱嫣岚)、杨昱昺8以及熊德平] 倾向性分析是后2种粒度的基础.一般的词汇语义 等利用HowNet进行了倾向性分析的研究,这些研 倾向计算都是基于词汇的.国外学者Hatzivassiloglou 究都是基于词汇与词汇之间的某种关联.但是文献 和McKeown、Turney!21以及Jaap Kamps!4等的研 [7]采用目标词与基准词之间的相似度差值的方 究具有很大的启发意义.文献[1]根据连词的起承 法,实验结果的准确率并不是特别高.同时,HowNet 转合关系,判断2个词是同义词或是反义词,从而得 中的概念是可以脱离词汇而独立存在的,进而就能 到形容词的极性,但此研究并没有涉及倾向度的度 剥离出更纯粹的褒贬义概念(而不是使用混合有多 量;文献[2]利用词汇与程度强烈的褒义词(如ex- 种概念的褒贬义词)来进行实验. 为了提高倾向性分析的精度和效率,在前人的 收稿日期:201103-15. 成果和HowNet工具的基础上,提出了一种基于概 基金项目:国家自然科学基金资助项目(60970061,61075056, 念的词汇语义倾向度分析方法.该方法将HowNet 61103067);上海市重点学科建设资助项目(B004);中央 高校基本科研业务费专项资金资助项目. 当中存在的褒贬义概念进行聚类分析,将聚类中心 通信作者:陈岳峰.E-mail:dennislyve@gmail.com. 作为基准概念进行词汇的语义倾向计算
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有