正在加载图片...
144 管理科学学报 2009年4月 利用电影评论数据对基于语义倾向的情感分类方率为319%)和客观句,再从这些句子中得到更 法和基于机器学习的情感分类方法进行了对比分多主观性词语搭配,再用准确性很高词语搭配更 析,发现语义方法的结果与机器学习方法具有相新原始的主观特征通过重复上述过程进一步提 似性.上述研究均证实了该语义倾向的客户情感高主观分类器和客观分类器的准确率,最终主观 分析方法的有效性除此之外还有一些学者采用分类器的查准率和查全率分别达到90.2%和 由普林斯顿大学开发的英文词网( wordnet)进40.1%.Yu和 Hatzivassiloglou利用相似性方 行英文语义方法的情感分析,也取得了较好的分法朴素贝叶斯分类和多重朴素贝叶斯分类3种 析结果2.Lu3等在对于产品特征挖掘后,针对统计方法进行主客观句的识别研究其中,朴素贝 某一特征的情感导向分析正是利用了英文词网中叶斯分类器在原有研究的基础上采用词、2-gam、 对于词的语义关系定义 3-gram和词类、具有情感倾向的词序列、主语和其 而由于语言结构的差别现有的面向英文客直接修饰成分等作为特征项,对主观句识别的查 户评论情感分类的语义方法,无法直接用于中文准率和查全率达到80%-90%,而客观句的查准 客户评论的情感分类叶强,李一军等探索了中文率和查全率大约在50%左右叶强等探索了中文 环境下的情感分析理论与方法,在PMR方法基主观性的自动识别方法,提出了基于连续双词词 础上,初步建立了中文语义倾向情感分析方法,并类组合模式(2POS)的主观程度自动判别算法 分别将中文搜索引擎www.Google,com和www.为中文客户评论挖掘提供了一种可能的方法 Baidu.com提供的AP集成于实验平台中,对手选择 机、图书、电影的中文客户评论进行了情感分析,1.3网络客户评论中的产品特征挖掘 获得了接近英文同类研究的分析结果,显示出了 刚络客户评论中的产品特征挖掘是指通过机 该方法在中文情感分析上的应用前景2.另器从大量的网络客户产品评论中自动地获取所关 外,Ya2等在研究中提出了使用电子汉英翻译注的产品特征,这项技术是分析用户对于产品 词典结合英文词网的方法,也是对中文评论情感具体特征所持情感倾向的前提,其准确性和全面 分析的一个有益尝试 性是非常重要的对于英文评论中的产品特征挖 1.2网络客户评论的主客观分析 掘研究已经取得了一些成果Hu3和Li等2首 用户的情感倾向主要是通过主观句来表达先提出应用关联规则分类方法提取英文评论中的 的,所以在现有的评论挖掘技术中,主观性模式的产品特征,利用该方法对于包括手机,数码相机等 自动识别与判断是非常重要的基础性技术.产品评论进行挖掘,平均查全率达到80%,平均 Wiebe等针对英文主观情感识别进行了研究,查准率达到72%,而且他们在此基础上进行了后 选择某些词类(代词、形容词、序数词、情态动词续的研究,判断用户对这些特征的观点以及情感 和副词)标点和句子位置作为特征,实现对主观导向也有一些研究人员采用了其他方法实现这 句识别的平均准确率72.17%,Rilo等利用功能比如 Kobayashi1.用了半自动化的循 boot-strapping算法学习得到了1052个主观性名环方法提取产品特征和用户观点,但是需要大量 词单独使用主观性名词为特征,采用朴素贝叶斯的人工参与; Popescu等“利用了Eiom研发的 分类器对主观句识别的查准率为77%,查全率为 konwitall.系统,计算点互信息值(PM),然后进行 64%;如果加上先前确定的主观线索(来自词典贝叶斯分类,从而提取产品特征,虽然提高Hu的 和已有的研究结论)和句子的背景信息,那么分准确率(平均提高了22%),但是查准率却有所 类器对主观句判断的查准率和查全率分别能达到下降(平均下降了3%)另外,Liu3重点研究存 81%和77%.Rilo和Wibe进一步提出了从在多种产品互相比较内容的评论,这与Liu等挖 未经过人工标注的文本中自动提取主观句的方掘同一产品的重要特征在研究内容上有些差别; 法他们依靠先前研究中确定的主观特征,分别建而且与 Popescu所提出的技术类似,其中对于产 立了主观分类器和客观分类器,自动从未标注的品特征的提取采用有导师学习方法( supervised 文本中获得大量主观句(查准率为91.5%,查全 training),需要建立一个产品特征集合,以及产品 万方数据一144一 管理科学学报 2009年4月 利用电影评论数据对基于语义倾向的情感分类方 法和基于机器学习的情感分类方法进行了对比分 析,发现语义方法的结果与机器学习方法具有相 似性.上述研究均证实了该语义倾向的客户情感 分析方法的有效性.除此之外,还有一些学者采用 由普林斯顿大学开发的英文词网(wordnet)旧¨进 行英文语义方法的情感分析,也取得了较好的分 析结果口21.Liu r51等在对于产品特征挖掘后,针对 某一特征的情感导向分析正是利用了英文词网中 对于词的语义关系定义. 而由于语言结构的差别,现有的面向英文客 户评论情感分类的语义方法,无法直接用于中文 客户评论的情感分类.叶强,李一军等探索了中文 环境下的情感分析理论与方法,在PMI-IR方法基 础上,初步建立了中文语义倾向情感分析方法,并 分别将中文搜索引擎一.Goode.com和~. Baidu.com提供的API集成于实验平台中,对手 机、图书、电影的中文客户评论进行了情感分析, 获得了接近英文同类研究的分析结果,显示出了 该方法在中文情感分析上的应用前景心n 26J.另 外,YaoB¨等在研究中提出了使用电子汉英翻译 词典结合英文词网的方法,也是对中文评论情感 分析的一个有益尝试. 1.2 网络客户评论的主客观分析 用户的情感倾向主要是通过主观句来表达 的,所以在现有的评论挖掘技术中,主观性模式的 自动识别与判断是非常重要的基础性技术. wiebe等¨41针对英文主观情感识别进行了研究, 选择某些词类(代词、形容词、序数词、情态动词 和副词)、标点和句子位置作为特征,实现对主观 句识别的平均准确率72.17%.Rilof!f等∞o利用 boot.stmpping算法学习得到了1052个主观性名 词,单独使用主观性名词为特征,采用朴素贝叶斯 分类器对主观句识别的查准率为77%,查全率为 64%;如果加上先前确定的主观线索(来自词典 和已有的研究结论)和句子的背景信息,那么分 类器对主观句判断的杏准率和查全率分别能达到 81%和77%.Ril雒和Wiebe闻1进一步提出了从 未经过人工标注的文本中自动提取主观句的方 法.他们依靠先前研究中确定的主观特征,分别建 立了主观分类器和客观分类器,自动从未标注的 文本中获得大量主观句(查准率为91.5%,查全 率为31.9%)和客观句,再从这些句子中得到更 多主观性词语搭配,再用准确性很高词语搭配更 新原始的主观特征.通过重复上述过程进一步提 高主观分类器和客观分类器的准确率,最终主观 分类器的查准率和查全率分别达到90.2%和 40.1%.Yu和Hatziv鼬silo翊ou㈣1利用相似性方 法、朴素贝叶斯分类和多莺朴素贝叶斯分类3种 统计方法进行主客观句的识别研究.其中,朴素贝 叶斯分类器在原有研究的基础上采用词、2.舯m、 3一gram和词类、具有情感倾向的词序列、主语和其 直接修饰成分等作为特征项,对主观句识别的查 准率和杏全率达到80%一90%,而客观句的查准 率和杏全率大约在50%左右.叶强等探索了中文 主观性的自动识别方法,提出了基于连续双词词 类组合模式(2.POs)的主观程度自动判别算法, 为中文客户评论挖掘提供了一种可能的方法 选择…. 1.3网络客户评论中的产品特征挖掘 网络客户评论中的产品特征挖掘是指通过机 器从大量的网络客户产品评论中自动地获取所关 注的产品特征【5j,这项技术是分析用户对于产品 具体特征所持情感倾向的前提,其准确性和全面 性是非常重要的.对于英文评论中的产品特征挖 掘研究已经取得了一些成果.Hu旧。和IJiu等旧21首 先提出应用关联规则分类方法提取英文评论中的 产品特征,利用该方法对于包括手机,数码相机等 产品评论进行挖掘,平均查全率达到80%,平均 查准率达到72%,而且他们在此基础上进行了后 续的研究,判断用户对这些特征的观点以及情感 导向.也有一些研究人员采用了其他方法实现这 一功能,比如Kobayas“331采用了半自动化的循 环方法提取产品特征和用户观点,但是需要大量 的人工参与;P叩escu等H1利用了Etzioni研发的 konwitall系统,计算点互信息值(PMI),然后进行 贝叶斯分类,从而提取产品特征,虽然提高Hu的 准确率(平均提高了22%),但是查准率却有所 下降(平均下降了3%).另外,Liu捧1重点研究存 在多种产品互相比较内容的评论,这与ku等挖 掘同一产品的重要特征在研究内容上有些差别; 而且与Popescu所提出的技术类似,其中对于产 品特征的提取采用有导师学习方法(supenrised trajning),需要建立一个产品特征集合,以及产品 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有