第12卷第2期 管理科学学报 Vol 12 No. 2 009年4月 JOURNAL OF MANAGEMENT SCIENCES IN CHINA Apr.2009 中文网络客户评论的产品特征挖掘方法研究 李实,叶强2,李一军, Rob law (1.哈尔滨工业大学管理学院,哈尔滨15001;2.香港理工大学,中国香港10005) 摘要:随着互联网的广泛应用,在Blog、BS、Wiki等网络站点中出现了大量的针对商品或服 务的客户评论,这些客户评论中所包含的丰富信息,对企业管理具有重要的价值.通过数据挖 掘算法对客户针对某一产品的大量评论进行分析,可以挖掘出这些产品的主要特征,并有望进 步发现客户对这些特征的意见和态度.在英文世界中已经有学者开始对这一研究进行探索, 然而由于语言结构等方面的差异,英文的研究成果尚无法直接应用于中文客户评论的挖掘中 本研究针对中文的特点,提出了面向中文的客户评论挖掘方法.该方法基于改进关联规则算法 实现了针对中文产品评论的产品特征信息挖掘.本研究采用通过互联网获得的针对手机、数码 相杋、书籍等5种产品的评论语料,对该方法进行了数据实验,实验结果初步验诬了该方法有 关键词:用户评论;产品特征;关联规则;数据挖掘 中图分类号:TP311文献标识码:A文章编号:1007-9807(2009)02-0142-11 0引言 户评论信息为目标的非结构化数据分析技术 “评论挖掘”吸引∫很多学者关注,评论挖掘作 过去十几年中, Internet技术与应用的快速发为非结构化信息挖掘的一个新兴领域,主要涉及 展不仅给企业的业务流程带来了巨大的变革,也网络评论情感倾向的分析,评论中产品特征的提 对消费者的行为模式产生了深刻的影响一方面取以及评论中产品比较信息挖掘等等3,消 改变了消费者表达对于产品观点和看法的方费者可以借助于评论挖掘工具了解产品的性能和 式—他们可以在销售网站网络论坛讨论小其他用户对该产品的态度;同时网络客户评论作 组以及博客(Bog)中撰写产品评论;另一方面这为反馈机制,可以为销售商和生产商提供哪些产 些产品的“口碑”也反过来影响其他消费者做出品特征是客户所关注的以及客户对于产品的情感 购买决策12. Doubleclick inc.进行了针对美国 倾向分布等信息,从而可以帮助企业改进产品、改 服装业、计算机硬件设备业、运动健身产品行业及 旅游业网络客户的研究,发现这些行业中,近善服务获得竞争优势面向网络用户评论的产品 半以上的互联网用户做出购买决定前会在互特征提取研究作为评论挖掘的研究方向之一,旨 联网上搜索有关产品介绍及商品评论等信息. 在从客户评论中挖掘出备受关注的产品特征信 但是随着网络评论数量的飞速增长,庞杂的息,并且总结基于这些产品特征的观点依靠情感 信息使得人工方法难以获得全部客户评论中的有分类( sentiment classification技术自动得出用户 用信息因此,迫切需要借助一定的技术手段来使对各个属性的态度倾向,从而可以为用户提供更 这一过程变得更为便捷近来,以有效获取网络用为具体和有价值的信息”在英文世界的评论挖 ①收稿H期:2007-11-23;修订日期:200804-25 基金项H:国家自然科学基金资助项日(70771032,70501009);香港理工大学研究基金资助项目(G-YX93) 作者简介:李实(1976-),女,黑龙江哈尔滨人,博生Emil:shishili@gmail.com 万方数据
第12卷第2期 管理科学学报 V01.12 No.2 2009年4月 JOURNAL 0F MANAGEMENT SCIENCES IN CHINA ApL 2009 中文网络客户评论的产品特征挖掘方法研究① 李 实1,叶 强1’2,李一军1,Rob Law2 (1.哈尔滨工业大学管理学院,哈尔滨150001;2.香港理工大学,中国香港lO0085) 摘要:随着互联网的广泛应用,在Blog、BBS、wiki等网络站点中出现了大量的针对商品或服 务的客户评论,这些客户评论中所包含的丰富信息,对企业管理具有重要的价值.通过数据挖 掘算法对客户针对某一产品的大量评论进行分析,可以挖掘出这些产品的主要特征,并有望进 一步发现客户对这些特征的意见和态度.在英文世界中已经有学者开始对这一研究进行探索, 然而由于语言结构等方面的差异,英文的研究成果尚无法直接应用于中文客户评论的挖掘中. 本研究针对中文的特,最,提出了面向中文的客户评论挖掘方法.该方法基于改进关联规则算法 实现了针对中文产品评论的产品特征信息挖掘.本研究采用通过互联网获得的针对手机、数码 相机、书籍等5种产品的评论语料,对该方法进行了数据实验,实验结果初步验证了该方法有 效性. 关键词:用户评论;产品特征;关联规则;数据挖掘 中图分类号:TP3ll 文献标识码:A 文章编号:1007—9807(2009)02—0142—1l O 引 言 过去十几年中,Intemet技术与应用的快速发 展不仅给企业的业务流程带来了巨大的变革,也 对消费者的行为模式产生了深刻的影响.一方面 改变了消费者表达对于产品观点和看法的方 式——他们可以在销售网站,网络论坛,讨论小 组,以及博客(B109)中撰写产品评论;另一方面这 些产品的“口碑”也反过来影响其他消费者做出 购买决策‘L川.DoubleClick Inc.进行了针对美国 服装业、计算机硬件设备业、运动健身产品行业及 旅游业网络客户的研究"J,发现这些行业中,近 一半以上的互联网用户做出购买决定前,会在互 联网上搜索有关产品介绍及商品评论等信息. 但是,随着网络评论数量的飞速增长,庞杂的 信息使得人工方法难以获得全部客户评论中的有 用信息.因此,迫切需要借助一定的技术手段来使 这一过程变得更为便捷.近来,以有效获取网络用 户评论信息为目标的非结构化数据分析技术—— “评论挖掘”吸引.r很多学者关注HJ.评论挖掘作 为非结构化信息挖掘的一个新兴领域,主要涉及 网络评论情感倾向的分析,评论中产品特征的提 取,以及评论中产品比较信息挖掘等等一qj.消 费者可以借助于评论挖掘工具了解产品的性能和 其他用户对该产品的态度;同时,网络客户评论作 为反馈机制,可以为销售商和生产商提供哪些产 品特征是客户所关注的以及客户对于产品的情感 倾向分布等信息,从而可以帮助企业改进产品、改 善服务,获得竞争优势.面向网络用户评论的产品 特征提取研究,作为评论挖掘的研究方向之一,旨 在从客户评论中挖掘出备受关注的产品特征信 息,并且总结基于这些产品特征的观点,依靠情感 分类(sentiment classification)技术自动得出用户 对各个属性的态度倾向,从而可以为用户提供更 为具体和有价值的信息旧J.在英文世界的评论挖 ①收稿R期:20cr7一ll一23;修订日期:2008—04q5. 基金项目:国家自然科学基金资助项日(70771032,70501009);香港理丁大学研究基金资助项目(G—Yx93) 作者简介:李实(1976一),女,黑龙江哈尔滨人。博f:生.E舢lil:sIIi8llili@印lail.com 万方数据
李实等:中文网络客户评论的产品特征挖掘方法研究 据领域研究者已经初步取得一些成果,而针对中1)挖掘重要产品特征;2)挖掘用户对于产品特征 文网络用户评论的研究还处于起步阶段随着我的主观观点;3)判断评论观点的情感导向4)根 国网络用户群的不断壮大,中国电子商务的发展据观点的重要性进行排名相关研究包括评论的 也逐渐为世界所瞩目.截至2007年12月,中国网情感分析6,评论的主客观分析“以及评论中商 民人数已经达到21亿预计208年将超过美国品特征挖掘9等 成为世界第一.不断增长的中文评论已经成为11网络客户评论情感分析 互联网上一个重要的组成部分,为了给企业和个 情感分析以客户在互联网上发布的产品评论 人提供更为方便的工具,自动化和智能化地挖掘为研究对象挖掘客户的情感倾向,从而自动判断 中文评论中的有价值信息是非常必要的但是由该评论的极性( the polarity of the review),即正面 于中英文语言存在着较大的差异,目前针对英文评论或负面评论通过对大量客户评论的情感 评论的研究成果很多无法直接应用于中文评论.分类可以综合得出这些客户对该种产品或服务 这些差异主要根源在如下一些问题上 的普遍看法 (1)文化差异导致语言表达方式不同.正如 目前情感分析技术,主要包括机器学习方法 rosenzweig"曾指出的,文化差异将导致管理研及语义方法( ( semantic orientation两类·一些学 究的不等价性;而网络评论这一文本的风格毋庸者已经开始应用这两种方法对英文客户评论的情 置疑和商品评论的撰写者—客户的文化背景深感分类进行了一定的研究最初Pag6在研究中 刻相关2 提出来用机器学习的方法进行情感倾向的挖掘工 (2)语言结构的差异例如英语中的单词是作,准确率达到875%,之后的一些学者在此研 自然分开的而中文评论的分析首先要进行分词充基础上扩展和延伸,取得了很好的研究结果 处理 (3)中英文词汇语法的差别与英文评论相进行了研究提取了投资者对其所关注股票的态 比较,中文词性标注算法更为复杂,词性标注工具 度. Beineke等用机器学习和人的注释评论相 本身的研究还在不断完善中 结合提高了英文文本情感分析的准确度Feil 本文正是在中英文语言差异存在的条件下,等利用机器学习方法,针对yaho网站的英文体 探索中文网络客户评论的产品特征信息提取技育评论研究情感分析 术.通过对基于关联规则的产品特征挖掘方法进 基于机器学习的情感分类方法在针对每一种 行原理创新和技术拓展把目前主要面向英文的产品使用前都需要用大量的训练样本对分类模 评论挖掘方法拓展到中文世界从而解决中文环型进行训练而训练样本集的建立则需要采用人 工方法对大量的评论文章逐一阅读甄别,并进行 境下,如何对客户评论中所蕴含的产品特征信息 手工标识这与利用自动情感分类降低人的阅读 进行自动挖掘的问题该方法的应用,将有望帮助负担这一初衷还有着一定的差距因此近来许多 对相应产品或者服务的反馈信息 研究者将情感分析研究的重点集中在对训练样本 的需求量较低的语义方法上 Tumey最早提出 了基于PMR算法的语义情感分类思想,该方 1相关研究背景 将点互信息(PMI)与信息汲取方法(IR)相结合 借助搜索引擎的后台数据库获得语义倾向信息, 近年来在客户关系管理的研究中有学者强调从而做出情感判断,得到汽车评论的准确率是 客户感知利失在影响顾客满意、品牌忠诚和CRM84%,电影评论的准确率是66%.其可靠性已经 效果中的作用必将逐渐增大.而目前网络经济在英文客户情感分类的研究中得到了初步的验 时代中从网络评论中挖掘客户的感知利失信息证.2003年,Dave利用该方法对亚马逊 是新兴起的研究领域对于网络评论的挖掘问题,( Amazon)和C-Net等网上商店的客户评论进行 学者 Popescu明确将其分为以下几个子任务:了情感分析,再次验证了该方法的性能zhou23 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一143一 掘领域,研究者已经初步取得一些成果,而针对中 文网络用户评论的研究还处于起步阶段.随着我 国网络用户群的不断壮大,中国电子商务的发展 也逐渐为世界所瞩目.截至2007年12月,中国网 民人数已经达到2.1亿,预计2008年将超过美国 成为世界第一【l 0|.不断增长的中文评论已经成为 互联网上一个重要的组成部分,为了给企业和个 人提供更为方便的工具,自动化和智能化地挖掘 中文评论中的有价值信息是非常必要的.但是由 于中英文语言存在着较大的差异,目前针对英文 评论的研究成果很多无法直接应用于中文评论. 这些差异主要根源在如下一些问题上: (1)文化差异导致语言表达方式不同.正如 Ro舱n删eig[…曾指出的,文化差异将导致管理研 究的不等价性;而网络评论这一文本的风格毋庸 置疑和商品评论的撰写者——客户的文化背景深 刻相关¨…. (2)语言结构的差异.例如,英语中的单词是 自然分开的,而中文评论的分析首先要进行分词 处理; (3)中英文词汇语法的差别.与英文评论相 比较,中文词性标注算法更为复杂,词性标注工具 本身的研究还在不断完善中. 本文正是在中英文语言差异存在的条件下, 探索中文网络客户评论的产品特征信息提取技 术.通过对基于关联规则的产品特征挖掘方法进 行原理创新和技术拓展,把目前主要面向英文的 评论挖掘方法拓展到中文世界,从而解决中文环 境下,如何对客户评论中所蕴含的产品特征信息 进行自动挖掘的问题.该方法的应用,将有望帮助 企业和客户在商务过程中更便捷地获取其他客户 对相应产品或者服务的反馈信息. 1相关研究背景 近年来在客户关系管理的研究中有学者强调 客户感知利失在影响顾客满意、品牌忠诚和cRM 效果中的作用必将逐渐增大¨3|.而目前网络经济 时代中,从网络评论中挖掘客户的感知利失信息 是新兴起的研究领域.对于网络评论的挖掘问题, 学者Popescu[41明确将其分为以下几个子任务: 1)挖掘重要产品特征;2)挖掘用户对于产品特征 的主观观点;3)判断评论观点的情感导向;4)根 据观点的重要性进行排名.相关研究包括评论的 情感分析‘6|,评论的主客观分析¨41以及评论中商 品特征挖掘Hj'91等. 1.1 网络客户评论情感分析 情感分析以客户在互联网上发布的产品评论 为研究对象,挖掘客户的情感倾向,从而自动判断 该评论的极性(the polarity of the review),即正面 评论或负面评论拍].通过对大量客户评论的情感 分类,可以综合得出这些客户对该种产品或服务 的普遍看法. 目前情感分析技术,主要包括机器学习方法 及语义方法(semantic orientation)两类¨引.一些学 者已经开始应用这两种方法对英文客户评论的情 感分类进行了一定的研究.最初Pang【l钊在研究中 提出来用机器学习的方法进行情感倾向的挖掘工 作,准确率达到87.5%,之后的一些学者在此研 究基础上扩展和延伸,取得了很好的研究结果. Sanjiv m1等针对yahoo网站股票留言板中的评论 进行了研究,提取了投资者对其所关注股票的态 度.Beineke【l引等用机器学习和人的注释评论相 结合,提高了英文文本情感分析的准确度.Fei¨引 等利用机器学习方法,针对yahoo网站的英文体 育评论研究情感分析. 基于机器学习的情感分类方法在针对每一种 产品使用前,都需要用大量的训练样本对分类模 型进行训练,而训练样本集的建立则需要采用人 工方法对大量的评论文章逐一阅读甄别,并进行 手工标识,这与利用自动情感分类降低人的阅读 负担这一初衷还有着一定的差距.因此,近来许多 研究者将情感分析研究的重点集中在对训练样本 的需求量较低的语义方法上.Tumey旧1最早提出 了基于PMI-IR算法的语义情感分类思想,该方法 将点互信息(PMI)与信息汲取方法(IR)相结合, 借助搜索引擎的后台数据库获得语义倾向信息, 从而做出情感判断,得到汽车评论的准确率是 84%,电影评论的准确率是66%.其可靠性已经 在英文客户情感分类的研究中得到了初步的验 证.2003年,Davel揶。利用该方法对亚马逊 (Amazon)和c-Net等网上商店的客户评论进行 了情感分析,再次验证了该方法的性能.Zhou[15] 万方数据
144 管理科学学报 2009年4月 利用电影评论数据对基于语义倾向的情感分类方率为319%)和客观句,再从这些句子中得到更 法和基于机器学习的情感分类方法进行了对比分多主观性词语搭配,再用准确性很高词语搭配更 析,发现语义方法的结果与机器学习方法具有相新原始的主观特征通过重复上述过程进一步提 似性.上述研究均证实了该语义倾向的客户情感高主观分类器和客观分类器的准确率,最终主观 分析方法的有效性除此之外还有一些学者采用分类器的查准率和查全率分别达到90.2%和 由普林斯顿大学开发的英文词网( wordnet)进40.1%.Yu和 Hatzivassiloglou利用相似性方 行英文语义方法的情感分析,也取得了较好的分法朴素贝叶斯分类和多重朴素贝叶斯分类3种 析结果2.Lu3等在对于产品特征挖掘后,针对统计方法进行主客观句的识别研究其中,朴素贝 某一特征的情感导向分析正是利用了英文词网中叶斯分类器在原有研究的基础上采用词、2-gam、 对于词的语义关系定义 3-gram和词类、具有情感倾向的词序列、主语和其 而由于语言结构的差别现有的面向英文客直接修饰成分等作为特征项,对主观句识别的查 户评论情感分类的语义方法,无法直接用于中文准率和查全率达到80%-90%,而客观句的查准 客户评论的情感分类叶强,李一军等探索了中文率和查全率大约在50%左右叶强等探索了中文 环境下的情感分析理论与方法,在PMR方法基主观性的自动识别方法,提出了基于连续双词词 础上,初步建立了中文语义倾向情感分析方法,并类组合模式(2POS)的主观程度自动判别算法 分别将中文搜索引擎www.Google,com和www.为中文客户评论挖掘提供了一种可能的方法 Baidu.com提供的AP集成于实验平台中,对手选择 机、图书、电影的中文客户评论进行了情感分析,1.3网络客户评论中的产品特征挖掘 获得了接近英文同类研究的分析结果,显示出了 刚络客户评论中的产品特征挖掘是指通过机 该方法在中文情感分析上的应用前景2.另器从大量的网络客户产品评论中自动地获取所关 外,Ya2等在研究中提出了使用电子汉英翻译注的产品特征,这项技术是分析用户对于产品 词典结合英文词网的方法,也是对中文评论情感具体特征所持情感倾向的前提,其准确性和全面 分析的一个有益尝试 性是非常重要的对于英文评论中的产品特征挖 1.2网络客户评论的主客观分析 掘研究已经取得了一些成果Hu3和Li等2首 用户的情感倾向主要是通过主观句来表达先提出应用关联规则分类方法提取英文评论中的 的,所以在现有的评论挖掘技术中,主观性模式的产品特征,利用该方法对于包括手机,数码相机等 自动识别与判断是非常重要的基础性技术.产品评论进行挖掘,平均查全率达到80%,平均 Wiebe等针对英文主观情感识别进行了研究,查准率达到72%,而且他们在此基础上进行了后 选择某些词类(代词、形容词、序数词、情态动词续的研究,判断用户对这些特征的观点以及情感 和副词)标点和句子位置作为特征,实现对主观导向也有一些研究人员采用了其他方法实现这 句识别的平均准确率72.17%,Rilo等利用功能比如 Kobayashi1.用了半自动化的循 boot-strapping算法学习得到了1052个主观性名环方法提取产品特征和用户观点,但是需要大量 词单独使用主观性名词为特征,采用朴素贝叶斯的人工参与; Popescu等“利用了Eiom研发的 分类器对主观句识别的查准率为77%,查全率为 konwitall.系统,计算点互信息值(PM),然后进行 64%;如果加上先前确定的主观线索(来自词典贝叶斯分类,从而提取产品特征,虽然提高Hu的 和已有的研究结论)和句子的背景信息,那么分准确率(平均提高了22%),但是查准率却有所 类器对主观句判断的查准率和查全率分别能达到下降(平均下降了3%)另外,Liu3重点研究存 81%和77%.Rilo和Wibe进一步提出了从在多种产品互相比较内容的评论,这与Liu等挖 未经过人工标注的文本中自动提取主观句的方掘同一产品的重要特征在研究内容上有些差别; 法他们依靠先前研究中确定的主观特征,分别建而且与 Popescu所提出的技术类似,其中对于产 立了主观分类器和客观分类器,自动从未标注的品特征的提取采用有导师学习方法( supervised 文本中获得大量主观句(查准率为91.5%,查全 training),需要建立一个产品特征集合,以及产品 万方数据
一144一 管理科学学报 2009年4月 利用电影评论数据对基于语义倾向的情感分类方 法和基于机器学习的情感分类方法进行了对比分 析,发现语义方法的结果与机器学习方法具有相 似性.上述研究均证实了该语义倾向的客户情感 分析方法的有效性.除此之外,还有一些学者采用 由普林斯顿大学开发的英文词网(wordnet)旧¨进 行英文语义方法的情感分析,也取得了较好的分 析结果口21.Liu r51等在对于产品特征挖掘后,针对 某一特征的情感导向分析正是利用了英文词网中 对于词的语义关系定义. 而由于语言结构的差别,现有的面向英文客 户评论情感分类的语义方法,无法直接用于中文 客户评论的情感分类.叶强,李一军等探索了中文 环境下的情感分析理论与方法,在PMI-IR方法基 础上,初步建立了中文语义倾向情感分析方法,并 分别将中文搜索引擎一.Goode.com和~. Baidu.com提供的API集成于实验平台中,对手 机、图书、电影的中文客户评论进行了情感分析, 获得了接近英文同类研究的分析结果,显示出了 该方法在中文情感分析上的应用前景心n 26J.另 外,YaoB¨等在研究中提出了使用电子汉英翻译 词典结合英文词网的方法,也是对中文评论情感 分析的一个有益尝试. 1.2 网络客户评论的主客观分析 用户的情感倾向主要是通过主观句来表达 的,所以在现有的评论挖掘技术中,主观性模式的 自动识别与判断是非常重要的基础性技术. wiebe等¨41针对英文主观情感识别进行了研究, 选择某些词类(代词、形容词、序数词、情态动词 和副词)、标点和句子位置作为特征,实现对主观 句识别的平均准确率72.17%.Rilof!f等∞o利用 boot.stmpping算法学习得到了1052个主观性名 词,单独使用主观性名词为特征,采用朴素贝叶斯 分类器对主观句识别的查准率为77%,查全率为 64%;如果加上先前确定的主观线索(来自词典 和已有的研究结论)和句子的背景信息,那么分 类器对主观句判断的杏准率和查全率分别能达到 81%和77%.Ril雒和Wiebe闻1进一步提出了从 未经过人工标注的文本中自动提取主观句的方 法.他们依靠先前研究中确定的主观特征,分别建 立了主观分类器和客观分类器,自动从未标注的 文本中获得大量主观句(查准率为91.5%,查全 率为31.9%)和客观句,再从这些句子中得到更 多主观性词语搭配,再用准确性很高词语搭配更 新原始的主观特征.通过重复上述过程进一步提 高主观分类器和客观分类器的准确率,最终主观 分类器的查准率和查全率分别达到90.2%和 40.1%.Yu和Hatziv鼬silo翊ou㈣1利用相似性方 法、朴素贝叶斯分类和多莺朴素贝叶斯分类3种 统计方法进行主客观句的识别研究.其中,朴素贝 叶斯分类器在原有研究的基础上采用词、2.舯m、 3一gram和词类、具有情感倾向的词序列、主语和其 直接修饰成分等作为特征项,对主观句识别的查 准率和杏全率达到80%一90%,而客观句的查准 率和杏全率大约在50%左右.叶强等探索了中文 主观性的自动识别方法,提出了基于连续双词词 类组合模式(2.POs)的主观程度自动判别算法, 为中文客户评论挖掘提供了一种可能的方法 选择…. 1.3网络客户评论中的产品特征挖掘 网络客户评论中的产品特征挖掘是指通过机 器从大量的网络客户产品评论中自动地获取所关 注的产品特征【5j,这项技术是分析用户对于产品 具体特征所持情感倾向的前提,其准确性和全面 性是非常重要的.对于英文评论中的产品特征挖 掘研究已经取得了一些成果.Hu旧。和IJiu等旧21首 先提出应用关联规则分类方法提取英文评论中的 产品特征,利用该方法对于包括手机,数码相机等 产品评论进行挖掘,平均查全率达到80%,平均 查准率达到72%,而且他们在此基础上进行了后 续的研究,判断用户对这些特征的观点以及情感 导向.也有一些研究人员采用了其他方法实现这 一功能,比如Kobayas“331采用了半自动化的循 环方法提取产品特征和用户观点,但是需要大量 的人工参与;P叩escu等H1利用了Etzioni研发的 konwitall系统,计算点互信息值(PMI),然后进行 贝叶斯分类,从而提取产品特征,虽然提高Hu的 准确率(平均提高了22%),但是查准率却有所 下降(平均下降了3%).另外,Liu捧1重点研究存 在多种产品互相比较内容的评论,这与ku等挖 掘同一产品的重要特征在研究内容上有些差别; 而且与Popescu所提出的技术类似,其中对于产 品特征的提取采用有导师学习方法(supenrised trajning),需要建立一个产品特征集合,以及产品 万方数据
第2期 李实等:中文网络客户评论的产品特征挖据方法研究 145 相关领域的训练样本集,而训练样本集的建立则短语 需要人为对这些大量的评论文章进行逐一阅读, (4)中英文语言表达中,名词短语的构成不 这与自动评论挖掘的目的有些矛盾 同例如英文中过去分词+名词可以表示名词性 目前,对于英文评论的产品特征挖掘中,短语,中文中没有这种形式但是具有其他形式 Hu(和L9等提出的基于关联规则的方法主要 (5)中文中有字的概念而英文没有中文名 步骤为 词可以由一个或者一个以上的字构成,这样对于 第1步,标注词性 表达产品特征的名词可能具有其特殊的规律 第2步,将名词和名词短语组成事务文件 本文将参考Hu等学者基于关联规则分类的 ( transaction file 产品特征挖掘算法,针对中文评论的语言特点和 第3步,基于关联规则分类方法提取频繁规风格特征解决上面的技术困难探索面向中文网 则项产生候选特征项集合 络客户评论中的产品特征挖掘方法和理论,并且 第4步,对于特征项进行邻近规则剪枝邻近通过实验验证这一方法的有效性 的定义为:假设∫是频繁规则项,而且f包含n个单 词假设一个句子包含f而且在f中的词出现在2中文网络客户评论产品特征挖掘 s中的顺序为:1,w2,…,wn假设s中任何两个相 连的单词(1和)的距离不超过3个单词,则 方法 可以说f在s中是邻近的如果∫出现在评论数据 库中的m个句子中而且至少在2个句子中是邻2.1方法具体内容 近的,就可以称∫是一个邻近的特征短语非临近 本文所提出的中文网络客户评论的产品特征 的特征短语将不是需要的产品特征; 挖掘技术,由以下8个步骤构成 第5步,对于特征项进行独立支持度剪枝,形 步骤1对评论语料进行分词 成频繁特征项所构成的产品特征集合独立支持 本文采用中国科学院计算机所软件室编写的 度的定义为:特征/的独立支持度( p-support)是中文分词工具 ICTCLAS( institute of computing 包含、而且句子中不包的父集作为特征的句 technology, Chinese lexical analysis system) 子的数量在H的研究中采用最小的独立出现(htp:/ ntgroup. Ict ac cn/),对评论文本语料进 支持度为3,也就是说如果一个特征的独立支持行分词 度小于3,那么就从候选特征集合里面去掉 步骤2对分词后的评论语料进行词性 第6步,补充评论中非频繁特征项的产品标注 特征 同样采用 ICTCLAS工具.词性标注方法可以 目前尚缺乏对于中文网络客户评论的产品特根据需要进行一级或者二级标注其差别在于: 征挖掘研究虽然英文中相关研究已经得到了有级只标注名词动词等;二级可以标注出更为具体 效的验证,但是无法直接应用于中文,其根本原因的情况包括具有名词功能的形容词或者动词,专 是引言中所提到的中文和英文语言特点及文化背有名词,词素等等为了提高挖据查准率采用二 景不同,具体有下面几个技术困难: 级标注 1)中文在进行语言处理中首先需要进行中 中文客户评论中所讨论的商品特征可能由名 文分词; 词短语构成,但是值得注意的是,中文评论的词性 (2)中文词性标注也和英文有差别特别是标注过程中并没有直接标注出名词短语(除了专 中文语言比较复杂,有些单词的词性随着语言环有名词短语以外,例如地名、单位名称)所以需 境的变化可能会发生转化,而形式上却没有变化;要对于基本名词短语进行人为界定.在中文语料 (3)在英文方法中标注词性的过程中就可以学研究中,基本名词短语的定义有一些不同,本文 标出名词短语,而对于中文名词短语的定义则非根据周雅倩等“的定义:基本名词短语为非嵌套 常复杂,词性标注工具只能标注一些专有名词的名词短语,它包括单个名词没有任何修饰成分 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一145一 相关领域的训练样本集,而训练样本集的建立则 需要人为对这些大量的评论文章进行逐一阅读, 这与自动评论挖掘的目的有些矛盾. 目前,对于英文评论的产品特征挖掘中, Hu[5 3和“u[9 o等提出的基于关联规则的方法主要 步骤为: 第1步,标注词性; 第2步,将名词和名词短语组成事务文件 (t砌saction lile); 第3步,基于关联规则分类方法提取频繁规 则项产生候选特征项集合; 第4步,对于特征项进行邻近规则剪枝.邻近 的定义为:假设厂是频繁规则项,而且/包含n个单 词,假设一个句子s包含厂,而且在,中的词出现在 s中的顺序为:埘,,埘:,…,埘。.假设s中任何两个相 连的单词(加i和埘川)的距离不超过3个单词,则 可以说/在s中是邻近的.如果厂出现在评论数据 库中的m个句子中,而且至少在2个句子中是邻 近的,就可以称厂是一个邻近的特征短语.非临近 的特征短语将不是需要的产品特征; 第5步,对于特征项进行独立支持度剪枝,形 成频繁特征项所构成的产品特征集合.独立支持 度的定义为:特征归的独立支持度(p—support)是 包含∥r、而且句子中不包∥r的父集作为特征的句 子的数量.在Hu的研究中采用最小的独立出现 支持度为3,也就是说如果一个特征的独立支持 度小于3,那么就从候选特征集合里面去掉; 第6步,补充评论中非频繁特征项的产品 特征. 目前尚缺乏对于中文网络客户评论的产品特 征挖掘研究.虽然英文中相关研究已经得到了有 效的验证,但是无法直接应用于中文,其根本原因 是引言中所提到的中文和英文语言特点及文化背 景不同,具体有下面几个技术困难: (1)中文在进行语言处理中首先需要进行中 文分词; (2)中文词性标注也和英文有差别,特别是 中文语言比较复杂,有些单词的词性随着语言环 境的变化可能会发生转化,而形式上却没有变化; (3)在英文方法中标注词性的过程中就可以 标出名词短语,而对于中文名词短语的定义则非 常复杂,词性标注工具只能标注一些专有名词 短语; (4)中英文语言表达中,名词短语的构成不 同.例如英文中过去分词+名词可以表示名词性 短语,中文中没有这种形式,但是具有其他形式; (5)中文中有字的概念,而英文没有.中文名 词可以由一个或者一个以上的字构成,这样对于 表达产品特征的名词可能具有其特殊的规律. 本文将参考Hu等学者基于关联规则分类的 产品特征挖掘算法,针对中文评论的语言特点和 风格特征,解决上面的技术困难,探索面向中文网 络客户评论中的产品特征挖掘方法和理论,并且 通过实验验证这一方法的有效性. 2 中文网络客户评论产品特征挖掘 方法 2.1 方法具体内容 本文所提出的中文网络客户评论的产品特征 挖掘技术,由以下8个步骤构成. 步骤l 对评论语料进行分词. 本文采用中国科学院计算机所软件室编写的 中文分词工具ICTCLAS(institute of computing technology, Chinese lexical analysis system) (http://mtgroup.ict.ac.cn/),对评论文本语料进 行分词. 步骤2 对分词后的评论语料进行词性 标注. 同样采用ICTCLAS工具.词性标注方法可以 根据需要进行一级或者二级标注,其差别在于:一 级只标注名词,动词等;二级可以标注出更为具体 的情况,包括具有名词功能的形容词或者动词,专 有名词,词素等等.为了提高挖掘查准率,采用二 级标注. 中文客户评论中所讨论的商品特征可能由名 词短语构成,但是值得注意的是,中文评论的词性 标注过程中并没有直接标注出名词短语(除了专 有名词短语以外,例如地名、单位名称),所以需 要对于基本名词短语进行人为界定.在中文语料 学研究中,基本名词短语的定义有一些不同,本文 根据周雅倩等Ⅲ1的定义:基本名词短语为非嵌套 的名词短语,它包括单个名词、没有任何修饰成分 万方数据
2009年4月 的名词短语、难以确定修饰关系的一串名词、并列最小支持度的频繁规则项,作为商品的候选特 名词性成分、专有名词时间地点等这种基本名点,利用 Apriori算法从上一步所生成事务文 词短语占语料中所有基本短语的60.8%(用件中找到频繁项集作为候选的商品特征集合b Chinese treebank做统计)很显然,专有名词和时用的最小支持度为1%(参考英文评论处理方 间地点名词一般情况下不是普通产品特征(对法);3项以上的频繁项可以很明显的看出不是产 于一些特殊商品的特点挖掘可能需要,比如旅游品特征,这一特点在英文评论的商品特点挖掘中 目的地),所以在本文中,名词短语将按照以下两也是一样的,采用同类研究的解决办法,不考虑3 种情况界定 项以上的频繁项 (1)由两个或三个相邻的名词所连接成的短 步骤5将候选产品特征集l按照邻近规则 语(不包含专有名词和时间、地点名词,但包含具剪枝成为候选特征集l1 有名词功能的形容词或者动词); 参考英文邻近规则定义,可以定义中文评论 (2)两个名词之间仅用结构助词“的”连接中的邻近规则 成的短语. 定义1在中文评论中,假设∫是频繁规则 本文根据这两种情况提出了中文网络评论中项,而且∫包含n个名词(或名词短语),假设一个 基本名词短语的提取模式如表1所示,其中名词句子s包含∫,而且在∫中的词(或名词短语)出现 不包含专有名词和时间地点名词但是包含二级在s中的顺序为:1,2,…,灬假设s中任何两 分词标注出来具有名词功能的形容词或者动词.个相连的名词(或名词短语);和如+的距离不 在应用标注工具进行词性标注后,再按照这几种超过3个词(根据中文分词结果),则可以说f在5 模式提取出基本名词短语 中是邻近的 表1中文基本名词短语提取模式 例如下面三句话 Table 1 Extracting pattems of Chinese basic noun phrase “这款于机功能非常强大.” 序号第1个词「第2个词「第3个词 “摄像功能已经成为重要的手机功能之一,” 作为一款女士手机,外观是非常重要的,而 些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最 步骤3利用词性标注后的评论语料创建关后一句话中不满足.但已经在两句话中邻近,可以 联规则事务文件( transaction file) 说“手机功能”是一个邻近的特征名词短语 本文所提出的方法基于关联规则分类算法 在这一步骤中,遍历每一个名词短语2-项 需要对于文本评论进行形式化预处理所以首先和3-项频繁项∫,如果∫出现在评论数据库中的m 需要建立事务数据库,这里事务数据库以文本文个句子中,而且至少在2个句子中是邻近的,就可 件的形式存储在这一步骤中以句子为事务单位,以称∫是一个邻近的特征名词短语,加入到候选 提取评论中的所有名词或者基本名词短语作为项项集合l中 (item)构成一个事务文件,为下面提取频繁项集 步骤6将候选产品特征集l按照独立支持 ( frequent itemset)做好数据准备 度规则进行修正,形成候选特征集l 步骤4基于关联规则 Apriori算法找到频繁 参考英文独立支持度的定义,可以定义中文 项集作为候选产品特征集合l 评论中的独立支持度 一般来讲关联规则的挖掘分为两步:一是找 定义2在中文评论中名词或者基本名词短 出所有的频繁项集,这些项集出现的频繁性至少语/r的独立支持度(p- support)是包含fr的而且 和预定义的最小支持计数( min support count)一句子中不包fr的父集作为频繁特征项的句子 样;二是由频繁项集产生强关联规则对于评论中数量 产品特征的挖掘研究只用到第一步,挖掘出满足 例如“屏幕”作为频繁项,出现的句子为10 万方数据
一146一 管理科学学报 2009年4月 的名词短语、难以确定修饰关系的一串名词、并列 名词性成分、专有名词、时间、地点等,这种基本名 词短语占语料中所有基本短语的60.8%(用 Chinese treebank做统计).很显然,专有名词和时 间、地点名词一般情况下不是普通产品特征(对 于一些特殊商品的特点挖掘可能需要,比如旅游 目的地),所以在本文中,名词短语将按照以下两 种情况界定: (1)由两个或三个相邻的名词所连接成的短 语(不包含专有名词和时间、地点名词,但包含具 有名词功能的形容词或者动词); (2)两个名词之间仅用结构助词“的”连接 成的短语. 本文根据这两种情况提出了中文网络评论中 基本名词短语的提取模式,如表1所示,其中名词 不包含专有名词和时间、地点名词,但是包含二级 分词标注出来具有名词功能的形容词或者动词. 在应用标注T具进行词性标注后,再按照这几种 模式提取出基本名词短语. 表l 中文基本名词短语提取模式 Table l Ex”acting pattems of Chinese b鹅ic noun phmse 序号 第1个词 第2个词 第3个词 1 名词 名词 不是名词 2 名词 名词 名词 3 名渊 助词“的” 名词 步骤3 利用词性标注后的评论语料创建关 联规则事务文件(transaction file). 本文所提出的方法基于关联规则分类算法, 需要对于文本评论进行形式化预处理.所以首先 需要建立事务数据库,这里事务数据库以文本文 件的形式存储.在这一步骤中以句子为事务单位, 提取评论中的所有名词或者基本名词短语作为项 (item)构成一个事务文件,为下面提取频繁项集 (frequent itemset)做好数据准备. 步骤4 基于关联规则Apri嘶算法找到频繁 项集作为候选产品特征集合,0. 一般来讲关联规则的挖掘分为两步:一是找 出所有的频繁项集,这些项集出现的频繁性至少 和顶定义的最小支持计数(min support count)一 样;二是由频繁项集产生强关联规则.对于评论中 产品特征的挖掘研究只用到第一步,挖掘出满足 最小支持度的频繁规则项,作为商品的候选特 点[3 5|.利用Apriori算法从上一步所生成事务文 件中找到频繁项集作为候选的商品特征集合厶, 采用的最小支持度为1%(参考英文评论处理方 法);3项以上的频繁项可以很明屁的看出不是产 品特征,这一特点在英文评论的商品特点挖掘中 也是一样的,采用同类研究的解决办法,不考虑3 项以上的频繁项口1. 步骤5 将候选产品特征集,0按照邻近规则 剪枝,成为候选特征集,卜 参考英文邻近规则定义,可以定义中文评论 中的邻近规则. 定义l 在中文评论中,假设/是频繁规则 项,而且,包含n个名词(或名词短语),假设一个 句子s包含厂,而且在厂中的词(或名词短语)出现 在s中的顺序为:埘,,埘:,…,埘。.假设s中任何两 个相连的名词(或名词短语)埘i和加…的距离不 超过3个词(根据中文分词结果),则可以说,在s 中是邻近的. 例如下面三句话: “这款手机功能非常强大.” “摄像功能已经成为重要的手机功能之一.” “作为一款女士手机。外观是非常重要的,而 一些商务功能则不是必须的.” 对于“手机功能”这一候选特征,“手机”和 “功能”这两个词在前两句话中满足邻近规则,最 后一句话中不满足.但已经在两句话中邻近,可以 说“手机功能”是一个邻近的特征名词短语. 在这一步骤中,遍历每一个名词短语、2一项 和3一项频繁项厂,如尉出现在评论数据库中的m 个句子中,而且至少在2个句子中是邻近的,就可 以称/是一个邻近的特征名词短语,加入到候选 项集合,1中. 步骤6 将候选产品特征集,。按照独立支持 度规则进行修正,形成候选特征集,2. 参考英文独立支持度的定义,可以定义中文 评论中的独立支持度: 定义2 在中文评论中名词或者基本名词短 勘r的独立支持度(p—support)是包含力r的而且 句子中不包以r的父集作为频繁特征项的句子 数量. 例如“屏幕”作为频繁项,出现的句子为10 万方数据
2期 李实等:中文网络客户评论的产晶特征挖掘方法究-147二 个,“屏幕分辨率”,“屏幕效果”也是频繁项,它们作为句子的主观观点形成用户观点数据库,然后 出现的次数分别为3和4,则“屏幕”的独立支持再重新回到所有评论中遍历,如果一个句子中的 度为3. 形容词是主观观点则离它最近的名词或者名词短 本文采用最小的独立支持度为3,即一个特语补充为非频繁特征项产品特征但通过这一步 征项的p- support<3,那么这个特征项就从候选并不能使查全率和查准率都有所提高.这是因为 特征集合里面去掉过滤掉所有不满足独立支补充的非频繁特征项产品特征可能与用户讨论的 持度要求的候选特征项,形成新的候选特征集商品对象没有关系,导致了准确率的降低.但是 合l2 他们考虑到这种非频繁项的数量比较小,对于 步骤7建立常见中文频繁项名词却非产品用户购买决策影响不大,所以为了提高结果的 特征的集合将l2过滤形成特征集合l 查全率以及挖掘方法的综合性能而增加了这 常见的中文名词或者名词短语而确定非产品 特征在本研究中主要划定为以下几种的情况: 但是对于中文网络评论中的产品特征挖掘 1)在候选特征项中去掉关于表示商品型号是否补充非频繁项为产品特征需要针对中文评论 的名词,第1位为字母后面全部为数字的名词例的特点进行分析本文提出的中文评论挖掘方法 如“N70 性能结果通过实验验证(详见后面的数据实验结 2)常见商品的品牌例如对于某型号手机产果)是查全率比较高,而查准率比较低如果增加 品特征的挖掘可以排除掉“诺基亚”,“摩托罗拉”非频繁项作为产品特征使得查全率和查准率的差 等名词 异更为增大,整体性能会降低;而且错误非频繁项 3)一些常见的口语化名词例如:“机子”,特征的产生即使对于用户决策影响比较小,也还 东西” 是有影响所以在中文网络客户评论挖掘方法中 4)一些常见的人称名词.例如“朋友”,“先补充非频繁项的产品特征带来的负面作用比较 大,并不适合.本方法中将不考虑补充非频繁项作 步骤8从l3中去掉单字名词的候选项,包为产品特征 括含单字名词的n项频繁项(n≤3)形成最后的 产品特征集合 3数据实验 在中文中,一个单字可以标注为名词,这是中 文所特有的情况.从中文评论中产品特征的人工3.1语料数据 标注结果就可以看到,基本上不用单字名词作为本文选取了5种商品的网络评论作为实验语 特点的名称而且在后面的数据实验中,采用5样料进行数据实验,这5种商品分别是一款手机 产品,共挖掘出来属于产品特征的有139项,而其( Nokia m70),两款数码相机( Cannon A710 中是单字名词或者包含单字名词的特征一个也没 Cannon850),一款MP3播放器(魅族E3)和一本 有而去掉候选特征集中只有一个单字的名词例图书(《达芬奇的密码》)其中手机,数码相机及 如“手”,“信”等会大大提高挖掘的准确率这一MP3播放器的评论从itl68网站下载(htp: 步骤所带来的效果将在下面的数据实验中得到/w.itl68.com),图书评论从卓越网下载 (htp://www.joyo.com.cn).每样商品各选取 2.2非频繁特征项的处理 100篇评论,针对每一种商品的全部评论,用人工 正如前面提出的方法步骤中所介绍的,本文标注的方法对这些评论中所提到的该商品属性进 和Hu9的英文评论挖掘研究都基于关联规则的行识别和标注根据最小最大覆盖原则建立最小 频繁特征项挖掘技术对于非频繁项的产品特征的属性集合,使这个集合可以覆盖所有这100个 处理,在英文评论的方法中最后进行了补充所应评论中提到的该商品的属性.以手机为例,手机 用的方法为找到所有修饰频繁特征项的形容词( Nokia N70)的商品属性集合如表2所示 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一147一 个,“屏幕分辨率”,“屏幕效果”也是频繁项,它们 出现的次数分别为3和4,则“屏幕”的独立支持 度为3. 本文采用最小的独立支持度为3,即一个特 征项的p.suppon<3,那么这个特征项就从候选 特征集合里面去掉.过滤掉所有不满足独立支 持度要求的候选特征项,形成新的候选特征集 合,2. 步骤7 建立常见中文频繁项名词却非产品 特征的集合,将厶过滤形成特征集合厶. 常见的中文名词或者名词短语而确定非产品 特征在本研究中主要划定为以下几种的情况: 1)在候选特征项中去掉关于表示商品型号 的名词,第l位为字母后面全部为数字的名词例 如“N70”. 2)常见商品的品牌.例如对于某型号手机产 品特征的挖掘可以排除掉“诺基亚”,“摩托罗拉” 等名词. 3)一些常见的口语化名词.例如:“机子”, “东西”. 4)一些常见的人称名词.例如“朋友”,“先 生”. 步骤8 从,3中去掉单字名词的候选项,包 括含单字名词的n项频繁项(n≤3),形成最后的 产品特征集合L 在中文中,一个单字可以标注为名词,这是中 文所特有的情况.从中文评论中产品特征的人工 标注结果就可以看到,基本上不用单字名词作为 特点的名称.而且在后面的数据实验中,采用5样 产品,共挖掘出来属于产品特征的有139项,而其 中是单字名词或者包含单字名词的特征一个也没 有.而去掉候选特征集中只有一个单字的名词,例 如“手”,“信”等会大大提高挖掘的准确率.这一 步骤所带来的效果将在下面的数据实验中得到 验证. 2.2 非频繁特征项的处理 正如前面提出的方法步骤中所介绍的,本文 和Hu【9 J的英文评论挖掘研究都基于关联规则的 频繁特征项挖掘技术.对于非频繁项的产品特征 处理,在英文评论的方法中最后进行了补充.所应 用的方法为:找到所有修饰频繁特征项的形容词 作为句子的主观观点,形成用户观点数据库,然后 再重新回到所有评论中遍历,如果一个句子中的 形容词是主观观点则离它最近的名词或者名词短 语补充为非频繁特征项产品特征.但通过这一步 并不能使查全率和查准率都有所提高.这是因为 补充的非频繁特征项产品特征可能与用户讨论的 商品对象没有关系,导致了准确率的降低.但是 他们考虑到这种非频繁项的数量比较小,对于 用户购买决策影响不大,所以为了提高结果的 查全率以及挖掘方法的综合性能而增加了这 一步. 但是对于中文网络评论中的产品特征挖掘, 是否补充非频繁项为产品特征需要针对中文评论 的特点进行分析.本文提出的中文评论挖掘方法 性能结果通过实验验证(详见后面的数据实验结 果)是查全率比较高,而查准率比较低.如果增加 非频繁项作为产品特征使得查全率和查准率的差 异更为增大,整体性能会降低;而且错误非频繁项 特征的产生即使对于用户决策影响比较小,也还 是有影响.所以在中文网络客户评论挖掘方法中 补充非频繁项的产品特征带来的负面作用比较 大,并不适合.本方法中将不考虑补充非频繁项作 为产品特征. 3 数据实验 3.1 语料数据 本文选取了5种商品的网络评论作为实验语 料进行数据实验,这5种商品分别是一款手机 (Nokia N70),两款数码相机(Cannon A710, Cannon 850),一款MP3播放器(魅族E3)和一本 图书(《达芬奇的密码》).其中手机,数码相机及 MP3播放器的评论从itl68网站下载(http: //www.itl68.com),图书评论从卓越网下载 (http://www.joyo.com.cn).每样商品各选取 100篇评论,针对每一种商品的全部评论,用人工 标注的方法对这些评论中所提到的该商品属性进 行识别和标注.根据最小最大覆盖原则建立最小 的属性集合,使这个集合可以覆盖所有这100个 评论中提到的该商品的属性.以手机为例,手机 (Nokia N70)的商品属性集合如表2所示. 万方数据
148 200年4月 2手机( Nokia N0)属性的人工标注结果 Table 2 The manual features of mobile phone Nokia N70) 人工标注 商品名称 人工标注属性集合 属性数量 手机屏幕软件,电池体积游戏外形输入,字库,收音机内存语音摄像按键,唧,多媒体,耳机,待机时 (do间健盘南拍围速度系统功能播像头,手植售后服务声机身价格接口电话菜单音 拨号,版本快捷键兼容性闪光灯充电器质量智能屏称效果桌面运行速度音质 3.2性能评估方法 实验所采用的列联表如表3所示这里真实 按照前面提出的方法采用JAVA语言构造实产品属性数即人工标注结果的属性数量,其中作 验系统为了评估挖掘方法的性能本文采取了在为挖掘性能度量的查全率和查准率计算方法 文本处理问题研究中普遍使用的性能评估指标:如下 查全率(recl),查准率( precision).本文中的研 查准率( precIsIon)sA 究问题为判断所挖据的产品属性是否为人工标注 A +B 的真实属性这可以归结为二值分类,评估一般使 查全率(reca)=4 用2维列联表( contingency table) A+c 3评估方法性能的列联表 Table 3 The contingency table for performance of experiment 真正产品属性数 非真正产品属性数 本文方法挖据出来的产品属性数 本文方法没有挖据出来的产品属性数 3.3实验结果 通过去掉单字名词候选项,查准率获得了大幅度 综合5种商品的实验结果(如表4所示),平的提高为了深入验证方法的实际性能,需要进行 均查全率78%,平均查准率63.6%,说明本研中英文客户评论产品特征挖掘结果的差异显著性 究所提出方法具有一定有效性从表4可以看到检验 衰4实验结果 人工标注未去除中文单字属性 去除中文单字属 商品名称 查全率 网性数 查准率 56.4% 63.3% 数码相机( Cannon a710) 8% 5 数码相机( Cannon80) 44.6% 65,8% Mp3播放器(魅族B3 548446 52,8% 82.4% 书籍(《达芬奇密码》) 51.2% 51.2% 34差异显著性检验 检验过程为利用本文所提出的方法,数据采 对于英文评论的产品特征挖掘Hu等的研究用与Hu实验数据中的相同种类和数量商品评论 结果被验证为有效,并且得到相关研究领域的承进行特征挖掘最后将实验结果与Hu的实验结 认,为了进一步确认本文所提出方法的有效性将果即查准率和查全率分别进行差异T检验同时 本文研究结果和Hu等人的研究结果作以比较,考虑了与分类随机比率50%的差异检验本研究 并对两者差异做显著性检验,如果两个结果接近所使用的具体商品以及评论内容数据和前面的验 (即本文结果显著好于或与Hu的研究结果的差证实验相同,例如手机类采用的是 Nokia N70的 距不明显),则可以进一步验证本方法的有效性.评论数据;Hu等对应每一类商品的实验结果从文 万方数据
一148一 管理科学学报 2009年4月 裹2 手机(NoHa N70)属性的人工标注结果 Table 2’rhe m8nual feature8 of mobile phone(Nokia N70 l 人工标注 商品名称 人工标注属性集合 属性数量 手机 屏幕,软件,电池,体积,游戏,外形,输入,字库,收音机,内存,语音,摄像,按键,-—幛,多媒体,耳机,待机时 间。键盘。铃声,拍照,速度,系统,功能,摄像头,手感,售后服务,声音,机身,价格,接口,电话簿,菜单,语音 45 (Nokia N70) 拨号,版本,快捷键,兼容性,闪光灯。充电器,质量,智能,屏幕效果。桌面,运行速度,音质 3.2性能评估方法 按照前面提出的方法采用JAVA语言构造实 验系统.为了评估挖掘方法的性能,本文采取了在 文本处理问题研究中普遍使用的性能评估指标: 查全率(recall),查准率(precision).本文中的研 究问题为判断所挖掘的产品属性是否为人工标注 的真实属性,这可以归结为二值分类,评估一般使 用2维列联表(contingency table). 实验所采用的列联表如表3所不.这里真买 产品属性数即人工标注结果的属性数量,其中作 为挖掘性能度量的查全率和查准率计算方法 如下: 查准率(precisi。n)=万毛 查全率(recall)=丁乞 表3 评估方法性能的列联表 Table 3 TIle contingency table for pe舶mance of experiment 真正产品属性数 非真正产品属性数 本文方法挖掘出来的产品属性数 ^ B 本文方法没有挖掘出来的产品属性数 C D 3.3 实验结果 综合5种商品的实验结果(如表4所示),平 通过去掉单字名词候选项,查准率获得了大幅度 的提高.为了深入验证方法的实际性能,需要进行 均查全率77.8%,平均查准率63.6%,说明本研 中英文客户评论产品特征挖掘结果的差异显著性 究所提出方法具有一定有效性.从表4可以看到 检验. 襄4实验结果 Table 4 The experimental results 人工标注 未去除中文单字属性 去除中文单宁属 商品名称 查全率 属性数 查准率 性查准率 手机(NokiaN70) 45 56.4% 63.3% 68.9% 数码相机(Cannon A7lO) 41 50.8% 61.1% 80.5% 数码相机(Cannon 850) 38 44.6% 64.1% 65.8% Mp3播放器(魅族E3) 34 52.8% 66.7% 82.4% 书籍(《达芬奇密码》) 24 51.2% 62.9% 91.7% 平均值 36 51.2% 63.6% 77.8% 3.4 差异显著性检验 对于英文评论的产品特征挖掘,Hu等的研究 结果被验证为有效,并且得到相关研究领域的承 认,为了进一步确认本文所提出方法的有效性,将 本文研究结果和Hu等人的研究结果作以比较, 并对两者差异做显著性检验,如果两个结果接近 (即本文结果显著好于或与Hu的研究结果的差 距不明显),则可以进一步验证本方法的有效性. 检验过程为利用本文所提出的方法,数据采 用与Hu实验数据中的相同种类和数量商品评论 进行特征挖掘,最后将实验结果与Hu的实验结 果即查准率和查全率分别进行差异T检验,同时 考虑了与分类随机比率50%的差异检验.本研究 所使用的具体商品以及评论内容数据和前面的验 证实验相同,例如手机类采用的是Nokia N70的 评论数据;Hu等对应每一类商品的实验结果从文 万方数据
第2期 李实等:中文网络客户评论的产品特征挖据方法研究 149 献[9]中得到;所利用的评论都为100篇结果列Hu等的实验结果基本一致(查准率差异在001 于表5、表6和表7 水平上不显著) 对于查准率的比较结果显示,在去掉单字属 从总体数据试验结果(表6和表7)可以看 性之前,本文挖掘方法的查准率比较差(如表5所到本文和Hu等的平均实验结果查准率差异在 示),与英文实验结果差异在001水平上显著,与0.05水平上显著0.01水平上不显著,查全率差 随机比率差异不显著很难令人满意但是经过去异不显著,说明本文所提出的对于中文网络用户 除中文单字属性的改进后(如表6所示),查准率评论挖掘方法和英文评论挖掘的方法基本上性能 取得了大幅度提高,从51.2%提高到63.8%,与差异不大,进一步验证了本文方法的有效性 表5查准率差异检验结果(未去除中文单字属性) Table 5 T-test results of precision( with features of single Chinese character) 与随机比率0.5 产品类别 Hu和Liu实验 本文的查准率 自由度 的查准率 比较的P值 0.564 0.014I 数码相机 0.71 0.8978 0.71 MP3播放器 0.0126 0.6850 0.512 0.0000 0.7177 注:…,分別表示结果在001和0.05水平上显著没有·表示不显著 豪6查准率差异检验结果(去除中文单字属性 Table 6 T-test results of precision( without features of single Chinese character) 产品名称 Hu和Lu实验的本研究的查 自由度 与随机比率05比 P值 查准率 较的P值 0.718 0.633 0.0689 数码相机1 42 0.1926 0.1087 数码相机2 0.0865 MP3播放器 0.692 0.667 40 0.7274 0.0364 平均值 0.708 0.638 0,0382 0,0002 注:…,分别表示结果在001和0.05水平上显著没有·表示不显著. 表7查全率差异检验结果 Table 7 t-test results of recall 产品称M脚和BLu实本研究的 与随机比率0.5比 自由度 P值 验的查全率 较的P值 0.689 数码相机1 0.805 数码相机2 0.792 0.658 y0 0.0493 MP3播放器 0.818 0.824 平均值 744 0.1482 注:,分别表示结果在001和0.05水平上显著没有·表示不显著 方法是有效的,在面向中文网络评论的产品特征 4结果讨论 挖掘领域进行了初步的理论探索和实践检验为 了进一步提髙方法的性能需要了解偏差产生的原 通过上面的数据实验证明了本文所提出的因,可以从下面几点进行分析: 万方数据
第2期 李 实等:中文网络客户评论的产品特征挖掘方法研究 一149一 献[9]中得到;所利用的评论都为100篇.结果列 于表5、表6和表7. 对于查准率的比较结果显示,在去掉单字属 性之前,本文挖掘方法的查准率比较差(如表5所 示),与英文实验结果差异在O.0l水平上显著,与 随机比率差异不显著,很难令人满意.但是经过去 除中文单字属性的改进后(如表6所示),查准率 Hu等的实验结果基本一致(查准率差异在O.01 水平上不显著). 从总体数据试验结果(表6和表7)可以看 到,本文和Hu等的平均实验结果查准率差异在 0.05水平上显著,0.01水平上不显著,查全率差 异不显著,说明本文所提出的对于中文网络用户 评论挖掘方法和英文评论挖掘的方法基本上性能 取得了大幅度提高,从51.2%提高到63.8%,与 差异不大,进一步验证了本文方法的有效性. 表5 查准率差异检验结果(未去除中文单字属性) Table 5 T—te8t他sults of preci8ion(w;m features of single Chinese ch盯actef) Hu和Liu实验 与随机比率0.5 产品类别 本文的查准率 自由度 P值 的查准率 比较的P值 手机 0.718 O.564 53 0.014 l‘ 0.346 9 数码相机l 0.7l O.508 63 O.000 6” 0.897 8 数码相机2 O.7l 0.446 54 O.000 O“ O.422 7 MP3播放器 0.692 0.528 5l 0.012 6‘ 0.685 O 平均值 O.708 O.512 227 O.000 O“ O.717 7 注:”,’分别表示结果在O.Ol和O.05水平上显著。没有‘表示不显著 裹6 查准率差异检验结果(去除中文单宇属性) T曲le 6 T—te8t弛Bults of preci8ion l witllout features of 8ingle Chine8e char们ter) Hu和“u实验的 本研究的查 与随机比率O.5比 产品名称 自由度 P值 查准率 准率 较的P值 手机 O.718 0.633 47 O.192 6 O.068 9 数码相机l 0.71 0.6lI 52 O.115 O O.108 7 数码相机2 O.7l O.64l 37 0.348 3 O.086 5 MP3播放器 0.692 O.667 40 O.727 4 O.036 4’ 平均值 O.708 0.638 182 O.038 2‘ O.000 2” 注:”。‘分别表示结果在0.0l和O.05水平上显著,没有’表示不显著 表7 查全率差异检验结果 Thble 7 T.te8l resulIs of recall M.Hu和B.“u实 本研究的 与随机比率O.5比 产品名称 自由度 尸值 验的查全率 查伞率 较的P值 手机 0.76l 0.689 43 0.263 5 0.015 0’ 数码相机l O.792 O.805 39 O.838 6 O.000 4” 数码相机2 O.792 O.658 36 0.049 3’ O.059 2 MP3播放器 O.818 O.824 32 O.371 2 O.o【)0 7” 平均值 O.79l O.7“ 156 0.148 2 0.000 O” 注:”,‘分别表示结果在O.Ol和O.05水平上显著,没有’表示不显著 4 结果讨论 通过上面的数据实验,证明了本文所提出的 方法是有效的,在面向中文网络评论的产品特征 挖掘领域进行了初步的理论探索和实践检验.为 了进一步提高方法的性能需要了解偏差产生的原 因,可以从下面几点进行分析: 万方数据
理科学学报 (1)分词工具对于结果的影响分词工具是这样在挖掘过程中会影响到结果的准 中文自然语言处理的基础,对于本文准确率起到 了很大的作用但是目前中文分词工具本身还有5结论 定的误差 (2)词性标注对于结果的影响中文文本的 互联网上大量的客户评论内容中存在着很多 词性标注同样是后面算法的基础,而词性标注工有价值信息,特别是用户集中关注的产品特征是 具本身也是有误差的例如“售后服务”是一个很其他用户做出购买决策的参数,更是生产商和销 重要的商品特点,但是在词性标注的时候标注为售商改进商品和服务的关键指标评论中产品特 “售后/名词,服务/动词”,这样对于后面的特点征的提取是网络评论挖掘的基础性关键技术,尽 挖掘来讲,无法识别出来这样非名词词组另外对管这一问题在英文中已经开展了一些研究,然而 于中文名词短语的挖掘非常复杂,也使得创建事面向中文客户评论的产品特征挖掘研究目前仍很 务文件的时候产生偏差 不足. (3)人工标注和产品特征概念内涵对于结果 本文从中文语言特点和中文评论风格出发 的影响对于评论中的产品特征内涵概念目前还拓展了基于关联规则的英文评论产品特征挖掘方 没有比较准确的定义.在很多文献中按照特点出法,通过构建中文短语提取模式,定义中文评论中 现的方式分为两类:一类是显性的,也就是在评论的临近规则和独立支持度概念,以及针对中文单 中比较明确的可以提出来的比如手机的外形,酒字名词等语言结构特点采取改进措施等一系列 店的房间;另外一类为隐性的,是评论中所隐含的术创新提出了包含八个步骤的面向中文网络客 特点,比如“小孩子也能用”,就是指手机的操作户评论的产品特征挖掘方法,从理论上对中文客 简单.在本文中主要针对评论中的显性特点另外户评论产品特征挖掘问题进行了初步的探索.在 本数据实验结果对照的是人工标注的特征,尽管数据试验中,该方法的平均查全率为77.8%,平 通过一些原则处理了人工标注的结果,但是对于均查准率为63.6%,这一结果与其他研究者针对 产品特征内涵的主观理解仍然可能会影响标注的英文评论的研究结果基本一致,表明了该方法的 客观结果从而使得实验结果统计产生偏差. 有效性该方法的应用,将有望一定程度上解决网 (4)网络用户评论的这一文体本身的风格特络评论数据过载以及信息非结构化等问题. 征对于分类结果的影响根据文体理论( genre the本文还深入分析了目前算法查准率不够理想 ry),在线产品评论是新的文体风格2,它包含的原因指出今后的研究将进一步解决这些影响 的3种内容会对挖掘方法的性能有所阻碍,分别挖掘效果的问题,从而提高挖掘准确率.此外,针 是超级链接,求助性的疑问句,以及全文引用的其对所得到的商品特点,进行情感倾向分析,进一步 他评论内容.另外语言特点方面,在线用户评论会判断中文用户评论中对于具体商品特点的情感倾 用很多符号表示感情色彩,例如“太棒了!!!",向分布,也将是今后的研究重点 考文獻: [1]Senecal S, Nantel J. The Influence of Online Product Recommendations on Consumers'Online Choices[C]. Journal of Re- tailing, Elsevier, 2004. 159--169 [2]Chevalier J, Mayzlin D. The Effect of Word of Mouth on Sales: Online Book Reviews[C]. NBER Working Paper Series 10148. National Bureau of Fconomic Research. USA 2003 [3]Godes D, Mayzlin D. Using online conversations to study word-of -mouth communication[ J]. Marketing Science. 2004, 23 4):545-560. [4]Popescu A-M, Etzioni 0. Extracting Product Features and Opinions From Reviews[C]. In Proceedings of HLT-EMNLP 005,ACL,2005.339-346. [5]Hu M, Liu B. Mining Opinion Features in Customer Reviews[ C]. In AAAL, 2004. 755--760 万方数据
一150一 管理科学学报 2009年4月 (1)分词工具对于结果的影响分词工具是 中文自然语言处理的基础,对于本文准确率起到 了很大的作用,但是目前中文分词工具本身还有 一定的误差. (2)词性标注对于结果的影响中文文本的 词性标注同样是后面算法的基础,而词性标注工 具本身也是有误差的.例如“售后服务”是一个很 重要的商品特点,但是在词性标注的时候标注为 “售后/名词,服务/动词”,这样对于后面的特点 挖掘来讲,无法识别出来这样非名词词组.另外对 于中文名词短语的挖掘非常复杂,也使得创建事 务文件的时候产生偏差. (3)人工标注和产品特征概念内涵对于结果 的影响对于评论中的产品特征内涵概念目前还 没有比较准确的定义.在很多文献中按照特点出 现的方式分为两类:一类是显性的,也就是在评论 中比较明确的可以提出来的比如手机的外形,酒 店的房间;另外一类为隐性的,是评论中所隐含的 特点,比如“小孩子也能用”,就是指手机的操作 简单.在本文中主要针对评论中的显性特点.另外 本数据实验结果对照的是人工标注的特征,尽管 通过一些原则处理了人工标注的结果,但是对于 产品特征内涵的主观理解仍然可能会影响标注的 客观结果从而使得实验结果统计产生偏差. (4)网络用户评论的这一文体本身的风格特 征对于分类结果的影响根据文体理论(genre tIle— ory),在线产品评论是新的文体风格L12l,它包含 的3种内容会对挖掘方法的性能有所阻碍,分别 是超级链接,求助性的疑问句,以及全文引用的其 他评论内容.另外语言特点方面,在线用户评论会 用很多符号表示感情色彩,例如“太棒了!!!!”, 参考文献: 这样在挖掘过程中会影响到结果的准确. 5结论 互联网上大量的客户评论内容中存在着很多 有价值信息,特别是用户集中关注的产品特征是 其他用户做出购买决策的参数,更是生产商和销 售商改进商品和服务的关键指标.评论中产品特 征的提取是网络评论挖掘的基础性关键技术,尽 管这一问题在英文中已经开展了一些研究,然而 面向中文客户评论的产品特征挖掘研究目前仍很 不足. 本文从中文语言特点和中文评论风格出发, 拓展了基于关联规则的英文评论产品特征挖掘方 法,通过构建中文短语提取模式,定义中文评论中 的临近规则和独立支持度概念,以及针对中文单 字名词等语言结构特点采取改进措施等一系列技 术创新,提出了包含八个步骤的面向中文网络客 户评论的产品特征挖掘方法,从理论上对中文客 户评论产品特征挖掘问题进行了初步的探索.在 数据试验中,该方法的平均查全率为77.8%,平 均查准率为63.6%,这一结果与其他研究者针对 英文评论的研究结果基本一致,表明了该方法的 有效性.该方法的应用,将有望一定程度上解决网 络评论数据过载以及信息非结构化等问题. 本文还深入分析了目前算法查准率不够理想 的原因,指出今后的研究将进~步解决这些影响 挖掘效果的问题,从而提高挖掘准确率.此外,针 对所得到的商品特点,进行情感倾向分析,进一步 判断中文用户评论中对于具体商品特点的情感倾 向分布,也将是今后的研究重点. [1]senecal s,N粕tel J.ne Innuence of 0Illi舱Product Recommendatiom∞consume璐’Online choices[C].Joumal 0f Re- “ling,Else“er,2004.159一169. [2]chevalier J,Mayzlin D.ne E如ct of word 0f Mouth∞sal鹤:0nline Book Revie啪[c].NBER working Paper Seri∞ lOl48,Natio蒯Bure叫of Econ0Inic Research。USA,2003. [3]GodeB D,Mayzlin D.us吨ordine c蚰vers“oIl8 to study word-of-moutIl communjcation[J].Market吨science.2004,23 (4):545—-560. [4]Popescu A·M,Etzi∞i 0.Extracting Product Features and 0pirIions Fmm Reviews[C].In Proceedings 0f HIJ-EMNLP 2005,ACL,2005.339—346. [5]Hu M,Liu B.MinirIg 0piTli∞Feature8 in cIIsto而er Reviews[c].Ifl AAAI,2004.755—760. 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 [6]Tumey P D. Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[c] Proceeding of Association for Computational Linguistics 40th Anniversary Meeting, 2002. 417-424 [7]Liu B. Opinion Observer: Analyzing and Comparing Opinions on The Web[C]. Proceedings of The 14th Intemational World Wide Web Conference( WWW-2005), 2005. 10-14 [8]Liu J, Wu G, Yao J. Opinion Searching in Multi-product Reviews[ C]. Proceedings of The Sixth IEEE Intemational Confer nce on Computer and Information Technology( CIT 06), 2006. 25-25 [9]Hu M, Liu B. Mining and Summarizing Custoner Reviews[ C]. Proceedings of The Tenth ACM SIGKDD Intemational Con- ference on Knowledge Discovery and Data Mining, 2004. 168-177 [10]中国互联网络发展状况统计报告[R].中国互联网信息中心(CNNC),2008 Statistical Reports on the Intemet Development in Chinai R]. China Intemet Network Information Center, Jan. 2008.(in [11 Rosenzweig P M, National Culture and Management[M]. Harvard Business School: Harvard Business School Pub. Divi- [12]Pollach L. Electronic Word of Mouth: A Genre Analysis of Product Reviews on Consumer Opinion Web Sites[ C].Proceed gs of the 39th Hawaii International Conference on System Sciences, 2006. [13]王永贵,韩顺平,邢金刚,等.基于顾客权益的价值导向型顾客关系管理——理论框架与实证分析[J].管理科学 学报.2005,8(6):27-36. Wang Yong-gui, Han Shun-ping Xing Jin-gang, et al. Value oriented customer relationship Conceptual framework and em pirical management based on customer equity: Conceptual framework and empirical analysis[JJ. Journal of Management Sc ences in China. 2005, 8(6): 27--36.( in Chinese) [14]Wiebe J M. Leaming Subjective Adjectives from Corpora[C]. Proceeding of 17 th National Conference on Artificial Intelli- gence. Menlo Park, California: AAAI Press, 2000. 735-740. [15]Chaovalit P, Zhou L. Movie Review Mining: A Comparison between Supervised and Unsupervised Classification Approaches C]. Proceedings of The 38th Annual Hawaii International Conference on System Sciences, 2005. 112.3 [16] Pang B, Lee L. Shivakumar Vaithyanathan. Thumbs up? Sentiment Classification Using Machine Learning Techniques C]. 2002 Conference on Empirical Methods in Natural Language Processing(EMNLP'2002),2002.79-86 [17 ]Sanjiv R D, Chen M Y. Yahoo! For timent Parsing from Small Talk on The Web[C]. Proceedings of The 8th gia Pacific Finance Association Annual Conference. 2001 [18 Beineke P, Trevor H, Shivakumer Vaithyanathan. The Sentimental Factor Improving Review Classification via Human-Pro- wided Information[ C]. Proceedings of ACL, 2004. 263-270. [19]Fei Z C, Liu J, WuG F. Sentiment Classification Using Phrase Pattems[C]. In: Proceedings of The Fourth Intermational Conference on Computer and Information Technology(CIT'04). WuHan, China: IEEE, 2004. 1-6 [20 ] Dave K, Lawrence S, Pennock D M. Mining The Peanut Gallery: Opinion Extraction and Semantic Classification of Produ Reviews[C]. Proceeding of 12th Intemational Conference on World Wide Web. Budapest, Hungary: ACM Press, 2003 519-528 [21]MillerG A. WordNet: A lexical database for English[J]. Communications of The ACM, 1995, 38(11):39-41 [22]Andreevskaia A, Sabine B. Mining WordNet for Fuzzy Sentiment: Sentiment Tag Extraction from WordNet Glosses[c] Proceeding of The Ilth Conference of The European Chanpter of The ACL (EACL 06), April, 2006. 209-216. [23 ]Lin B, Lu T, Ye Q. Opinion Classification for Chinese Movie Reviews[ C]. Proceeding of 12th Intemational Conference on Management Science and Engineering, 200 [24]YeQ, Li Y J, Zhang Y W. Semantic-oriented sentiment classification for Chinese product reviews: An experimental study on the reviews for books and cell phones[ J]. Tsinghua Science and Tech nology. 2005, 10(zl):797-802. [25]YeQ, Lin B, LiY J. Sentiment Classification for Chinese Reviews: A Comparison between SVM and Semantic Approaches [C]. The 4th International Conference on Machine Learning and Cybemetics ICMLC2005(IEEE). 2005, 4(8): 234 [26]Ye Q, Shi W, Li Y J. Sentiment Classification for Movie Reviews in Chinese by Proved Semantic Oriented Approach[C] Proceedings of the 39th Annual Hawaii Intemational Conference on System Sciences, 2006 万方数据
第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一151一 [6]Tumey P D.11lumbs up or,11lurnbs Do帅?Se咖m_tic Orientati∞Appdjed to U璐upervi8ed class击cati叩of Revi删s[c]. Pmceedi|lg of Association for Compu嘶011al“ngui$tics 40tll AIlIlive瑁ary M∞t崦,2002.417—_424. [7]“u B.0piIli明obseryer:Aflalyz咄酿d comp耐ng 0pifIi咖锄The web[c].酬ngs of‰14t}I Inte眦tjofIal wodd Wide Web Confe陀nce(WWW一2005),2005.10—14. [8]Uu J,wu G,Y∞J.0piIIi仰SearchirIg in Multi-pmduct ReviewB[C].ProcIeedin铲of The Si】【tlI IEEE Int印lational cof如卜 e∞e∞Computer粕d InfjmLation 7IIechnolo彰(CIT’06),2006.25—25. [9]Hu M,bu B.Mining and SummaIiziIlg Customer Revi嗍[c].Pmc∞dings 0f11le TentIl AcM slGKDD Inte删moIIal con_ fbmnce∞Knowledge Di吕covery锄d Data Mimng,2004.168—177. [10]中国互联网络发展状况统计报告[R].中国互联网信息中心(cNNIc),2008.1. statistical Repon8咖岫IIltenlet Develop眦nt in Chi舱[R].Chim I|ltemet N出m矗Im肌ati∞center,J锄.2008.(in CIlinese) [11]R0senzweig P M.Nati咖l CIlltIlre锄d MaIlage眦m[M].H删ald Busine鹪Sch砌:Han,aTd Bllsi脯8 Sch叫PIIb.Divi. si∞.1994. [12]Pou加h I.Electmmc word of MoutII:A GeIlre ArIalysi8 of Pmduct Revi洲彻c嘶哪er opiIli叫web sites[c].PIDceed. in98 of tlle 39th Hawaii Intemational Conf.erence on System Sciences,2006. [13]王永贵,韩顺平,邢金刚,等.基于顾客权益的价值导向型顾客关系管理——理论框架与实证分析[J].管理科学 学报.2005,8(6):27—36. W趴g Yong-gIli,H锄Shun—pirIg,XifIg Jin—gaIIg,以以Value oriented custoIner relationship Conceptual fr习吼eworl【and empirical m田1agement bElsed on customer equity:concep删妇nework锄d empirical甜lalysis[J].Jo眦TIal of M龇lagemem sci一 即c船jn Cbi腿.2005,8(6):27—36.(in Cllinese) [14]wiebe J M.Leaming subjective Adjectiv∞f南m corpom[c].Proceeding 0f 17th National corlference∞Artificial Intelli— gence.Menlo Park,Califonlia:AAAI Pres8,2000.735—.740. [15]cI啪vaIit P,zhou L.Movie Review MiniIIg:A comp撕8∞between supervised锄d UnsupeⅣised cl私smcation App啪ches [c].Proce础ngB ofllle 38tll AnnIlal Hawaij InteH洲ollal co疵啪ce on system Sciences,2005.112.3. [16]P蛐g B,L胱L.Shivak岫盯Vaithyananl粕.numbs up?sentiment class洒c撕on usiIlg Mackne k锄iIlg 1khIliqIl鹋 [c].2002 cor如rence∞Empirical Met}lods in Natuml蛔age Proces8irIg(EMNLP’2002),2002.79—86. [17]S删iv R D,chen MY.Ya}loo!ForAm北on:sentiment P郴irIg硒m sⅡ坩_IlTalk onllleweb[c].P眦eeclir峥ofne 8tll Asia Pac进c Fin彻ce Associati仰A衄ual Conference.2001. [18]Beineke P,T唧or H,蛳v&kum盯VaitIly锄tI姗.ne Sentimemal Factor:ImpmvirIg Review Cl鹤8舭觚n via H啪蚰-P胁 vided Infb啪ation[c].Pmceedings of AcL,2004.263—270. [19]Fei z c,“u J,wu G F.sentimem cl鹊sificati∞usiIlg Phr酗e Panems[C].In:Proceedings of’rhe FoIlrt}I Inte瑚tional Conference on C咖puter粕d Inf0咖ation‰hnolog)r(CIT’04).WuH锄,ClIim:IEEE,2004.1—6. [20]Dave K,L删Te眦e s,Pe咖0ck D M.MiniIIg The Pe明ut G丑Ⅱery:OpirIi彻E】【tr∽“∞and Se腿Tnic cl鹊s墒cati叩0f PD0duct ReVievs[c].Proceeding of 12th Inte瑚tioIlal co疵rence on world wide web.Budapest,Hungary:AcM P嗽s,2003. 5 19—-528. [21]Miuer G A.wordNet:A lexical d灿ase for EngHsh[J].CommuTIications ofne AcM,1995,38(11):39—41. [22]Andreevskaia A,sabine B.Min堍wordNet for Fuzzy sentimem:Se觚ment’rag Extmction fT砌wordNet cl佣啷[c]. Proceedir峥0f-11le lltll C伽如rence ofllIe E啪pe明Ch卸pter of The ACL(EACL’06),April,2006.209—216. [23]Kn B,Lu T,Ye Q.opirIi∞clas8i右cati帆for chi舱∞Mo“e Reviews[C].Proceed咄0f 12tII IntematioIIal comrence on MaIlagement scie∞e蚰d Engineeriflg,2005. [24]Ye Q,“Y J,zhallg Y w.Sem觚tic-oriented枷timem class函cation for cllinese pmduct revie啪:An experimntal study 咖tIle reViews for books粕d ceu phoneg[J].TsiTlgIlm science and 1kh noIog)r.2005,10(z1):797—802. [25]Ye Q,Lin B,u Y J。Sentiment cl鹊sification for c}Iinese Reviews:A comp撕son between svM帅d Sem卸tic AppDDach黜 [c].111e 4th I眦emalior“confem∞e∞Machi舱k蛳ing蹰d Cybem甜c8 IcMLc2005(IEEE).20Q5,4(8):234l一 2346. [26]Ye Q,Shi w,“Y J.Semiment cI私8ification for Movie Reviews in C}li∞∞b)r Proved sem肌tic 0riented Approach[c]. ProceediIlgs of tlle 39m A衄ual Hawaji IIltemati帆al Conference on S丫蛳釉scienc鹊.2I×16. 万方数据