正在加载图片...
理科学学报 (1)分词工具对于结果的影响分词工具是这样在挖掘过程中会影响到结果的准 中文自然语言处理的基础,对于本文准确率起到 了很大的作用但是目前中文分词工具本身还有5结论 定的误差 (2)词性标注对于结果的影响中文文本的 互联网上大量的客户评论内容中存在着很多 词性标注同样是后面算法的基础,而词性标注工有价值信息,特别是用户集中关注的产品特征是 具本身也是有误差的例如“售后服务”是一个很其他用户做出购买决策的参数,更是生产商和销 重要的商品特点,但是在词性标注的时候标注为售商改进商品和服务的关键指标评论中产品特 “售后/名词,服务/动词”,这样对于后面的特点征的提取是网络评论挖掘的基础性关键技术,尽 挖掘来讲,无法识别出来这样非名词词组另外对管这一问题在英文中已经开展了一些研究,然而 于中文名词短语的挖掘非常复杂,也使得创建事面向中文客户评论的产品特征挖掘研究目前仍很 务文件的时候产生偏差 不足. (3)人工标注和产品特征概念内涵对于结果 本文从中文语言特点和中文评论风格出发 的影响对于评论中的产品特征内涵概念目前还拓展了基于关联规则的英文评论产品特征挖掘方 没有比较准确的定义.在很多文献中按照特点出法,通过构建中文短语提取模式,定义中文评论中 现的方式分为两类:一类是显性的,也就是在评论的临近规则和独立支持度概念,以及针对中文单 中比较明确的可以提出来的比如手机的外形,酒字名词等语言结构特点采取改进措施等一系列 店的房间;另外一类为隐性的,是评论中所隐含的术创新提出了包含八个步骤的面向中文网络客 特点,比如“小孩子也能用”,就是指手机的操作户评论的产品特征挖掘方法,从理论上对中文客 简单.在本文中主要针对评论中的显性特点另外户评论产品特征挖掘问题进行了初步的探索.在 本数据实验结果对照的是人工标注的特征,尽管数据试验中,该方法的平均查全率为77.8%,平 通过一些原则处理了人工标注的结果,但是对于均查准率为63.6%,这一结果与其他研究者针对 产品特征内涵的主观理解仍然可能会影响标注的英文评论的研究结果基本一致,表明了该方法的 客观结果从而使得实验结果统计产生偏差. 有效性该方法的应用,将有望一定程度上解决网 (4)网络用户评论的这一文体本身的风格特络评论数据过载以及信息非结构化等问题. 征对于分类结果的影响根据文体理论( genre the本文还深入分析了目前算法查准率不够理想 ry),在线产品评论是新的文体风格2,它包含的原因指出今后的研究将进一步解决这些影响 的3种内容会对挖掘方法的性能有所阻碍,分别挖掘效果的问题,从而提高挖掘准确率.此外,针 是超级链接,求助性的疑问句,以及全文引用的其对所得到的商品特点,进行情感倾向分析,进一步 他评论内容.另外语言特点方面,在线用户评论会判断中文用户评论中对于具体商品特点的情感倾 用很多符号表示感情色彩,例如“太棒了!!!",向分布,也将是今后的研究重点 考文獻: [1]Senecal S, Nantel J. The Influence of Online Product Recommendations on Consumers'Online Choices[C]. Journal of Re- tailing, Elsevier, 2004. 159--169 [2]Chevalier J, Mayzlin D. The Effect of Word of Mouth on Sales: Online Book Reviews[C]. NBER Working Paper Series 10148. National Bureau of Fconomic Research. USA 2003 [3]Godes D, Mayzlin D. Using online conversations to study word-of -mouth communication[ J]. Marketing Science. 2004, 23 4):545-560. [4]Popescu A-M, Etzioni 0. Extracting Product Features and Opinions From Reviews[C]. In Proceedings of HLT-EMNLP 005,ACL,2005.339-346. [5]Hu M, Liu B. Mining Opinion Features in Customer Reviews[ C]. In AAAL, 2004. 755--760 万方数据一150一 管理科学学报 2009年4月 (1)分词工具对于结果的影响分词工具是 中文自然语言处理的基础,对于本文准确率起到 了很大的作用,但是目前中文分词工具本身还有 一定的误差. (2)词性标注对于结果的影响中文文本的 词性标注同样是后面算法的基础,而词性标注工 具本身也是有误差的.例如“售后服务”是一个很 重要的商品特点,但是在词性标注的时候标注为 “售后/名词,服务/动词”,这样对于后面的特点 挖掘来讲,无法识别出来这样非名词词组.另外对 于中文名词短语的挖掘非常复杂,也使得创建事 务文件的时候产生偏差. (3)人工标注和产品特征概念内涵对于结果 的影响对于评论中的产品特征内涵概念目前还 没有比较准确的定义.在很多文献中按照特点出 现的方式分为两类:一类是显性的,也就是在评论 中比较明确的可以提出来的比如手机的外形,酒 店的房间;另外一类为隐性的,是评论中所隐含的 特点,比如“小孩子也能用”,就是指手机的操作 简单.在本文中主要针对评论中的显性特点.另外 本数据实验结果对照的是人工标注的特征,尽管 通过一些原则处理了人工标注的结果,但是对于 产品特征内涵的主观理解仍然可能会影响标注的 客观结果从而使得实验结果统计产生偏差. (4)网络用户评论的这一文体本身的风格特 征对于分类结果的影响根据文体理论(genre tIle— ory),在线产品评论是新的文体风格L12l,它包含 的3种内容会对挖掘方法的性能有所阻碍,分别 是超级链接,求助性的疑问句,以及全文引用的其 他评论内容.另外语言特点方面,在线用户评论会 用很多符号表示感情色彩,例如“太棒了!!!!”, 参考文献: 这样在挖掘过程中会影响到结果的准确. 5结论 互联网上大量的客户评论内容中存在着很多 有价值信息,特别是用户集中关注的产品特征是 其他用户做出购买决策的参数,更是生产商和销 售商改进商品和服务的关键指标.评论中产品特 征的提取是网络评论挖掘的基础性关键技术,尽 管这一问题在英文中已经开展了一些研究,然而 面向中文客户评论的产品特征挖掘研究目前仍很 不足. 本文从中文语言特点和中文评论风格出发, 拓展了基于关联规则的英文评论产品特征挖掘方 法,通过构建中文短语提取模式,定义中文评论中 的临近规则和独立支持度概念,以及针对中文单 字名词等语言结构特点采取改进措施等一系列技 术创新,提出了包含八个步骤的面向中文网络客 户评论的产品特征挖掘方法,从理论上对中文客 户评论产品特征挖掘问题进行了初步的探索.在 数据试验中,该方法的平均查全率为77.8%,平 均查准率为63.6%,这一结果与其他研究者针对 英文评论的研究结果基本一致,表明了该方法的 有效性.该方法的应用,将有望一定程度上解决网 络评论数据过载以及信息非结构化等问题. 本文还深入分析了目前算法查准率不够理想 的原因,指出今后的研究将进~步解决这些影响 挖掘效果的问题,从而提高挖掘准确率.此外,针 对所得到的商品特点,进行情感倾向分析,进一步 判断中文用户评论中对于具体商品特点的情感倾 向分布,也将是今后的研究重点. [1]senecal s,N粕tel J.ne Innuence of 0Illi舱Product Recommendatiom∞consume璐’Online choices[C].Joumal 0f Re- “ling,Else“er,2004.159一169. [2]chevalier J,Mayzlin D.ne E如ct of word 0f Mouth∞sal鹤:0nline Book Revie啪[c].NBER working Paper Seri∞ lOl48,Natio蒯Bure叫of Econ0Inic Research。USA,2003. [3]GodeB D,Mayzlin D.us吨ordine c蚰vers“oIl8 to study word-of-moutIl communjcation[J].Market吨science.2004,23 (4):545—-560. [4]Popescu A·M,Etzi∞i 0.Extracting Product Features and 0pirIions Fmm Reviews[C].In Proceedings 0f HIJ-EMNLP 2005,ACL,2005.339—346. [5]Hu M,Liu B.MinirIg 0piTli∞Feature8 in cIIsto而er Reviews[c].Ifl AAAI,2004.755—760. 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有