第2期李实等：中文网络客户评论的产品特征挖掘方法研究一147一个，“

点击下载：《电子商务 E-business》阅读文献：中文网络客户评论的产品特征挖掘方法研究

正在加载图片...

2期李实等:中文网络客户评论的产晶特征挖掘方法究-147二个,“屏幕分辨率”,“屏幕效果”也是频繁项,它们作为句子的主观观点形成用户观点数据库,然后出现的次数分别为3和4,则“屏幕”的独立支持再重新回到所有评论中遍历,如果一个句子中的度为3. 形容词是主观观点则离它最近的名词或者名词短本文采用最小的独立支持度为3,即一个特语补充为非频繁特征项产品特征但通过这一步征项的p- support<3,那么这个特征项就从候选并不能使查全率和查准率都有所提高.这是因为特征集合里面去掉过滤掉所有不满足独立支补充的非频繁特征项产品特征可能与用户讨论的持度要求的候选特征项,形成新的候选特征集商品对象没有关系,导致了准确率的降低.但是合l2 他们考虑到这种非频繁项的数量比较小,对于步骤7建立常见中文频繁项名词却非产品用户购买决策影响不大,所以为了提高结果的特征的集合将l2过滤形成特征集合l 查全率以及挖掘方法的综合性能而增加了这常见的中文名词或者名词短语而确定非产品特征在本研究中主要划定为以下几种的情况: 但是对于中文网络评论中的产品特征挖掘 1)在候选特征项中去掉关于表示商品型号是否补充非频繁项为产品特征需要针对中文评论的名词,第1位为字母后面全部为数字的名词例的特点进行分析本文提出的中文评论挖掘方法如“N70 性能结果通过实验验证(详见后面的数据实验结 2)常见商品的品牌例如对于某型号手机产果)是查全率比较高,而查准率比较低如果增加品特征的挖掘可以排除掉“诺基亚”,“摩托罗拉”非频繁项作为产品特征使得查全率和查准率的差等名词异更为增大,整体性能会降低;而且错误非频繁项 3)一些常见的口语化名词例如:“机子”,特征的产生即使对于用户决策影响比较小,也还东西” 是有影响所以在中文网络客户评论挖掘方法中 4)一些常见的人称名词.例如“朋友”,“先补充非频繁项的产品特征带来的负面作用比较大,并不适合.本方法中将不考虑补充非频繁项作步骤8从l3中去掉单字名词的候选项,包为产品特征括含单字名词的n项频繁项(n≤3)形成最后的产品特征集合 3数据实验在中文中,一个单字可以标注为名词,这是中文所特有的情况.从中文评论中产品特征的人工3.1语料数据标注结果就可以看到,基本上不用单字名词作为本文选取了5种商品的网络评论作为实验语特点的名称而且在后面的数据实验中,采用5样料进行数据实验,这5种商品分别是一款手机产品,共挖掘出来属于产品特征的有139项,而其( Nokia m70),两款数码相机( Cannon A710 中是单字名词或者包含单字名词的特征一个也没 Cannon850),一款MP3播放器(魅族E3)和一本有而去掉候选特征集中只有一个单字的名词例图书(《达芬奇的密码》)其中手机,数码相机及如“手”,“信”等会大大提高挖掘的准确率这一MP3播放器的评论从itl68网站下载(htp: 步骤所带来的效果将在下面的数据实验中得到/w.itl68.com),图书评论从卓越网下载 (htp://www.joyo.com.cn).每样商品各选取 2.2非频繁特征项的处理 100篇评论,针对每一种商品的全部评论,用人工正如前面提出的方法步骤中所介绍的,本文标注的方法对这些评论中所提到的该商品属性进和Hu9的英文评论挖掘研究都基于关联规则的行识别和标注根据最小最大覆盖原则建立最小频繁特征项挖掘技术对于非频繁项的产品特征的属性集合,使这个集合可以覆盖所有这100个处理,在英文评论的方法中最后进行了补充所应评论中提到的该商品的属性.以手机为例,手机用的方法为找到所有修饰频繁特征项的形容词( Nokia N70)的商品属性集合如表2所示万方数据第2期李实等：中文网络客户评论的产品特征挖掘方法研究一147一个，“屏幕分辨率”，“屏幕效果”也是频繁项，它们出现的次数分别为3和4，则“屏幕”的独立支持度为3．本文采用最小的独立支持度为3，即一个特征项的p．suppon<3，那么这个特征项就从候选特征集合里面去掉．过滤掉所有不满足独立支持度要求的候选特征项，形成新的候选特征集合，2．步骤7 建立常见中文频繁项名词却非产品特征的集合，将厶过滤形成特征集合厶．常见的中文名词或者名词短语而确定非产品特征在本研究中主要划定为以下几种的情况： 1)在候选特征项中去掉关于表示商品型号的名词，第l位为字母后面全部为数字的名词例如“N70”． 2)常见商品的品牌．例如对于某型号手机产品特征的挖掘可以排除掉“诺基亚”，“摩托罗拉” 等名词． 3)一些常见的口语化名词．例如：“机子”， “东西”． 4)一些常见的人称名词．例如“朋友”，“先生”．步骤8 从，3中去掉单字名词的候选项，包括含单字名词的n项频繁项(n≤3)，形成最后的产品特征集合L 在中文中，一个单字可以标注为名词，这是中文所特有的情况．从中文评论中产品特征的人工标注结果就可以看到，基本上不用单字名词作为特点的名称．而且在后面的数据实验中，采用5样产品，共挖掘出来属于产品特征的有139项，而其中是单字名词或者包含单字名词的特征一个也没有．而去掉候选特征集中只有一个单字的名词，例如“手”，“信”等会大大提高挖掘的准确率．这一步骤所带来的效果将在下面的数据实验中得到验证． 2．2 非频繁特征项的处理正如前面提出的方法步骤中所介绍的，本文和Hu【9 J的英文评论挖掘研究都基于关联规则的频繁特征项挖掘技术．对于非频繁项的产品特征处理，在英文评论的方法中最后进行了补充．所应用的方法为：找到所有修饰频繁特征项的形容词作为句子的主观观点，形成用户观点数据库，然后再重新回到所有评论中遍历，如果一个句子中的形容词是主观观点则离它最近的名词或者名词短语补充为非频繁特征项产品特征．但通过这一步并不能使查全率和查准率都有所提高．这是因为补充的非频繁特征项产品特征可能与用户讨论的商品对象没有关系，导致了准确率的降低．但是他们考虑到这种非频繁项的数量比较小，对于用户购买决策影响不大，所以为了提高结果的查全率以及挖掘方法的综合性能而增加了这一步．但是对于中文网络评论中的产品特征挖掘，是否补充非频繁项为产品特征需要针对中文评论的特点进行分析．本文提出的中文评论挖掘方法性能结果通过实验验证(详见后面的数据实验结果)是查全率比较高，而查准率比较低．如果增加非频繁项作为产品特征使得查全率和查准率的差异更为增大，整体性能会降低；而且错误非频繁项特征的产生即使对于用户决策影响比较小，也还是有影响．所以在中文网络客户评论挖掘方法中补充非频繁项的产品特征带来的负面作用比较大，并不适合．本方法中将不考虑补充非频繁项作为产品特征． 3 数据实验 3．1 语料数据本文选取了5种商品的网络评论作为实验语料进行数据实验，这5种商品分别是一款手机 (Nokia N70)，两款数码相机(Cannon A710， Cannon 850)，一款MP3播放器(魅族E3)和一本图书(《达芬奇的密码》)．其中手机，数码相机及 MP3播放器的评论从itl68网站下载(http：／／www．itl68．com)，图书评论从卓越网下载 (http：／／www．joyo．com．cn)．每样商品各选取 100篇评论，针对每一种商品的全部评论，用人工标注的方法对这些评论中所提到的该商品属性进行识别和标注．根据最小最大覆盖原则建立最小的属性集合，使这个集合可以覆盖所有这100个评论中提到的该商品的属性．以手机为例，手机 (Nokia N70)的商品属性集合如表2所示．万方数据

<<向上翻页向下翻页>>

点击下载：《电子商务 E-business》阅读文献：中文网络客户评论的产品特征挖掘方法研究