正在加载图片...
2期 李实等:中文网络客户评论的产晶特征挖掘方法究-147二 个,“屏幕分辨率”,“屏幕效果”也是频繁项,它们作为句子的主观观点形成用户观点数据库,然后 出现的次数分别为3和4,则“屏幕”的独立支持再重新回到所有评论中遍历,如果一个句子中的 度为3. 形容词是主观观点则离它最近的名词或者名词短 本文采用最小的独立支持度为3,即一个特语补充为非频繁特征项产品特征但通过这一步 征项的p- support<3,那么这个特征项就从候选并不能使查全率和查准率都有所提高.这是因为 特征集合里面去掉过滤掉所有不满足独立支补充的非频繁特征项产品特征可能与用户讨论的 持度要求的候选特征项,形成新的候选特征集商品对象没有关系,导致了准确率的降低.但是 合l2 他们考虑到这种非频繁项的数量比较小,对于 步骤7建立常见中文频繁项名词却非产品用户购买决策影响不大,所以为了提高结果的 特征的集合将l2过滤形成特征集合l 查全率以及挖掘方法的综合性能而增加了这 常见的中文名词或者名词短语而确定非产品 特征在本研究中主要划定为以下几种的情况: 但是对于中文网络评论中的产品特征挖掘 1)在候选特征项中去掉关于表示商品型号是否补充非频繁项为产品特征需要针对中文评论 的名词,第1位为字母后面全部为数字的名词例的特点进行分析本文提出的中文评论挖掘方法 如“N70 性能结果通过实验验证(详见后面的数据实验结 2)常见商品的品牌例如对于某型号手机产果)是查全率比较高,而查准率比较低如果增加 品特征的挖掘可以排除掉“诺基亚”,“摩托罗拉”非频繁项作为产品特征使得查全率和查准率的差 等名词 异更为增大,整体性能会降低;而且错误非频繁项 3)一些常见的口语化名词例如:“机子”,特征的产生即使对于用户决策影响比较小,也还 东西” 是有影响所以在中文网络客户评论挖掘方法中 4)一些常见的人称名词.例如“朋友”,“先补充非频繁项的产品特征带来的负面作用比较 大,并不适合.本方法中将不考虑补充非频繁项作 步骤8从l3中去掉单字名词的候选项,包为产品特征 括含单字名词的n项频繁项(n≤3)形成最后的 产品特征集合 3数据实验 在中文中,一个单字可以标注为名词,这是中 文所特有的情况.从中文评论中产品特征的人工3.1语料数据 标注结果就可以看到,基本上不用单字名词作为本文选取了5种商品的网络评论作为实验语 特点的名称而且在后面的数据实验中,采用5样料进行数据实验,这5种商品分别是一款手机 产品,共挖掘出来属于产品特征的有139项,而其( Nokia m70),两款数码相机( Cannon A710 中是单字名词或者包含单字名词的特征一个也没 Cannon850),一款MP3播放器(魅族E3)和一本 有而去掉候选特征集中只有一个单字的名词例图书(《达芬奇的密码》)其中手机,数码相机及 如“手”,“信”等会大大提高挖掘的准确率这一MP3播放器的评论从itl68网站下载(htp: 步骤所带来的效果将在下面的数据实验中得到/w.itl68.com),图书评论从卓越网下载 (htp://www.joyo.com.cn).每样商品各选取 2.2非频繁特征项的处理 100篇评论,针对每一种商品的全部评论,用人工 正如前面提出的方法步骤中所介绍的,本文标注的方法对这些评论中所提到的该商品属性进 和Hu9的英文评论挖掘研究都基于关联规则的行识别和标注根据最小最大覆盖原则建立最小 频繁特征项挖掘技术对于非频繁项的产品特征的属性集合,使这个集合可以覆盖所有这100个 处理,在英文评论的方法中最后进行了补充所应评论中提到的该商品的属性.以手机为例,手机 用的方法为找到所有修饰频繁特征项的形容词( Nokia N70)的商品属性集合如表2所示 万方数据第2期 李实等:中文网络客户评论的产品特征挖掘方法研究 一147一 个,“屏幕分辨率”,“屏幕效果”也是频繁项,它们 出现的次数分别为3和4,则“屏幕”的独立支持 度为3. 本文采用最小的独立支持度为3,即一个特 征项的p.suppon<3,那么这个特征项就从候选 特征集合里面去掉.过滤掉所有不满足独立支 持度要求的候选特征项,形成新的候选特征集 合,2. 步骤7 建立常见中文频繁项名词却非产品 特征的集合,将厶过滤形成特征集合厶. 常见的中文名词或者名词短语而确定非产品 特征在本研究中主要划定为以下几种的情况: 1)在候选特征项中去掉关于表示商品型号 的名词,第l位为字母后面全部为数字的名词例 如“N70”. 2)常见商品的品牌.例如对于某型号手机产 品特征的挖掘可以排除掉“诺基亚”,“摩托罗拉” 等名词. 3)一些常见的口语化名词.例如:“机子”, “东西”. 4)一些常见的人称名词.例如“朋友”,“先 生”. 步骤8 从,3中去掉单字名词的候选项,包 括含单字名词的n项频繁项(n≤3),形成最后的 产品特征集合L 在中文中,一个单字可以标注为名词,这是中 文所特有的情况.从中文评论中产品特征的人工 标注结果就可以看到,基本上不用单字名词作为 特点的名称.而且在后面的数据实验中,采用5样 产品,共挖掘出来属于产品特征的有139项,而其 中是单字名词或者包含单字名词的特征一个也没 有.而去掉候选特征集中只有一个单字的名词,例 如“手”,“信”等会大大提高挖掘的准确率.这一 步骤所带来的效果将在下面的数据实验中得到 验证. 2.2 非频繁特征项的处理 正如前面提出的方法步骤中所介绍的,本文 和Hu【9 J的英文评论挖掘研究都基于关联规则的 频繁特征项挖掘技术.对于非频繁项的产品特征 处理,在英文评论的方法中最后进行了补充.所应 用的方法为:找到所有修饰频繁特征项的形容词 作为句子的主观观点,形成用户观点数据库,然后 再重新回到所有评论中遍历,如果一个句子中的 形容词是主观观点则离它最近的名词或者名词短 语补充为非频繁特征项产品特征.但通过这一步 并不能使查全率和查准率都有所提高.这是因为 补充的非频繁特征项产品特征可能与用户讨论的 商品对象没有关系,导致了准确率的降低.但是 他们考虑到这种非频繁项的数量比较小,对于 用户购买决策影响不大,所以为了提高结果的 查全率以及挖掘方法的综合性能而增加了这 一步. 但是对于中文网络评论中的产品特征挖掘, 是否补充非频繁项为产品特征需要针对中文评论 的特点进行分析.本文提出的中文评论挖掘方法 性能结果通过实验验证(详见后面的数据实验结 果)是查全率比较高,而查准率比较低.如果增加 非频繁项作为产品特征使得查全率和查准率的差 异更为增大,整体性能会降低;而且错误非频繁项 特征的产生即使对于用户决策影响比较小,也还 是有影响.所以在中文网络客户评论挖掘方法中 补充非频繁项的产品特征带来的负面作用比较 大,并不适合.本方法中将不考虑补充非频繁项作 为产品特征. 3 数据实验 3.1 语料数据 本文选取了5种商品的网络评论作为实验语 料进行数据实验,这5种商品分别是一款手机 (Nokia N70),两款数码相机(Cannon A710, Cannon 850),一款MP3播放器(魅族E3)和一本 图书(《达芬奇的密码》).其中手机,数码相机及 MP3播放器的评论从itl68网站下载(http: //www.itl68.com),图书评论从卓越网下载 (http://www.joyo.com.cn).每样商品各选取 100篇评论,针对每一种商品的全部评论,用人工 标注的方法对这些评论中所提到的该商品属性进 行识别和标注.根据最小最大覆盖原则建立最小 的属性集合,使这个集合可以覆盖所有这100个 评论中提到的该商品的属性.以手机为例,手机 (Nokia N70)的商品属性集合如表2所示. 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有