正在加载图片...
第3期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·337· 购物时间,迎合了当代人们快速的生活节奏:但网上 析评论文本的正面情感和负面情感影响,最后使用 购物给我们带来方便的同时也存在着自身固有的一 遗传算法,通过复制、交叉和变异实现种群的进化, 些挑战。最具挑战性的是消费者无法像在实体店一 从而提高探测准确率。 样真实地感受到商量的质地、性能等特点,只能通过 Guan等)为了识别在线商店的虚假评论者提 购物网站展示的图片和文本描述对商品有一个大致 出了一种社交评论图的方法,他们提出了一种全新 的了解。由于消费者无从得知商品地真实质量,所 的概念一评论图,他们捕获了所有与某个商店相 以他们开始过多的关注商品的评论,好的评论可以 关联的评论者和评论,并把这三者构造成了一个异 提升该产品的信誉,这会诱导更多的顾客购买该商 质网络,通过交互计算三者之间的影响来检测虚假 品:相反,较差的评论无疑会降低商品的信誉值,这 评论,实验表明他们方法的正确探测率高达 会大大降低该商品的成交量。正是由于这一原因, 91.24%。 商家为了获得更高的利益,开始雇佣网络水军冒充 Gao等[o]为了解决网上评分系统中的虚假攻 普通顾客对自己的商品进行好评,对竞争对手的产 击行为,提出一种基于群组排序的虚假探测方法,他 品进行差评以达到提升自己品牌的信誉、诋毁竞争 们把对相同商品评分相同的用户分为一组,根据群 对手信誉的目的。这些广泛存在的不真实评论不仅 组的规模来检测虚假评论者,实验表明,他们所提出 会误导消费者的购物决策,同时也危害了电子商务 的方法取得了很好的探测效果。 经济的健康发展,为了提高消费者的购物体验,并保 通过总结前人已有的工作可以发现,大部分研 证市场经济的合理健康发展,因此迫切需要研究一 究者要么从评论文本着手,利用自然语言处理技术, 种方法来发现并抑制虚假攻击。 分析评论文本的正负情感极性,从而达到探测虚假 评论的目的:另一种常见的方法是分析商品的评分, 1相关工作 通过分类或者聚类算法对不同的评分进行分组,挑 近年来,国内外学者在垃圾邮件)和垃圾网 选出虚假的商品评分:本文提出融合情感极性和逻 页]的识别研究上做了大量工作,并取得了较好的 辑回归模型来检测虚假攻击。 效果。美国伊利诺斯大学的Bing Liu3]教授团队于 2007年首次提出垃圾检测,之后垃圾检测就成为了 2评论文本情感极性分析 一个研究热点。 评论文本的情感倾向分析是通过挖掘和分析评 Jindal等[4)发现商品中存在着大量的虚假评 论文本中的立场、观点、情绪等主观信息,分析出评 论,并且这些评论在本质上与垃圾邮件和垃圾网页 论者的正面或者负面情感趋向。 截然不同,他们利用产品的评论数据,考虑评论文 本文主要采用基于情感知识的情感极性判别方 本、评论者和产品特征这3个因素进行建模来区分 法,通过比较文本中的正负情感词个数来判断评论 复制观点和非复制观,点,若判断为复制观点,则将该 文本的情感极性,情感极性判别方式为 评论归为虚假评论。 正情感词数>负情感词数正向 WUF等)根据流行度是否被打乱来识别虚假 情感=正情感词数=负情感词数中性 评论。这两种方法都是基于启发式的策略,过程较 正情感词数<负情感词数负向 为复杂。Tan等[6)利用电阻距离来判断评论之间的 唐波等山考虑了否定词对情感词极性的影响, 上下文语义相似性,提出了一种基于电阻距离的无 通过他们的实验可以看出,考虑否定词这一特征对 关虚假评论自动检测方法,该方法取得了不错的实 情感倾向性分析具有重大意义。在本文中,也考虑 验效果。 了否定词这一重要因素,并且构建专用于评论文本 0TT等)利用众包平台创造出了一个用于识 分析的否定词词典.判断规则为:统计一句话中的否 别众包攻击的“黄金”数据集,该数据集包含真实评 定词个数,若个数为偶数则该句的倾向性不变;若否 论和人为的虚假评论两部分,在该数据集上,他们把 定词的个数为奇数,那么语句的倾向性发生逆转。 虚假探测问题转化为经典的文本极性分类问题 何凤英等]考虑了程度副词文本的倾向性影 解决。 响,提出了程度副词的4个量级:极量、高量、中量和 任亚峰等)提出了一种基于语言结构和情感 低量,其对应的权重依次递减,考虑程度副词这一因 极性的虚假评论识别方法,从自然语言处理层面分 素也提高了情感极性的分类精度。购物时间,迎合了当代人们快速的生活节奏;但网上 购物给我们带来方便的同时也存在着自身固有的一 些挑战。 最具挑战性的是消费者无法像在实体店一 样真实地感受到商量的质地、性能等特点,只能通过 购物网站展示的图片和文本描述对商品有一个大致 的了解。 由于消费者无从得知商品地真实质量,所 以他们开始过多的关注商品的评论,好的评论可以 提升该产品的信誉,这会诱导更多的顾客购买该商 品;相反,较差的评论无疑会降低商品的信誉值,这 会大大降低该商品的成交量。 正是由于这一原因, 商家为了获得更高的利益,开始雇佣网络水军冒充 普通顾客对自己的商品进行好评,对竞争对手的产 品进行差评以达到提升自己品牌的信誉、诋毁竞争 对手信誉的目的。 这些广泛存在的不真实评论不仅 会误导消费者的购物决策,同时也危害了电子商务 经济的健康发展,为了提高消费者的购物体验,并保 证市场经济的合理健康发展,因此迫切需要研究一 种方法来发现并抑制虚假攻击。 1 相关工作 近年来,国内外学者在垃圾邮件[1] 和垃圾网 页[2]的识别研究上做了大量工作,并取得了较好的 效果。 美国伊利诺斯大学的 Bing Liu [3]教授团队于 2007 年首次提出垃圾检测,之后垃圾检测就成为了 一个研究热点。 Jindal 等[4] 发现商品中存在着大量的虚假评 论,并且这些评论在本质上与垃圾邮件和垃圾网页 截然不同,他们利用产品的评论数据,考虑评论文 本、评论者和产品特征这 3 个因素进行建模来区分 复制观点和非复制观点,若判断为复制观点,则将该 评论归为虚假评论。 WU F 等[5]根据流行度是否被打乱来识别虚假 评论。 这两种方法都是基于启发式的策略,过程较 为复杂。 Tan 等[6]利用电阻距离来判断评论之间的 上下文语义相似性,提出了一种基于电阻距离的无 关虚假评论自动检测方法,该方法取得了不错的实 验效果。 OTT 等[7]利用众包平台创造出了一个用于识 别众包攻击的“黄金”数据集,该数据集包含真实评 论和人为的虚假评论两部分,在该数据集上,他们把 虚假探测问题转化为经典的文本极性分类问题 解决。 任亚峰等[8] 提出了一种基于语言结构和情感 极性的虚假评论识别方法,从自然语言处理层面分 析评论文本的正面情感和负面情感影响,最后使用 遗传算法,通过复制、交叉和变异实现种群的进化, 从而提高探测准确率。 Guan 等[9]为了识别在线商店的虚假评论者提 出了一种社交评论图的方法,他们提出了一种全新 的概念———评论图,他们捕获了所有与某个商店相 关联的评论者和评论,并把这三者构造成了一个异 质网络,通过交互计算三者之间的影响来检测虚假 评论, 实 验 表 明 他 们 方 法 的 正 确 探 测 率 高 达 91.24%。 Gao 等[10]为了解决网上评分系统中的虚假攻 击行为,提出一种基于群组排序的虚假探测方法,他 们把对相同商品评分相同的用户分为一组,根据群 组的规模来检测虚假评论者,实验表明,他们所提出 的方法取得了很好的探测效果。 通过总结前人已有的工作可以发现,大部分研 究者要么从评论文本着手,利用自然语言处理技术, 分析评论文本的正负情感极性,从而达到探测虚假 评论的目的;另一种常见的方法是分析商品的评分, 通过分类或者聚类算法对不同的评分进行分组,挑 选出虚假的商品评分;本文提出融合情感极性和逻 辑回归模型来检测虚假攻击。 2 评论文本情感极性分析 评论文本的情感倾向分析是通过挖掘和分析评 论文本中的立场、观点、情绪等主观信息,分析出评 论者的正面或者负面情感趋向。 本文主要采用基于情感知识的情感极性判别方 法,通过比较文本中的正负情感词个数来判断评论 文本的情感极性,情感极性判别方式为 情感 = 正情感词数 > 负情感词数 正向 正情感词数 = 负情感词数 中性 正情感词数 < 负情感词数 负向 ì î í ï ï ïï 唐波等[11]考虑了否定词对情感词极性的影响, 通过他们的实验可以看出,考虑否定词这一特征对 情感倾向性分析具有重大意义。 在本文中,也考虑 了否定词这一重要因素,并且构建专用于评论文本 分析的否定词词典.判断规则为:统计一句话中的否 定词个数,若个数为偶数则该句的倾向性不变;若否 定词的个数为奇数,那么语句的倾向性发生逆转。 何凤英等[12] 考虑了程度副词文本的倾向性影 响,提出了程度副词的 4 个量级:极量、高量、中量和 低量,其对应的权重依次递减,考虑程度副词这一因 素也提高了情感极性的分类精度。 第 3 期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·337·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有