购物时间，迎合了当代人们快速的生活节奏；但网上购物给我们带来方便的同时也

正在加载图片...

第3期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·337· 购物时间，迎合了当代人们快速的生活节奏：但网上析评论文本的正面情感和负面情感影响，最后使用购物给我们带来方便的同时也存在着自身固有的一遗传算法，通过复制、交叉和变异实现种群的进化，些挑战。最具挑战性的是消费者无法像在实体店一从而提高探测准确率。样真实地感受到商量的质地、性能等特点，只能通过 Guan等)为了识别在线商店的虚假评论者提购物网站展示的图片和文本描述对商品有一个大致出了一种社交评论图的方法，他们提出了一种全新的了解。由于消费者无从得知商品地真实质量，所的概念一评论图，他们捕获了所有与某个商店相以他们开始过多的关注商品的评论，好的评论可以关联的评论者和评论，并把这三者构造成了一个异提升该产品的信誉，这会诱导更多的顾客购买该商质网络，通过交互计算三者之间的影响来检测虚假品：相反，较差的评论无疑会降低商品的信誉值，这评论，实验表明他们方法的正确探测率高达会大大降低该商品的成交量。正是由于这一原因， 91.24%。商家为了获得更高的利益，开始雇佣网络水军冒充 Gao等[o]为了解决网上评分系统中的虚假攻普通顾客对自己的商品进行好评，对竞争对手的产击行为，提出一种基于群组排序的虚假探测方法，他品进行差评以达到提升自己品牌的信誉、诋毁竞争们把对相同商品评分相同的用户分为一组，根据群对手信誉的目的。这些广泛存在的不真实评论不仅组的规模来检测虚假评论者，实验表明，他们所提出会误导消费者的购物决策，同时也危害了电子商务的方法取得了很好的探测效果。经济的健康发展，为了提高消费者的购物体验，并保通过总结前人已有的工作可以发现，大部分研证市场经济的合理健康发展，因此迫切需要研究一究者要么从评论文本着手，利用自然语言处理技术，种方法来发现并抑制虚假攻击。分析评论文本的正负情感极性，从而达到探测虚假评论的目的：另一种常见的方法是分析商品的评分， 1相关工作通过分类或者聚类算法对不同的评分进行分组，挑近年来，国内外学者在垃圾邮件)和垃圾网选出虚假的商品评分：本文提出融合情感极性和逻页]的识别研究上做了大量工作，并取得了较好的辑回归模型来检测虚假攻击。效果。美国伊利诺斯大学的Bing Liu3]教授团队于 2007年首次提出垃圾检测，之后垃圾检测就成为了 2评论文本情感极性分析一个研究热点。评论文本的情感倾向分析是通过挖掘和分析评 Jindal等[4)发现商品中存在着大量的虚假评论文本中的立场、观点、情绪等主观信息，分析出评论，并且这些评论在本质上与垃圾邮件和垃圾网页论者的正面或者负面情感趋向。截然不同，他们利用产品的评论数据，考虑评论文本文主要采用基于情感知识的情感极性判别方本、评论者和产品特征这3个因素进行建模来区分法，通过比较文本中的正负情感词个数来判断评论复制观点和非复制观，点，若判断为复制观点，则将该文本的情感极性，情感极性判别方式为评论归为虚假评论。正情感词数>负情感词数正向 WUF等)根据流行度是否被打乱来识别虚假情感=正情感词数=负情感词数中性评论。这两种方法都是基于启发式的策略，过程较正情感词数<负情感词数负向为复杂。Tan等[6)利用电阻距离来判断评论之间的唐波等山考虑了否定词对情感词极性的影响，上下文语义相似性，提出了一种基于电阻距离的无通过他们的实验可以看出，考虑否定词这一特征对关虚假评论自动检测方法，该方法取得了不错的实情感倾向性分析具有重大意义。在本文中，也考虑验效果。了否定词这一重要因素，并且构建专用于评论文本 0TT等)利用众包平台创造出了一个用于识分析的否定词词典.判断规则为：统计一句话中的否别众包攻击的“黄金”数据集，该数据集包含真实评定词个数，若个数为偶数则该句的倾向性不变；若否论和人为的虚假评论两部分，在该数据集上，他们把定词的个数为奇数，那么语句的倾向性发生逆转。虚假探测问题转化为经典的文本极性分类问题何凤英等]考虑了程度副词文本的倾向性影解决。响，提出了程度副词的4个量级：极量、高量、中量和任亚峰等)提出了一种基于语言结构和情感低量，其对应的权重依次递减，考虑程度副词这一因极性的虚假评论识别方法，从自然语言处理层面分素也提高了情感极性的分类精度。购物时间，迎合了当代人们快速的生活节奏；但网上购物给我们带来方便的同时也存在着自身固有的一些挑战。最具挑战性的是消费者无法像在实体店一样真实地感受到商量的质地、性能等特点，只能通过购物网站展示的图片和文本描述对商品有一个大致的了解。由于消费者无从得知商品地真实质量，所以他们开始过多的关注商品的评论，好的评论可以提升该产品的信誉，这会诱导更多的顾客购买该商品；相反，较差的评论无疑会降低商品的信誉值，这会大大降低该商品的成交量。正是由于这一原因，商家为了获得更高的利益，开始雇佣网络水军冒充普通顾客对自己的商品进行好评，对竞争对手的产品进行差评以达到提升自己品牌的信誉、诋毁竞争对手信誉的目的。这些广泛存在的不真实评论不仅会误导消费者的购物决策，同时也危害了电子商务经济的健康发展，为了提高消费者的购物体验，并保证市场经济的合理健康发展，因此迫切需要研究一种方法来发现并抑制虚假攻击。１相关工作近年来，国内外学者在垃圾邮件［１］和垃圾网页［２］的识别研究上做了大量工作，并取得了较好的效果。美国伊利诺斯大学的ＢｉｎｇＬｉｕ［３］教授团队于２００７年首次提出垃圾检测，之后垃圾检测就成为了一个研究热点。Ｊｉｎｄａｌ等［４］发现商品中存在着大量的虚假评论，并且这些评论在本质上与垃圾邮件和垃圾网页截然不同，他们利用产品的评论数据，考虑评论文本、评论者和产品特征这３个因素进行建模来区分复制观点和非复制观点，若判断为复制观点，则将该评论归为虚假评论。ＷＵＦ等［５］根据流行度是否被打乱来识别虚假评论。这两种方法都是基于启发式的策略，过程较为复杂。Ｔａｎ等［６］利用电阻距离来判断评论之间的上下文语义相似性，提出了一种基于电阻距离的无关虚假评论自动检测方法，该方法取得了不错的实验效果。ＯＴＴ等［７］利用众包平台创造出了一个用于识别众包攻击的“黄金”数据集，该数据集包含真实评论和人为的虚假评论两部分，在该数据集上，他们把虚假探测问题转化为经典的文本极性分类问题解决。任亚峰等［８］提出了一种基于语言结构和情感极性的虚假评论识别方法，从自然语言处理层面分析评论文本的正面情感和负面情感影响，最后使用遗传算法，通过复制、交叉和变异实现种群的进化，从而提高探测准确率。Ｇｕａｎ等［９］为了识别在线商店的虚假评论者提出了一种社交评论图的方法，他们提出了一种全新的概念———评论图，他们捕获了所有与某个商店相关联的评论者和评论，并把这三者构造成了一个异质网络，通过交互计算三者之间的影响来检测虚假评论，实验表明他们方法的正确探测率高达９１．２４％。Ｇａｏ等［１０］为了解决网上评分系统中的虚假攻击行为，提出一种基于群组排序的虚假探测方法，他们把对相同商品评分相同的用户分为一组，根据群组的规模来检测虚假评论者，实验表明，他们所提出的方法取得了很好的探测效果。通过总结前人已有的工作可以发现，大部分研究者要么从评论文本着手，利用自然语言处理技术，分析评论文本的正负情感极性，从而达到探测虚假评论的目的；另一种常见的方法是分析商品的评分，通过分类或者聚类算法对不同的评分进行分组，挑选出虚假的商品评分；本文提出融合情感极性和逻辑回归模型来检测虚假攻击。２评论文本情感极性分析评论文本的情感倾向分析是通过挖掘和分析评论文本中的立场、观点、情绪等主观信息，分析出评论者的正面或者负面情感趋向。本文主要采用基于情感知识的情感极性判别方法，通过比较文本中的正负情感词个数来判断评论文本的情感极性，情感极性判别方式为情感＝正情感词数＞负情感词数正向正情感词数＝负情感词数中性正情感词数＜负情感词数负向 ì î í ï ï ïï 唐波等［１１］考虑了否定词对情感词极性的影响，通过他们的实验可以看出，考虑否定词这一特征对情感倾向性分析具有重大意义。在本文中，也考虑了否定词这一重要因素，并且构建专用于评论文本分析的否定词词典．判断规则为：统计一句话中的否定词个数，若个数为偶数则该句的倾向性不变；若否定词的个数为奇数，那么语句的倾向性发生逆转。何凤英等［１２］考虑了程度副词文本的倾向性影响，提出了程度副词的４个量级：极量、高量、中量和低量，其对应的权重依次递减，考虑程度副词这一因素也提高了情感极性的分类精度。第３期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·３３７·

<<向上翻页向下翻页>>

点击下载：【智能系统】融合情感极性和逻辑回归的虚假评论检测方法编辑部