第11卷第3期 智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603027 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0911.004.html 融合情感极性和逻辑回归的虚假评论检测方法 赵军12,王红12 (1.山东师范大学信息科学与工程学院,山东济南250014:2.山东省分布式计算软件新技术重点实验室,山东济南 250014) 摘要:在线购物评论为消费者比较商品的质量和其他一些购买特性提供了有用信息,然而却有大量的虚假评论者 受利益驱使撰写虚假或者不公正的评论来迷惑消费者。先前的研究一般都是使用文本相似度和评分模式来探测虚 假评论,这些算法可以检测特定类型的攻击者,在现实场景中许多虚假评论者刻意模仿正常用户对商品进行评论, 因此先前的算法对检测这类攻击效果不佳。本文通过分析评论文本的感情极性,抽取不同的特征并使用逻辑回归 模型来检测虚假评论:首先,借用自然语言处理的相关技术来分析评论文本的情感极性,判断每个用户的情感偏离 大众情感的程度,如果偏离越大则说明其是虚假评论者的概率就越大:然后再选取其他几个重要特征结合逻辑回归 模型进行虚假检测:通过实验对比,表明了该方法取得了较好的效果。 关键词:电子商务:虚假评论;购物行为:情感极性;逻辑回归 中图分类号:TP39文献标志码:A文章编号:1673-4785(2016)03-0336-07 中文引用格式:赵军,王红.融合情感极性和逻辑回归的虚假评论检测方法[J】.智能系统学报,2016,11(3):336-342 英文引用格式:ZHAO Jun,WANG Hong..Detection of fake reviews based on emotional orientation and logistic regression[J].CAAI transactions on intelligent systems,2016,11(3):336-342. Detection of fake reviews based on emotional orientation and logistic regression ZHAO Jun'2,WANG Hong'.2 (1.School of Information Science and Engineering,Shandong Normal University,Jinan 250014,China;2.Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology,Ji'nan 250014,China) Abstract:Online shopping reviews provide valuable customer information for comparing the quality of products and several other aspects of future purchases.However,spammers are joining this community to mislead and confuse consumers by writing fake or unfair reviews.To detect the presence of spammers,reviewer styles have been scruti- nized for text similarity and rating patterns.These studies have succeeded in identifying certain types of spammers. However,there are other spammers who can manipulate their behaviors such that they are indistinguishable from normal reviewers,and thus,they cannot be detected by available techniques.In this paper,we analyze the orienta- tion of comments,extract different features,and use a logic regression model to detect false comments.First,we u- tilize natural language processing technology to analyze the orientation of comments and compute the departures of those comments from those of the general public.The greater is the deviation,the greater is the probability of the comment being generated by a spammer.Then,we select several other important features and combine them with the logic regression model to identify fake comments.The experimental results verify the greater accuracy of the pro- posed method. Keywords:Electronic commerce;fake review;shopping behavior;emotional polarity;logic regression 互联网的迅速崛起带来了传统商业模式的解 收稿日期:2016-03-17.网络出版日期:2016-05-13. 放,传统的实体购物模式在遭遇网上购物模式时受 基金项目:国家自然科学基金项目(61373149,61472233):山东省科技 计划项目(2012GGX10118,2014GGX101026):山东省教育科 到了巨大的冲击。电子购物网站上的商品种类齐 学规划项目(ZK1437B010). 通信作者:王红.E-mail:wanghong10(6@163.com 全,同时网上购物方便快捷,可以节省消费者一定的
第 11 卷第 3 期 智 能 系 统 学 报 Vol.11 №.3 2016 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2016 DOI:10.11992 / tis.201603027 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160513.0911.004.html 融合情感极性和逻辑回归的虚假评论检测方法 赵军1,2 ,王红1,2 (1.山东师范大学 信息科学与工程学院,山东 济南 250014; 2.山东省分布式计算软件新技术重点实验室,山东 济南 250014) 摘 要:在线购物评论为消费者比较商品的质量和其他一些购买特性提供了有用信息,然而却有大量的虚假评论者 受利益驱使撰写虚假或者不公正的评论来迷惑消费者。 先前的研究一般都是使用文本相似度和评分模式来探测虚 假评论,这些算法可以检测特定类型的攻击者,在现实场景中许多虚假评论者刻意模仿正常用户对商品进行评论, 因此先前的算法对检测这类攻击效果不佳。 本文通过分析评论文本的感情极性,抽取不同的特征并使用逻辑回归 模型来检测虚假评论;首先,借用自然语言处理的相关技术来分析评论文本的情感极性,判断每个用户的情感偏离 大众情感的程度,如果偏离越大则说明其是虚假评论者的概率就越大;然后再选取其他几个重要特征结合逻辑回归 模型进行虚假检测;通过实验对比,表明了该方法取得了较好的效果。 关键词:电子商务;虚假评论;购物行为;情感极性;逻辑回归 中图分类号:TP39 文献标志码:A 文章编号:1673⁃4785(2016)03⁃0336⁃07 中文引用格式:赵军,王红.融合情感极性和逻辑回归的虚假评论检测方法[J]. 智能系统学报, 2016, 11(3): 336⁃342. 英文引用格式:ZHAO Jun,WANG Hong.Detection of fake reviews based on emotional orientation and logistic regression[J]. CAAI transactions on intelligent systems, 2016,11(3): 336⁃342. Detection of fake reviews based on emotional orientation and logistic regression ZHAO Jun 1,2 , WANG Hong 1,2 (1. School of Information Science and Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Ji′nan 250014, China) Abstract:Online shopping reviews provide valuable customer information for comparing the quality of products and several other aspects of future purchases. However, spammers are joining this community to mislead and confuse consumers by writing fake or unfair reviews. To detect the presence of spammers, reviewer styles have been scruti⁃ nized for text similarity and rating patterns. These studies have succeeded in identifying certain types of spammers. However, there are other spammers who can manipulate their behaviors such that they are indistinguishable from normal reviewers, and thus, they cannot be detected by available techniques. In this paper, we analyze the orienta⁃ tion of comments, extract different features, and use a logic regression model to detect false comments. First, we u⁃ tilize natural language processing technology to analyze the orientation of comments and compute the departures of those comments from those of the general public. The greater is the deviation, the greater is the probability of the comment being generated by a spammer. Then, we select several other important features and combine them with the logic regression model to identify fake comments. The experimental results verify the greater accuracy of the pro⁃ posed method. Keywords:Electronic commerce; fake review; shopping behavior; emotional polarity; logic regression 收稿日期:2016⁃03⁃17. 网络出版日期:2016⁃05⁃13. 基金项目:国家自然科学基金项目( 61373149,61472233);山东省科技 计划项目(2012GGX10118,2014GGX101026);山东省教育科 学规划项目(ZK1437B010). 通信作者:王红.E⁃mail:wanghong106@ 163.com. 互联网的迅速崛起带来了传统商业模式的解 放,传统的实体购物模式在遭遇网上购物模式时受 到了巨大的冲击。 电子购物网站上的商品种类齐 全,同时网上购物方便快捷,可以节省消费者一定的
第3期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·337· 购物时间,迎合了当代人们快速的生活节奏:但网上 析评论文本的正面情感和负面情感影响,最后使用 购物给我们带来方便的同时也存在着自身固有的一 遗传算法,通过复制、交叉和变异实现种群的进化, 些挑战。最具挑战性的是消费者无法像在实体店一 从而提高探测准确率。 样真实地感受到商量的质地、性能等特点,只能通过 Guan等)为了识别在线商店的虚假评论者提 购物网站展示的图片和文本描述对商品有一个大致 出了一种社交评论图的方法,他们提出了一种全新 的了解。由于消费者无从得知商品地真实质量,所 的概念一评论图,他们捕获了所有与某个商店相 以他们开始过多的关注商品的评论,好的评论可以 关联的评论者和评论,并把这三者构造成了一个异 提升该产品的信誉,这会诱导更多的顾客购买该商 质网络,通过交互计算三者之间的影响来检测虚假 品:相反,较差的评论无疑会降低商品的信誉值,这 评论,实验表明他们方法的正确探测率高达 会大大降低该商品的成交量。正是由于这一原因, 91.24%。 商家为了获得更高的利益,开始雇佣网络水军冒充 Gao等[o]为了解决网上评分系统中的虚假攻 普通顾客对自己的商品进行好评,对竞争对手的产 击行为,提出一种基于群组排序的虚假探测方法,他 品进行差评以达到提升自己品牌的信誉、诋毁竞争 们把对相同商品评分相同的用户分为一组,根据群 对手信誉的目的。这些广泛存在的不真实评论不仅 组的规模来检测虚假评论者,实验表明,他们所提出 会误导消费者的购物决策,同时也危害了电子商务 的方法取得了很好的探测效果。 经济的健康发展,为了提高消费者的购物体验,并保 通过总结前人已有的工作可以发现,大部分研 证市场经济的合理健康发展,因此迫切需要研究一 究者要么从评论文本着手,利用自然语言处理技术, 种方法来发现并抑制虚假攻击。 分析评论文本的正负情感极性,从而达到探测虚假 评论的目的:另一种常见的方法是分析商品的评分, 1相关工作 通过分类或者聚类算法对不同的评分进行分组,挑 近年来,国内外学者在垃圾邮件)和垃圾网 选出虚假的商品评分:本文提出融合情感极性和逻 页]的识别研究上做了大量工作,并取得了较好的 辑回归模型来检测虚假攻击。 效果。美国伊利诺斯大学的Bing Liu3]教授团队于 2007年首次提出垃圾检测,之后垃圾检测就成为了 2评论文本情感极性分析 一个研究热点。 评论文本的情感倾向分析是通过挖掘和分析评 Jindal等[4)发现商品中存在着大量的虚假评 论文本中的立场、观点、情绪等主观信息,分析出评 论,并且这些评论在本质上与垃圾邮件和垃圾网页 论者的正面或者负面情感趋向。 截然不同,他们利用产品的评论数据,考虑评论文 本文主要采用基于情感知识的情感极性判别方 本、评论者和产品特征这3个因素进行建模来区分 法,通过比较文本中的正负情感词个数来判断评论 复制观点和非复制观,点,若判断为复制观点,则将该 文本的情感极性,情感极性判别方式为 评论归为虚假评论。 正情感词数>负情感词数正向 WUF等)根据流行度是否被打乱来识别虚假 情感=正情感词数=负情感词数中性 评论。这两种方法都是基于启发式的策略,过程较 正情感词数<负情感词数负向 为复杂。Tan等[6)利用电阻距离来判断评论之间的 唐波等山考虑了否定词对情感词极性的影响, 上下文语义相似性,提出了一种基于电阻距离的无 通过他们的实验可以看出,考虑否定词这一特征对 关虚假评论自动检测方法,该方法取得了不错的实 情感倾向性分析具有重大意义。在本文中,也考虑 验效果。 了否定词这一重要因素,并且构建专用于评论文本 0TT等)利用众包平台创造出了一个用于识 分析的否定词词典.判断规则为:统计一句话中的否 别众包攻击的“黄金”数据集,该数据集包含真实评 定词个数,若个数为偶数则该句的倾向性不变;若否 论和人为的虚假评论两部分,在该数据集上,他们把 定词的个数为奇数,那么语句的倾向性发生逆转。 虚假探测问题转化为经典的文本极性分类问题 何凤英等]考虑了程度副词文本的倾向性影 解决。 响,提出了程度副词的4个量级:极量、高量、中量和 任亚峰等)提出了一种基于语言结构和情感 低量,其对应的权重依次递减,考虑程度副词这一因 极性的虚假评论识别方法,从自然语言处理层面分 素也提高了情感极性的分类精度
购物时间,迎合了当代人们快速的生活节奏;但网上 购物给我们带来方便的同时也存在着自身固有的一 些挑战。 最具挑战性的是消费者无法像在实体店一 样真实地感受到商量的质地、性能等特点,只能通过 购物网站展示的图片和文本描述对商品有一个大致 的了解。 由于消费者无从得知商品地真实质量,所 以他们开始过多的关注商品的评论,好的评论可以 提升该产品的信誉,这会诱导更多的顾客购买该商 品;相反,较差的评论无疑会降低商品的信誉值,这 会大大降低该商品的成交量。 正是由于这一原因, 商家为了获得更高的利益,开始雇佣网络水军冒充 普通顾客对自己的商品进行好评,对竞争对手的产 品进行差评以达到提升自己品牌的信誉、诋毁竞争 对手信誉的目的。 这些广泛存在的不真实评论不仅 会误导消费者的购物决策,同时也危害了电子商务 经济的健康发展,为了提高消费者的购物体验,并保 证市场经济的合理健康发展,因此迫切需要研究一 种方法来发现并抑制虚假攻击。 1 相关工作 近年来,国内外学者在垃圾邮件[1] 和垃圾网 页[2]的识别研究上做了大量工作,并取得了较好的 效果。 美国伊利诺斯大学的 Bing Liu [3]教授团队于 2007 年首次提出垃圾检测,之后垃圾检测就成为了 一个研究热点。 Jindal 等[4] 发现商品中存在着大量的虚假评 论,并且这些评论在本质上与垃圾邮件和垃圾网页 截然不同,他们利用产品的评论数据,考虑评论文 本、评论者和产品特征这 3 个因素进行建模来区分 复制观点和非复制观点,若判断为复制观点,则将该 评论归为虚假评论。 WU F 等[5]根据流行度是否被打乱来识别虚假 评论。 这两种方法都是基于启发式的策略,过程较 为复杂。 Tan 等[6]利用电阻距离来判断评论之间的 上下文语义相似性,提出了一种基于电阻距离的无 关虚假评论自动检测方法,该方法取得了不错的实 验效果。 OTT 等[7]利用众包平台创造出了一个用于识 别众包攻击的“黄金”数据集,该数据集包含真实评 论和人为的虚假评论两部分,在该数据集上,他们把 虚假探测问题转化为经典的文本极性分类问题 解决。 任亚峰等[8] 提出了一种基于语言结构和情感 极性的虚假评论识别方法,从自然语言处理层面分 析评论文本的正面情感和负面情感影响,最后使用 遗传算法,通过复制、交叉和变异实现种群的进化, 从而提高探测准确率。 Guan 等[9]为了识别在线商店的虚假评论者提 出了一种社交评论图的方法,他们提出了一种全新 的概念———评论图,他们捕获了所有与某个商店相 关联的评论者和评论,并把这三者构造成了一个异 质网络,通过交互计算三者之间的影响来检测虚假 评论, 实 验 表 明 他 们 方 法 的 正 确 探 测 率 高 达 91.24%。 Gao 等[10]为了解决网上评分系统中的虚假攻 击行为,提出一种基于群组排序的虚假探测方法,他 们把对相同商品评分相同的用户分为一组,根据群 组的规模来检测虚假评论者,实验表明,他们所提出 的方法取得了很好的探测效果。 通过总结前人已有的工作可以发现,大部分研 究者要么从评论文本着手,利用自然语言处理技术, 分析评论文本的正负情感极性,从而达到探测虚假 评论的目的;另一种常见的方法是分析商品的评分, 通过分类或者聚类算法对不同的评分进行分组,挑 选出虚假的商品评分;本文提出融合情感极性和逻 辑回归模型来检测虚假攻击。 2 评论文本情感极性分析 评论文本的情感倾向分析是通过挖掘和分析评 论文本中的立场、观点、情绪等主观信息,分析出评 论者的正面或者负面情感趋向。 本文主要采用基于情感知识的情感极性判别方 法,通过比较文本中的正负情感词个数来判断评论 文本的情感极性,情感极性判别方式为 情感 = 正情感词数 > 负情感词数 正向 正情感词数 = 负情感词数 中性 正情感词数 < 负情感词数 负向 ì î í ï ï ïï 唐波等[11]考虑了否定词对情感词极性的影响, 通过他们的实验可以看出,考虑否定词这一特征对 情感倾向性分析具有重大意义。 在本文中,也考虑 了否定词这一重要因素,并且构建专用于评论文本 分析的否定词词典.判断规则为:统计一句话中的否 定词个数,若个数为偶数则该句的倾向性不变;若否 定词的个数为奇数,那么语句的倾向性发生逆转。 何凤英等[12] 考虑了程度副词文本的倾向性影 响,提出了程度副词的 4 个量级:极量、高量、中量和 低量,其对应的权重依次递减,考虑程度副词这一因 素也提高了情感极性的分类精度。 第 3 期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·337·
.338. 智能系统学报 第11卷 邸鹏等)曾提出了基于转折句式的文本分析 0 真实评论 Y= 方法,他们的任务主要是基于长文本的情感分析,所 1, 虚假评论 以考虑上下文的转折关系是很有效的。但是他们的 自变量为X,X2,…,Xm,P表示在m个自变量作用 方法直接应用于评论文本是不合理的,因为评论文 下事件发生的概率。想找到P与自变量的关系,如 本往往是一两句话的超短文本,无从考虑上下文信 果用多元线性回归方程。 息,所以本文提出了基于关联词的分析方法,把分析 Y=b。+b1X1+b2X2+…+bnX。 (1) 的单位缩小到词语级别,着重分析关联词前后的情 无论b:和X,取任何实数,ln(P/Q)值都可以与0~1 感极性,其过程如算法1所示。 范围内的P值相对应。 算法1 Review Text Orientation Analysis =bo+bX,+b2X2+…+bX。(2) 输入Review Text 输出Review Orientation e6o+b1X1+h22t…+bpp P=- 1+eo+6+2+…+6 (3) str←-{ReviewText}; While(str.read()) 我们将所研究的问题转换一个角度,不是直接 For all ie str.Length DO 分析Y与X的关系,而是分析Y取某个值的概率P IF (str.words,Review Dictionary)THEN 与X的关系。令Y为1、0变量,Y=0表示正常评 S0←0:EXIT; 论,Y=1表示虚假评论,X是与虚假评论有关的因 ELSE 素。如果P表示虚假攻击的概率,那么研究虚假攻 IF (str.words,E NegDictionary)THEN 击的概率P与X有关因素的关系就相对简单一些。 IF(count %2 =0)THEN 3.1变量选取的衡量标准 WO,←-W0:; 优势比OR(odds ratio)是流行病衡量危险因素 ELSE WO,←--WO:; 作用大小的比数比例指标,其计算公式为 IF (str.words;E AdjDictionary)THEN P/(1-P) (4) WO.←-WO,*Wadj 0R,P/1-P) 式中:P,和P。分别表示在X,取值为c1及c。存在虚 IF(str.words,E Adversative)THEN 假攻击的概率,OR,称作多变量调整后的优势比,表 W0←--W0:; 示扣除了其他自变量影响后的危险因素的作用。对 END ELSE 比某一个危险因素两个不同暴露水平X=c1与X,= S0= WO,/N=st.Length c。的虚假攻击情况(假设其他因素的水平相同),其 i=1 END FOR 优势比的自然对数为式(5): END WHILE:; 「P/(1-P) In OR;=In logitP-logitPo P/(1-Po) 3逻辑回归模型 (5) 在现实生活中经常需要分析离散变量问题,本 1 若 文关心的是,哪些因素对虚假检测的影响因素更明 x= 虚假评论 0. 正常评论 显,这类问题实质上是一个回归问题,因变量就是上 ci-co=1 述提到的这些离散变量,自变量X是与之有关的一 则 些因素。因为因变量是离散的,不能直接使用线性 OR,expB, 回归分析方法解决,这时最好的解决方案是Logistic =0, OR=1无作用 回归模型,它对因变量的分布没有要求。与线性回 B>0, OR,>1虚假评论 (6) 归分析相似,Logistic回归分析的基本原理就是利用 <0, OR<1正常评论 一组数据拟合一个Logistic回归模型,然后借助这个 3.2变量选择 模型揭示总体中若干个自变量与一个因变量取某个 使用逻辑回归模型时,主要有3种选择变量的 值的概率之间的关系。因变量Y是一个二值变量, 方式:前向选择、后向选择和逐步回归。本文采用逐 取值为 步回归的方式进行变量选择,其基本思想是逐个引
邸鹏等[13]曾提出了基于转折句式的文本分析 方法,他们的任务主要是基于长文本的情感分析,所 以考虑上下文的转折关系是很有效的。 但是他们的 方法直接应用于评论文本是不合理的,因为评论文 本往往是一两句话的超短文本,无从考虑上下文信 息,所以本文提出了基于关联词的分析方法,把分析 的单位缩小到词语级别,着重分析关联词前后的情 感极性,其过程如算法 1 所示。 算法 1 Review Text Orientation Analysis 输入 Review Text 输出 Review Orientation str←{ReviewText} ; While(str.read()) For all i∈str.Length DO IF (str.wordsi∉Review Dictionary) THEN SO←0;EXIT; ELSE { IF (str.wordsi∈NegDictionary) THEN IF(count % 2 = = 0) THEN WOi←WOi; ELSE WOi←-WOi; IF (str.wordsi∈AdjDictionary)THEN WOi←WOi∗Wadj IF(str.wordsi∈Adversative) THEN WOi←-WOi; END ELSE SO = ∑ N i = 1 WOi / / N= str.Length END FOR ; END WHILE; 3 逻辑回归模型 在现实生活中经常需要分析离散变量问题,本 文关心的是,哪些因素对虚假检测的影响因素更明 显,这类问题实质上是一个回归问题,因变量就是上 述提到的这些离散变量,自变量 X 是与之有关的一 些因素。 因为因变量是离散的,不能直接使用线性 回归分析方法解决,这时最好的解决方案是 Logistic 回归模型,它对因变量的分布没有要求。 与线性回 归分析相似,Logistic 回归分析的基本原理就是利用 一组数据拟合一个 Logistic 回归模型,然后借助这个 模型揭示总体中若干个自变量与一个因变量取某个 值的概率之间的关系。 因变量 Y 是一个二值变量, 取值为 Y = 0, 真实评论 {1, 虚假评论 自变量为 X1 ,X2 ,…,Xm ,P 表示在 m 个自变量作用 下事件发生的概率。 想找到 P 与自变量的关系,如 果用多元线性回归方程。 Y^ = b0 + b1X1 + b2X2 + … + bpXp (1) 无论 bi 和 Xi 取任何实数,ln(P / Q) 值都可以与 0 ~ 1 范围内的 P 值相对应。 ln P Q æ è ç ö ø ÷ = b0 + b1X1 + b2X2 + … + bpXp (2) P = e b0 +b1X1 +b2X2 +…+bpXp 1 + e b0 +b1X1 +b2X2 +…+bpXp (3) 我们将所研究的问题转换一个角度,不是直接 分析 Y 与 X 的关系,而是分析 Y 取某个值的概率 P 与 X 的关系。 令 Y 为 1、0 变量,Y = 0 表示正常评 论,Y = 1 表示虚假评论,X 是与虚假评论有关的因 素。 如果 P 表示虚假攻击的概率,那么研究虚假攻 击的概率 P 与 X 有关因素的关系就相对简单一些。 3.1 变量选取的衡量标准 优势比 OR(odds ratio)是流行病衡量危险因素 作用大小的比数比例指标,其计算公式为 ORj = P1 / (1 - P1 ) P0 / (1 - P0 ) (4) 式中:P1 和 P0 分别表示在 Xj 取值为 c1 及 c0 存在虚 假攻击的概率,ORj 称作多变量调整后的优势比,表 示扣除了其他自变量影响后的危险因素的作用。 对 比某一个危险因素两个不同暴露水平 Xj = c1 与 Xj = c0 的虚假攻击情况(假设其他因素的水平相同),其 优势比的自然对数为式(5): ln ORj = ln P1 / 1 - P1 ( ) P0 / 1 - P0 ( ) é ë ê ê ù û ú ú = logitP1 - logitP0 (5) 若 Xj = 1, 虚假评论 {0, 正常评论 c1 -c0 = 1 则 ORj = expβj βj = 0, ORj = 1 无作用 > 0, ORj > 1 虚假评论 < 0, ORj < 1 正常评论 ì î í ï ï ï ï (6) 3.2 变量选择 使用逻辑回归模型时,主要有 3 种选择变量的 方式:前向选择、后向选择和逐步回归。 本文采用逐 步回归的方式进行变量选择,其基本思想是逐个引 ·338· 智 能 系 统 学 报 第 11 卷
第3期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 .339. 入影响模型的自变量,每次都是引入对Y影响最为 4 评论文本特征工程 显著的自变量,并对方程中存在的变量逐个进行检 验,把变为不显著的变量逐个从模型中删除,最终, 这里首先提出可能影响虚假评论的10个特征, 使得模型中存在的变量是对Y影响最为显著的变 然后使用逐步回归方法计算哪个特征对其影响严 量,筛选的步骤如下:首先给出引入变量的显著性水 重,10个特征如下。 平an和剔除变量的显著性水平am,然后按下图1 文本长度(F)统计评论文本中的文字个数, 进行筛选,筛选过程如下。 正常用户一般懒于评论只给出评分或给出简短的评 论文本,而虚假评论者为了提高或贬低某件商品,需 开始 要写下比较冗长的评论文本。 复杂度(F,)评论文本的复杂度是指文本中 对不在方程中的变量心 所使用词汇的复杂度,一般认为正常用户所使用的 考虑是否引人 评论词汇比较简单,而虚假评论的词汇相对比较复 杂和专业。 引入变量 筛选结果 关联度(F,)评论关联度是指评论文本与被 评论商品的相关程度,有些虚假评论者为了完成评 对已在方程中的变量 论字数要求,常常会复制一些与商品无关的文本来 考虑是否删除 完成虚假评论任务。 Y 一致性(F,)一致性评论文本的情感强度与 删除变量 所给评分的相似度,是探测随机评论的重要特征。 情感强度(F,)情感强度是指评论文本中的 图1变量筛选流程图 情感极性强度,普通用户的评论情感比较公正,而虚 Fig.1 Flow chart of variable selection 假评论的情感强度比较激烈。 1)设仅有截距项的最大似然估计值为L。,分别 是否包含转折词(F,)正常用户可能对产品 计算m个变量的Score检测值,设有最小P值的变 的部分性能指标是满意的,而对另外的某些特征是 量为X,且有P.=min(P),若P<aa,则此变量进 不太满意的,所以他们的评论中常常包含转折词,而 入逻辑回归模型,不然停止。如果此变量是名义变 虚假评论者的情感极性高度一致,很少会有情感的 量单面化的变量,则此变量的其他单面化变量也会 逆转。 进入模型,其中表示要引入变量的显著性水平。 复制文本(F,)虚假评论者为了快速完成自 2)为了确定当变量X。,在模型中时其他m-1个 己的虚假攻击任务,往往会把某个商品的虚假评论 变量是否也重要,将X,j=1,2,…,m,j≠e分别与 复制对商品以不同的消费者身份进行评论。 X进行拟合。对m-1个变量分别计算Score检测 用户信誉(Fg)某个用户的信誉是由他所发 值,其P值设为P,。设有最小P值的变量为X2,且 表的评论被其他消费者采纳的数量决定的,如果采 有P2=min(P)。若P2<a。,则进入下一步,否则停 纳该用户的人数越多,说明其信誉越高。 初评和追评的一致性(F。)正常评论者在初 止迭代。 评时一般只是从商品的外观给商品进行评分,对该 3)此时的模型中已经包含X和X,两个变量, 商品使用一定时间后,可能会给出更加具有意义的 但是我们应该注意到,在引入变量X2之后,变量X 追评:而虚假评论者的初评和追评儿乎是同时完 可能不再是显著性变量,我们应该使用Wald检验 成的。 分别计算它们的显著值和响应的P值。如果P值 附广告图片(F。)现在商家为了提高商品信 大于α,则此变量从模型中删除,否则停止迭代 誉,还会进行“好评晒图返现”活动,普通正常用户 计算; 很少拍图上传,而虚假评论中往往会伴随着图片的 4)依次进行迭代计算,每当向前选择一个变量 出现,我们认为评论附图的评论很可疑。 进入后,都进行向后删除的检查,循环终止的条件 是:模型中的所有自变量的P值都小于m,被删除 5特征选择 自变量的P值都大于aa 本文主要使用优势比(OR)和逐步回归变量筛
入影响模型的自变量,每次都是引入对 Y 影响最为 显著的自变量,并对方程中存在的变量逐个进行检 验,把变为不显著的变量逐个从模型中删除,最终, 使得模型中存在的变量是对 Y 影响最为显著的变 量,筛选的步骤如下:首先给出引入变量的显著性水 平 αin 和剔除变量的显著性水平 αout,然后按下图 1 进行筛选,筛选过程如下。 图 1 变量筛选流程图 Fig.1 Flow chart of variable selection 1)设仅有截距项的最大似然估计值为 L0 ,分别 计算 m 个变量的 Score 检测值,设有最小 P 值的变 量为 Xe1 ,且有 Pe1 =min Pj ( ) ,若 Pe1<αin ,则此变量进 入逻辑回归模型,不然停止。 如果此变量是名义变 量单面化的变量,则此变量的其他单面化变量也会 进入模型,其中 αin表示要引入变量的显著性水平。 2)为了确定当变量 Xe1在模型中时其他 m-1 个 变量是否也重要,将 Xj,j = 1,2,…,m,j≠e 分别与 Xe1进行拟合。 对 m-1 个变量分别计算 Score 检测 值,其 P 值设为 Pj。 设有最小 P 值的变量为 Xe2 ,且 有 Pe2 =min Pj ( ) 。 若 Pe2<αin ,则进入下一步,否则停 止迭代。 3)此时的模型中已经包含 Xe1和 Xe2两个变量, 但是我们应该注意到,在引入变量 Xe2之后,变量 Xe1 可能不再是显著性变量,我们应该使用 Wald 检验 分别计算它们的显著值和响应的 P 值。 如果 P 值 大于 αout,则此变量从模型中删除,否则停止迭代 计算; 4)依次进行迭代计算,每当向前选择一个变量 进入后,都进行向后删除的检查,循环终止的条件 是:模型中的所有自变量的 P 值都小于 αout,被删除 自变量的 P 值都大于 αin 。 4 评论文本特征工程 这里首先提出可能影响虚假评论的 10 个特征, 然后使用逐步回归方法计算哪个特征对其影响严 重,10 个特征如下。 文本长度(F1 ) 统计评论文本中的文字个数, 正常用户一般懒于评论只给出评分或给出简短的评 论文本,而虚假评论者为了提高或贬低某件商品,需 要写下比较冗长的评论文本。 复杂度(F2 ) 评论文本的复杂度是指文本中 所使用词汇的复杂度,一般认为正常用户所使用的 评论词汇比较简单,而虚假评论的词汇相对比较复 杂和专业。 关联度(F3 ) 评论关联度是指评论文本与被 评论商品的相关程度,有些虚假评论者为了完成评 论字数要求,常常会复制一些与商品无关的文本来 完成虚假评论任务。 一致性(F4 ) 一致性评论文本的情感强度与 所给评分的相似度,是探测随机评论的重要特征。 情感强度(F5 ) 情感强度是指评论文本中的 情感极性强度,普通用户的评论情感比较公正,而虚 假评论的情感强度比较激烈。 是否包含转折词(F6 ) 正常用户可能对产品 的部分性能指标是满意的,而对另外的某些特征是 不太满意的,所以他们的评论中常常包含转折词,而 虚假评论者的情感极性高度一致,很少会有情感的 逆转。 复制文本(F7 ) 虚假评论者为了快速完成自 己的虚假攻击任务,往往会把某个商品的虚假评论 复制对商品以不同的消费者身份进行评论。 用户信誉(F8 ) 某个用户的信誉是由他所发 表的评论被其他消费者采纳的数量决定的,如果采 纳该用户的人数越多,说明其信誉越高。 初评和追评的一致性(F9 ) 正常评论者在初 评时一般只是从商品的外观给商品进行评分,对该 商品使用一定时间后,可能会给出更加具有意义的 追评;而虚假评论者的初评和追评几乎是同时完 成的。 附广告图片(F10 ) 现在商家为了提高商品信 誉,还会进行“好评晒图返现”活动,普通正常用户 很少拍图上传,而虚假评论中往往会伴随着图片的 出现,我们认为评论附图的评论很可疑。 5 特征选择 本文主要使用优势比(OR)和逐步回归变量筛 第 3 期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·339·
·340 智能系统学报 第11卷 选方法来选择对逻辑回归模型影响最为显著的 5.3模型检验 特征。 为了判断选取的模型是否有效,需要对该模型 5.1数据集 进行检验。逻辑回归模型主要包含3种假设检验方 在Liu4)从Amazon收集并整理的415179条评 法,分别是似然比检验、Wald检验和计分检验,其 论数据的基础上,筛选出含有评论文本的13246条 中,似然比检验既适用于单个影响因素的假设检验, 评论作为本文的实验数据,其中包含虚假评论3412 又适用于多个影响因素的同时检验:Wld检验适合 条,真实评论9834条,实验数据集如表1。 单个影响因素的检验:计分检验与传统的Mantel- 表1实验数据表 haenszel检验结果相同,在小样本空间中比似然比 Table 1 Experimental data table 检验更接近X2分布:本文采用似然比检验方法对模 数据类型 条数 型进行检验。 虚假评论 3412 正常评论 9834 似然比检验的原理是通过分析模型中变量变化 评论总数 13246 对似然比的影响,依此来判断增加或者去除某个自 5.2计算候选自变量的优势比 变量是否对因变量有显著影响,检验统计量的公式 为了检测哪些候选自变量对逻辑回归模型的影 如式(7)所示。 响更为显著,本文使用式(4)计算每个自变量的优 G=-2[In(L)-In(L) (7) 比,以评论文本长度为例来说明优势比的计算步骤。 式中:ln(Ln-1)为不包含检验变量时模型的对数似 表2文本长度分布表 然值,n(Lm)为包含检验变量时模型的对数似然 Table 2 The distribution of text length 值.当检验一个变量时G服从自由度为1的X2分 结果 文本长度≥50文本长度<50 合计 布,当对整个模型进行检验时,就是相当于模型中所 虚假评论 2536 876 3412 正常评论 1458 8376 9834 有的m个变量的回归系数为0,G服从自由度为m 合计 3994 9252 13246 的X2分布。如果检验结果为拒绝H。,则表示该影 文本长度≥50的优势=2536/3994 响因素对回归模型有统计学意义,即对事件发生有 ≈1.74 1458/3994 影响。我们分别计算了所选的6个特征的似然比, 876/9252 文本长度<50的优势= ≈0.10 在显著水平α=0.05的条件下,计算的结果如表4 8376/9252 所示。 则0R=L:74 17.4,所以该特征对检测虚假评 表4似然比测试表 0.10 Table 4 Likelihood ratio test 论的影响是非常显著的。特征的优势比如表3。 变量 F2 Fs F 表310个候选特征及0R值 Table 3 Ten candidate features and OR G 21.5 7.3 11.5 14.5 13.6 8.2 变量 赋值说明 OR 因为这6个变量的检验统计量都大于Xs,=3。 文本长度≥50=1 84,所以可以得出如下结论,在其他5个变量不变的 17.4 文本长度<50=0 情况下,第6个变量对模型的影响是比较显著的,所 f 复杂=1,不复杂=0 5.31 以选取的这6个变量对虚假攻击检测具有一定的指 F 不关联=1,关联=0 0.34 导意义。 F 不一致=1,一致=0 3.87 6 实验分析 F 强烈=1,不强烈=0 7.68 Fo 不含=1.包含=0 15.6 本文借用Spss统计工具对实验数据进行分析, F 是=1,不是=0 2.87 采用对比实验的方式验证本文方法的有效性,由于 Fs 高=1,低=0 0.78 数据样本有限,我们采用五折交叉验证,分别与任亚 Fa 不一致=1,一致=0 7.46 峰等[)]提出的基于语言结构和情感极性的虚假评 F1o 附图=1,不附图=0 4.23 论识别方法和Feng等提出的基于句法结构的方
选方法来选择对逻辑回归模型影响最为显著的 特征。 5.1 数据集 在 Liu [4]从 Amazon 收集并整理的 415 179 条评 论数据的基础上,筛选出含有评论文本的13 246条 评论作为本文的实验数据,其中包含虚假评论 3 412 条,真实评论 9 834 条,实验数据集如表 1。 表 1 实验数据表 Table 1 Experimental data table 数据类型 条数 虚假评论 3 412 正常评论 9 834 评论总数 13 246 5.2 计算候选自变量的优势比 为了检测哪些候选自变量对逻辑回归模型的影 响更为显著,本文使用式(4)计算每个自变量的优 比,以评论文本长度为例来说明优势比的计算步骤。 表 2 文本长度分布表 Table 2 The distribution of text length 结果 文本长度≥50 文本长度<50 合计 虚假评论 2 536 876 3 412 正常评论 1 458 8 376 9 834 合计 3 994 9 252 13 246 文本长度≥50 的优势= 2 536 / 3 994 1 458 / 3 994 ≈1.74 文本长度 <50 的优势= 876 / 9 252 8 376 / 9 252 ≈0.10 则 OR = 1.74 0.10 = 17.4,所以该特征对检测虚假评 论的影响是非常显著的。 特征的优势比如表 3。 表 3 10 个候选特征及 OR 值 Table 3 Ten candidate features and OR 变量 赋值说明 OR F1 文本长度≥50 = 1 17.4 文本长度<50 = 0 F2 复杂= 1,不复杂= 0 5.31 F3 不关联= 1,关联= 0 0.34 F4 不一致= 1,一致= 0 3.87 F5 强烈= 1,不强烈= 0 7.68 F6 不含= 1,包含= 0 15.6 F7 是= 1,不是= 0 2.87 F8 高= 1,低= 0 0.78 F9 不一致= 1,一致= 0 7.46 F10 附图= 1,不附图= 0 4.23 5.3 模型检验 为了判断选取的模型是否有效,需要对该模型 进行检验。 逻辑回归模型主要包含 3 种假设检验方 法,分别是似然比检验、Wald 检验和计分检验,其 中,似然比检验既适用于单个影响因素的假设检验, 又适用于多个影响因素的同时检验;Wald 检验适合 单个影响因素的检验;计分检验与传统的 Mantel⁃ haenszel 检验结果相同,在小样本空间中比似然比 检验更接近 χ 2 分布;本文采用似然比检验方法对模 型进行检验。 似然比检验的原理是通过分析模型中变量变化 对似然比的影响,依此来判断增加或者去除某个自 变量是否对因变量有显著影响,检验统计量的公式 如式(7)所示。 G = - 2 [ln(Lm-1 ) - ln(Lm ) ] (7) 式中:ln(Lm-1 )为不包含检验变量时模型的对数似 然值, ln( Lm ) 为包含检验变量时模型的对数似然 值.当检验一个变量时 G 服从自由度为 1 的 χ 2 分 布,当对整个模型进行检验时,就是相当于模型中所 有的 m 个变量的回归系数为 0,G 服从自由度为 m 的 χ 2 分布。 如果检验结果为拒绝 H0 ,则表示该影 响因素对回归模型有统计学意义,即对事件发生有 影响。 我们分别计算了所选的 6 个特征的似然比, 在显著水平 α = 0.05 的条件下,计算的结果如表 4 所示。 表 4 似然比测试表 Table 4 Likelihood ratio test 变量 F1 F2 F5 F6 F9 F10 G 21.5 7.3 11.5 14.5 13.6 8.2 因为这 6 个变量的检验统计量都大于 χ 2 0.05,1 = 3. 84,所以可以得出如下结论,在其他 5 个变量不变的 情况下,第 6 个变量对模型的影响是比较显著的,所 以选取的这 6 个变量对虚假攻击检测具有一定的指 导意义。 6 实验分析 本文借用 Spss 统计工具对实验数据进行分析, 采用对比实验的方式验证本文方法的有效性,由于 数据样本有限,我们采用五折交叉验证,分别与任亚 峰等[8]提出的基于语言结构和情感极性的虚假评 论识别方法和 Feng 等[14]提出的基于句法结构的方 ·340· 智 能 系 统 学 报 第 11 卷
第3期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·341- 法进行对比,从而分析本文方法的优势和不足。本 0.95 文采用最为通用的3个评判指标来判断虚假检测的 0.90 0.85 优劣,即准确率、召回率和F,值。从图中可以发现 中8申家子中 0.80 0.75 融合情感倾向和逻辑回归模型的虚假攻击检测方法 0.70 表现出了不错的性能。 0.65 0.60 -Suucted 1.0 CFG -。-Improved 0.9 0.50 045L 0 0.8 102030405060708090100 迭代次数 0.7 8 图4F1指数对比 0.6 -Strucled CFG Fig.4 F1_Measure comparison 0.5 -Improved 0.4 Feng等提出的基于句法结构的虚假评论检测 0102030405060708090100 算法相比于任亚峰等提出的算法又有明显的提高, 迭代次数 他们认为浅层次的句法模式是不可靠的,他们的工 图2准确率对比 作主要研究了深层次的句法模式,并在前人的研究 基础之上加入了一些非常规的句法模式来构建语义 Fig.2 Accuracy comparison 树。他们又从4个不同数据集中利用文本句法树提 任亚峰等认为传统的启发式策略或者全监督学 取了几种不常见的语义特征,该方法使其检测精度 习方法很难有效地解决虚假攻击的检测问题,他们分 达到了91.2%,召回率也有明显提高。我们分析工 析了虚假评论和真实评论之间在语言结构和情感极 作性能提高的主要原因是,购物评论往往是不规则 性的差异,借用经典的遗传算法对文本的书写结构和 的,文本长度极短并且没有固定的书写模式,所以任 亚峰等提出的基于简单语法模式的检测算法受到了 情感极性两大主要特征进行优化选择,最终选择出了 一定的限制,而Feng等正是针对评论文本和常规文 5个最为重要的特征,最后又根据这些特征结合无监 本在句法上存在明显差异的前提下,利用语义树,挖 督的硬聚类和软聚类算法实现了虚假评论的检测。 掘深层的句法关系,构建出了专门用于分析评论短 该方法的检测准确率有所提高,主要原因是在考虑情 文本的语义树,使得检测性能得到大幅度提高。 感极性和强度的同时,融合了评论文本的较为重要的 本文方法相对于二者的研究方法准确率有所增 5个特征,使其分析的更加全面。该方法也有不足之 加,而召回率比Feng等提出的方法的要差一些。本 处,即没有突出哪些特征最为重要,如果能再把不同 文方法首先提出了基于关联词(特别是转折词)的 特征的权重考虑进去,检测的效果可能会更好。召回 情感极性判别方法,以此来判断评论的情感是否出 现转变、情感强度是否异常极端,然后又提取了10 率对比和F,指数对比见图3和图4。 个候选的评论文本特征,经过极大似然检验后,选取 1.00 了6个最为重要的特征,最后使用逻辑回归模型对 0.95 评论进行检测,促使检测的准确率有所增大。但是 0.90 g。●李香严多字客召 在加入更多特征使检测精度提高的同时,我们也发 0.85 现,召回率比Feng等的要低一些,原因可能是更多 0.80 的特征被加入了模型中,对数据的质量提出了更高 0.75 0.70 -Structed 的要求,如一些文本中可能不存在关联词这一特征。 -CFG 0.65 -o-Improved 7结束语 0102030405060708090100 迭代次数 随着电子商务的蓬勃发展,研究者们对虚假评 论检测作出了不懈的努力。针对评论文本过短,评 图3召回率对比 论随意等特点本文提出了融合关联词的情感倾向分 Fig.3 Recall comparison 析,然后再此基础上又分析了影响分类的6个特征, 把这些特征应用于逻辑回归模型中实现了虚假评论
法进行对比,从而分析本文方法的优势和不足。 本 文采用最为通用的 3 个评判指标来判断虚假检测的 优劣,即准确率、召回率和 F1 值。 从图中可以发现 融合情感倾向和逻辑回归模型的虚假攻击检测方法 表现出了不错的性能。 图 2 准确率对比 Fig.2 Accuracy comparison 任亚峰等认为传统的启发式策略或者全监督学 习方法很难有效地解决虚假攻击的检测问题,他们分 析了虚假评论和真实评论之间在语言结构和情感极 性的差异,借用经典的遗传算法对文本的书写结构和 情感极性两大主要特征进行优化选择,最终选择出了 5 个最为重要的特征,最后又根据这些特征结合无监 督的硬聚类和软聚类算法实现了虚假评论的检测。 该方法的检测准确率有所提高,主要原因是在考虑情 感极性和强度的同时,融合了评论文本的较为重要的 5 个特征,使其分析的更加全面。 该方法也有不足之 处,即没有突出哪些特征最为重要,如果能再把不同 特征的权重考虑进去,检测的效果可能会更好。 召回 率对比和 F1 指数对比见图 3 和图 4。 图 3 召回率对比 Fig.3 Recall comparison 图 4 F1 指数对比 Fig.4 F1_Measure comparison Feng 等提出的基于句法结构的虚假评论检测 算法相比于任亚峰等提出的算法又有明显的提高, 他们认为浅层次的句法模式是不可靠的,他们的工 作主要研究了深层次的句法模式,并在前人的研究 基础之上加入了一些非常规的句法模式来构建语义 树。 他们又从 4 个不同数据集中利用文本句法树提 取了几种不常见的语义特征,该方法使其检测精度 达到了 91.2%,召回率也有明显提高。 我们分析工 作性能提高的主要原因是,购物评论往往是不规则 的,文本长度极短并且没有固定的书写模式,所以任 亚峰等提出的基于简单语法模式的检测算法受到了 一定的限制,而 Feng 等正是针对评论文本和常规文 本在句法上存在明显差异的前提下,利用语义树,挖 掘深层的句法关系,构建出了专门用于分析评论短 文本的语义树,使得检测性能得到大幅度提高。 本文方法相对于二者的研究方法准确率有所增 加,而召回率比 Feng 等提出的方法的要差一些。 本 文方法首先提出了基于关联词(特别是转折词) 的 情感极性判别方法,以此来判断评论的情感是否出 现转变、情感强度是否异常极端,然后又提取了 10 个候选的评论文本特征,经过极大似然检验后,选取 了 6 个最为重要的特征,最后使用逻辑回归模型对 评论进行检测,促使检测的准确率有所增大。 但是 在加入更多特征使检测精度提高的同时,我们也发 现,召回率比 Feng 等的要低一些,原因可能是更多 的特征被加入了模型中,对数据的质量提出了更高 的要求,如一些文本中可能不存在关联词这一特征。 7 结束语 随着电子商务的蓬勃发展,研究者们对虚假评 论检测作出了不懈的努力。 针对评论文本过短,评 论随意等特点本文提出了融合关联词的情感倾向分 析,然后再此基础上又分析了影响分类的 6 个特征, 把这些特征应用于逻辑回归模型中实现了虚假评论 第 3 期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·341·
.342. 智能系统学报 第11卷 的检测,该方法取得了不错的效果。但该模型还有 [10]GAO Jian,DONG Yuwei,SHANG Mingsheng,et al. 待改进,首先,文本的极性判别方式过于粗糙,只是 Group-based ranking method for online rating systems with 考虑了文本中的否定词和关联词,没有特别注重分 spamming attacks[J].EPL (europhysics letters),2015, 110(2):28003. 析程度副词,只分析了文本的极性,却没有定量分析 [11]唐波,陈光,王星雅,等.微博新词发现及情感倾向性 其情感强度;其次,模型中没有动态地考虑评论情 判断分析[J].山东大学学报:理学版,2015,50(1): 况,研究表明,不诚实的商家往往在开办网店的初期 20-25. 雇佣虚假评论人员通过刷单的方式提高自己的信 TANG Bo,CHEN Guang,WANG Xingya,et al.Analysis 誉,所以虚假评论往往发生在电商经营的初期。最 on new word detection and sentiment orientation in Micro- 后,可能评论文本中还隐藏着许多其他的因素可以 blog[J].Journal of Shandong university:nature science, 2015,50(1):20-25. 提高检测的精度,下一步的工作将主要集中在这3 [12]何凤英.基于语义理解的中文博文倾向性分析[J].计 个方面。 算机应用,2011,31(8):2130-2133,2137. 参考文献: HE Fengying.Orientation analysis for Chinese blog text based on semantic comprehension[J].Journal of computer [1]KOLCZ A,ALSPECTOR J.SVM-based filtering of E-mail application,2011,31(8):2130-2133,2137. spam with content specific misclassification costs[C]//Pro- [13]邸鹏,李爱萍,段利国.基于转折句式的文本情感倾向 ceedings of ICDM-2001 Workshop on Text Mining.Dallas, 性分析[J].计算机工程与设计,2014,35(12):4289- USA,2001:324-332. 4295. [2]BECCHETTI L,CASTILLO C,DONATO D,et al.Link- DI Peng,LI Aiping,DUAN Liguo.Text sentiment polarity based characterization and detection of web spam[C]//Ad- analysis based on transition sentence[J].Computer engi- versarial Information Retrieval on the Web.Washington, neering and design,2014,35(12):4289-4295. USA,2006:1012-1021. [14]FENG Song,BANERJEE R,CHOI Y.Syntactic stylometry [3]JINDAL N,LIU Bing.Review spam detection [C]//Pro- for deception detection[C]//Proceedings of the 50th An- ceedings of the 16th International Conference on World nual Meeting of the Association for Computational Linguis- Wide Web.Alberta,Canada,2007:1189-1190. tics:Short Papers-Volume 2.Jeju,Korea,2012:171-175. [4]JINDAL N,LIU Bing,et al.Opinion spam and analysis [15]LI Jiwei,CARDIE C,LI Sujian.TopicSpam:a topic-mod- [C]//Proceedings of the 2008 International Conference on el-based approach for spam detection[C]//Proceedings of Web Search and Data Mining.California,USA,2008:219. the 51st Annual Meeting of the Association for Computa- 230. tional Linguistics.Sofi,Bulgaria,2013:217-221. [5]WU Fang,HUBERMAN B A.Opinion information under [16]JINDAL N,LIU Bing,LIM E P.Finding unusual review costly express[J].ACM transactions on intelligence systems patterns using unexpected rules[C]//Proceedings of the and technology,2010,1(1):5. 19th ACM International Conference on Information and [6]谭文堂,朱洪,葛斌,等.垃圾评论自动过滤方法[J] Knowledge Management.Ontario,Canada,2010:1549- 国防科技大学学报,2012,34(5):153-157,168. 1552. TAN Wentang,ZHU Hong,GE Bin,et al.Method of re- [17]JO Y,OH A H.Aspect and sentiment unification model for view spam detectionJ.Journal of national university of de- online review analysis [C]//Proceedings of the 4th ACM fense technology,2012,34(5):153-157,168. International Conference on Web Search and Data Mining. [7]OTT M.CHOI Y,CARIDIE C,et al.Finding deceptive o- New York,USA,2011:815-824. pinion spam by any stretch of the imagination C//Pro- 作者简介: ceedings of the 49th Annual Meeting of the Association for 赵军,男,1989年生,硕士研究生, Computational Linguistics:human language technologies. 主要研究方向为大数据、数据挖掘、机 Portland,USA,2011,1:309-319. 器学习。 [8]任亚峰,尹兰,姬东鸿.基于语言结构和情感极性的虚 假评论识别J].计算机科学与探索,2014,8(3):313- 320. REN Yafeng,YIN Lan,JI Donghong.Deceptive reviews de- tection based on language structure and sentiment polarity J.Journal of frontiers of computer science and technolo- 王红,女,1966年生,教授,博士生 ,2014,8(3):313-320. 导师,主要研究方向为大数据、复杂网 [9]WANG Guan,XIE Sihong,LIU Bing,et al.Identify online 络数据挖掘。主持国家自然基金项目 store review spammers via social review graph[J].ACM Trans- 1项,参与国家自然基金项目3项,主持 actions on intelligent systems and technology,2012,3(4):61. 省级基金项目6项,发表学术论文 43篇
的检测,该方法取得了不错的效果。 但该模型还有 待改进,首先,文本的极性判别方式过于粗糙,只是 考虑了文本中的否定词和关联词,没有特别注重分 析程度副词,只分析了文本的极性,却没有定量分析 其情感强度;其次,模型中没有动态地考虑评论情 况,研究表明,不诚实的商家往往在开办网店的初期 雇佣虚假评论人员通过刷单的方式提高自己的信 誉,所以虚假评论往往发生在电商经营的初期。 最 后,可能评论文本中还隐藏着许多其他的因素可以 提高检测的精度,下一步的工作将主要集中在这 3 个方面。 参考文献: [1] KOLCZ A, ALSPECTOR J. SVM⁃based filtering of E⁃mail spam with content specific misclassification costs[C] / / Pro⁃ ceedings of ICDM⁃2001 Workshop on Text Mining. Dallas, USA, 2001: 324⁃332. [2] BECCHETTI L, CASTILLO C, DONATO D, et al. Link⁃ based characterization and detection of web spam[C] / / Ad⁃ versarial Information Retrieval on the Web. Washington, USA, 2006: 1012⁃1021. [3] JINDAL N, LIU Bing. Review spam detection [ C] / / Pro⁃ ceedings of the 16th International Conference on World Wide Web. Alberta, Canada, 2007: 1189⁃1190. [4] JINDAL N, LIU Bing, et al. Opinion spam and analysis [C] / / Proceedings of the 2008 International Conference on Web Search and Data Mining. California, USA, 2008: 219⁃ 230. [5] WU Fang, HUBERMAN B A. Opinion information under costly express[J]. ACM transactions on intelligence systems and technology, 2010, 1(1): 5. [6]谭文堂, 朱洪, 葛斌, 等. 垃圾评论自动过滤方法[ J]. 国防科技大学学报, 2012, 34(5): 153⁃157, 168. TAN Wentang, ZHU Hong, GE Bin, et al. Method of re⁃ view spam detection[J]. Journal of national university of de⁃ fense technology, 2012, 34(5): 153⁃157, 168. [7]OTT M, CHOI Y, CARIDIE C, et al. Finding deceptive o⁃ pinion spam by any stretch of the imagination [ C] / / Pro⁃ ceedings of the 49th Annual Meeting of the Association for Computational Linguistics: human language technologies. Portland, USA, 2011, 1: 309⁃319. [8]任亚峰, 尹兰, 姬东鸿. 基于语言结构和情感极性的虚 假评论识别[J]. 计算机科学与探索, 2014, 8(3): 313⁃ 320. REN Yafeng, YIN Lan, JI Donghong. Deceptive reviews de⁃ tection based on language structure and sentiment polarity [J]. Journal of frontiers of computer science and technolo⁃ gy, 2014, 8(3): 313⁃320. [9] WANG Guan, XIE Sihong, LIU Bing, et al. Identify online store review spammers via social review graph[J]. ACM Trans⁃ actions on intelligent systems and technology, 2012, 3(4): 61. [10 ] GAO Jian, DONG Yuwei, SHANG Mingsheng, et al. Group⁃based ranking method for online rating systems with spamming attacks[J]. EPL (europhysics letters), 2015, 110(2): 28003. [11]唐波, 陈光, 王星雅, 等. 微博新词发现及情感倾向性 判断分析[ J]. 山东大学学报:理学版, 2015, 50( 1): 20⁃25. TANG Bo, CHEN Guang, WANG Xingya, et al. Analysis on new word detection and sentiment orientation in Micro⁃ blog[J]. Journal of Shandong university: nature science, 2015, 50(1): 20⁃25. [12]何凤英. 基于语义理解的中文博文倾向性分析[ J]. 计 算机应用, 2011, 31(8): 2130⁃2133, 2137. HE Fengying. Orientation analysis for Chinese blog text based on semantic comprehension[J]. Journal of computer application, 2011, 31(8): 2130⁃2133, 2137. [13]邸鹏, 李爱萍, 段利国. 基于转折句式的文本情感倾向 性分析[J]. 计算机工程与设计, 2014, 35(12): 4289⁃ 4295. DI Peng, LI Aiping, DUAN Liguo. Text sentiment polarity analysis based on transition sentence[ J]. Computer engi⁃ neering and design, 2014, 35(12): 4289⁃4295. [14]FENG Song, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection[C] / / Proceedings of the 50th An⁃ nual Meeting of the Association for Computational Linguis⁃ tics: Short Papers⁃Volume 2. Jeju, Korea, 2012: 171⁃175. [15]LI Jiwei, CARDIE C, LI Sujian. TopicSpam: a topic⁃mod⁃ el⁃based approach for spam detection[C] / / Proceedings of the 51st Annual Meeting of the Association for Computa⁃ tional Linguistics. Sofi, Bulgaria, 2013: 217⁃221. [16] JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules [ C] / / Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Ontario, Canada, 2010: 1549⁃ 1552. [ 17]JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C] / / Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York, USA, 2011: 815⁃824. 作者简介: 赵军,男,1989 年生, 硕士研究生, 主要研究方向为大数据、数据挖掘、机 器学习。 王红,女,1966 年生,教授,博士生 导师,主要研究方向为大数据、复杂网 络、数据挖掘。 主持国家自然基金项目 1 项,参与国家自然基金项目 3 项,主持 省级 基 金 项 目 6 项, 发 表 学 术 论 文 43 篇。 ·342· 智 能 系 统 学 报 第 11 卷