【智能系统】融合情感极性和逻辑回归的虚假评论检测方法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：869.55KB

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603027 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0911.004.html 融合情感极性和逻辑回归的虚假评论检测方法赵军12，王红12 (1.山东师范大学信息科学与工程学院，山东济南250014：2.山东省分布式计算软件新技术重点实验室，山东济南 250014) 摘要：在线购物评论为消费者比较商品的质量和其他一些购买特性提供了有用信息，然而却有大量的虚假评论者受利益驱使撰写虚假或者不公正的评论来迷惑消费者。先前的研究一般都是使用文本相似度和评分模式来探测虚假评论，这些算法可以检测特定类型的攻击者，在现实场景中许多虚假评论者刻意模仿正常用户对商品进行评论，因此先前的算法对检测这类攻击效果不佳。本文通过分析评论文本的感情极性，抽取不同的特征并使用逻辑回归模型来检测虚假评论：首先，借用自然语言处理的相关技术来分析评论文本的情感极性，判断每个用户的情感偏离大众情感的程度，如果偏离越大则说明其是虚假评论者的概率就越大：然后再选取其他几个重要特征结合逻辑回归模型进行虚假检测：通过实验对比，表明了该方法取得了较好的效果。关键词：电子商务：虚假评论；购物行为：情感极性；逻辑回归中图分类号：TP39文献标志码：A文章编号：1673-4785(2016)03-0336-07 中文引用格式：赵军，王红.融合情感极性和逻辑回归的虚假评论检测方法[J】.智能系统学报，2016,11(3)：336-342 英文引用格式：ZHAO Jun,WANG Hong..Detection of fake reviews based on emotional orientation and logistic regression[J].CAAI transactions on intelligent systems,2016,11(3):336-342. Detection of fake reviews based on emotional orientation and logistic regression ZHAO Jun'2,WANG Hong'.2 (1.School of Information Science and Engineering,Shandong Normal University,Jinan 250014,China;2.Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology,Ji'nan 250014,China) Abstract:Online shopping reviews provide valuable customer information for comparing the quality of products and several other aspects of future purchases.However,spammers are joining this community to mislead and confuse consumers by writing fake or unfair reviews.To detect the presence of spammers,reviewer styles have been scruti- nized for text similarity and rating patterns.These studies have succeeded in identifying certain types of spammers. However,there are other spammers who can manipulate their behaviors such that they are indistinguishable from normal reviewers,and thus,they cannot be detected by available techniques.In this paper,we analyze the orienta- tion of comments,extract different features,and use a logic regression model to detect false comments.First,we u- tilize natural language processing technology to analyze the orientation of comments and compute the departures of those comments from those of the general public.The greater is the deviation,the greater is the probability of the comment being generated by a spammer.Then,we select several other important features and combine them with the logic regression model to identify fake comments.The experimental results verify the greater accuracy of the pro- posed method. Keywords:Electronic commerce;fake review;shopping behavior;emotional polarity;logic regression 互联网的迅速崛起带来了传统商业模式的解收稿日期：2016-03-17.网络出版日期：2016-05-13. 放，传统的实体购物模式在遭遇网上购物模式时受基金项目：国家自然科学基金项目(61373149,61472233)：山东省科技计划项目(2012GGX10118,2014GGX101026):山东省教育科到了巨大的冲击。电子购物网站上的商品种类齐学规划项目(ZK1437B010). 通信作者：王红.E-mail:wanghong10(6@163.com 全，同时网上购物方便快捷，可以节省消费者一定的

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０２７网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９１１．００４．ｈｔｍｌ融合情感极性和逻辑回归的虚假评论检测方法赵军１，２，王红１，２（１．山东师范大学信息科学与工程学院，山东济南２５００１４；２．山东省分布式计算软件新技术重点实验室，山东济南２５００１４）摘要：在线购物评论为消费者比较商品的质量和其他一些购买特性提供了有用信息，然而却有大量的虚假评论者受利益驱使撰写虚假或者不公正的评论来迷惑消费者。先前的研究一般都是使用文本相似度和评分模式来探测虚假评论，这些算法可以检测特定类型的攻击者，在现实场景中许多虚假评论者刻意模仿正常用户对商品进行评论，因此先前的算法对检测这类攻击效果不佳。本文通过分析评论文本的感情极性，抽取不同的特征并使用逻辑回归模型来检测虚假评论；首先，借用自然语言处理的相关技术来分析评论文本的情感极性，判断每个用户的情感偏离大众情感的程度，如果偏离越大则说明其是虚假评论者的概率就越大；然后再选取其他几个重要特征结合逻辑回归模型进行虚假检测；通过实验对比，表明了该方法取得了较好的效果。关键词：电子商务；虚假评论；购物行为；情感极性；逻辑回归中图分类号：ＴＰ３９文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３３６⁃０７中文引用格式：赵军，王红．融合情感极性和逻辑回归的虚假评论检测方法［Ｊ］．智能系统学报，２０１６，１１（３）：３３６⁃３４２．英文引用格式：ＺＨＡＯＪｕｎ，ＷＡＮＧＨｏｎｇ．Ｄｅｔｅｃｔｉｏｎｏｆｆａｋｅｒｅｖｉｅｗｓｂａｓｅｄｏｎｅｍｏｔｉｏｎａｌｏｒｉｅｎｔａｔｉｏｎａｎｄｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３３６⁃３４２．ＤｅｔｅｃｔｉｏｎｏｆｆａｋｅｒｅｖｉｅｗｓｂａｓｅｄｏｎｅｍｏｔｉｏｎａｌｏｒｉｅｎｔａｔｉｏｎａｎｄｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎＺＨＡＯＪｕｎ１，２，ＷＡＮＧＨｏｎｇ１，２（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＳｈａｎｄｏｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｊｉｎａｎ２５００１４，Ｃｈｉｎａ；２．ＳｈａｎｄｏｎｇＰｒｏｖｉｎｃｉａｌＫｅｙＬａｂｏｒａｔｏｒｙｆｏｒＤｉｓｔｒｉｂｕｔｅｄＣｏｍｐｕｔｅｒＳｏｆｔｗａｒｅＮｏｖｅｌＴｅｃｈｎｏｌｏｇｙ，Ｊｉ′ｎａｎ２５００１４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｏｎｌｉｎｅｓｈｏｐｐｉｎｇｒｅｖｉｅｗｓｐｒｏｖｉｄｅｖａｌｕａｂｌｅｃｕｓｔｏｍｅｒｉｎｆｏｒｍａｔｉｏｎｆｏｒｃｏｍｐａｒｉｎｇｔｈｅｑｕａｌｉｔｙｏｆｐｒｏｄｕｃｔｓａｎｄｓｅｖｅｒａｌｏｔｈｅｒａｓｐｅｃｔｓｏｆｆｕｔｕｒｅｐｕｒｃｈａｓｅｓ．Ｈｏｗｅｖｅｒ，ｓｐａｍｍｅｒｓａｒｅｊｏｉｎｉｎｇｔｈｉｓｃｏｍｍｕｎｉｔｙｔｏｍｉｓｌｅａｄａｎｄｃｏｎｆｕｓｅｃｏｎｓｕｍｅｒｓｂｙｗｒｉｔｉｎｇｆａｋｅｏｒｕｎｆａｉｒｒｅｖｉｅｗｓ．Ｔｏｄｅｔｅｃｔｔｈｅｐｒｅｓｅｎｃｅｏｆｓｐａｍｍｅｒｓ，ｒｅｖｉｅｗｅｒｓｔｙｌｅｓｈａｖｅｂｅｅｎｓｃｒｕｔｉ⁃ ｎｉｚｅｄｆｏｒｔｅｘｔｓｉｍｉｌａｒｉｔｙａｎｄｒａｔｉｎｇｐａｔｔｅｒｎｓ．Ｔｈｅｓｅｓｔｕｄｉｅｓｈａｖｅｓｕｃｃｅｅｄｅｄｉｎｉｄｅｎｔｉｆｙｉｎｇｃｅｒｔａｉｎｔｙｐｅｓｏｆｓｐａｍｍｅｒｓ．Ｈｏｗｅｖｅｒ，ｔｈｅｒｅａｒｅｏｔｈｅｒｓｐａｍｍｅｒｓｗｈｏｃａｎｍａｎｉｐｕｌａｔｅｔｈｅｉｒｂｅｈａｖｉｏｒｓｓｕｃｈｔｈａｔｔｈｅｙａｒｅｉｎｄｉｓｔｉｎｇｕｉｓｈａｂｌｅｆｒｏｍｎｏｒｍａｌｒｅｖｉｅｗｅｒｓ，ａｎｄｔｈｕｓ，ｔｈｅｙｃａｎｎｏｔｂｅｄｅｔｅｃｔｅｄｂｙａｖａｉｌａｂｌｅｔｅｃｈｎｉｑｕｅｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅａｎａｌｙｚｅｔｈｅｏｒｉｅｎｔａ⁃ ｔｉｏｎｏｆｃｏｍｍｅｎｔｓ，ｅｘｔｒａｃｔｄｉｆｆｅｒｅｎｔｆｅａｔｕｒｅｓ，ａｎｄｕｓｅａｌｏｇｉｃｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｔｏｄｅｔｅｃｔｆａｌｓｅｃｏｍｍｅｎｔｓ．Ｆｉｒｓｔ，ｗｅｕ⁃ ｔｉｌｉｚｅｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇｔｅｃｈｎｏｌｏｇｙｔｏａｎａｌｙｚｅｔｈｅｏｒｉｅｎｔａｔｉｏｎｏｆｃｏｍｍｅｎｔｓａｎｄｃｏｍｐｕｔｅｔｈｅｄｅｐａｒｔｕｒｅｓｏｆｔｈｏｓｅｃｏｍｍｅｎｔｓｆｒｏｍｔｈｏｓｅｏｆｔｈｅｇｅｎｅｒａｌｐｕｂｌｉｃ．Ｔｈｅｇｒｅａｔｅｒｉｓｔｈｅｄｅｖｉａｔｉｏｎ，ｔｈｅｇｒｅａｔｅｒｉｓｔｈｅｐｒｏｂａｂｉｌｉｔｙｏｆｔｈｅｃｏｍｍｅｎｔｂｅｉｎｇｇｅｎｅｒａｔｅｄｂｙａｓｐａｍｍｅｒ．Ｔｈｅｎ，ｗｅｓｅｌｅｃｔｓｅｖｅｒａｌｏｔｈｅｒｉｍｐｏｒｔａｎｔｆｅａｔｕｒｅｓａｎｄｃｏｍｂｉｎｅｔｈｅｍｗｉｔｈｔｈｅｌｏｇｉｃｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌｔｏｉｄｅｎｔｉｆｙｆａｋｅｃｏｍｍｅｎｔｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｖｅｒｉｆｙｔｈｅｇｒｅａｔｅｒａｃｃｕｒａｃｙｏｆｔｈｅｐｒｏ⁃ ｐｏｓｅｄｍｅｔｈｏｄ．Ｋｅｙｗｏｒｄｓ：Ｅｌｅｃｔｒｏｎｉｃｃｏｍｍｅｒｃｅ；ｆａｋｅｒｅｖｉｅｗ；ｓｈｏｐｐｉｎｇｂｅｈａｖｉｏｒ；ｅｍｏｔｉｏｎａｌｐｏｌａｒｉｔｙ；ｌｏｇｉｃｒｅｇｒｅｓｓｉｏｎ收稿日期：２０１６⁃０３⁃１７．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１３７３１４９，６１４７２２３３）；山东省科技计划项目（２０１２ＧＧＸ１０１１８，２０１４ＧＧＸ１０１０２６）；山东省教育科学规划项目（ＺＫ１４３７Ｂ０１０）．通信作者：王红．Ｅ⁃ｍａｉｌ：ｗａｎｇｈｏｎｇ１０６＠１６３．ｃｏｍ．互联网的迅速崛起带来了传统商业模式的解放，传统的实体购物模式在遭遇网上购物模式时受到了巨大的冲击。电子购物网站上的商品种类齐全，同时网上购物方便快捷，可以节省消费者一定的

第3期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·337· 购物时间，迎合了当代人们快速的生活节奏：但网上析评论文本的正面情感和负面情感影响，最后使用购物给我们带来方便的同时也存在着自身固有的一遗传算法，通过复制、交叉和变异实现种群的进化，些挑战。最具挑战性的是消费者无法像在实体店一从而提高探测准确率。样真实地感受到商量的质地、性能等特点，只能通过 Guan等)为了识别在线商店的虚假评论者提购物网站展示的图片和文本描述对商品有一个大致出了一种社交评论图的方法，他们提出了一种全新的了解。由于消费者无从得知商品地真实质量，所的概念一评论图，他们捕获了所有与某个商店相以他们开始过多的关注商品的评论，好的评论可以关联的评论者和评论，并把这三者构造成了一个异提升该产品的信誉，这会诱导更多的顾客购买该商质网络，通过交互计算三者之间的影响来检测虚假品：相反，较差的评论无疑会降低商品的信誉值，这评论，实验表明他们方法的正确探测率高达会大大降低该商品的成交量。正是由于这一原因， 91.24%。商家为了获得更高的利益，开始雇佣网络水军冒充 Gao等[o]为了解决网上评分系统中的虚假攻普通顾客对自己的商品进行好评，对竞争对手的产击行为，提出一种基于群组排序的虚假探测方法，他品进行差评以达到提升自己品牌的信誉、诋毁竞争们把对相同商品评分相同的用户分为一组，根据群对手信誉的目的。这些广泛存在的不真实评论不仅组的规模来检测虚假评论者，实验表明，他们所提出会误导消费者的购物决策，同时也危害了电子商务的方法取得了很好的探测效果。经济的健康发展，为了提高消费者的购物体验，并保通过总结前人已有的工作可以发现，大部分研证市场经济的合理健康发展，因此迫切需要研究一究者要么从评论文本着手，利用自然语言处理技术，种方法来发现并抑制虚假攻击。分析评论文本的正负情感极性，从而达到探测虚假评论的目的：另一种常见的方法是分析商品的评分， 1相关工作通过分类或者聚类算法对不同的评分进行分组，挑近年来，国内外学者在垃圾邮件)和垃圾网选出虚假的商品评分：本文提出融合情感极性和逻页]的识别研究上做了大量工作，并取得了较好的辑回归模型来检测虚假攻击。效果。美国伊利诺斯大学的Bing Liu3]教授团队于 2007年首次提出垃圾检测，之后垃圾检测就成为了 2评论文本情感极性分析一个研究热点。评论文本的情感倾向分析是通过挖掘和分析评 Jindal等[4)发现商品中存在着大量的虚假评论文本中的立场、观点、情绪等主观信息，分析出评论，并且这些评论在本质上与垃圾邮件和垃圾网页论者的正面或者负面情感趋向。截然不同，他们利用产品的评论数据，考虑评论文本文主要采用基于情感知识的情感极性判别方本、评论者和产品特征这3个因素进行建模来区分法，通过比较文本中的正负情感词个数来判断评论复制观点和非复制观，点，若判断为复制观点，则将该文本的情感极性，情感极性判别方式为评论归为虚假评论。正情感词数>负情感词数正向 WUF等)根据流行度是否被打乱来识别虚假情感=正情感词数=负情感词数中性评论。这两种方法都是基于启发式的策略，过程较正情感词数<负情感词数负向为复杂。Tan等[6)利用电阻距离来判断评论之间的唐波等山考虑了否定词对情感词极性的影响，上下文语义相似性，提出了一种基于电阻距离的无通过他们的实验可以看出，考虑否定词这一特征对关虚假评论自动检测方法，该方法取得了不错的实情感倾向性分析具有重大意义。在本文中，也考虑验效果。了否定词这一重要因素，并且构建专用于评论文本 0TT等)利用众包平台创造出了一个用于识分析的否定词词典.判断规则为：统计一句话中的否别众包攻击的“黄金”数据集，该数据集包含真实评定词个数，若个数为偶数则该句的倾向性不变；若否论和人为的虚假评论两部分，在该数据集上，他们把定词的个数为奇数，那么语句的倾向性发生逆转。虚假探测问题转化为经典的文本极性分类问题何凤英等]考虑了程度副词文本的倾向性影解决。响，提出了程度副词的4个量级：极量、高量、中量和任亚峰等)提出了一种基于语言结构和情感低量，其对应的权重依次递减，考虑程度副词这一因极性的虚假评论识别方法，从自然语言处理层面分素也提高了情感极性的分类精度

购物时间，迎合了当代人们快速的生活节奏；但网上购物给我们带来方便的同时也存在着自身固有的一些挑战。最具挑战性的是消费者无法像在实体店一样真实地感受到商量的质地、性能等特点，只能通过购物网站展示的图片和文本描述对商品有一个大致的了解。由于消费者无从得知商品地真实质量，所以他们开始过多的关注商品的评论，好的评论可以提升该产品的信誉，这会诱导更多的顾客购买该商品；相反，较差的评论无疑会降低商品的信誉值，这会大大降低该商品的成交量。正是由于这一原因，商家为了获得更高的利益，开始雇佣网络水军冒充普通顾客对自己的商品进行好评，对竞争对手的产品进行差评以达到提升自己品牌的信誉、诋毁竞争对手信誉的目的。这些广泛存在的不真实评论不仅会误导消费者的购物决策，同时也危害了电子商务经济的健康发展，为了提高消费者的购物体验，并保证市场经济的合理健康发展，因此迫切需要研究一种方法来发现并抑制虚假攻击。１相关工作近年来，国内外学者在垃圾邮件［１］和垃圾网页［２］的识别研究上做了大量工作，并取得了较好的效果。美国伊利诺斯大学的ＢｉｎｇＬｉｕ［３］教授团队于２００７年首次提出垃圾检测，之后垃圾检测就成为了一个研究热点。Ｊｉｎｄａｌ等［４］发现商品中存在着大量的虚假评论，并且这些评论在本质上与垃圾邮件和垃圾网页截然不同，他们利用产品的评论数据，考虑评论文本、评论者和产品特征这３个因素进行建模来区分复制观点和非复制观点，若判断为复制观点，则将该评论归为虚假评论。ＷＵＦ等［５］根据流行度是否被打乱来识别虚假评论。这两种方法都是基于启发式的策略，过程较为复杂。Ｔａｎ等［６］利用电阻距离来判断评论之间的上下文语义相似性，提出了一种基于电阻距离的无关虚假评论自动检测方法，该方法取得了不错的实验效果。ＯＴＴ等［７］利用众包平台创造出了一个用于识别众包攻击的“黄金”数据集，该数据集包含真实评论和人为的虚假评论两部分，在该数据集上，他们把虚假探测问题转化为经典的文本极性分类问题解决。任亚峰等［８］提出了一种基于语言结构和情感极性的虚假评论识别方法，从自然语言处理层面分析评论文本的正面情感和负面情感影响，最后使用遗传算法，通过复制、交叉和变异实现种群的进化，从而提高探测准确率。Ｇｕａｎ等［９］为了识别在线商店的虚假评论者提出了一种社交评论图的方法，他们提出了一种全新的概念———评论图，他们捕获了所有与某个商店相关联的评论者和评论，并把这三者构造成了一个异质网络，通过交互计算三者之间的影响来检测虚假评论，实验表明他们方法的正确探测率高达９１．２４％。Ｇａｏ等［１０］为了解决网上评分系统中的虚假攻击行为，提出一种基于群组排序的虚假探测方法，他们把对相同商品评分相同的用户分为一组，根据群组的规模来检测虚假评论者，实验表明，他们所提出的方法取得了很好的探测效果。通过总结前人已有的工作可以发现，大部分研究者要么从评论文本着手，利用自然语言处理技术，分析评论文本的正负情感极性，从而达到探测虚假评论的目的；另一种常见的方法是分析商品的评分，通过分类或者聚类算法对不同的评分进行分组，挑选出虚假的商品评分；本文提出融合情感极性和逻辑回归模型来检测虚假攻击。２评论文本情感极性分析评论文本的情感倾向分析是通过挖掘和分析评论文本中的立场、观点、情绪等主观信息，分析出评论者的正面或者负面情感趋向。本文主要采用基于情感知识的情感极性判别方法，通过比较文本中的正负情感词个数来判断评论文本的情感极性，情感极性判别方式为情感＝正情感词数＞负情感词数正向正情感词数＝负情感词数中性正情感词数＜负情感词数负向 ì î í ï ï ïï 唐波等［１１］考虑了否定词对情感词极性的影响，通过他们的实验可以看出，考虑否定词这一特征对情感倾向性分析具有重大意义。在本文中，也考虑了否定词这一重要因素，并且构建专用于评论文本分析的否定词词典．判断规则为：统计一句话中的否定词个数，若个数为偶数则该句的倾向性不变；若否定词的个数为奇数，那么语句的倾向性发生逆转。何凤英等［１２］考虑了程度副词文本的倾向性影响，提出了程度副词的４个量级：极量、高量、中量和低量，其对应的权重依次递减，考虑程度副词这一因素也提高了情感极性的分类精度。第３期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·３３７·

.338. 智能系统学报第11卷邸鹏等)曾提出了基于转折句式的文本分析 0 真实评论 Y= 方法，他们的任务主要是基于长文本的情感分析，所 1, 虚假评论以考虑上下文的转折关系是很有效的。但是他们的自变量为X,X2,…,Xm,P表示在m个自变量作用方法直接应用于评论文本是不合理的，因为评论文下事件发生的概率。想找到P与自变量的关系，如本往往是一两句话的超短文本，无从考虑上下文信果用多元线性回归方程。息，所以本文提出了基于关联词的分析方法，把分析 Y=b。+b1X1+b2X2+…+bnX。 (1) 的单位缩小到词语级别，着重分析关联词前后的情无论b:和X,取任何实数，ln(P/Q)值都可以与0~1 感极性，其过程如算法1所示。范围内的P值相对应。算法1 Review Text Orientation Analysis =bo+bX,+b2X2+…+bX。(2) 输入Review Text 输出Review Orientation e6o+b1X1+h22t…+bpp P=- 1+eo+6+2+…+6 (3) str←-{ReviewText}; While(str.read()) 我们将所研究的问题转换一个角度，不是直接 For all ie str.Length DO 分析Y与X的关系，而是分析Y取某个值的概率P IF (str.words,Review Dictionary)THEN 与X的关系。令Y为1、0变量，Y=0表示正常评 S0←0：EXIT; 论，Y=1表示虚假评论，X是与虚假评论有关的因 ELSE 素。如果P表示虚假攻击的概率，那么研究虚假攻 IF (str.words,E NegDictionary)THEN 击的概率P与X有关因素的关系就相对简单一些。 IF(count %2 =0)THEN 3.1变量选取的衡量标准 WO,←-W0:; 优势比OR(odds ratio)是流行病衡量危险因素 ELSE WO,←--WO:; 作用大小的比数比例指标，其计算公式为 IF (str.words;E AdjDictionary)THEN P/(1-P) (4) WO.←-WO,*Wadj 0R,P/1-P) 式中：P,和P。分别表示在X,取值为c1及c。存在虚 IF(str.words,E Adversative)THEN 假攻击的概率，OR,称作多变量调整后的优势比，表 W0←--W0:; 示扣除了其他自变量影响后的危险因素的作用。对 END ELSE 比某一个危险因素两个不同暴露水平X=c1与X,= S0= WO,/N=st.Length c。的虚假攻击情况（假设其他因素的水平相同），其 i=1 END FOR 优势比的自然对数为式(5)： END WHILE:; 「P/(1-P) In OR;=In logitP-logitPo P/(1-Po) 3逻辑回归模型 (5) 在现实生活中经常需要分析离散变量问题，本 1 若文关心的是，哪些因素对虚假检测的影响因素更明 x= 虚假评论 0. 正常评论显，这类问题实质上是一个回归问题，因变量就是上 ci-co=1 述提到的这些离散变量，自变量X是与之有关的一则些因素。因为因变量是离散的，不能直接使用线性 OR,expB, 回归分析方法解决，这时最好的解决方案是Logistic =0, OR=1无作用回归模型，它对因变量的分布没有要求。与线性回 B>0, OR,>1虚假评论 (6) 归分析相似，Logistic回归分析的基本原理就是利用 <0, OR<1正常评论一组数据拟合一个Logistic回归模型，然后借助这个 3.2变量选择模型揭示总体中若干个自变量与一个因变量取某个使用逻辑回归模型时，主要有3种选择变量的值的概率之间的关系。因变量Y是一个二值变量，方式：前向选择、后向选择和逐步回归。本文采用逐取值为步回归的方式进行变量选择，其基本思想是逐个引

邸鹏等［１３］曾提出了基于转折句式的文本分析方法，他们的任务主要是基于长文本的情感分析，所以考虑上下文的转折关系是很有效的。但是他们的方法直接应用于评论文本是不合理的，因为评论文本往往是一两句话的超短文本，无从考虑上下文信息，所以本文提出了基于关联词的分析方法，把分析的单位缩小到词语级别，着重分析关联词前后的情感极性，其过程如算法１所示。算法１ＲｅｖｉｅｗＴｅｘｔＯｒｉｅｎｔａｔｉｏｎＡｎａｌｙｓｉｓ输入ＲｅｖｉｅｗＴｅｘｔ输出ＲｅｖｉｅｗＯｒｉｅｎｔａｔｉｏｎｓｔｒ←{ＲｅｖｉｅｗＴｅｘｔ} ；Ｗｈｉｌｅ（ｓｔｒ．ｒｅａｄ（））Ｆｏｒａｌｌｉ∈ｓｔｒ．ＬｅｎｇｔｈＤＯＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∉ＲｅｖｉｅｗＤｉｃｔｉｏｎａｒｙ）ＴＨＥＮＳＯ←０；ＥＸＩＴ；ＥＬＳＥ｛ＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∈ＮｅｇＤｉｃｔｉｏｎａｒｙ）ＴＨＥＮＩＦ（ｃｏｕｎｔ％２＝＝０）ＴＨＥＮＷＯｉ←ＷＯｉ；ＥＬＳＥＷＯｉ←－ＷＯｉ；ＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∈ＡｄｊＤｉｃｔｉｏｎａｒｙ）ＴＨＥＮＷＯｉ←ＷＯｉ∗ＷａｄｊＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∈Ａｄｖｅｒｓａｔｉｖｅ）ＴＨＥＮＷＯｉ←－ＷＯｉ；ＥＮＤＥＬＳＥＳＯ＝ ∑ Ｎｉ＝１ＷＯｉ／／Ｎ＝ｓｔｒ．ＬｅｎｇｔｈＥＮＤＦＯＲ；ＥＮＤＷＨＩＬＥ；３逻辑回归模型在现实生活中经常需要分析离散变量问题，本文关心的是，哪些因素对虚假检测的影响因素更明显，这类问题实质上是一个回归问题，因变量就是上述提到的这些离散变量，自变量Ｘ是与之有关的一些因素。因为因变量是离散的，不能直接使用线性回归分析方法解决，这时最好的解决方案是Ｌｏｇｉｓｔｉｃ回归模型，它对因变量的分布没有要求。与线性回归分析相似，Ｌｏｇｉｓｔｉｃ回归分析的基本原理就是利用一组数据拟合一个Ｌｏｇｉｓｔｉｃ回归模型，然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间的关系。因变量Ｙ是一个二值变量，取值为Ｙ＝０，真实评论 {１，虚假评论自变量为Ｘ１，Ｘ２，…，Ｘｍ，Ｐ表示在ｍ个自变量作用下事件发生的概率。想找到Ｐ与自变量的关系，如果用多元线性回归方程。Ｙ＾＝ｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋ … ＋ｂｐＸｐ（１）无论ｂｉ和Ｘｉ取任何实数，ｌｎ(Ｐ／Ｑ) 值都可以与０～１范围内的Ｐ值相对应。ｌｎＰＱ æ è ç ö ø ÷ ＝ｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋ … ＋ｂｐＸｐ（２）Ｐ＝ｅｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋…＋ｂｐＸｐ１＋ｅｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋…＋ｂｐＸｐ（３）我们将所研究的问题转换一个角度，不是直接分析Ｙ与Ｘ的关系，而是分析Ｙ取某个值的概率Ｐ与Ｘ的关系。令Ｙ为１、０变量，Ｙ＝０表示正常评论，Ｙ＝１表示虚假评论，Ｘ是与虚假评论有关的因素。如果Ｐ表示虚假攻击的概率，那么研究虚假攻击的概率Ｐ与Ｘ有关因素的关系就相对简单一些。３．１变量选取的衡量标准优势比ＯＲ（ｏｄｄｓｒａｔｉｏ）是流行病衡量危险因素作用大小的比数比例指标，其计算公式为ＯＲｊ＝Ｐ１／（１－Ｐ１）Ｐ０／（１－Ｐ０）（４）式中：Ｐ１和Ｐ０分别表示在Ｘｊ取值为ｃ１及ｃ０存在虚假攻击的概率，ＯＲｊ称作多变量调整后的优势比，表示扣除了其他自变量影响后的危险因素的作用。对比某一个危险因素两个不同暴露水平Ｘｊ＝ｃ１与Ｘｊ＝ｃ０的虚假攻击情况（假设其他因素的水平相同），其优势比的自然对数为式（５）：ｌｎＯＲｊ＝ｌｎＰ１／１－Ｐ１ ( ) Ｐ０／１－Ｐ０ ( ) é ë ê ê ù û ú ú ＝ｌｏｇｉｔＰ１－ｌｏｇｉｔＰ０（５）若Ｘｊ＝１，虚假评论 {０，正常评论ｃ１－ｃ０＝１则ＯＲｊ＝ｅｘｐβｊ βｊ＝０，ＯＲｊ＝１无作用＞０，ＯＲｊ＞１虚假评论＜０，ＯＲｊ＜１正常评论 ì î í ï ï ï ï （６）３．２变量选择使用逻辑回归模型时，主要有３种选择变量的方式：前向选择、后向选择和逐步回归。本文采用逐步回归的方式进行变量选择，其基本思想是逐个引 ·３３８· 智能系统学报第１１卷

第3期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 .339. 入影响模型的自变量，每次都是引入对Y影响最为 4 评论文本特征工程显著的自变量，并对方程中存在的变量逐个进行检验，把变为不显著的变量逐个从模型中删除，最终，这里首先提出可能影响虚假评论的10个特征，使得模型中存在的变量是对Y影响最为显著的变然后使用逐步回归方法计算哪个特征对其影响严量，筛选的步骤如下：首先给出引入变量的显著性水重，10个特征如下。平an和剔除变量的显著性水平am,然后按下图1 文本长度(F)统计评论文本中的文字个数，进行筛选，筛选过程如下。正常用户一般懒于评论只给出评分或给出简短的评论文本，而虚假评论者为了提高或贬低某件商品，需开始要写下比较冗长的评论文本。复杂度(F,)评论文本的复杂度是指文本中对不在方程中的变量心所使用词汇的复杂度，一般认为正常用户所使用的考虑是否引人评论词汇比较简单，而虚假评论的词汇相对比较复杂和专业。引入变量筛选结果关联度(F,)评论关联度是指评论文本与被评论商品的相关程度，有些虚假评论者为了完成评对已在方程中的变量论字数要求，常常会复制一些与商品无关的文本来考虑是否删除完成虚假评论任务。 Y 一致性(F,)一致性评论文本的情感强度与删除变量所给评分的相似度，是探测随机评论的重要特征。情感强度(F,)情感强度是指评论文本中的图1变量筛选流程图情感极性强度，普通用户的评论情感比较公正，而虚 Fig.1 Flow chart of variable selection 假评论的情感强度比较激烈。 1)设仅有截距项的最大似然估计值为L。,分别是否包含转折词(F,)正常用户可能对产品计算m个变量的Score检测值，设有最小P值的变的部分性能指标是满意的，而对另外的某些特征是量为X,且有P.=min(P),若P<aa,则此变量进不太满意的，所以他们的评论中常常包含转折词，而入逻辑回归模型，不然停止。如果此变量是名义变虚假评论者的情感极性高度一致，很少会有情感的量单面化的变量，则此变量的其他单面化变量也会逆转。进入模型，其中表示要引入变量的显著性水平。复制文本(F,)虚假评论者为了快速完成自 2)为了确定当变量X。,在模型中时其他m-1个己的虚假攻击任务，往往会把某个商品的虚假评论变量是否也重要，将X,j=1,2,…,m,j≠e分别与复制对商品以不同的消费者身份进行评论。 X进行拟合。对m-1个变量分别计算Score检测用户信誉(Fg)某个用户的信誉是由他所发值，其P值设为P,。设有最小P值的变量为X2,且表的评论被其他消费者采纳的数量决定的，如果采有P2=min(P)。若P2<a。,则进入下一步，否则停纳该用户的人数越多，说明其信誉越高。初评和追评的一致性(F。)正常评论者在初止迭代。评时一般只是从商品的外观给商品进行评分，对该 3)此时的模型中已经包含X和X,两个变量，商品使用一定时间后，可能会给出更加具有意义的但是我们应该注意到，在引入变量X2之后，变量X 追评：而虚假评论者的初评和追评儿乎是同时完可能不再是显著性变量，我们应该使用Wald检验成的。分别计算它们的显著值和响应的P值。如果P值附广告图片(F。)现在商家为了提高商品信大于α，则此变量从模型中删除，否则停止迭代誉，还会进行“好评晒图返现”活动，普通正常用户计算；很少拍图上传，而虚假评论中往往会伴随着图片的 4)依次进行迭代计算，每当向前选择一个变量出现，我们认为评论附图的评论很可疑。进入后，都进行向后删除的检查，循环终止的条件是：模型中的所有自变量的P值都小于m,被删除 5特征选择自变量的P值都大于aa 本文主要使用优势比(OR)和逐步回归变量筛

入影响模型的自变量，每次都是引入对Ｙ影响最为显著的自变量，并对方程中存在的变量逐个进行检验，把变为不显著的变量逐个从模型中删除，最终，使得模型中存在的变量是对Ｙ影响最为显著的变量，筛选的步骤如下：首先给出引入变量的显著性水平 αｉｎ和剔除变量的显著性水平 αｏｕｔ，然后按下图１进行筛选，筛选过程如下。图１变量筛选流程图Ｆｉｇ．１Ｆｌｏｗｃｈａｒｔｏｆｖａｒｉａｂｌｅｓｅｌｅｃｔｉｏｎ１）设仅有截距项的最大似然估计值为Ｌ０，分别计算ｍ个变量的Ｓｃｏｒｅ检测值，设有最小Ｐ值的变量为Ｘｅ１，且有Ｐｅ１＝ｍｉｎＰｊ ( ) ，若Ｐｅ１＜αｉｎ，则此变量进入逻辑回归模型，不然停止。如果此变量是名义变量单面化的变量，则此变量的其他单面化变量也会进入模型，其中 αｉｎ表示要引入变量的显著性水平。２）为了确定当变量Ｘｅ１在模型中时其他ｍ－１个变量是否也重要，将Ｘｊ，ｊ＝１，２，…，ｍ，ｊ≠ｅ分别与Ｘｅ１进行拟合。对ｍ－１个变量分别计算Ｓｃｏｒｅ检测值，其Ｐ值设为Ｐｊ。设有最小Ｐ值的变量为Ｘｅ２，且有Ｐｅ２＝ｍｉｎＰｊ ( ) 。若Ｐｅ２＜αｉｎ，则进入下一步，否则停止迭代。３）此时的模型中已经包含Ｘｅ１和Ｘｅ２两个变量，但是我们应该注意到，在引入变量Ｘｅ２之后，变量Ｘｅ１可能不再是显著性变量，我们应该使用Ｗａｌｄ检验分别计算它们的显著值和响应的Ｐ值。如果Ｐ值大于 αｏｕｔ，则此变量从模型中删除，否则停止迭代计算；４）依次进行迭代计算，每当向前选择一个变量进入后，都进行向后删除的检查，循环终止的条件是：模型中的所有自变量的Ｐ值都小于 αｏｕｔ，被删除自变量的Ｐ值都大于 αｉｎ。４评论文本特征工程这里首先提出可能影响虚假评论的１０个特征，然后使用逐步回归方法计算哪个特征对其影响严重，１０个特征如下。文本长度（Ｆ１）统计评论文本中的文字个数，正常用户一般懒于评论只给出评分或给出简短的评论文本，而虚假评论者为了提高或贬低某件商品，需要写下比较冗长的评论文本。复杂度（Ｆ２）评论文本的复杂度是指文本中所使用词汇的复杂度，一般认为正常用户所使用的评论词汇比较简单，而虚假评论的词汇相对比较复杂和专业。关联度（Ｆ３）评论关联度是指评论文本与被评论商品的相关程度，有些虚假评论者为了完成评论字数要求，常常会复制一些与商品无关的文本来完成虚假评论任务。一致性（Ｆ４）一致性评论文本的情感强度与所给评分的相似度，是探测随机评论的重要特征。情感强度（Ｆ５）情感强度是指评论文本中的情感极性强度，普通用户的评论情感比较公正，而虚假评论的情感强度比较激烈。是否包含转折词（Ｆ６）正常用户可能对产品的部分性能指标是满意的，而对另外的某些特征是不太满意的，所以他们的评论中常常包含转折词，而虚假评论者的情感极性高度一致，很少会有情感的逆转。复制文本（Ｆ７）虚假评论者为了快速完成自己的虚假攻击任务，往往会把某个商品的虚假评论复制对商品以不同的消费者身份进行评论。用户信誉（Ｆ８）某个用户的信誉是由他所发表的评论被其他消费者采纳的数量决定的，如果采纳该用户的人数越多，说明其信誉越高。初评和追评的一致性（Ｆ９）正常评论者在初评时一般只是从商品的外观给商品进行评分，对该商品使用一定时间后，可能会给出更加具有意义的追评；而虚假评论者的初评和追评几乎是同时完成的。附广告图片（Ｆ１０）现在商家为了提高商品信誉，还会进行“好评晒图返现”活动，普通正常用户很少拍图上传，而虚假评论中往往会伴随着图片的出现，我们认为评论附图的评论很可疑。５特征选择本文主要使用优势比（ＯＲ）和逐步回归变量筛第３期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·３３９·

·340 智能系统学报第11卷选方法来选择对逻辑回归模型影响最为显著的 5.3模型检验特征。为了判断选取的模型是否有效，需要对该模型 5.1数据集进行检验。逻辑回归模型主要包含3种假设检验方在Liu4)从Amazon收集并整理的415179条评法，分别是似然比检验、Wald检验和计分检验，其论数据的基础上，筛选出含有评论文本的13246条中，似然比检验既适用于单个影响因素的假设检验，评论作为本文的实验数据，其中包含虚假评论3412 又适用于多个影响因素的同时检验：Wld检验适合条，真实评论9834条，实验数据集如表1。单个影响因素的检验：计分检验与传统的Mantel- 表1实验数据表 haenszel检验结果相同，在小样本空间中比似然比 Table 1 Experimental data table 检验更接近X2分布：本文采用似然比检验方法对模数据类型条数型进行检验。虚假评论 3412 正常评论 9834 似然比检验的原理是通过分析模型中变量变化评论总数 13246 对似然比的影响，依此来判断增加或者去除某个自 5.2计算候选自变量的优势比变量是否对因变量有显著影响，检验统计量的公式为了检测哪些候选自变量对逻辑回归模型的影如式(7)所示。响更为显著，本文使用式(4)计算每个自变量的优 G=-2[In(L)-In(L) (7) 比，以评论文本长度为例来说明优势比的计算步骤。式中：ln(Ln-1)为不包含检验变量时模型的对数似表2文本长度分布表然值，n(Lm)为包含检验变量时模型的对数似然 Table 2 The distribution of text length 值.当检验一个变量时G服从自由度为1的X2分结果文本长度≥50文本长度<50 合计布，当对整个模型进行检验时，就是相当于模型中所虚假评论 2536 876 3412 正常评论 1458 8376 9834 有的m个变量的回归系数为0，G服从自由度为m 合计 3994 9252 13246 的X2分布。如果检验结果为拒绝H。,则表示该影文本长度≥50的优势=2536/3994 响因素对回归模型有统计学意义，即对事件发生有 ≈1.74 1458/3994 影响。我们分别计算了所选的6个特征的似然比， 876/9252 文本长度<50的优势= ≈0.10 在显著水平α=0.05的条件下，计算的结果如表4 8376/9252 所示。则0R=L:74 17.4,所以该特征对检测虚假评表4似然比测试表 0.10 Table 4 Likelihood ratio test 论的影响是非常显著的。特征的优势比如表3。变量 F2 Fs F 表310个候选特征及0R值 Table 3 Ten candidate features and OR G 21.5 7.3 11.5 14.5 13.6 8.2 变量赋值说明 OR 因为这6个变量的检验统计量都大于Xs,=3。文本长度≥50=1 84,所以可以得出如下结论，在其他5个变量不变的 17.4 文本长度<50=0 情况下，第6个变量对模型的影响是比较显著的，所 f 复杂=1，不复杂=0 5.31 以选取的这6个变量对虚假攻击检测具有一定的指 F 不关联=1，关联=0 0.34 导意义。 F 不一致=1，一致=0 3.87 6 实验分析 F 强烈=1，不强烈=0 7.68 Fo 不含=1.包含=0 15.6 本文借用Spss统计工具对实验数据进行分析， F 是=1，不是=0 2.87 采用对比实验的方式验证本文方法的有效性，由于 Fs 高=1，低=0 0.78 数据样本有限，我们采用五折交叉验证，分别与任亚 Fa 不一致=1，一致=0 7.46 峰等[)]提出的基于语言结构和情感极性的虚假评 F1o 附图=1，不附图=0 4.23 论识别方法和Feng等提出的基于句法结构的方

选方法来选择对逻辑回归模型影响最为显著的特征。５．１数据集在Ｌｉｕ［４］从Ａｍａｚｏｎ收集并整理的４１５１７９条评论数据的基础上，筛选出含有评论文本的１３２４６条评论作为本文的实验数据，其中包含虚假评论３４１２条，真实评论９８３４条，实验数据集如表１。表１实验数据表Ｔａｂｌｅ１Ｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｔａｂｌｅ数据类型条数虚假评论３４１２正常评论９８３４评论总数１３２４６５．２计算候选自变量的优势比为了检测哪些候选自变量对逻辑回归模型的影响更为显著，本文使用式（４）计算每个自变量的优比，以评论文本长度为例来说明优势比的计算步骤。表２文本长度分布表Ｔａｂｌｅ２Ｔｈｅｄｉｓｔｒｉｂｕｔｉｏｎｏｆｔｅｘｔｌｅｎｇｔｈ结果文本长度≥５０文本长度＜５０合计虚假评论２５３６８７６３４１２正常评论１４５８８３７６９８３４合计３９９４９２５２１３２４６文本长度≥５０的优势＝２５３６／３９９４１４５８／３９９４ ≈１．７４文本长度＜５０的优势＝８７６／９２５２８３７６／９２５２ ≈０．１０则ＯＲ＝１．７４０．１０＝１７．４，所以该特征对检测虚假评论的影响是非常显著的。特征的优势比如表３。表３１０个候选特征及ＯＲ值Ｔａｂｌｅ３ＴｅｎｃａｎｄｉｄａｔｅｆｅａｔｕｒｅｓａｎｄＯＲ变量赋值说明ＯＲＦ１文本长度≥５０＝１１７．４文本长度＜５０＝０Ｆ２复杂＝１，不复杂＝０５．３１Ｆ３不关联＝１，关联＝００．３４Ｆ４不一致＝１，一致＝０３．８７Ｆ５强烈＝１，不强烈＝０７．６８Ｆ６不含＝１，包含＝０１５．６Ｆ７是＝１，不是＝０２．８７Ｆ８高＝１，低＝００．７８Ｆ９不一致＝１，一致＝０７．４６Ｆ１０附图＝１，不附图＝０４．２３５．３模型检验为了判断选取的模型是否有效，需要对该模型进行检验。逻辑回归模型主要包含３种假设检验方法，分别是似然比检验、Ｗａｌｄ检验和计分检验，其中，似然比检验既适用于单个影响因素的假设检验，又适用于多个影响因素的同时检验；Ｗａｌｄ检验适合单个影响因素的检验；计分检验与传统的Ｍａｎｔｅｌ⁃ ｈａｅｎｓｚｅｌ检验结果相同，在小样本空间中比似然比检验更接近 χ ２分布；本文采用似然比检验方法对模型进行检验。似然比检验的原理是通过分析模型中变量变化对似然比的影响，依此来判断增加或者去除某个自变量是否对因变量有显著影响，检验统计量的公式如式（７）所示。Ｇ＝－２ [ｌｎ（Ｌｍ－１）－ｌｎ（Ｌｍ） ] （７）式中：ｌｎ（Ｌｍ－１）为不包含检验变量时模型的对数似然值，ｌｎ（Ｌｍ）为包含检验变量时模型的对数似然值．当检验一个变量时Ｇ服从自由度为１的 χ ２分布，当对整个模型进行检验时，就是相当于模型中所有的ｍ个变量的回归系数为０，Ｇ服从自由度为ｍ的 χ ２分布。如果检验结果为拒绝Ｈ０，则表示该影响因素对回归模型有统计学意义，即对事件发生有影响。我们分别计算了所选的６个特征的似然比，在显著水平 α ＝０．０５的条件下，计算的结果如表４所示。表４似然比测试表Ｔａｂｌｅ４Ｌｉｋｅｌｉｈｏｏｄｒａｔｉｏｔｅｓｔ变量Ｆ１Ｆ２Ｆ５Ｆ６Ｆ９Ｆ１０Ｇ２１．５７．３１１．５１４．５１３．６８．２因为这６个变量的检验统计量都大于 χ ２０．０５，１＝３．８４，所以可以得出如下结论，在其他５个变量不变的情况下，第６个变量对模型的影响是比较显著的，所以选取的这６个变量对虚假攻击检测具有一定的指导意义。６实验分析本文借用Ｓｐｓｓ统计工具对实验数据进行分析，采用对比实验的方式验证本文方法的有效性，由于数据样本有限，我们采用五折交叉验证，分别与任亚峰等［８］提出的基于语言结构和情感极性的虚假评论识别方法和Ｆｅｎｇ等［１４］提出的基于句法结构的方 ·３４０· 智能系统学报第１１卷

第3期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·341- 法进行对比，从而分析本文方法的优势和不足。本 0.95 文采用最为通用的3个评判指标来判断虚假检测的 0.90 0.85 优劣，即准确率、召回率和F,值。从图中可以发现中8申家子中 0.80 0.75 融合情感倾向和逻辑回归模型的虚假攻击检测方法 0.70 表现出了不错的性能。 0.65 0.60 -Suucted 1.0 CFG -。-Improved 0.9 0.50 045L 0 0.8 102030405060708090100 迭代次数 0.7 8 图4F1指数对比 0.6 -Strucled CFG Fig.4 F1_Measure comparison 0.5 -Improved 0.4 Feng等提出的基于句法结构的虚假评论检测 0102030405060708090100 算法相比于任亚峰等提出的算法又有明显的提高，迭代次数他们认为浅层次的句法模式是不可靠的，他们的工图2准确率对比作主要研究了深层次的句法模式，并在前人的研究基础之上加入了一些非常规的句法模式来构建语义 Fig.2 Accuracy comparison 树。他们又从4个不同数据集中利用文本句法树提任亚峰等认为传统的启发式策略或者全监督学取了几种不常见的语义特征，该方法使其检测精度习方法很难有效地解决虚假攻击的检测问题，他们分达到了91.2%，召回率也有明显提高。我们分析工析了虚假评论和真实评论之间在语言结构和情感极作性能提高的主要原因是，购物评论往往是不规则性的差异，借用经典的遗传算法对文本的书写结构和的，文本长度极短并且没有固定的书写模式，所以任亚峰等提出的基于简单语法模式的检测算法受到了情感极性两大主要特征进行优化选择，最终选择出了一定的限制，而Feng等正是针对评论文本和常规文 5个最为重要的特征，最后又根据这些特征结合无监本在句法上存在明显差异的前提下，利用语义树，挖督的硬聚类和软聚类算法实现了虚假评论的检测。掘深层的句法关系，构建出了专门用于分析评论短该方法的检测准确率有所提高，主要原因是在考虑情文本的语义树，使得检测性能得到大幅度提高。感极性和强度的同时，融合了评论文本的较为重要的本文方法相对于二者的研究方法准确率有所增 5个特征，使其分析的更加全面。该方法也有不足之加，而召回率比Feng等提出的方法的要差一些。本处，即没有突出哪些特征最为重要，如果能再把不同文方法首先提出了基于关联词（特别是转折词）的特征的权重考虑进去，检测的效果可能会更好。召回情感极性判别方法，以此来判断评论的情感是否出现转变、情感强度是否异常极端，然后又提取了10 率对比和F,指数对比见图3和图4。个候选的评论文本特征，经过极大似然检验后，选取 1.00 了6个最为重要的特征，最后使用逻辑回归模型对 0.95 评论进行检测，促使检测的准确率有所增大。但是 0.90 g。●李香严多字客召在加入更多特征使检测精度提高的同时，我们也发 0.85 现，召回率比Feng等的要低一些，原因可能是更多 0.80 的特征被加入了模型中，对数据的质量提出了更高 0.75 0.70 -Structed 的要求，如一些文本中可能不存在关联词这一特征。 -CFG 0.65 -o-Improved 7结束语 0102030405060708090100 迭代次数随着电子商务的蓬勃发展，研究者们对虚假评论检测作出了不懈的努力。针对评论文本过短，评图3召回率对比论随意等特点本文提出了融合关联词的情感倾向分 Fig.3 Recall comparison 析，然后再此基础上又分析了影响分类的6个特征，把这些特征应用于逻辑回归模型中实现了虚假评论

法进行对比，从而分析本文方法的优势和不足。本文采用最为通用的３个评判指标来判断虚假检测的优劣，即准确率、召回率和Ｆ１值。从图中可以发现融合情感倾向和逻辑回归模型的虚假攻击检测方法表现出了不错的性能。图２准确率对比Ｆｉｇ．２Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎ任亚峰等认为传统的启发式策略或者全监督学习方法很难有效地解决虚假攻击的检测问题，他们分析了虚假评论和真实评论之间在语言结构和情感极性的差异，借用经典的遗传算法对文本的书写结构和情感极性两大主要特征进行优化选择，最终选择出了５个最为重要的特征，最后又根据这些特征结合无监督的硬聚类和软聚类算法实现了虚假评论的检测。该方法的检测准确率有所提高，主要原因是在考虑情感极性和强度的同时，融合了评论文本的较为重要的５个特征，使其分析的更加全面。该方法也有不足之处，即没有突出哪些特征最为重要，如果能再把不同特征的权重考虑进去，检测的效果可能会更好。召回率对比和Ｆ１指数对比见图３和图４。图３召回率对比Ｆｉｇ．３Ｒｅｃａｌｌｃｏｍｐａｒｉｓｏｎ图４Ｆ１指数对比Ｆｉｇ．４Ｆ１＿ＭｅａｓｕｒｅｃｏｍｐａｒｉｓｏｎＦｅｎｇ等提出的基于句法结构的虚假评论检测算法相比于任亚峰等提出的算法又有明显的提高，他们认为浅层次的句法模式是不可靠的，他们的工作主要研究了深层次的句法模式，并在前人的研究基础之上加入了一些非常规的句法模式来构建语义树。他们又从４个不同数据集中利用文本句法树提取了几种不常见的语义特征，该方法使其检测精度达到了９１．２％，召回率也有明显提高。我们分析工作性能提高的主要原因是，购物评论往往是不规则的，文本长度极短并且没有固定的书写模式，所以任亚峰等提出的基于简单语法模式的检测算法受到了一定的限制，而Ｆｅｎｇ等正是针对评论文本和常规文本在句法上存在明显差异的前提下，利用语义树，挖掘深层的句法关系，构建出了专门用于分析评论短文本的语义树，使得检测性能得到大幅度提高。本文方法相对于二者的研究方法准确率有所增加，而召回率比Ｆｅｎｇ等提出的方法的要差一些。本文方法首先提出了基于关联词（特别是转折词）的情感极性判别方法，以此来判断评论的情感是否出现转变、情感强度是否异常极端，然后又提取了１０个候选的评论文本特征，经过极大似然检验后，选取了６个最为重要的特征，最后使用逻辑回归模型对评论进行检测，促使检测的准确率有所增大。但是在加入更多特征使检测精度提高的同时，我们也发现，召回率比Ｆｅｎｇ等的要低一些，原因可能是更多的特征被加入了模型中，对数据的质量提出了更高的要求，如一些文本中可能不存在关联词这一特征。７结束语随着电子商务的蓬勃发展，研究者们对虚假评论检测作出了不懈的努力。针对评论文本过短，评论随意等特点本文提出了融合关联词的情感倾向分析，然后再此基础上又分析了影响分类的６个特征，把这些特征应用于逻辑回归模型中实现了虚假评论第３期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·３４１·

.342. 智能系统学报第11卷的检测，该方法取得了不错的效果。但该模型还有 [10]GAO Jian,DONG Yuwei,SHANG Mingsheng,et al. 待改进，首先，文本的极性判别方式过于粗糙，只是 Group-based ranking method for online rating systems with 考虑了文本中的否定词和关联词，没有特别注重分 spamming attacks[J].EPL (europhysics letters),2015, 110(2):28003. 析程度副词，只分析了文本的极性，却没有定量分析 [11]唐波，陈光，王星雅，等.微博新词发现及情感倾向性其情感强度；其次，模型中没有动态地考虑评论情判断分析[J].山东大学学报：理学版，2015,50(1)：况，研究表明，不诚实的商家往往在开办网店的初期 20-25. 雇佣虚假评论人员通过刷单的方式提高自己的信 TANG Bo,CHEN Guang,WANG Xingya,et al.Analysis 誉，所以虚假评论往往发生在电商经营的初期。最 on new word detection and sentiment orientation in Micro- 后，可能评论文本中还隐藏着许多其他的因素可以 blog[J].Journal of Shandong university:nature science, 2015,50(1):20-25. 提高检测的精度，下一步的工作将主要集中在这3 [12]何凤英.基于语义理解的中文博文倾向性分析[J].计个方面。算机应用，2011,31(8)：2130-2133,2137. 参考文献： HE Fengying.Orientation analysis for Chinese blog text based on semantic comprehension[J].Journal of computer [1]KOLCZ A,ALSPECTOR J.SVM-based filtering of E-mail application,2011,31(8):2130-2133,2137. spam with content specific misclassification costs[C]//Pro- [13]邸鹏，李爱萍，段利国.基于转折句式的文本情感倾向 ceedings of ICDM-2001 Workshop on Text Mining.Dallas, 性分析[J].计算机工程与设计，2014,35(12)：4289- USA,2001:324-332. 4295. [2]BECCHETTI L,CASTILLO C,DONATO D,et al.Link- DI Peng,LI Aiping,DUAN Liguo.Text sentiment polarity based characterization and detection of web spam[C]//Ad- analysis based on transition sentence[J].Computer engi- versarial Information Retrieval on the Web.Washington, neering and design,2014,35(12):4289-4295. USA,2006:1012-1021. [14]FENG Song,BANERJEE R,CHOI Y.Syntactic stylometry [3]JINDAL N,LIU Bing.Review spam detection [C]//Pro- for deception detection[C]//Proceedings of the 50th An- ceedings of the 16th International Conference on World nual Meeting of the Association for Computational Linguis- Wide Web.Alberta,Canada,2007:1189-1190. tics:Short Papers-Volume 2.Jeju,Korea,2012:171-175. [4]JINDAL N,LIU Bing,et al.Opinion spam and analysis [15]LI Jiwei,CARDIE C,LI Sujian.TopicSpam:a topic-mod- [C]//Proceedings of the 2008 International Conference on el-based approach for spam detection[C]//Proceedings of Web Search and Data Mining.California,USA,2008:219. the 51st Annual Meeting of the Association for Computa- 230. tional Linguistics.Sofi,Bulgaria,2013:217-221. [5]WU Fang,HUBERMAN B A.Opinion information under [16]JINDAL N,LIU Bing,LIM E P.Finding unusual review costly express[J].ACM transactions on intelligence systems patterns using unexpected rules[C]//Proceedings of the and technology,2010,1(1):5. 19th ACM International Conference on Information and [6]谭文堂，朱洪，葛斌，等.垃圾评论自动过滤方法[J] Knowledge Management.Ontario,Canada,2010:1549- 国防科技大学学报，2012,34(5)：153-157,168. 1552. TAN Wentang,ZHU Hong,GE Bin,et al.Method of re- [17]JO Y,OH A H.Aspect and sentiment unification model for view spam detectionJ.Journal of national university of de- online review analysis [C]//Proceedings of the 4th ACM fense technology,2012,34(5):153-157,168. International Conference on Web Search and Data Mining. [7]OTT M.CHOI Y,CARIDIE C,et al.Finding deceptive o- New York,USA,2011:815-824. pinion spam by any stretch of the imagination C//Pro- 作者简介： ceedings of the 49th Annual Meeting of the Association for 赵军，男，1989年生，硕士研究生， Computational Linguistics:human language technologies. 主要研究方向为大数据、数据挖掘、机 Portland,USA,2011,1:309-319. 器学习。 [8]任亚峰，尹兰，姬东鸿.基于语言结构和情感极性的虚假评论识别J].计算机科学与探索，2014,8(3)：313- 320. REN Yafeng,YIN Lan,JI Donghong.Deceptive reviews de- tection based on language structure and sentiment polarity J.Journal of frontiers of computer science and technolo- 王红，女，1966年生，教授，博士生 ,2014,8(3):313-320. 导师，主要研究方向为大数据、复杂网 [9]WANG Guan,XIE Sihong,LIU Bing,et al.Identify online 络数据挖掘。主持国家自然基金项目 store review spammers via social review graph[J].ACM Trans- 1项，参与国家自然基金项目3项，主持 actions on intelligent systems and technology,2012,3(4):61. 省级基金项目6项，发表学术论文 43篇

的检测，该方法取得了不错的效果。但该模型还有待改进，首先，文本的极性判别方式过于粗糙，只是考虑了文本中的否定词和关联词，没有特别注重分析程度副词，只分析了文本的极性，却没有定量分析其情感强度；其次，模型中没有动态地考虑评论情况，研究表明，不诚实的商家往往在开办网店的初期雇佣虚假评论人员通过刷单的方式提高自己的信誉，所以虚假评论往往发生在电商经营的初期。最后，可能评论文本中还隐藏着许多其他的因素可以提高检测的精度，下一步的工作将主要集中在这３个方面。参考文献：［１］ＫＯＬＣＺＡ，ＡＬＳＰＥＣＴＯＲＪ．ＳＶＭ⁃ｂａｓｅｄｆｉｌｔｅｒｉｎｇｏｆＥ⁃ｍａｉｌｓｐａｍｗｉｔｈｃｏｎｔｅｎｔｓｐｅｃｉｆｉｃｍｉｓｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｓｔｓ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆＩＣＤＭ⁃２００１ＷｏｒｋｓｈｏｐｏｎＴｅｘｔＭｉｎｉｎｇ．Ｄａｌｌａｓ，ＵＳＡ，２００１：３２４⁃３３２．［２］ＢＥＣＣＨＥＴＴＩＬ，ＣＡＳＴＩＬＬＯＣ，ＤＯＮＡＴＯＤ，ｅｔａｌ．Ｌｉｎｋ⁃ ｂａｓｅｄｃｈａｒａｃｔｅｒｉｚａｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｏｆｗｅｂｓｐａｍ［Ｃ］／／Ａｄ⁃ ｖｅｒｓａｒｉａｌＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌｏｎｔｈｅＷｅｂ．Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ，２００６：１０１２⁃１０２１．［３］ＪＩＮＤＡＬＮ，ＬＩＵＢｉｎｇ．Ｒｅｖｉｅｗｓｐａｍｄｅｔｅｃｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．Ａｌｂｅｒｔａ，Ｃａｎａｄａ，２００７：１１８９⁃１１９０．［４］ＪＩＮＤＡＬＮ，ＬＩＵＢｉｎｇ，ｅｔａｌ．Ｏｐｉｎｉｏｎｓｐａｍａｎｄａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ，２００８：２１９⁃ ２３０．［５］ＷＵＦａｎｇ，ＨＵＢＥＲＭＡＮＢＡ．Ｏｐｉｎｉｏｎｉｎｆｏｒｍａｔｉｏｎｕｎｄｅｒｃｏｓｔｌｙｅｘｐｒｅｓｓ［Ｊ］．ＡＣＭｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｃｅｓｙｓｔｅｍｓａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１０，１（１）：５．［６］谭文堂，朱洪，葛斌，等．垃圾评论自动过滤方法［Ｊ］．国防科技大学学报，２０１２，３４（５）：１５３⁃１５７，１６８．ＴＡＮＷｅｎｔａｎｇ，ＺＨＵＨｏｎｇ，ＧＥＢｉｎ，ｅｔａｌ．Ｍｅｔｈｏｄｏｆｒｅ⁃ ｖｉｅｗｓｐａｍｄｅｔｅｃｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｎａｔｉｏｎａｌｕｎｉｖｅｒｓｉｔｙｏｆｄｅ⁃ ｆｅｎｓｅｔｅｃｈｎｏｌｏｇｙ，２０１２，３４（５）：１５３⁃１５７，１６８．［７］ＯＴＴＭ，ＣＨＯＩＹ，ＣＡＲＩＤＩＥＣ，ｅｔａｌ．Ｆｉｎｄｉｎｇｄｅｃｅｐｔｉｖｅｏ⁃ ｐｉｎｉｏｎｓｐａｍｂｙａｎｙｓｔｒｅｔｃｈｏｆｔｈｅｉｍａｇｉｎａｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ４９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ｈｕｍａｎｌａｎｇｕａｇｅｔｅｃｈｎｏｌｏｇｉｅｓ．Ｐｏｒｔｌａｎｄ，ＵＳＡ，２０１１，１：３０９⁃３１９．［８］任亚峰，尹兰，姬东鸿．基于语言结构和情感极性的虚假评论识别［Ｊ］．计算机科学与探索，２０１４，８（３）：３１３⁃ ３２０．ＲＥＮＹａｆｅｎｇ，ＹＩＮＬａｎ，ＪＩＤｏｎｇｈｏｎｇ．Ｄｅｃｅｐｔｉｖｅｒｅｖｉｅｗｓｄｅ⁃ ｔｅｃｔｉｏｎｂａｓｅｄｏｎｌａｎｇｕａｇｅｓｔｒｕｃｔｕｒｅａｎｄｓｅｎｔｉｍｅｎｔｐｏｌａｒｉｔｙ［Ｊ］．Ｊｏｕｒｎａｌｏｆｆｒｏｎｔｉｅｒｓｏｆｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏ⁃ ｇｙ，２０１４，８（３）：３１３⁃３２０．［９］ＷＡＮＧＧｕａｎ，ＸＩＥＳｉｈｏｎｇ，ＬＩＵＢｉｎｇ，ｅｔａｌ．Ｉｄｅｎｔｉｆｙｏｎｌｉｎｅｓｔｏｒｅｒｅｖｉｅｗｓｐａｍｍｅｒｓｖｉａｓｏｃｉａｌｒｅｖｉｅｗｇｒａｐｈ［Ｊ］．ＡＣＭＴｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１２，３（４）：６１．［１０］ＧＡＯＪｉａｎ，ＤＯＮＧＹｕｗｅｉ，ＳＨＡＮＧＭｉｎｇｓｈｅｎｇ，ｅｔａｌ．Ｇｒｏｕｐ⁃ｂａｓｅｄｒａｎｋｉｎｇｍｅｔｈｏｄｆｏｒｏｎｌｉｎｅｒａｔｉｎｇｓｙｓｔｅｍｓｗｉｔｈｓｐａｍｍｉｎｇａｔｔａｃｋｓ［Ｊ］．ＥＰＬ（ｅｕｒｏｐｈｙｓｉｃｓｌｅｔｔｅｒｓ），２０１５，１１０（２）：２８００３．［１１］唐波，陈光，王星雅，等．微博新词发现及情感倾向性判断分析［Ｊ］．山东大学学报：理学版，２０１５，５０（１）：２０⁃２５．ＴＡＮＧＢｏ，ＣＨＥＮＧｕａｎｇ，ＷＡＮＧＸｉｎｇｙａ，ｅｔａｌ．ＡｎａｌｙｓｉｓｏｎｎｅｗｗｏｒｄｄｅｔｅｃｔｉｏｎａｎｄｓｅｎｔｉｍｅｎｔｏｒｉｅｎｔａｔｉｏｎｉｎＭｉｃｒｏ⁃ ｂｌｏｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｈａｎｄｏｎｇｕｎｉｖｅｒｓｉｔｙ：ｎａｔｕｒｅｓｃｉｅｎｃｅ，２０１５，５０（１）：２０⁃２５．［１２］何凤英．基于语义理解的中文博文倾向性分析［Ｊ］．计算机应用，２０１１，３１（８）：２１３０⁃２１３３，２１３７．ＨＥＦｅｎｇｙｉｎｇ．ＯｒｉｅｎｔａｔｉｏｎａｎａｌｙｓｉｓｆｏｒＣｈｉｎｅｓｅｂｌｏｇｔｅｘｔｂａｓｅｄｏｎｓｅｍａｎｔｉｃｃｏｍｐｒｅｈｅｎｓｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎ，２０１１，３１（８）：２１３０⁃２１３３，２１３７．［１３］邸鹏，李爱萍，段利国．基于转折句式的文本情感倾向性分析［Ｊ］．计算机工程与设计，２０１４，３５（１２）：４２８９⁃ ４２９５．ＤＩＰｅｎｇ，ＬＩＡｉｐｉｎｇ，ＤＵＡＮＬｉｇｕｏ．Ｔｅｘｔｓｅｎｔｉｍｅｎｔｐｏｌａｒｉｔｙａｎａｌｙｓｉｓｂａｓｅｄｏｎｔｒａｎｓｉｔｉｏｎｓｅｎｔｅｎｃｅ［Ｊ］．Ｃｏｍｐｕｔｅｒｅｎｇｉ⁃ ｎｅｅｒｉｎｇａｎｄｄｅｓｉｇｎ，２０１４，３５（１２）：４２８９⁃４２９５．［１４］ＦＥＮＧＳｏｎｇ，ＢＡＮＥＲＪＥＥＲ，ＣＨＯＩＹ．Ｓｙｎｔａｃｔｉｃｓｔｙｌｏｍｅｔｒｙｆｏｒｄｅｃｅｐｔｉｏｎｄｅｔｅｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５０ｔｈＡｎ⁃ ｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓ⁃ ｔｉｃｓ：ＳｈｏｒｔＰａｐｅｒｓ⁃Ｖｏｌｕｍｅ２．Ｊｅｊｕ，Ｋｏｒｅａ，２０１２：１７１⁃１７５．［１５］ＬＩＪｉｗｅｉ，ＣＡＲＤＩＥＣ，ＬＩＳｕｊｉａｎ．ＴｏｐｉｃＳｐａｍ：ａｔｏｐｉｃ⁃ｍｏｄ⁃ ｅｌ⁃ｂａｓｅｄａｐｐｒｏａｃｈｆｏｒｓｐａｍｄｅｔｅｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５１ｓｔＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｏｆｉ，Ｂｕｌｇａｒｉａ，２０１３：２１７⁃２２１．［１６］ＪＩＮＤＡＬＮ，ＬＩＵＢｉｎｇ，ＬＩＭＥＰ．Ｆｉｎｄｉｎｇｕｎｕｓｕａｌｒｅｖｉｅｗｐａｔｔｅｒｎｓｕｓｉｎｇｕｎｅｘｐｅｃｔｅｄｒｕｌｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ．Ｏｎｔａｒｉｏ，Ｃａｎａｄａ，２０１０：１５４９⁃ １５５２．［１７］ＪＯＹ，ＯＨＡＨ．Ａｓｐｅｃｔａｎｄｓｅｎｔｉｍｅｎｔｕｎｉｆｉｃａｔｉｏｎｍｏｄｅｌｆｏｒｏｎｌｉｎｅｒｅｖｉｅｗａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ，２０１１：８１５⁃８２４．作者简介：赵军，男，１９８９年生，硕士研究生，主要研究方向为大数据、数据挖掘、机器学习。王红，女，１９６６年生，教授，博士生导师，主要研究方向为大数据、复杂网络、数据挖掘。主持国家自然基金项目１项，参与国家自然基金项目３项，主持省级基金项目６项，发表学术论文４３篇。 ·３４２· 智能系统学报第１１卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录