入影响模型的自变量，每次都是引入对Ｙ影响最为显著的自变量，并对方程中

正在加载图片...

第3期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 .339. 入影响模型的自变量，每次都是引入对Y影响最为 4 评论文本特征工程显著的自变量，并对方程中存在的变量逐个进行检验，把变为不显著的变量逐个从模型中删除，最终，这里首先提出可能影响虚假评论的10个特征，使得模型中存在的变量是对Y影响最为显著的变然后使用逐步回归方法计算哪个特征对其影响严量，筛选的步骤如下：首先给出引入变量的显著性水重，10个特征如下。平an和剔除变量的显著性水平am,然后按下图1 文本长度(F)统计评论文本中的文字个数，进行筛选，筛选过程如下。正常用户一般懒于评论只给出评分或给出简短的评论文本，而虚假评论者为了提高或贬低某件商品，需开始要写下比较冗长的评论文本。复杂度(F,)评论文本的复杂度是指文本中对不在方程中的变量心所使用词汇的复杂度，一般认为正常用户所使用的考虑是否引人评论词汇比较简单，而虚假评论的词汇相对比较复杂和专业。引入变量筛选结果关联度(F,)评论关联度是指评论文本与被评论商品的相关程度，有些虚假评论者为了完成评对已在方程中的变量论字数要求，常常会复制一些与商品无关的文本来考虑是否删除完成虚假评论任务。 Y 一致性(F,)一致性评论文本的情感强度与删除变量所给评分的相似度，是探测随机评论的重要特征。情感强度(F,)情感强度是指评论文本中的图1变量筛选流程图情感极性强度，普通用户的评论情感比较公正，而虚 Fig.1 Flow chart of variable selection 假评论的情感强度比较激烈。 1)设仅有截距项的最大似然估计值为L。,分别是否包含转折词(F,)正常用户可能对产品计算m个变量的Score检测值，设有最小P值的变的部分性能指标是满意的，而对另外的某些特征是量为X,且有P.=min(P),若P<aa,则此变量进不太满意的，所以他们的评论中常常包含转折词，而入逻辑回归模型，不然停止。如果此变量是名义变虚假评论者的情感极性高度一致，很少会有情感的量单面化的变量，则此变量的其他单面化变量也会逆转。进入模型，其中表示要引入变量的显著性水平。复制文本(F,)虚假评论者为了快速完成自 2)为了确定当变量X。,在模型中时其他m-1个己的虚假攻击任务，往往会把某个商品的虚假评论变量是否也重要，将X,j=1,2,…,m,j≠e分别与复制对商品以不同的消费者身份进行评论。 X进行拟合。对m-1个变量分别计算Score检测用户信誉(Fg)某个用户的信誉是由他所发值，其P值设为P,。设有最小P值的变量为X2,且表的评论被其他消费者采纳的数量决定的，如果采有P2=min(P)。若P2<a。,则进入下一步，否则停纳该用户的人数越多，说明其信誉越高。初评和追评的一致性(F。)正常评论者在初止迭代。评时一般只是从商品的外观给商品进行评分，对该 3)此时的模型中已经包含X和X,两个变量，商品使用一定时间后，可能会给出更加具有意义的但是我们应该注意到，在引入变量X2之后，变量X 追评：而虚假评论者的初评和追评儿乎是同时完可能不再是显著性变量，我们应该使用Wald检验成的。分别计算它们的显著值和响应的P值。如果P值附广告图片(F。)现在商家为了提高商品信大于α，则此变量从模型中删除，否则停止迭代誉，还会进行“好评晒图返现”活动，普通正常用户计算；很少拍图上传，而虚假评论中往往会伴随着图片的 4)依次进行迭代计算，每当向前选择一个变量出现，我们认为评论附图的评论很可疑。进入后，都进行向后删除的检查，循环终止的条件是：模型中的所有自变量的P值都小于m,被删除 5特征选择自变量的P值都大于aa 本文主要使用优势比(OR)和逐步回归变量筛入影响模型的自变量，每次都是引入对Ｙ影响最为显著的自变量，并对方程中存在的变量逐个进行检验，把变为不显著的变量逐个从模型中删除，最终，使得模型中存在的变量是对Ｙ影响最为显著的变量，筛选的步骤如下：首先给出引入变量的显著性水平 αｉｎ和剔除变量的显著性水平 αｏｕｔ，然后按下图１进行筛选，筛选过程如下。图１变量筛选流程图Ｆｉｇ．１Ｆｌｏｗｃｈａｒｔｏｆｖａｒｉａｂｌｅｓｅｌｅｃｔｉｏｎ１）设仅有截距项的最大似然估计值为Ｌ０，分别计算ｍ个变量的Ｓｃｏｒｅ检测值，设有最小Ｐ值的变量为Ｘｅ１，且有Ｐｅ１＝ｍｉｎＰｊ ( ) ，若Ｐｅ１＜αｉｎ，则此变量进入逻辑回归模型，不然停止。如果此变量是名义变量单面化的变量，则此变量的其他单面化变量也会进入模型，其中 αｉｎ表示要引入变量的显著性水平。２）为了确定当变量Ｘｅ１在模型中时其他ｍ－１个变量是否也重要，将Ｘｊ，ｊ＝１，２，…，ｍ，ｊ≠ｅ分别与Ｘｅ１进行拟合。对ｍ－１个变量分别计算Ｓｃｏｒｅ检测值，其Ｐ值设为Ｐｊ。设有最小Ｐ值的变量为Ｘｅ２，且有Ｐｅ２＝ｍｉｎＰｊ ( ) 。若Ｐｅ２＜αｉｎ，则进入下一步，否则停止迭代。３）此时的模型中已经包含Ｘｅ１和Ｘｅ２两个变量，但是我们应该注意到，在引入变量Ｘｅ２之后，变量Ｘｅ１可能不再是显著性变量，我们应该使用Ｗａｌｄ检验分别计算它们的显著值和响应的Ｐ值。如果Ｐ值大于 αｏｕｔ，则此变量从模型中删除，否则停止迭代计算；４）依次进行迭代计算，每当向前选择一个变量进入后，都进行向后删除的检查，循环终止的条件是：模型中的所有自变量的Ｐ值都小于 αｏｕｔ，被删除自变量的Ｐ值都大于 αｉｎ。４评论文本特征工程这里首先提出可能影响虚假评论的１０个特征，然后使用逐步回归方法计算哪个特征对其影响严重，１０个特征如下。文本长度（Ｆ１）统计评论文本中的文字个数，正常用户一般懒于评论只给出评分或给出简短的评论文本，而虚假评论者为了提高或贬低某件商品，需要写下比较冗长的评论文本。复杂度（Ｆ２）评论文本的复杂度是指文本中所使用词汇的复杂度，一般认为正常用户所使用的评论词汇比较简单，而虚假评论的词汇相对比较复杂和专业。关联度（Ｆ３）评论关联度是指评论文本与被评论商品的相关程度，有些虚假评论者为了完成评论字数要求，常常会复制一些与商品无关的文本来完成虚假评论任务。一致性（Ｆ４）一致性评论文本的情感强度与所给评分的相似度，是探测随机评论的重要特征。情感强度（Ｆ５）情感强度是指评论文本中的情感极性强度，普通用户的评论情感比较公正，而虚假评论的情感强度比较激烈。是否包含转折词（Ｆ６）正常用户可能对产品的部分性能指标是满意的，而对另外的某些特征是不太满意的，所以他们的评论中常常包含转折词，而虚假评论者的情感极性高度一致，很少会有情感的逆转。复制文本（Ｆ７）虚假评论者为了快速完成自己的虚假攻击任务，往往会把某个商品的虚假评论复制对商品以不同的消费者身份进行评论。用户信誉（Ｆ８）某个用户的信誉是由他所发表的评论被其他消费者采纳的数量决定的，如果采纳该用户的人数越多，说明其信誉越高。初评和追评的一致性（Ｆ９）正常评论者在初评时一般只是从商品的外观给商品进行评分，对该商品使用一定时间后，可能会给出更加具有意义的追评；而虚假评论者的初评和追评几乎是同时完成的。附广告图片（Ｆ１０）现在商家为了提高商品信誉，还会进行“好评晒图返现”活动，普通正常用户很少拍图上传，而虚假评论中往往会伴随着图片的出现，我们认为评论附图的评论很可疑。５特征选择本文主要使用优势比（ＯＲ）和逐步回归变量筛第３期赵军，等：融合情感极性和逻辑回归的虚假评论检测方法 ·３３９·

<<向上翻页向下翻页>>

点击下载：【智能系统】融合情感极性和逻辑回归的虚假评论检测方法编辑部