正在加载图片...
第3期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 .339. 入影响模型的自变量,每次都是引入对Y影响最为 4 评论文本特征工程 显著的自变量,并对方程中存在的变量逐个进行检 验,把变为不显著的变量逐个从模型中删除,最终, 这里首先提出可能影响虚假评论的10个特征, 使得模型中存在的变量是对Y影响最为显著的变 然后使用逐步回归方法计算哪个特征对其影响严 量,筛选的步骤如下:首先给出引入变量的显著性水 重,10个特征如下。 平an和剔除变量的显著性水平am,然后按下图1 文本长度(F)统计评论文本中的文字个数, 进行筛选,筛选过程如下。 正常用户一般懒于评论只给出评分或给出简短的评 论文本,而虚假评论者为了提高或贬低某件商品,需 开始 要写下比较冗长的评论文本。 复杂度(F,)评论文本的复杂度是指文本中 对不在方程中的变量心 所使用词汇的复杂度,一般认为正常用户所使用的 考虑是否引人 评论词汇比较简单,而虚假评论的词汇相对比较复 杂和专业。 引入变量 筛选结果 关联度(F,)评论关联度是指评论文本与被 评论商品的相关程度,有些虚假评论者为了完成评 对已在方程中的变量 论字数要求,常常会复制一些与商品无关的文本来 考虑是否删除 完成虚假评论任务。 Y 一致性(F,)一致性评论文本的情感强度与 删除变量 所给评分的相似度,是探测随机评论的重要特征。 情感强度(F,)情感强度是指评论文本中的 图1变量筛选流程图 情感极性强度,普通用户的评论情感比较公正,而虚 Fig.1 Flow chart of variable selection 假评论的情感强度比较激烈。 1)设仅有截距项的最大似然估计值为L。,分别 是否包含转折词(F,)正常用户可能对产品 计算m个变量的Score检测值,设有最小P值的变 的部分性能指标是满意的,而对另外的某些特征是 量为X,且有P.=min(P),若P<aa,则此变量进 不太满意的,所以他们的评论中常常包含转折词,而 入逻辑回归模型,不然停止。如果此变量是名义变 虚假评论者的情感极性高度一致,很少会有情感的 量单面化的变量,则此变量的其他单面化变量也会 逆转。 进入模型,其中表示要引入变量的显著性水平。 复制文本(F,)虚假评论者为了快速完成自 2)为了确定当变量X。,在模型中时其他m-1个 己的虚假攻击任务,往往会把某个商品的虚假评论 变量是否也重要,将X,j=1,2,…,m,j≠e分别与 复制对商品以不同的消费者身份进行评论。 X进行拟合。对m-1个变量分别计算Score检测 用户信誉(Fg)某个用户的信誉是由他所发 值,其P值设为P,。设有最小P值的变量为X2,且 表的评论被其他消费者采纳的数量决定的,如果采 有P2=min(P)。若P2<a。,则进入下一步,否则停 纳该用户的人数越多,说明其信誉越高。 初评和追评的一致性(F。)正常评论者在初 止迭代。 评时一般只是从商品的外观给商品进行评分,对该 3)此时的模型中已经包含X和X,两个变量, 商品使用一定时间后,可能会给出更加具有意义的 但是我们应该注意到,在引入变量X2之后,变量X 追评:而虚假评论者的初评和追评儿乎是同时完 可能不再是显著性变量,我们应该使用Wald检验 成的。 分别计算它们的显著值和响应的P值。如果P值 附广告图片(F。)现在商家为了提高商品信 大于α,则此变量从模型中删除,否则停止迭代 誉,还会进行“好评晒图返现”活动,普通正常用户 计算; 很少拍图上传,而虚假评论中往往会伴随着图片的 4)依次进行迭代计算,每当向前选择一个变量 出现,我们认为评论附图的评论很可疑。 进入后,都进行向后删除的检查,循环终止的条件 是:模型中的所有自变量的P值都小于m,被删除 5特征选择 自变量的P值都大于aa 本文主要使用优势比(OR)和逐步回归变量筛入影响模型的自变量,每次都是引入对 Y 影响最为 显著的自变量,并对方程中存在的变量逐个进行检 验,把变为不显著的变量逐个从模型中删除,最终, 使得模型中存在的变量是对 Y 影响最为显著的变 量,筛选的步骤如下:首先给出引入变量的显著性水 平 αin 和剔除变量的显著性水平 αout,然后按下图 1 进行筛选,筛选过程如下。 图 1 变量筛选流程图 Fig.1 Flow chart of variable selection 1)设仅有截距项的最大似然估计值为 L0 ,分别 计算 m 个变量的 Score 检测值,设有最小 P 值的变 量为 Xe1 ,且有 Pe1 =min Pj ( ) ,若 Pe1<αin ,则此变量进 入逻辑回归模型,不然停止。 如果此变量是名义变 量单面化的变量,则此变量的其他单面化变量也会 进入模型,其中 αin表示要引入变量的显著性水平。 2)为了确定当变量 Xe1在模型中时其他 m-1 个 变量是否也重要,将 Xj,j = 1,2,…,m,j≠e 分别与 Xe1进行拟合。 对 m-1 个变量分别计算 Score 检测 值,其 P 值设为 Pj。 设有最小 P 值的变量为 Xe2 ,且 有 Pe2 =min Pj ( ) 。 若 Pe2<αin ,则进入下一步,否则停 止迭代。 3)此时的模型中已经包含 Xe1和 Xe2两个变量, 但是我们应该注意到,在引入变量 Xe2之后,变量 Xe1 可能不再是显著性变量,我们应该使用 Wald 检验 分别计算它们的显著值和响应的 P 值。 如果 P 值 大于 αout,则此变量从模型中删除,否则停止迭代 计算; 4)依次进行迭代计算,每当向前选择一个变量 进入后,都进行向后删除的检查,循环终止的条件 是:模型中的所有自变量的 P 值都小于 αout,被删除 自变量的 P 值都大于 αin 。 4 评论文本特征工程 这里首先提出可能影响虚假评论的 10 个特征, 然后使用逐步回归方法计算哪个特征对其影响严 重,10 个特征如下。 文本长度(F1 ) 统计评论文本中的文字个数, 正常用户一般懒于评论只给出评分或给出简短的评 论文本,而虚假评论者为了提高或贬低某件商品,需 要写下比较冗长的评论文本。 复杂度(F2 ) 评论文本的复杂度是指文本中 所使用词汇的复杂度,一般认为正常用户所使用的 评论词汇比较简单,而虚假评论的词汇相对比较复 杂和专业。 关联度(F3 ) 评论关联度是指评论文本与被 评论商品的相关程度,有些虚假评论者为了完成评 论字数要求,常常会复制一些与商品无关的文本来 完成虚假评论任务。 一致性(F4 ) 一致性评论文本的情感强度与 所给评分的相似度,是探测随机评论的重要特征。 情感强度(F5 ) 情感强度是指评论文本中的 情感极性强度,普通用户的评论情感比较公正,而虚 假评论的情感强度比较激烈。 是否包含转折词(F6 ) 正常用户可能对产品 的部分性能指标是满意的,而对另外的某些特征是 不太满意的,所以他们的评论中常常包含转折词,而 虚假评论者的情感极性高度一致,很少会有情感的 逆转。 复制文本(F7 ) 虚假评论者为了快速完成自 己的虚假攻击任务,往往会把某个商品的虚假评论 复制对商品以不同的消费者身份进行评论。 用户信誉(F8 ) 某个用户的信誉是由他所发 表的评论被其他消费者采纳的数量决定的,如果采 纳该用户的人数越多,说明其信誉越高。 初评和追评的一致性(F9 ) 正常评论者在初 评时一般只是从商品的外观给商品进行评分,对该 商品使用一定时间后,可能会给出更加具有意义的 追评;而虚假评论者的初评和追评几乎是同时完 成的。 附广告图片(F10 ) 现在商家为了提高商品信 誉,还会进行“好评晒图返现”活动,普通正常用户 很少拍图上传,而虚假评论中往往会伴随着图片的 出现,我们认为评论附图的评论很可疑。 5 特征选择 本文主要使用优势比(OR)和逐步回归变量筛 第 3 期 赵军,等:融合情感极性和逻辑回归的虚假评论检测方法 ·339·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有