邸鹏等［１３］曾提出了基于转折句式的文本分析方法，他们的任务主要是基于长

正在加载图片...

.338. 智能系统学报第11卷邸鹏等)曾提出了基于转折句式的文本分析 0 真实评论 Y= 方法，他们的任务主要是基于长文本的情感分析，所 1, 虚假评论以考虑上下文的转折关系是很有效的。但是他们的自变量为X,X2,…,Xm,P表示在m个自变量作用方法直接应用于评论文本是不合理的，因为评论文下事件发生的概率。想找到P与自变量的关系，如本往往是一两句话的超短文本，无从考虑上下文信果用多元线性回归方程。息，所以本文提出了基于关联词的分析方法，把分析 Y=b。+b1X1+b2X2+…+bnX。 (1) 的单位缩小到词语级别，着重分析关联词前后的情无论b:和X,取任何实数，ln(P/Q)值都可以与0~1 感极性，其过程如算法1所示。范围内的P值相对应。算法1 Review Text Orientation Analysis =bo+bX,+b2X2+…+bX。(2) 输入Review Text 输出Review Orientation e6o+b1X1+h22t…+bpp P=- 1+eo+6+2+…+6 (3) str←-{ReviewText}; While(str.read()) 我们将所研究的问题转换一个角度，不是直接 For all ie str.Length DO 分析Y与X的关系，而是分析Y取某个值的概率P IF (str.words,Review Dictionary)THEN 与X的关系。令Y为1、0变量，Y=0表示正常评 S0←0：EXIT; 论，Y=1表示虚假评论，X是与虚假评论有关的因 ELSE 素。如果P表示虚假攻击的概率，那么研究虚假攻 IF (str.words,E NegDictionary)THEN 击的概率P与X有关因素的关系就相对简单一些。 IF(count %2 =0)THEN 3.1变量选取的衡量标准 WO,←-W0:; 优势比OR(odds ratio)是流行病衡量危险因素 ELSE WO,←--WO:; 作用大小的比数比例指标，其计算公式为 IF (str.words;E AdjDictionary)THEN P/(1-P) (4) WO.←-WO,*Wadj 0R,P/1-P) 式中：P,和P。分别表示在X,取值为c1及c。存在虚 IF(str.words,E Adversative)THEN 假攻击的概率，OR,称作多变量调整后的优势比，表 W0←--W0:; 示扣除了其他自变量影响后的危险因素的作用。对 END ELSE 比某一个危险因素两个不同暴露水平X=c1与X,= S0= WO,/N=st.Length c。的虚假攻击情况（假设其他因素的水平相同），其 i=1 END FOR 优势比的自然对数为式(5)： END WHILE:; 「P/(1-P) In OR;=In logitP-logitPo P/(1-Po) 3逻辑回归模型 (5) 在现实生活中经常需要分析离散变量问题，本 1 若文关心的是，哪些因素对虚假检测的影响因素更明 x= 虚假评论 0. 正常评论显，这类问题实质上是一个回归问题，因变量就是上 ci-co=1 述提到的这些离散变量，自变量X是与之有关的一则些因素。因为因变量是离散的，不能直接使用线性 OR,expB, 回归分析方法解决，这时最好的解决方案是Logistic =0, OR=1无作用回归模型，它对因变量的分布没有要求。与线性回 B>0, OR,>1虚假评论 (6) 归分析相似，Logistic回归分析的基本原理就是利用 <0, OR<1正常评论一组数据拟合一个Logistic回归模型，然后借助这个 3.2变量选择模型揭示总体中若干个自变量与一个因变量取某个使用逻辑回归模型时，主要有3种选择变量的值的概率之间的关系。因变量Y是一个二值变量，方式：前向选择、后向选择和逐步回归。本文采用逐取值为步回归的方式进行变量选择，其基本思想是逐个引邸鹏等［１３］曾提出了基于转折句式的文本分析方法，他们的任务主要是基于长文本的情感分析，所以考虑上下文的转折关系是很有效的。但是他们的方法直接应用于评论文本是不合理的，因为评论文本往往是一两句话的超短文本，无从考虑上下文信息，所以本文提出了基于关联词的分析方法，把分析的单位缩小到词语级别，着重分析关联词前后的情感极性，其过程如算法１所示。算法１ＲｅｖｉｅｗＴｅｘｔＯｒｉｅｎｔａｔｉｏｎＡｎａｌｙｓｉｓ输入ＲｅｖｉｅｗＴｅｘｔ输出ＲｅｖｉｅｗＯｒｉｅｎｔａｔｉｏｎｓｔｒ←{ＲｅｖｉｅｗＴｅｘｔ} ；Ｗｈｉｌｅ（ｓｔｒ．ｒｅａｄ（））Ｆｏｒａｌｌｉ∈ｓｔｒ．ＬｅｎｇｔｈＤＯＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∉ＲｅｖｉｅｗＤｉｃｔｉｏｎａｒｙ）ＴＨＥＮＳＯ←０；ＥＸＩＴ；ＥＬＳＥ｛ＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∈ＮｅｇＤｉｃｔｉｏｎａｒｙ）ＴＨＥＮＩＦ（ｃｏｕｎｔ％２＝＝０）ＴＨＥＮＷＯｉ←ＷＯｉ；ＥＬＳＥＷＯｉ←－ＷＯｉ；ＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∈ＡｄｊＤｉｃｔｉｏｎａｒｙ）ＴＨＥＮＷＯｉ←ＷＯｉ∗ＷａｄｊＩＦ（ｓｔｒ．ｗｏｒｄｓｉ∈Ａｄｖｅｒｓａｔｉｖｅ）ＴＨＥＮＷＯｉ←－ＷＯｉ；ＥＮＤＥＬＳＥＳＯ＝ ∑ Ｎｉ＝１ＷＯｉ／／Ｎ＝ｓｔｒ．ＬｅｎｇｔｈＥＮＤＦＯＲ；ＥＮＤＷＨＩＬＥ；３逻辑回归模型在现实生活中经常需要分析离散变量问题，本文关心的是，哪些因素对虚假检测的影响因素更明显，这类问题实质上是一个回归问题，因变量就是上述提到的这些离散变量，自变量Ｘ是与之有关的一些因素。因为因变量是离散的，不能直接使用线性回归分析方法解决，这时最好的解决方案是Ｌｏｇｉｓｔｉｃ回归模型，它对因变量的分布没有要求。与线性回归分析相似，Ｌｏｇｉｓｔｉｃ回归分析的基本原理就是利用一组数据拟合一个Ｌｏｇｉｓｔｉｃ回归模型，然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间的关系。因变量Ｙ是一个二值变量，取值为Ｙ＝０，真实评论 {１，虚假评论自变量为Ｘ１，Ｘ２，…，Ｘｍ，Ｐ表示在ｍ个自变量作用下事件发生的概率。想找到Ｐ与自变量的关系，如果用多元线性回归方程。Ｙ＾＝ｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋ … ＋ｂｐＸｐ（１）无论ｂｉ和Ｘｉ取任何实数，ｌｎ(Ｐ／Ｑ) 值都可以与０～１范围内的Ｐ值相对应。ｌｎＰＱ æ è ç ö ø ÷ ＝ｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋ … ＋ｂｐＸｐ（２）Ｐ＝ｅｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋…＋ｂｐＸｐ１＋ｅｂ０＋ｂ１Ｘ１＋ｂ２Ｘ２＋…＋ｂｐＸｐ（３）我们将所研究的问题转换一个角度，不是直接分析Ｙ与Ｘ的关系，而是分析Ｙ取某个值的概率Ｐ与Ｘ的关系。令Ｙ为１、０变量，Ｙ＝０表示正常评论，Ｙ＝１表示虚假评论，Ｘ是与虚假评论有关的因素。如果Ｐ表示虚假攻击的概率，那么研究虚假攻击的概率Ｐ与Ｘ有关因素的关系就相对简单一些。３．１变量选取的衡量标准优势比ＯＲ（ｏｄｄｓｒａｔｉｏ）是流行病衡量危险因素作用大小的比数比例指标，其计算公式为ＯＲｊ＝Ｐ１／（１－Ｐ１）Ｐ０／（１－Ｐ０）（４）式中：Ｐ１和Ｐ０分别表示在Ｘｊ取值为ｃ１及ｃ０存在虚假攻击的概率，ＯＲｊ称作多变量调整后的优势比，表示扣除了其他自变量影响后的危险因素的作用。对比某一个危险因素两个不同暴露水平Ｘｊ＝ｃ１与Ｘｊ＝ｃ０的虚假攻击情况（假设其他因素的水平相同），其优势比的自然对数为式（５）：ｌｎＯＲｊ＝ｌｎＰ１／１－Ｐ１ ( ) Ｐ０／１－Ｐ０ ( ) é ë ê ê ù û ú ú ＝ｌｏｇｉｔＰ１－ｌｏｇｉｔＰ０（５）若Ｘｊ＝１，虚假评论 {０，正常评论ｃ１－ｃ０＝１则ＯＲｊ＝ｅｘｐβｊ βｊ＝０，ＯＲｊ＝１无作用＞０，ＯＲｊ＞１虚假评论＜０，ＯＲｊ＜１正常评论 ì î í ï ï ï ï （６）３．２变量选择使用逻辑回归模型时，主要有３种选择变量的方式：前向选择、后向选择和逐步回归。本文采用逐步回归的方式进行变量选择，其基本思想是逐个引 ·３３８· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【智能系统】融合情感极性和逻辑回归的虚假评论检测方法编辑部