正在加载图片...
.338. 智能系统学报 第11卷 邸鹏等)曾提出了基于转折句式的文本分析 0 真实评论 Y= 方法,他们的任务主要是基于长文本的情感分析,所 1, 虚假评论 以考虑上下文的转折关系是很有效的。但是他们的 自变量为X,X2,…,Xm,P表示在m个自变量作用 方法直接应用于评论文本是不合理的,因为评论文 下事件发生的概率。想找到P与自变量的关系,如 本往往是一两句话的超短文本,无从考虑上下文信 果用多元线性回归方程。 息,所以本文提出了基于关联词的分析方法,把分析 Y=b。+b1X1+b2X2+…+bnX。 (1) 的单位缩小到词语级别,着重分析关联词前后的情 无论b:和X,取任何实数,ln(P/Q)值都可以与0~1 感极性,其过程如算法1所示。 范围内的P值相对应。 算法1 Review Text Orientation Analysis =bo+bX,+b2X2+…+bX。(2) 输入Review Text 输出Review Orientation e6o+b1X1+h22t…+bpp P=- 1+eo+6+2+…+6 (3) str←-{ReviewText}; While(str.read()) 我们将所研究的问题转换一个角度,不是直接 For all ie str.Length DO 分析Y与X的关系,而是分析Y取某个值的概率P IF (str.words,Review Dictionary)THEN 与X的关系。令Y为1、0变量,Y=0表示正常评 S0←0:EXIT; 论,Y=1表示虚假评论,X是与虚假评论有关的因 ELSE 素。如果P表示虚假攻击的概率,那么研究虚假攻 IF (str.words,E NegDictionary)THEN 击的概率P与X有关因素的关系就相对简单一些。 IF(count %2 =0)THEN 3.1变量选取的衡量标准 WO,←-W0:; 优势比OR(odds ratio)是流行病衡量危险因素 ELSE WO,←--WO:; 作用大小的比数比例指标,其计算公式为 IF (str.words;E AdjDictionary)THEN P/(1-P) (4) WO.←-WO,*Wadj 0R,P/1-P) 式中:P,和P。分别表示在X,取值为c1及c。存在虚 IF(str.words,E Adversative)THEN 假攻击的概率,OR,称作多变量调整后的优势比,表 W0←--W0:; 示扣除了其他自变量影响后的危险因素的作用。对 END ELSE 比某一个危险因素两个不同暴露水平X=c1与X,= S0= WO,/N=st.Length c。的虚假攻击情况(假设其他因素的水平相同),其 i=1 END FOR 优势比的自然对数为式(5): END WHILE:; 「P/(1-P) In OR;=In logitP-logitPo P/(1-Po) 3逻辑回归模型 (5) 在现实生活中经常需要分析离散变量问题,本 1 若 文关心的是,哪些因素对虚假检测的影响因素更明 x= 虚假评论 0. 正常评论 显,这类问题实质上是一个回归问题,因变量就是上 ci-co=1 述提到的这些离散变量,自变量X是与之有关的一 则 些因素。因为因变量是离散的,不能直接使用线性 OR,expB, 回归分析方法解决,这时最好的解决方案是Logistic =0, OR=1无作用 回归模型,它对因变量的分布没有要求。与线性回 B>0, OR,>1虚假评论 (6) 归分析相似,Logistic回归分析的基本原理就是利用 <0, OR<1正常评论 一组数据拟合一个Logistic回归模型,然后借助这个 3.2变量选择 模型揭示总体中若干个自变量与一个因变量取某个 使用逻辑回归模型时,主要有3种选择变量的 值的概率之间的关系。因变量Y是一个二值变量, 方式:前向选择、后向选择和逐步回归。本文采用逐 取值为 步回归的方式进行变量选择,其基本思想是逐个引邸鹏等[13]曾提出了基于转折句式的文本分析 方法,他们的任务主要是基于长文本的情感分析,所 以考虑上下文的转折关系是很有效的。 但是他们的 方法直接应用于评论文本是不合理的,因为评论文 本往往是一两句话的超短文本,无从考虑上下文信 息,所以本文提出了基于关联词的分析方法,把分析 的单位缩小到词语级别,着重分析关联词前后的情 感极性,其过程如算法 1 所示。 算法 1 Review Text Orientation Analysis 输入 Review Text 输出 Review Orientation str←{ReviewText} ; While(str.read()) For all i∈str.Length DO IF (str.wordsi∉Review Dictionary) THEN SO←0;EXIT; ELSE { IF (str.wordsi∈NegDictionary) THEN IF(count % 2 = = 0) THEN WOi←WOi; ELSE WOi←-WOi; IF (str.wordsi∈AdjDictionary)THEN WOi←WOi∗Wadj IF(str.wordsi∈Adversative) THEN WOi←-WOi; END ELSE SO = ∑ N i = 1 WOi / / N= str.Length END FOR ; END WHILE; 3 逻辑回归模型 在现实生活中经常需要分析离散变量问题,本 文关心的是,哪些因素对虚假检测的影响因素更明 显,这类问题实质上是一个回归问题,因变量就是上 述提到的这些离散变量,自变量 X 是与之有关的一 些因素。 因为因变量是离散的,不能直接使用线性 回归分析方法解决,这时最好的解决方案是 Logistic 回归模型,它对因变量的分布没有要求。 与线性回 归分析相似,Logistic 回归分析的基本原理就是利用 一组数据拟合一个 Logistic 回归模型,然后借助这个 模型揭示总体中若干个自变量与一个因变量取某个 值的概率之间的关系。 因变量 Y 是一个二值变量, 取值为 Y = 0, 真实评论 {1, 虚假评论 自变量为 X1 ,X2 ,…,Xm ,P 表示在 m 个自变量作用 下事件发生的概率。 想找到 P 与自变量的关系,如 果用多元线性回归方程。 Y^ = b0 + b1X1 + b2X2 + … + bpXp (1) 无论 bi 和 Xi 取任何实数,ln(P / Q) 值都可以与 0 ~ 1 范围内的 P 值相对应。 ln P Q æ è ç ö ø ÷ = b0 + b1X1 + b2X2 + … + bpXp (2) P = e b0 +b1X1 +b2X2 +…+bpXp 1 + e b0 +b1X1 +b2X2 +…+bpXp (3) 我们将所研究的问题转换一个角度,不是直接 分析 Y 与 X 的关系,而是分析 Y 取某个值的概率 P 与 X 的关系。 令 Y 为 1、0 变量,Y = 0 表示正常评 论,Y = 1 表示虚假评论,X 是与虚假评论有关的因 素。 如果 P 表示虚假攻击的概率,那么研究虚假攻 击的概率 P 与 X 有关因素的关系就相对简单一些。 3.1 变量选取的衡量标准 优势比 OR(odds ratio)是流行病衡量危险因素 作用大小的比数比例指标,其计算公式为 ORj = P1 / (1 - P1 ) P0 / (1 - P0 ) (4) 式中:P1 和 P0 分别表示在 Xj 取值为 c1 及 c0 存在虚 假攻击的概率,ORj 称作多变量调整后的优势比,表 示扣除了其他自变量影响后的危险因素的作用。 对 比某一个危险因素两个不同暴露水平 Xj = c1 与 Xj = c0 的虚假攻击情况(假设其他因素的水平相同),其 优势比的自然对数为式(5): ln ORj = ln P1 / 1 - P1 ( ) P0 / 1 - P0 ( ) é ë ê ê ù û ú ú = logitP1 - logitP0 (5) 若 Xj = 1, 虚假评论 {0, 正常评论 c1 -c0 = 1 则 ORj = expβj βj = 0, ORj = 1 无作用 > 0, ORj > 1 虚假评论 < 0, ORj < 1 正常评论 ì î í ï ï ï ï (6) 3.2 变量选择 使用逻辑回归模型时,主要有 3 种选择变量的 方式:前向选择、后向选择和逐步回归。 本文采用逐 步回归的方式进行变量选择,其基本思想是逐个引 ·338· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有