正在加载图片...
第4期 郝洁,等:基于词加权DA算法的无监督情感分类 ·541 2 本文算法 为正面情感种子词个数,neg为语料中包含的负面 情感种子词集合,b为负面情感种子词个数。 LDA模型假设每个词都是同等重要的。然而, 受文献[16]启发,在得到词汇权重后,本文按 无论是从信息论或是语言学来看,该假设都并不完 照式(5)对每个词的主题进行吉布斯采样,式中,W 美。文献[13]指出高频停用词对LDA模型的主题 为词汇总数,n表示文本m中,词i被分配给主题 推理有很大影响。然而,对于文本情感分类任务,在 k的数目,一i表示采样过程中不计当前词影响: 去除通常的停用词后,仍有大量与领域相关但对情 p(z=kIzi,wi,weight)= 感分类作用较小的词,具有褒贬倾向的词汇淹没其 ( 中,而使得LDA模型主题间区分度较小,分类精度 ∑Iweight()l·n+a)· 不高。以酒店评价语料为例,大量文档中都出现有 (I weight(t)I·n:+B,)· “酒店”、“房间”、“前台”等词,这些词是情感分类 (含201像)-1 时的广义“停用词”,若不加以处理,将随机散布在 各个主题的关键词当中。 (∑(1 weight((t)1·ng:+B,)-1(5) 由于这些词与领域相关,无法通过构建统一的 整个模型的“文档一主题”分布0和“主题一词 词表去除该类词汇,给主题的提取和情感倾向的划 汇”分布可分别按照式(6)和式(7)计算: 分造成困难。本文针对情感语料的词汇分布特点, 根据每个词与情感种子词的点互信息(point mutual ∑Iweight(j)I·ng+a information,PMI)【14),赋予词汇不同权重,并将权值 0m,k= (6) 信息融入吉布斯采样过程,利用每个主题下的关键 ,I weight(j)I·n+ae) 词判断主题的情感倾向,从而实现文档的情感分类。 I weight(t)l·ne+B, 整个算法的步骤如图2所示。 PL.= (7) ∑(I weight(t)l·ne+B,) = 文档集 分词 去停用词 预处理 与LDA模型类似,此处选取每个主题下p值最 大的S个词作为该主题的关键词。定义主题k的情 感倾向E(k): 文档情感 主题情感 吉布斯 词汇权 WLDA 倾向计算 倾向计算 采样 重计算 E(k)=∑weight(i)ee (8) i=1 “文档-情感”矩阵π表征了文档的情感分布, 图2WLDA算法步骤 Fig.2 Road map of WLDA algorithm 其规模为M×2,由正面情感分布π和负面情感分 点互信息可根据两个离散随机变量的共现概率 布π组成。其定义见式(9)和式(10): 度量其相关性。对于两个变量x和y,其点互信息: 9,E(i)>0 (9) i=1 PMI(x,y)=log- p(x,y) (3) (x)·p(y) ∑9,E(i)<0 (10) i=1 显然,两个变量共现的概率越大,其PMI值越 式中:日:为每一篇文档分配给主题i的概率,T和 大。以此为理论基础,文献[15]根据某一词汇与正 r分别是文档为正面或负面的概率值,刻画了每 面情感种子词和负面情感种子词的PM值度量该 篇文档的情感分布情况。在后面的实验中,认为文 词的情感倾向。考虑到种子词在语料中的出现可能 档d的情感倾向: 不均衡,本文对原公式稍加改动,根据语料中出现的 E(d)=argmax(Ta) (11) 正向和负向种子词个数添加归一化因子。对于词 完整的WLDA算法如下: w,其权重定义为 算法2基于LDA的情感分类算法。 weight(w)=- p(w,pos(i)) 输入待分类文档,情感种子词: a i=1 p(o)·p(pos(i)) 输出情感分类结果。 1了1og p(w,neg(j)) ForW∈W (4) b台p(o)·p(negU)) 按式(4)计算weight(w) 式中:pos为语料中包含的正面情感种子词集合,a Repeat2 本文算法 LDA 模型假设每个词都是同等重要的。 然而, 无论是从信息论或是语言学来看,该假设都并不完 美。 文献[13]指出高频停用词对 LDA 模型的主题 推理有很大影响。 然而,对于文本情感分类任务,在 去除通常的停用词后,仍有大量与领域相关但对情 感分类作用较小的词,具有褒贬倾向的词汇淹没其 中,而使得 LDA 模型主题间区分度较小,分类精度 不高。 以酒店评价语料为例,大量文档中都出现有 “酒店”、“房间”、“前台” 等词,这些词是情感分类 时的广义“停用词”,若不加以处理,将随机散布在 各个主题的关键词当中。 由于这些词与领域相关,无法通过构建统一的 词表去除该类词汇,给主题的提取和情感倾向的划 分造成困难。 本文针对情感语料的词汇分布特点, 根据每个词与情感种子词的点互信息( point mutual information,PMI) [ 14 ] ,赋予词汇不同权重,并将权值 信息融入吉布斯采样过程,利用每个主题下的关键 词判断主题的情感倾向,从而实现文档的情感分类。 整个算法的步骤如图 2 所示。 图 2 WLDA 算法步骤 Fig.2 Road map of WLDA algorithm 点互信息可根据两个离散随机变量的共现概率 度量其相关性。 对于两个变量 x 和 y ,其点互信息: PMI(x,y) = log p(x,y) p(x)·p(y) (3) 显然,两个变量共现的概率越大,其 PMI 值越 大。 以此为理论基础,文献[15]根据某一词汇与正 面情感种子词和负面情感种子词的 PMI 值度量该 词的情感倾向。 考虑到种子词在语料中的出现可能 不均衡,本文对原公式稍加改动,根据语料中出现的 正向和负向种子词个数添加归一化因子。 对于词 w ,其权重定义为 weight(w) = 1 a ∑ a i = 1 log p(w,pos(i)) p(w)·p(pos(i)) - 1 b ∑ b j = 1 log p(w,neg(j)) p(w)·p(neg(j)) (4) 式中: pos 为语料中包含的正面情感种子词集合, a 为正面情感种子词个数, neg 为语料中包含的负面 情感种子词集合, b 为负面情感种子词个数。 受文献[16] 启发,在得到词汇权重后,本文按 照式(5)对每个词的主题进行吉布斯采样,式中, W 为词汇总数, n (k) mj 表示文本 m 中,词 i 被分配给主题 k 的数目, ¬ i 表示采样过程中不计当前词影响: p(zi = k | z¬ i,w¬ i,weight) = (∑ W j = 1 | weight(j) |·n (k) mj,¬ i + αk)· (| weight(t) |·n (t) k,¬ i + βt)· ( ∑ K k = 1 (∑ W j = 1 | weight(j)|·n (k) mj,¬ i +αk ) ) - 1· (∑ V t = 1 (| weight(t) |·n (t) k,¬ i + βt)) - 1 (5) 整个模型的“文档—主题”分布 θ 和“主题—词 汇”分布 φ 可分别按照式(6)和式(7)计算: θm,k = ∑ W j = 1 | weight(j) |·n (k) mj + αk ∑ K k = 1 (∑ W j = 1 | weight(j) |·n (k) mj + αk) (6) φk,t = | weight(t) |·n (t) k + βt ∑ V t = 1 (| weight(t) |·n (t) k + βt) (7) 与 LDA 模型类似,此处选取每个主题下 φ 值最 大的 S 个词作为该主题的关键词。 定义主题 k 的情 感倾向 E(k) : E(k) = ∑ S i = 1 weight(i)φki (8) “文档-情感”矩阵 π 表征了文档的情感分布, 其规模为 M × 2,由正面情感分布 πpos 和负面情感分 布 πneg 组成。 其定义见式(9)和式(10): πpos = ∑ K i = 1 θi,E(i) > 0 (9) πneg = ∑ K i = 1 θi,E(i) < 0 (10) 式中: θi 为每一篇文档分配给主题 i 的概率, πpos 和 πneg 分别是文档为正面或负面的概率值,刻画了每 篇文档的情感分布情况。 在后面的实验中,认为文 档 d 的情感倾向: E(d) = argmax(πd ) (11) 完整的 WLDA 算法如下: 算法 2 基于 WLDA 的情感分类算法。 输入 待分类文档,情感种子词; 输出 情感分类结果。 For w ∈ W 按式(4)计算 weight( w) Repeat 第 4 期 郝洁,等:基于词加权 LDA 算法的无监督情感分类 ·541·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有