正在加载图片...
.540 智能系统学报 第11卷 满足时效性要求。因此文本情感分析受到了学术界 域得到了广泛应用。其图模型见图1。 与工业界越来越多的关注1-2】。 情感分类是文本情感分析的重要组成部分。它是 指根据文本所表达的含义和情感信息将文本划分为褒 扬或贬义两种或几种类型,是对文本作倾向性、观点和 态度的划分。目前,大多数情感分类方法都是监督模 型或半监督模型,但标记好的语料常常难以获取,给情 感分类造成困难。基于主题模型的情感分类,不仅具 有无监督的优势,也具有较强的可移植性)。 Lin等)提出了LSM模型(latent sentiment 图1LDA图模型o model),该模型将情感作为主题的特例,认为文档中 Fig.1 Graphical model of LDA] 词汇的分布与情感有关,从而实现了文档的无监督 图1中,各个符号的含义见表1。 情感分类,但无法识别出更细粒度的情感信息。 表1LDA符号含义对照表 Titov等[s)提出的MG-LDA模型(multi-.grain model) Table 1 Symbols and its meanings in LDA 能够以较细的粒度提取主题,该算法是一个有监督 符号 含义 学习模型,需要对样本类别进行人工标注。TAM 狄利克雷分布,0的超参数 topic-aspect model)TSM(topic sentiment mix- ⊙ 狄利克雷分布,的超参数 ture)[)能够无监督地抽取文档的主题和情感信息。 0 “文档-主题”的多项式分布 但这两种算法假定主题和情感的分布相互独立,忽 6 “主题-词汇”的多项式分布 略了二者的联系,也给解释主题和情感的关系造成 词的主题分配 困难。ASUM模型(aspect and sentiment unification 词 model)考虑了主题和情感的相关性,建立了“句 K 主题数目 子一主题一词”的3层模型,有效提取了情感和主 M 文档数目 题信息,但这种方法将每个句子视为一个文档,丢失 了上下文信息[)。JST模型(joint sentiment/opic N 一篇文档的词数 model)是一种可以无监督地提取文档主题和情感信 根据LDA模型,文档的产生过程见算法1。 息的4层贝叶斯网络,但该算法的复杂度较高,结果 算法1【o]LDA文档产生过程。 不够稳定)。欧阳继红等在ST模型的基础上,提 输入&B、K; 出了多粒度的主题情感混合模型MG-R-JST和MG 输出文档。 JST,该方法同时考虑到文档和局部两个粒度的情感 对每个主题k∈[1,K],采样词分布Pk~ 主题分布,稳定性好,但面临复杂度较高的问题9)。 Dir(B) 本文在LDA模型的基础上,提出了应用于主 对每篇文档me[1,M] 题/情感分析的词加权LDA算法(weighted latent 采样一个主题分布0。~Dir(a) dirichlet allocation,WLDA),通过计算语料中词汇与 对文档m中的每个词w 情感种子词的距离,在吉布斯采样中对各词区分对 根据Bm采样一个主题z~Mult(0m) 待,利用每个主题下的关键词判断主题的情感倾向, 根据主题z采样一个词w~Mut(9) 进而得到每篇文档的情感分布。实验表明,WLDA 其中,隐含变量0和可按式(1)和式(2)估计: 可提取细粒度情感,并且具有迭代速度快、分类精度 n()+a (1) 高的优点。 三(a+a) 1LDA模型 n0+B, (2) LDA(latent dirichlet allocation)[oj是一种3层 (n9+B) 贝叶斯模型,它描述了文档、主题、词汇间的关系。 1=1 式中:n表示文本m中主题为k的词汇数目,n LDA模型自2003年提出以来,已经有了诸多的改 表示词t中主题为k的词汇数目。V表示不计重复的 进和变形算法,并在文本分类、信息检索2]等领 词汇总数。满足时效性要求。 因此文本情感分析受到了学术界 与工业界越来越多的关注[1-2] 。 情感分类是文本情感分析的重要组成部分。 它是 指根据文本所表达的含义和情感信息将文本划分为褒 扬或贬义两种或几种类型,是对文本作倾向性、观点和 态度的划分。 目前,大多数情感分类方法都是监督模 型或半监督模型,但标记好的语料常常难以获取,给情 感分类造成困难。 基于主题模型的情感分类,不仅具 有无监督的优势,也具有较强的可移植性[3] 。 Lin 等[4] 提 出 了 LSM 模 型 ( latent sentiment model),该模型将情感作为主题的特例,认为文档中 词汇的分布与情感有关,从而实现了文档的无监督 情感分类, 但无法识别出更细粒度的情感信息。 Titov 等[5]提出的 MG⁃LDA 模型(multi⁃grain model) 能够以较细的粒度提取主题,该算法是一个有监督 学习模型,需要对样本类别进行人工标注。 TAM (topic⁃aspect model) [6] 和 TSM( topic sentiment mix⁃ ture) [7]能够无监督地抽取文档的主题和情感信息。 但这两种算法假定主题和情感的分布相互独立,忽 略了二者的联系,也给解释主题和情感的关系造成 困难。 ASUM 模型( aspect and sentiment unification model)考虑了主题和情感的相关性, 建立了 “ 句 子—主题—词” 的 3 层模型,有效提取了情感和主 题信息,但这种方法将每个句子视为一个文档,丢失 了上下文信息[8] 。 JST 模型 ( joint sentiment / topic model)是一种可以无监督地提取文档主题和情感信 息的 4 层贝叶斯网络,但该算法的复杂度较高,结果 不够稳定[3] 。 欧阳继红等在 JST 模型的基础上,提 出了多粒度的主题情感混合模型 MG⁃R⁃JST 和 MG⁃ JST,该方法同时考虑到文档和局部两个粒度的情感 主题分布,稳定性好,但面临复杂度较高的问题[9] 。 本文在 LDA 模型的基础上,提出了应用于主 题/ 情感分析的词加权 LDA 算法 ( weighted latent dirichlet allocation,WLDA),通过计算语料中词汇与 情感种子词的距离,在吉布斯采样中对各词区分对 待,利用每个主题下的关键词判断主题的情感倾向, 进而得到每篇文档的情感分布。 实验表明,WLDA 可提取细粒度情感,并且具有迭代速度快、分类精度 高的优点。 1 LDA 模型 LDA( latent dirichlet allocation) [10] 是一种 3 层 贝叶斯模型,它描述了文档、主题、词汇间的关系。 LDA 模型自 2003 年提出以来,已经有了诸多的改 进和变形算法,并在文本分类[11] 、信息检索[12] 等领 域得到了广泛应用。 其图模型见图 1。 图 1 LDA 图模型[10] Fig.1 Graphical model of LDA [10] 图 1 中,各个符号的含义见表 1。 表 1 LDA 符号含义对照表 Table 1 Symbols and its meanings in LDA 符号 含义 α 狄利克雷分布,θ 的超参数 β 狄利克雷分布,φ 的超参数 θ “文档-主题”的多项式分布 φ “主题-词汇”的多项式分布 z 词的主题分配 w 词 K 主题数目 M 文档数目 N 一篇文档的词数 根据 LDA 模型,文档的产生过程见算法 1。 算法 1 [10] LDA 文档产生过程。 输入 α、β、K ; 输出 文档。 对每个主题 k ∈ [1,K] ,采样词分布 φk ~ Dir(β) 对每篇文档 m ∈ [1,M] 采样一个主题分布 θm ~ Dir(α) 对文档 m 中的每个词 w 根据 θ m 采样一个主题 z ~ Mult(θm ) 根据主题 z 采样一个词 w ~ Mult(φz) 其中,隐含变量 θ 和 φ 可按式(1)和式(2)估计: θm,k = n (k) m + αk ∑ K k = 1 (n (k) m + αk) (1) φk,t = n (t) k + βt ∑ V t = 1 (n (t) k + βt) (2) 式中: n (k) m 表示文本 m 中主题为 k 的词汇数目, n (t) k 表示词 t 中主题为 k 的词汇数目。 V 表示不计重复的 词汇总数。 ·540· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有