·170 智能系统学报 第5卷 行句法、语义和篇章结构的分析获取文档的意义,再 文摘评价模型选择句子,使用贪心算法添加句子 通过自然语言生成得到满足要求的文摘「3).虽然抽 Chang和Chien6]对文档和单个的句子分别执 取式的文摘方法经常会产生缺乏连贯性的文摘,但 行LDA,然后通过计算句子语言模型和文档语言模 其产生的文摘对人类浏览和判断是有帮助的[4].且 型之间的KL散度对句子进行排序.为了充分地表 由于理解式文摘中涉及的多个自然语言处理问题目 示词汇、句子和文档之间的关系,又提出了SLDA, 前没有良好的解决方法,而抽取式文摘则避免了篇 为词汇、句子、主题和文档建立4层LDA模型,并使 章分析、连贯句子的生成等难题,目前的研究大都使 用变分推断估计参数,通过计算句子语言模型和文 用抽取式的文摘方式。 档语言模型之间的KL-散度对句子进行排序】 抽取式文摘中的主要问题是句子权重的计算问 题.常用的句子权重计算方法有简单的基于词频的 2主题模型LDA 方法5、基于主题聚类的方法6、基于图的方法 主题模型是一种生成性的概率模型,一般基于 和基于语言分析的方法[等。 如下观点构建:文档是主题上的概率分布;而主题则 以LDA(latent dirichlet allocation)[io]及其扩展 是词汇上的概率分布.不同的主题模型做了不同的 为代表的主题模型广泛应用于文档、图像等信息的 概率假设:由于主题在词上的概率分布是相关词项 建模.近年来,开始有学者关注其在自动文摘方面的 上的连贯聚类,因此单个的主题都是可解释的, 应用),本文基于LDA模型,以句子作为处理单 2.1LDA模型简介 元,根据LDA模型中主题的概率分布和句子的概率 LDA模型是一种常用的主题模型,由Blei等人 分布提出了2种句子权重计算模型. 于2003年提出.它是一个生成性的3层贝叶斯网 络,将词和文档通过潜在的主题相关联.类似于许多 1 相关工作 概率模型,LDA中也做了词袋(bag of words)假设, Chen等[4提出了一种结合句子生成概率和先 即在模型中不考虑词汇的顺序而只考虑他们的出现 验概率完成句子排序的广播新闻演讲文摘的抽取, 次数 其中句子的生成概率的方法来考察了句子主题混合 LDA模型是一个描述如何基于潜在主题生成 模型(STMM)和词主题混合模型(WTMM)2种概念 文档中词的概率抽样过程,其生成过程如下: 匹配形式,混合模型的参数则根据文档的标题由期 1)从Dirichlet先验B中为每个主题k抽取多项 望最大化(EM)算法训练得到. 式分布中k,共抽取K个分布; Arora等[2]同样使用LDA作为文档的表示模 2)从Dirichlet先验a中为每个文档wm抽取多 型,但其以文档作为LDA的处理单元,提出了基于 项式分布0m,共抽取M个分布; 推论的、半生成性和全生成性的3种句子选择形式 3)对语料库中所有文档Wm和文档中所有词汇 效果最好的是基于推论的方法,其中句子的概率为 10n: 归一化后的词汇概率加和.在文献[13]中,Aora等 ①从多项式变量0m中抽取主题m; 在使用LDA得到单词的权重后,将句子看作单词权 ②从多项式变量中.中抽取词0· 重的向量.每个句子对应一个主题,主题则为所有属 其中K为主题个数,M为文档个数.模型中的 于该主题的句子的向量,最终将主题表示为单词的 主要变量为主题一词分布“中”和文档一主题分布 权重矩阵.然后使用SVD求解句子集的正交表示, “0”.由于直接使用EM算法估计中和0会存在局 作为选择文摘句的依据,从而降低文摘中信息的冗 部极值的问题,对于给定的观察词wm,利用Gibbs抽 余度.Shafiei5提出类似于3层生成模型LDA模型 样取词汇在主题:上后验概率P(.|z)的近似值. 的4层模型Co-Clustering Model,由于该模型表示为 在Gbbs抽样中,先固定其他词的主题分配(z-n), 词、片段、主题、文档4层结构,若将片段选择为句 然后估计当前词项wn赋各种主题的概率p(n=). 子,则该方法可以为词、句子和文档建立统一的生成 边缘化中和0间接求得中和0的值: 模型.研究者们将该模型应用于文摘中: Haghighi等使用层次LDA主题模型的变种, P(zn =jl z-n,wmn,a,B)o B 一X ∑(G+R 将句子、文档和文档集合统一纳入到主题模型中,使 用Gbs抽样获得模型参数,同时考虑到文档集的 Cm (1) 综合主题和特定主题2个方面,并以KL散度作为