·170 智能系统学报第5卷行句法、语义和篇章结构的分析获取

正在加载图片...

·170 智能系统学报第5卷行句法、语义和篇章结构的分析获取文档的意义，再文摘评价模型选择句子，使用贪心算法添加句子通过自然语言生成得到满足要求的文摘「3).虽然抽 Chang和Chien6]对文档和单个的句子分别执取式的文摘方法经常会产生缺乏连贯性的文摘，但行LDA,然后通过计算句子语言模型和文档语言模其产生的文摘对人类浏览和判断是有帮助的[4].且型之间的KL散度对句子进行排序.为了充分地表由于理解式文摘中涉及的多个自然语言处理问题目示词汇、句子和文档之间的关系，又提出了SLDA, 前没有良好的解决方法，而抽取式文摘则避免了篇为词汇、句子、主题和文档建立4层LDA模型，并使章分析、连贯句子的生成等难题，目前的研究大都使用变分推断估计参数，通过计算句子语言模型和文用抽取式的文摘方式。档语言模型之间的KL-散度对句子进行排序】抽取式文摘中的主要问题是句子权重的计算问题.常用的句子权重计算方法有简单的基于词频的 2主题模型LDA 方法5、基于主题聚类的方法6、基于图的方法主题模型是一种生成性的概率模型，一般基于和基于语言分析的方法[等。如下观点构建：文档是主题上的概率分布；而主题则以LDA(latent dirichlet allocation)[io]及其扩展是词汇上的概率分布.不同的主题模型做了不同的为代表的主题模型广泛应用于文档、图像等信息的概率假设：由于主题在词上的概率分布是相关词项建模.近年来，开始有学者关注其在自动文摘方面的上的连贯聚类，因此单个的主题都是可解释的，应用)，本文基于LDA模型，以句子作为处理单 2.1LDA模型简介元，根据LDA模型中主题的概率分布和句子的概率 LDA模型是一种常用的主题模型，由Blei等人分布提出了2种句子权重计算模型. 于2003年提出.它是一个生成性的3层贝叶斯网络，将词和文档通过潜在的主题相关联.类似于许多 1 相关工作概率模型，LDA中也做了词袋(bag of words)假设， Chen等[4提出了一种结合句子生成概率和先即在模型中不考虑词汇的顺序而只考虑他们的出现验概率完成句子排序的广播新闻演讲文摘的抽取，次数其中句子的生成概率的方法来考察了句子主题混合 LDA模型是一个描述如何基于潜在主题生成模型(STMM)和词主题混合模型(WTMM)2种概念文档中词的概率抽样过程，其生成过程如下：匹配形式，混合模型的参数则根据文档的标题由期 1)从Dirichlet先验B中为每个主题k抽取多项望最大化(EM)算法训练得到. 式分布中k,共抽取K个分布； Arora等[2]同样使用LDA作为文档的表示模 2)从Dirichlet先验a中为每个文档wm抽取多型，但其以文档作为LDA的处理单元，提出了基于项式分布0m,共抽取M个分布；推论的、半生成性和全生成性的3种句子选择形式 3)对语料库中所有文档Wm和文档中所有词汇效果最好的是基于推论的方法，其中句子的概率为 10n: 归一化后的词汇概率加和.在文献[13]中，Aora等 ①从多项式变量0m中抽取主题m; 在使用LDA得到单词的权重后，将句子看作单词权 ②从多项式变量中.中抽取词0· 重的向量.每个句子对应一个主题，主题则为所有属其中K为主题个数，M为文档个数.模型中的于该主题的句子的向量，最终将主题表示为单词的主要变量为主题一词分布“中”和文档一主题分布权重矩阵.然后使用SVD求解句子集的正交表示， “0”.由于直接使用EM算法估计中和0会存在局作为选择文摘句的依据，从而降低文摘中信息的冗部极值的问题，对于给定的观察词wm,利用Gibbs抽余度.Shafiei5提出类似于3层生成模型LDA模型样取词汇在主题：上后验概率P(.|z)的近似值. 的4层模型Co-Clustering Model,由于该模型表示为在Gbbs抽样中，先固定其他词的主题分配(z-n), 词、片段、主题、文档4层结构，若将片段选择为句然后估计当前词项wn赋各种主题的概率p(n=). 子，则该方法可以为词、句子和文档建立统一的生成边缘化中和0间接求得中和0的值：模型.研究者们将该模型应用于文摘中： Haghighi等使用层次LDA主题模型的变种， P(zn =jl z-n,wmn,a,B)o B 一X ∑(G+R 将句子、文档和文档集合统一纳入到主题模型中，使用Gbs抽样获得模型参数，同时考虑到文档集的 Cm (1) 综合主题和特定主题2个方面，并以KL散度作为

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】主题模型LDA的多文档自动文摘