正在加载图片...
·172 智能系统学报 第5卷 成概率P(D1S)对文档中的句子进行排序,选出具有最 数需要单独设定.对各文档集来说可变量包括α、B 高概率值的句子形成摘要 和主题数目K.一种较好的超参数α和B的选择方 在基于主题模型LDA的生成性文摘方法中,文 式应与主题的数量和词汇表的尺寸相关本文中 档中的句子S可以解释为主题的概率混合模型.在 根据主题数目变化,取经验值α=50/K,B取固定的 该模型中一个句子可以属于多个主题,同时使用K 经验值B=0.0118]」 个主题和每个主题在句子中对应的权重预测文档中 LDA模型的性能受到主题数目的影响,需预先 的单词.给定句子S时文档集D的概率表示为 设定主题数目K确定主题数目的方法有多种:使用 P(D1S)=Π.D[∑P(wl)· 非参数化主题模型HDP(hierarchical dirichlet P(zIS)D) (7) process)的方法9]、使用层次聚类的方法[2o]和使用 式中:n(w,D)为词w在句子集中D出现的次数, 模型混乱度分析的方法21]等.本文使用混乱度确定 模型主题数目. P(w|z)和P(a.IS)分别为词w在潜在主题ak上的 概率和主题z。在句子S的概率.在使用Gibbs抽样 文档集上模型的混乱度为文档集中包含的各句 的LDA模型中,这2个概率值分别通过》和 子相似性(likelihood)几何均值的倒数o1,模型混乱 度随着句子相似性的增加而单调递减: 09估计. 3.4文摘算法 perplexity(D)=exp (8) 1)将文档集合中的文本分割为句子,去标题、 ∑N 时间等信息,提取正文中的句子;以文档集中的整句 式中:N为文档集中句子的个数,Ns为句子S中词 作为DA中的文档,去标点和停用词,并将其转换 项的个数,p(S)为句子S的相似性,DA模型中句 为LDA的输人格式; 子的相似性由句子的主题分布和主题的词汇分布计 2)为每个文档集合建立一个LDA模型,使用 算:lgp(S)=∑x1n(w,S)》a9,其中n=(w, Gibs抽样估计句子的主题分布0和主题的词汇分 S)为句子S中词0的出现次数.图1给出了在 布中; DUC2002测试集的59个句子集上建立的LDA模型 3)计算主题重要度,根据提出的2种句子权重 的混乱度随主题数目变化的曲线, 的计算方法ProbGenSum和SentGenSum分别计算句 12x10 子权重 10 4)按照步骤3)得到的权重对句子进行排序, 相同权重的句子按照非停用词在句子中所占的比例 6 从大到小排序; 5)从句子序列中由前至后抽取句子作为文摘 句,若当前句子与前面句子的主题相同,则过滤当前 句子,直到文摘达到长度限制. 40 80120160 200 主题数月 4实验 图1DUC2002句子集上的模型混乱度随主题数目变化 实验中使用通用型文摘测试集DUC2002语料 的趋势 库作为多文档摘要的测试数据.DUC2002语料库包 Fig.1 Variation of perplexity on different number of topics 含59个描述同一个主题或相关主题的文档集合,每 for the LDA model on the DUC2002 data set. 个文档集合平均包含10个文档.每个文档集合都给 可以看出,随着主题数目的增加,所有句子集合 出了最大词数分别为200和400的抽取式专家文 的混乱度都收敛到一个较小的值,实验中当主题数 摘.实验中根据提出的文摘算法分别为每个文档集 目K=170时所有句子集合的平均混乱度达到最小 合建立LDA模型,生成长度至多为200和400个词 值.混乱度越低,说明模型的泛化能力越强,因此对 的抽取式文摘,并使用DUC评测工具ROUGE7]自 于整个DUC2002语料库来说,主题数目K=170时 动评测文摘结果。 模型最优 4.1模型参数设置 对于单个句子集合来说,当其使得模型混乱度 由于DUC2002中各个文档集的词汇数、词汇记 最低的主题数目小于170时,主题集合中会包含一 号数、句子数各不相同,每个文档集的LDA模型参
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有