·172 智能系统学报第5卷成概率P(D1S)对文档中的句子

正在加载图片...

·172 智能系统学报第5卷成概率P(D1S)对文档中的句子进行排序，选出具有最数需要单独设定.对各文档集来说可变量包括α、B 高概率值的句子形成摘要和主题数目K.一种较好的超参数α和B的选择方在基于主题模型LDA的生成性文摘方法中，文式应与主题的数量和词汇表的尺寸相关本文中档中的句子S可以解释为主题的概率混合模型.在根据主题数目变化，取经验值α=50/K,B取固定的该模型中一个句子可以属于多个主题，同时使用K 经验值B=0.0118]」个主题和每个主题在句子中对应的权重预测文档中 LDA模型的性能受到主题数目的影响，需预先的单词.给定句子S时文档集D的概率表示为设定主题数目K确定主题数目的方法有多种：使用 P(D1S)=Π.D[∑P(wl)· 非参数化主题模型HDP（hierarchical dirichlet P(zIS)D) (7) process)的方法9]、使用层次聚类的方法[2o]和使用式中：n(w,D)为词w在句子集中D出现的次数，模型混乱度分析的方法21]等.本文使用混乱度确定模型主题数目. P(w|z)和P(a.IS)分别为词w在潜在主题ak上的概率和主题z。在句子S的概率.在使用Gibbs抽样文档集上模型的混乱度为文档集中包含的各句的LDA模型中，这2个概率值分别通过》和子相似性(likelihood)几何均值的倒数o1,模型混乱度随着句子相似性的增加而单调递减： 09估计. 3.4文摘算法 perplexity(D)=exp (8) 1)将文档集合中的文本分割为句子，去标题、 ∑N 时间等信息，提取正文中的句子；以文档集中的整句式中：N为文档集中句子的个数，Ns为句子S中词作为DA中的文档，去标点和停用词，并将其转换项的个数，p(S)为句子S的相似性，DA模型中句为LDA的输人格式；子的相似性由句子的主题分布和主题的词汇分布计 2)为每个文档集合建立一个LDA模型，使用算：lgp(S)=∑x1n(w,S)》a9,其中n=(w, Gibs抽样估计句子的主题分布0和主题的词汇分 S)为句子S中词0的出现次数.图1给出了在布中； DUC2002测试集的59个句子集上建立的LDA模型 3)计算主题重要度，根据提出的2种句子权重的混乱度随主题数目变化的曲线，的计算方法ProbGenSum和SentGenSum分别计算句 12x10 子权重 10 4)按照步骤3)得到的权重对句子进行排序，相同权重的句子按照非停用词在句子中所占的比例 6 从大到小排序； 5)从句子序列中由前至后抽取句子作为文摘句，若当前句子与前面句子的主题相同，则过滤当前句子，直到文摘达到长度限制. 40 80120160 200 主题数月 4实验图1DUC2002句子集上的模型混乱度随主题数目变化实验中使用通用型文摘测试集DUC2002语料的趋势库作为多文档摘要的测试数据.DUC2002语料库包 Fig.1 Variation of perplexity on different number of topics 含59个描述同一个主题或相关主题的文档集合，每 for the LDA model on the DUC2002 data set. 个文档集合平均包含10个文档.每个文档集合都给可以看出，随着主题数目的增加，所有句子集合出了最大词数分别为200和400的抽取式专家文的混乱度都收敛到一个较小的值，实验中当主题数摘.实验中根据提出的文摘算法分别为每个文档集目K=170时所有句子集合的平均混乱度达到最小合建立LDA模型，生成长度至多为200和400个词值.混乱度越低，说明模型的泛化能力越强，因此对的抽取式文摘，并使用DUC评测工具ROUGE7]自于整个DUC2002语料库来说，主题数目K=170时动评测文摘结果。模型最优 4.1模型参数设置对于单个句子集合来说，当其使得模型混乱度由于DUC2002中各个文档集的词汇数、词汇记最低的主题数目小于170时，主题集合中会包含一号数、句子数各不相同，每个文档集的LDA模型参

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】主题模型LDA的多文档自动文摘