第5卷第2期 智能系统学报 Vol.5 No.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/i.issn.1673-4785.2010.02.012 主题模型LDA的多文档自动文摘 杨潇1,马军2,杨同峰2,杜言琦2,邵海敏2 (1.山东经济学院信息管理学院,山东济南250014:2.山东大学计算机科学与技术学院,山东济南250101) 摘要:近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模 型中具有代表性的概率生成性模型之一.提出了一种基于DA的文摘方法,该方法以混乱度确定DA模型的主题 数目,以Gs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主 题的重要程度,并根据LD模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中 使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多 文档摘要测试集DUC20O2上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的 各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 关键词:多文档自动文摘;句子分值计算;主题模型;LDA;主题数目 中图分类号:TP391文献标识码:A文章编号:16734785(2010)02016908 Automatic multi-document summarization based on the latent Dirichlet topic allocation model YANG Xiao',MA Jun2,YANG Tong-feng2,DU Yan-qi2,SHAO Hai-min2 (1.School of Information Management,Shandong Economic University,Ji'nan 250014,China;2.School of Computer Science and Technology,Shandong University,Ji'nan 250101,China) Abstract:The representative problem of multi-document summarization using probabilistic topic models has begun receiving considerable attention.A multi-document summarization method was proposed based on the latent dirichlet allocation (LDA)model,itself a model representative of probabilistic generative topic models.In this method,the number of topics in the LDA model was determined by model perplexity,and the probabilistic sentence distribution on topics and the probabilistic topic distribution on words were obtained by the Gibbs sampling method. The importance of topics was determined by the sum of topic weights on all sentences.Two sentence-scoring meth- ods were proposed,one based on sentence distribution and the other on topic distribution.Evaluated by the recall- oriented understudy for gisting evaluation (ROUGE)metrics,results of the both proposed methods surpassed the state-of-the-art SumBasic system and the other two LDA based summarization systems for all the ROUGE scores on the DUC2002 generic multi-document summarization test set. Keywords:multi-document summarization;sentence scoring;topic model;latent dirichlet allocation;number of topics 多文档自动文摘是对内容相关的多篇文本进行 量的激增,在近几年又重新兴起.自动文摘按照摘要 分析,并产生可以表达重要信息的摘要文本的过程, 目的的不同可以分为通用型文摘(generic summari- 其中摘要文本长度需满足指定长度的要求.它作 zation)和基于查询的文摘(query-based summariza- 为自然语言处理和信息检索中最古老的问题之一, ion).通用型文摘提取反映作者意图的总结性文 随着移动设备、互联网的广泛应用,用户面临的信息 字,而基于查询的文摘则给出与用户查询相关联的 摘要2].按照摘要产生方法的不同自动文摘可以分 收稿日期:20100105. 基金项目:国家自然科学基金资助项目(60970047);山东省自然科学 为抽取式文摘(extract)和理解式文摘(abstract).抽 基金资助项目(Y2008G19);山东省科技计划资助项目 (2007GG10001002,2008GG10001026). 取式文摘计算句子的分值,直接从原文中抽取重要 通信作者:杨谦.E-mail:yang@mail.sdu.edu.cn. 的句子作为文摘句;而理解式文摘则通过对文章进