正在加载图片...
第2期 杨满,等:主题模型LDA的多文档自动文摘 ·171· 式中:C和CM分别为维数V×K和M×K的数量 在句子混合成分中所占的权重后,句子集合中主题 矩阵,V为词汇个数.Cw为词0赋主题j的频数, 的重要度可以使用句子集合包含的所有句子中主题 其中不包含当前记号实例n;C“w为文档d中分配 混合成分权重的加和来计算,并在所有主题上进行 给主题j的词汇个数,其中不包含当前实例;由于 归一化以保证该值为合适的概率值: w.不仅代表词汇0,而且与该词所在的文本位置相 关,因此称之为记号.一旦词的某些记号赋给了主题 P(zI D)=- (3) ,就增加了给任一特定的记号赋予主题j的概率;同 样地,若主题j在一个文档中使用了多次,则该文档 式中:N为文档集中句子的个数,K为文档集中主题 的个数. 中的任意词赋给主题j的概率也将增加.因此,词赋 3.2概率生成模型(ProbGenSum) 予某一主题的概率不仅与该词跟主题的相近程度有 句子集中词汇的重要程度由词汇与主题的相似 关,而且与文档中该主题的重要程度有关 度和主题的重要程度共同决定,在概率生成性主题 2.2 Gibbs抽样 模型中,词汇的概率可以由式(4)计算: 首先为词汇记号赋[1.·K]之间的一个随机主 题,构成初始的Markov链;对于文档中的所有词汇 P(olD)=∑P(wlg)×P(lD.(4) 记号,根据式(1)给它分配主题,获取Markov链的 式中:K为主题个数,P(ola)为主题在词汇w上 下一个状态;迭代足够次后使得Markov链达到稳定 的概率,在使用Gibbs抽样的LDA中即为参数 状态 b》,而P(D)为主题名的重要度,由式(3)中的 抽样算法为每个单词直接估计其主题:,0值和 方法获得. 中值则由式(2)获得: 句子的权重可由句子所包含词的权重获得,由 功=、 C0w+Be时 于概率P(wD)为[0,1]之间的值,若使用概率的乘 B.) 积计算句子的概率即P(wID)=ⅡesP(oI C+a D)(s),则短句子占优势,但一般来说在文档中句 9=(c+ae (2) 子越短,其包含的信息量也越少,本文中使用词汇概 率的加和作为句子的权重.在这种情况下,长句子的 中值为从主题j中抽样新词记号0的预测,而 概率值将比短句子高,在选择文摘句时占据优势.且 0为在文档Wm中从主题j抽取新词的预测. 包含具有较高概率值词汇的短句也将获得较高的概 3 基于LDA的多文档自动文摘 率值,选出的句子并非都是长句子.文摘模型Pob GenSum中句子的权重由式(5)计算: 对于给定的文档集合D={D,…,Dw},各文档D P(SID)=∑.egn(0,S)×P(o|D).(5) 中包含句子集合D={s1,…,$.为简单起见,本文中 式中:n(w,S)为词w在句子S中出现的次数, 将文档集合表示为该集合所有文档中句子的集合,即 P(oID)为词o的概率值 D={s1,…,wi,其中s∈D当且仅当s∈D∈D. 3.3句子生成模型(SentGenSum) 以文档集合中的句子作为LDA输入的文档,句 在概率生成模型中,文档集D中句子S的重要 子集合作为LDA的文档集合,使用LDA为句子集 性表示为P(S1D),即给定文档集D时句子S的后 合D建模,并使用Gibbs抽样进行参数估计,得到句 验概率.根据贝叶斯法则,P(S1D)可表示为 子在主题上的分布和主题在词汇上的分布 ”.基于这2个分布,提出了2种不同的句子权 P(SI D)=P(DI S)P(S) (6) P(D) 重计算方法. 式中:P(D1S)为句子的生成概率,即文档集D由句子S 文档中词汇的重要度不仅与该词汇所赋主题的 生成的可能性,P(S)为句子S重要性的先验概率, 相似度有关,而且与所赋主题的重要度有关词汇与 P(D)为文档集D的先验概率将文档集中的词作为输 所赋主题的相似度由:》计算,主题的重要度则 入观察序列,则句子由预测文档集的分布构成,可以将 由0得到. 句子看作文档集的生成模型.文档集的概率P(D)对所 3.1主题的重要度 有句子都是相同的,不影响句子的排序,因此在计算句 在LDA模型中主题的重要度与其混合成分的 子分值时可将其忽略.本文假设句子的先验概率相同, 比例和超参数α有关由Gibbs算法计算出各主题 则句子的分值只与其句子生成概率相关根据句子生
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有