正在加载图片...
·1210· 工程科学学报,第41卷,第9期 (开始 况下,根据主题词语的Dirichlet先验分布[B。,B.a, BaBv]T生成的多项式分布[p1,p2,poa…pv]I, 舆情文本 从词袋中抽取一个词语w.LDA文本建模的主要 文本预处理、 问题就是求解文档-主题和主题-特征词分布参数 分词 矩阵0和Φ的值,本文使用Gibbs采样的方法来估 LDA文本建模 Word2vec VSM空间 算LDA的参数 词向量构建 假设已知任意函数的条件分布p(x:Ix-:),其中 计算文本相似度 词向量与TF-DF 权重相乘相加 x-i=(x1,2,…,x-1x+1,…,xn),通过马尔科夫链 蒙特卡洛算法就可以得到联合分布.首先建立z和 计算文本相似度 w的联合分布,其数学表达式如式(2)所示: 两种文本 p(w.-Ia.B)-p(w.-.0.01o.B)d0d@(2) 相似度结合 给定z和w的联合分布,即可通过式(3)来计 基于时间窗口的 算Gibs采样的条件概率: Single-Pass聚类 p(2=alz,x,aB)= p(=al x,a,B) HAC话题合并 (3) p(,女=a1r,,B) 得到最终聚类 结果 马尔科夫链平稳之后,给定一个采用的主题:, 设定参数α和B,即可通过EM算法来估计分布参 「结束 数矩阵0和Φ的值 图1 Single-Pass&HAC算法流程 DA建模构成了文本-主题分布,但是缺少了 Fig.1 Single-Pass HAC algorithm flow 词语本身之间的联系,只能在一定程度上表示文本 多个不同概率的主题词来表达.LDA将文本数据抽 数据.为了更好地对文本进行表示,还需要利用 象为主题、文档、词语的一个贝叶斯概率模型.进行 Skip-Gram模型来训练语料库,将所有的特征词映 LDA建模过程图2所示,其中为每篇文档主题的 射到一定维度的向量空间中,将词语表示为向量. Dirichlet先验分布参数:0每篇文档的主题分布;z 在Skip-Gram模型中,特征词作为输入层,上下文词 为给词语分配的主题,共有K个,w为词袋中的一个 作为输出层,即通过特征词来预测上下文词,具体的 词语;为主题中的词语分布;B为每个主题词语分 模型结构如图3所示. 布的Dirichlet先验分布参数,词汇表中共有V个 使用t,表示输入层特征词的P维输入向量,复 词语. 制和转置输入层到隐含层的权重矩阵W中的第p 行,可以得到Q维隐含层h,的定义如式(4)所示: h。=w (4) 输出层上,输出C个多项式分布,输出都由相 同的隐含和输出矩阵得到,如式(5)所示: e"e& P(teh =to.elt)=yc.h= (5) 图2LDA建模过程图 Fig.2 LDA modeling process diagram 式中,t,是输出层的第c个分布上的第h个特征词, to是输出上下文词中实际的第s个词,1是唯一的 在LDA建模中,首先对于文本d,首先随机从 输入词,y,是输出层第c个分布上的第h个单元的 Dirichlet先验分布a=[a,a,a…a]T中选出 输出,“。,h是输出层第c个分布上的第h个单元的净 的一个主题多项式分布=[叫,时,…股]T, 输入.由于输出层面共享相同的权重,则有: 然后根据多项式分布给该文档的第i个词语分 ueh=uh=vhh。 (6) 配一个主题=a.在已知选定的主题=a的情 其中,c=1,2,…,C.y,表示第h个特征词的输出向工程科学学报,第 41 卷,第 9 期 图 1 Single鄄鄄Pass & HAC 算法流程 Fig. 1 Single鄄鄄Pass & HAC algorithm flow 多个不同概率的主题词来表达. LDA 将文本数据抽 象为主题、文档、词语的一个贝叶斯概率模型. 进行 LDA 建模过程图 2 所示,其中 琢 为每篇文档主题的 Dirichlet 先验分布参数;兹 每篇文档的主题分布;z 为给词语分配的主题,共有 K 个,w 为词袋中的一个 词语;渍 为主题中的词语分布;茁 为每个主题词语分 布的 Dirichlet 先验分布参数,词汇表中共有 V 个 词语. 图 2 LDA 建模过程图 Fig. 2 LDA modeling process diagram 在 LDA 建模中,首先对于文本 dn ,首先随机从 Dirichlet 先验分布 琢 dn = [琢 dn 1 ,琢 dn 2 ,琢 dn 3 …琢 dn K ] T 中选出 的一个主题多项式分布 兹 dn = [ 兹 dn 1 ,兹 dn 2 ,兹 dn 3 …兹 dn K ] T , 然后根据多项式分布 兹 dn给该文档的第 i 个词语分 配一个主题 z dn i = a. 在已知选定的主题 z dn i = a 的情 况下,根据主题词语的 Dirichlet 先验分布[ 茁a1 ,茁a2 , 茁a3…茁aV ] T 生成的多项式分布[渍a1 ,渍a2 ,渍a3…渍aV ] T , 从词袋中抽取一个词语 w dn i . LDA 文本建模的主要 问题就是求解文档鄄鄄 主题和主题鄄鄄 特征词分布参数 矩阵 兹 和 椎 的值,本文使用 Gibbs 采样的方法来估 算 LDA 的参数. 假设已知任意函数的条件分布 p(xi | x - i),其中 x - i = (x1 ,x2 ,…,xi - 1 ,xi + 1 ,…,xn ),通过马尔科夫链 蒙特卡洛算法就可以得到联合分布. 首先建立 z 和 w 的联合分布,其数学表达式如式(2)所示: p(w,z| 琢,茁) = 乙 兹 乙 椎 p(w,z,兹,椎| 琢,茁)d兹d椎(2) 给定 z 和 w 的联合分布,即可通过式(3) 来计 算 Gibbs 采样的条件概率: p(z dn i = a |z 劭 dn 劭 i ,x,琢,茁) = p(z 劭 dn 劭 i ,z dn i = a | x,琢,茁) 移 K a忆 = 1 p(z 劭 dn 劭 i ,z dn i = a忆 | x,琢,茁) (3) 马尔科夫链平稳之后,给定一个采用的主题 z, 设定参数 琢 和 茁,即可通过 EM 算法来估计分布参 数矩阵 兹 和 椎 的值. LDA 建模构成了文本鄄鄄 主题分布,但是缺少了 词语本身之间的联系,只能在一定程度上表示文本 数据. 为了更好地对文本进行表示,还需要利用 Skip鄄鄄Gram 模型来训练语料库,将所有的特征词映 射到一定维度的向量空间中,将词语表示为向量. 在 Skip鄄鄄Gram 模型中,特征词作为输入层,上下文词 作为输出层,即通过特征词来预测上下文词,具体的 模型结构如图 3 所示. 使用 t I 表示输入层特征词的 P 维输入向量,复 制和转置输入层到隐含层的权重矩阵 W 中的第 p 行,可以得到 Q 维隐含层 hp 的定义如式(4)所示: hp = W T p (4) 输出层上,输出 C 个多项式分布,输出都由相 同的隐含和输出矩阵得到,如式(5)所示: P(t c,h = tO,c | t I) = yc,h = e uc,h 移 P h = 1 e uc,h (5) 式中,t c,h是输出层的第 c 个分布上的第 h 个特征词, tO,s是输出上下文词中实际的第 s 个词,t I 是唯一的 输入词,yc,h是输出层第 c 个分布上的第 h 个单元的 输出,uc,h是输出层第 c 个分布上的第 h 个单元的净 输入. 由于输出层面共享相同的权重,则有: uc,h = uh = vth·hp (6) 其中,c = 1,2,…,C. vth表示第 h 个特征词的输出向 ·1210·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有