正在加载图片...
·672 智能系统学报 第12卷 generate timestamps t~Beta(T:)(X-TG)or t:Beta(T)(X-TU) I(CK+B.+N.) the same as the original model 宫(+R+》 I(CKMP+B.) end for 它主要的变化在于,对文档中的每一个session, T(∑(c+6) 从参数为日,的多项分布中采样一个主题z,然后根 Π w=I Π I(coc +5+N) 据数据集的不同,从Beta分布Beta(T,)和Beta(Ta) T(∑(C%+6+N.) T(c+6) 分别生成基于全局的时间戳和基于特定用户的时 时间的参数按照如下方法更新: 间戳。 TS-SBM的Gibbs采样与LDA方法类似。本文 w元a1- -1] SLA 给出了一些简单的推导。首先,模型的完全似然函 数为 7a=a-1-)-1 P(w,u,t,zla,B,δ,r)=P(tlz,r)P(ulz,8) 式中,和s表示每一个文档中主题z时间上的样 P(wlz,B)P(zla) 本均值和样本偏方差。 如果session中没有URL被点击,那么此时的条件 概率是: 3 参数估计 P(z=kI X:=0,z-i,w,u,a,B,6,T)c 关于超参数a和B设置问题,一些LDA应用采 (1-t))'atae 用默认相同值的方法获得了成功,例如由Griffiths B(T1,T2) 和Steyers提出的a=50/k,B=0.01,K是主题的数 量。因此,在LDA中没有必要去研究超参数。然 () 而,在本文提出的模型中,超参数的设置是至关重 f=1 I(Cko?+B+N) 要的。因为LDA中的p和2值,也被包括在SBM (∑(C+Bk+N.) I(CKu+B.) 和CS-SBM的B和8中。 式中:T1和T2是Beta分布的超参数。 SBM完全似然P(w,u,zIa,B,8)的计算如下 对于SBM模型,如果session中有URL被点击, 所示: 此时的条件概率为 P(w,u,z1,B,8)= T P(a:=k|X=1,2i,w,u,a,B,8)c ΠT(m+a4) k=1 k= (1-专)a1ta C+ B(T1,T2) 县(c+) ΠT(a) ( (m+a)) k= k=1 T(立(c"+B) r(Ba) IIr(n+B.) I(Chm+B+N) r宫R I(C +B.) ΠT(B) (nid +B)) r2(c-+ia》 T(∑6) ΠT(nd+δk) =1 u=1 T(C+δk+N) T(∑(c+64+N) (CkuP+8) IIr(8.) 空u+i》 联三1 CS-SBM完全似然P(w,u,zla,B,δ)的计算如 对于CS-SBM模型,当session中有URL被点击时的 下所示: 条件概率为 P(w,u,z1a,B,8)= P(z=kI X:=1,z-i,w,t,u,a,B,6,) (1-)at52- CK+ T(m+a) k=1 B(T,T2) + r) (m+a))generate timestamps t~ Beta(τz)(X-TG) or t:Beta(τzd ) (X-TU); the same as the original model end for 它主要的变化在于,对文档中的每一个 session, 从参数为 θd 的多项分布中采样一个主题 z,然后根 据数据集的不同,从 Beta 分布 Beta(τz)和 Beta(τzd ) 分别生成基于全局的时间戳和基于特定用户的时 间戳。 TS⁃SBM 的 Gibbs 采样与 LDA 方法类似。 本文 给出了一些简单的推导。 首先,模型的完全似然函 数为 P(w,u,t,z| α,β,δ,τ)= P(t |z,τ)P(u |z,δ)· P(w|z,β)P(z| α) 如果 session 中没有 URL 被点击,那么此时的条件 概率是: P(zi = k | Xi = 0,z -i,w,u,α,β,δ,τ) ∝ ∏ T j = 1 (1 - t j) τ dk1 -1 t τ dk2 -1 j B(τdk1 ,τdk2 ) C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk′) · Γ(∑ W t = 1 (C KWD kwd + βwk)) Γ(∑ W t = 1 (C KWD kwd + βwk + Niw)) ∏ W w = 1 Γ(C KWD kwd + βwk + Niw) Γ(C KWD kwd + βw) 式中:τdk1和 τdk2是 Beta 分布的超参数。 对于 SBM 模型,如果 session 中有 URL 被点击, 此时的条件概率为 P(zi = k | Xi = 1,z -i,w,u,α,β,δ) ∝ ∏ T j = 1 (1 - t j) τ dk1 -1 t τ dk2 -1 j B(τdk1 ,τdk2 ) C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk′) · Γ(∑ W w = 1 (C KWD kwd + βwk)) Γ(∑ W w = 1 (C KW kw + βw + Niw )) ∏ W w = 1 Γ(C KWD kwd + βwk + Niw ) Γ(C KWD kwd + βwk) · Γ(∑ U u = 1 (C KUD kud + δuk)) Γ(∑ U u = 1 (C KUD kud + δuk + Niu )) ∏ U u = 1 Γ(C KUD kud + δuk + Niu ) Γ(C KUD kud + δuk) 对于 CS⁃SBM 模型,当 session 中有 URL 被点击时的 条件概率为 P(zi = k | Xi = 1,z -i,w,t,u,α,β,δ,Ψ) ∝ ∏ T j = 1 (1 - t j) τ dk1 -1 t τ dk2 -1 j B(τdk1 ,τdk2 ) C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk′) · Γ(∑ W t = 1 (C KWD kwd + βwk)) Γ(∑ W t = 1 (C KWD kwd + βwk + Niw)) ∏ W w = 1 Γ(C KWD kwd + βwk + Niw) Γ(C KWD kwd + βw) · ∏q∈s i Γ(∑ U u = 1 (C QZU qzu + δqu )) Γ(∑ U u = 1 (C QZU qzu + δqu + Niu )) ∏u←q Γ(C QZU qzu + δqu + Niu ) Γ(C QZU qzu + δu ) 时间的参数按照如下方法更新: τkd1 = t kd [ t kd (1 - t kd ) s 2 kd - 1] τkd2 = (1 - t kd )[ t kd (1 - t kd ) s 2 kd - 1] 式中,t kd和 s 2 kd表示每一个文档中主题 z 时间上的样 本均值和样本偏方差。 3 参数估计 关于超参数 α 和 β 设置问题,一些 LDA 应用采 用默认相同值的方法获得了成功,例如由 Griffiths 和 Steyers [17]提出的 α= 50 / k,β = 0.01,K 是主题的数 量。 因此,在 LDA 中没有必要去研究超参数。 然 而,在本文提出的模型中,超参数的设置是至关重 要的。 因为 LDA 中的 φ 和 Ω 值,也被包括在 SBM 和 CS⁃SBM 的 β 和 δ 中。 SBM 完全似然 P(w,u,z | α,β,δ) 的计算如下 所示: P(w,u,z | α,β,δ) = ∏d ( Γ(∑ K k = 1 αk) ∏ K k = 1 Γ(αk) ) ∏ T k = 1 Γ(mdk + αk) Γ(∑ K k = 1 (mdk + αk)) · ∏d,k (( Γ(∑ W w = 1 βwk) ∏ W w = 1 Γ(βwk) ) ∏ W w = 1 Γ(nkwd + βwk) Γ(∑ W w = 1 (nkwd + βwk)) )· ( Γ(∑ U u = 1 δuk) ∏ U u = 1 Γ(δuk) ) ∏ U u = 1 Γ(nkud + δuk) Γ(∑ U u = 1 (nkud + δuk)) ) CS⁃SBM 完全似然 P(w,u,z | α,β,δ)的计算如 下所示: P(w,u,z | α,β,δ) = ∏d ( Γ(∑ K k = 1 αk) ∏ K k = 1 Γ(αk) ) ∏ T k = 1 Γ(mdk + αk) Γ(∑ K k = 1 (mdk + αk)) · ·672· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有