第5期 张森,等:基于用户查询日志的网络搜索主题分析 .671 返回的结果。因此,URL和查询词是相关的。为了 数量。 获取它们两者之间的关系,这里引入变量△ku来 当session中没有URL被点击时的条件概率为 代表“查询词-URL”的多项分布,其先验由δ表示。 P(a:=k|X=0,z-,w,u,a,B,8,Ψ) “查询词-URL”多项式通过目前已经被广泛采用的 点击图来获得,点击图由搜索查询和被点击的URL T(∑(C+B) f=1 两部分组成。用于表示全局部分的CS-SBM定义为 CS-SBM-G。因为本文重点研究以单个用户为核心 名+ rΣ(C+R4+M) 1=1 的信息能否增强主题模型的表现,所以基于单个用 (CK+B+N) 户“查询词-URL”多项分布的CS-SBM定义为CS- Π I(CKu+B.) SBM-U。 当session中有URL被点击时的条件概率为 图2给出了CS-SBM的生成过程。与SBM相 P(z;=kI X:=1,z-,w,t,u,a,B,6,V) 比,查询词的生成过程不变,两者最主要的区别在 于,CS-SBM在URL生成的时候要考虑查询词的影 C+ag T(∑(C四+B) =1 响,对于session中每一个查询项q,首先生成点击事 件的二项分布,如果URL被点击了,则从参数为2 宫c赠·R.+》 的URL多项分布中采样生成URLu。 T∑(C+6) (a rC吧+Bs+N m=1 I(CID +B.) qesi (0 r(∑(C+i+N)) T(C+δ+Na) Π T(c4+δ.) 式中:C2表示在一个session里查询项g中的 ⑥ URLu被分配主题为z的次数;N.表示session i中 URL的数量。 D 2.3主题在时间上的突发性 图2CS-SBM网络搜索分析主题模型 网络搜索中另一个常见现象就是时间上的突 Fig.2 CS-SBM web search analysis topic model 发性。一个用户更倾向于在一个很短的时间内集 模型的完全似然函数为 中查询一些内容。因此,本文假设每一个用户的查 P(w,u,zla,B,6)=P(ulz,w,8)P(wz.B)P(zla) 询轨迹都有一个时间上的突发性,这种突发性由与 在CS-SBM中,同样采用了与LDA类似的 查询相关的时间戳来体现。因为时间粒度是很难 Gibbs采样方法。P(zla)和P(wlz,B)都与SBM中 设定的,所以本文采用TOT中提出的方法,使用连 的相同。两者主要的区别就是给定的主题中的 续的Beta分布来捕获主题时间上的突发性。通过 和u不再相互独立。“的生成过程可能受到主题z 引入Beta分布,使一个主题能够更容易在一个短的 和相关搜索查询g的影响。 时间周期内出现。在这种情况下,本文从整个语料 P(uI z.w6)= 库级别(定义为X-TG)和基于单一用户级别(定义 为X-TU)出发,刻画一个主题在时间上的变化 iipus14aii(a.1)w= 趋势。 因为主题-周期的多项分布是固定的(对每一 i114-1i 个用户而言),所以主题中存在的时间周期将会证 明突发性。每天或者每小时都可以观察到突发性 Πr() 现象,这表明去离散化是更合适的。 m=1 下面是SBM和CS-SBM在添加了时间信息以 ⅡT(ne+) 后的模型算法。 M- the same as the original model 1r(6) T(∑(ne+i) for each session s in d do 式中,nm是第z个主题的第q个查询中的URLu的 choose a topic z:Multinomial();返回的结果。 因此,URL 和查询词是相关的。 为了 获取它们两者之间的关系,这里引入变量 Δqku 来 代表“查询词-URL”的多项分布,其先验由 δ 表示。 “查询词-URL”多项式通过目前已经被广泛采用的 点击图来获得,点击图由搜索查询和被点击的 URL 两部分组成。 用于表示全局部分的 CS⁃SBM 定义为 CS⁃SBM⁃G。 因为本文重点研究以单个用户为核心 的信息能否增强主题模型的表现,所以基于单个用 户 “查询词-URL”多项分布的 CS⁃SBM 定义为 CS⁃ SBM⁃U。 图 2 给出了 CS⁃SBM 的生成过程。 与 SBM 相 比,查询词的生成过程不变,两者最主要的区别在 于,CS⁃SBM 在 URL 生成的时候要考虑查询词的影 响,对于 session 中每一个查询项 q,首先生成点击事 件的二项分布,如果 URL 被点击了,则从参数为 Ωqz 的 URL 多项分布中采样生成 URL u。 图 2 CS⁃SBM 网络搜索分析主题模型 Fig.2 CS⁃SBM web search analysis topic model 模型的完全似然函数为 P(w,u,z α,β,δ) = P(u z,w,δ)P(w z,β)P(z α) 在 CS⁃SBM 中, 同 样 采 用 了 与 LDA 类 似 的 Gibbs 采样方法。 P(z| α)和 P(w z,β)都与 SBM 中 的相同。 两者主要的区别就是给定的主题中的 w 和 u 不再相互独立。 u 的生成过程可能受到主题 z 和相关搜索查询 q 的影响。 P(u | z,w,δ) = ∫∏ D d = 1 ∏ Nd i = 1 P(udi | Δqdi zdi )∏ Q q = 1 ∏ K z = 1 p(Δqz | δ)dΔ = ∫∏ K z = 1 ∏ Q q = 1 ∏ U u = 1 Δ nqzu qzu ∏ Q q = 1 ∏ K z = 1 ( Γ(∑ U u = 1 δqu ) ∏ U u = 1 Γ(δqu ) ∏ U u = 1 Δ δqu -1 qzu )dΔ = ∏ Q q = 1 ( Γ(∑ U u = 1 δqu ) K ∏ U u = 1 Γ(δqu ) ) × ∏ K z = 1 ∏ Q q = 1 ∏ U u = 1 Γ(nqzu + δqu ) Γ(∑ U u = 1 (nqzu + δqu )) 式中,nqzu是第 z 个主题的第 q 个查询中的 URL u 的 数量。 当 session 中没有 URL 被点击时的条件概率为 P(zi = k Xi = 0,z -i,w,u,α,β,δ,Ψ) ∝ C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk ′) · Γ(∑ W t = 1 (C KWD kwd + βwk)) Γ(∑ W t = 1 (C KWD kwd + βwk + Niw )) · ∏ W w = 1 Γ(C KWD kwd + βwk + Niw ) Γ(C KWD kwd + βw ) 当 session 中有 URL 被点击时的条件概率为 P(zi = k | Xi = 1,z -i,w,t,u,α,β,δ,Ψ) ∝ C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk ′) · Γ(∑ W t = 1 (C KWD kwd + βwk)) Γ(∑ W t = 1 (C KWD kwd + βwk + Niw )) · ∏ W w = 1 Γ(C KWD kwd + βwk + Niw) Γ(C KWD kwd + βw) ∏q∈s i Γ(∑ U u = 1 (C QZU qzu + δqu)) Γ(∑ U u = 1 (C QZU qzu + δqu + Niu)) · ∏u←q Γ(C QZU qzu + δqu + Niu ) Γ(C QZU qzu + δu ) 式中: C QZU qzu 表示在一个 session 里查询项 q 中的 URL u被分配主题为 z 的次数;Niw表示 session i 中 URL 的数量。 2.3 主题在时间上的突发性 网络搜索中另一个常见现象就是时间上的突 发性。 一个用户更倾向于在一个很短的时间内集 中查询一些内容。 因此,本文假设每一个用户的查 询轨迹都有一个时间上的突发性,这种突发性由与 查询相关的时间戳来体现。 因为时间粒度是很难 设定的,所以本文采用 TOT 中提出的方法,使用连 续的 Beta 分布来捕获主题时间上的突发性。 通过 引入 Beta 分布,使一个主题能够更容易在一个短的 时间周期内出现。 在这种情况下,本文从整个语料 库级别(定义为 X-TG)和基于单一用户级别(定义 为 X - TU) 出发,刻画一个主题在时间上的变化 趋势。 因为主题-周期的多项分布是固定的(对每一 个用户而言),所以主题中存在的时间周期将会证 明突发性。 每天或者每小时都可以观察到突发性 现象,这表明去离散化是更合适的。 下面是 SBM 和 CS⁃SBM 在添加了时间信息以 后的模型算法。 the same as the original model for each session s in d do choose a topic z:Multinomial(θd ); 第 5 期 张森,等:基于用户查询日志的网络搜索主题分析 ·671·