正在加载图片...
·670 智能系统学报 第12卷 1)查询词和URL的突发性现象研究要分开 O和p以后,通过借鉴LDA和DCMLDA中Gibbs采 建模。 样的方法,在SBM中概率P(za)为 2)建模时,网络搜索特点,包括查询词、URL和 session3个维度都要考虑在内[4-1]。 T(∑a, ΠT(n+) P(za)= session是指在短时间内提交的满足相同信息 Πr(a,) 需求的一系列查询。为了避免同一会话中包含不 a+a 相干的查询而导致的性能降低,本文优先考虑同一 式中n4为第d个文档中主题z的数量。 会话中查询词之间的语义一致性。通过对比分析, 概率P(wlz,B)为 本文采用文献[16]提出的一系列规则来划分搜索 IIr(na.+B) session。这些规则用于评估查询之间的词汇相似 =1 P(w zB) 性,并在检测相关搜索查询时表现出很高精度。 2.1查询词和URL独立的主题模型(SBM) 式中n.为第d个文档中第k个主题下查询词w的 SBM的生成过程是基于查询词和URL相互独 个数。 立的假设。与LDA和DCMLDA等传统主题模型不 当该session中没有URL被点击时的条件概 同,SBM中的文档有查询词、被点击URL和查询时 率为 间三项。图1是SBM的搜索主题模型概率图。首 C+a 先,从超参数为a的Dirichlet分布中抽样生成文档 P(z=k X:0,z,w,u,a,B,8) 与主题之间的关系矩阵0,0是一个D×K的矩阵,其 中D代表文档数量,K代表主题数。对于每一个主 题k,从超参为B,和δ的Dirichlet分布中分别取样 T(Σ(C+B) =1 I(cop +B.+N) 生成查询词与主题之间的关系矩阵0和URL与主 三(c+B+,) T(C四+B.) 题之间的关系矩阵2.0和2是DxK×V的三维矩 阵,V代表训练语料库中出现的所有词的词表。对 式中:C表示文档d中分配主题为k的session的 于文档中的每一个session,从参数为0,的多项分布 数量,C表示文档d中查询词w被分配主题k的 中选择一个主题:,从参数为P的查询词的多项分 次数,N表示第i个session中查询词0的个数。 布中,采样生成查询词心。然后,生成点击事件的二 当一个session中有URL被点击时的条件概 项分布,如果URL被点击了,从参数为2的URL 率为 的多项分布中,采样生成URLu。变量0和δ是基 CaK og P(a=k1X=1,2-,w,u,cB,8)x 于单个特定文档的,因此SBM可以为每一个用户查 乞(C+a) 询词和URL的突发性建模。 @ rΣ(c世+B》 w=1 T(C"+B4+N) 0 宫G+a+》 T(C四+BA) r宫+】 T(C+δ4+N) D Π 图1SBM网络搜索分析主题模型 T∑(C"+a4+N) T(C+δ4) = Fig.1 SBM web search analysis topic model 式中,C表示文档d中URLu被分配主题k的次 SBM中的Gibbs采样方法借鉴了LDA和 数,Wn表示第i个session中URLu的数量。 DCMLDA中Gibbs采样的方法,并进行了推导。模 2.2查询词和URL相关联的主题模型(CS-SBM) 型的完全似然函数为 查询词和URL通过搜索引擎紧密地结合在一 P(w,u,zla,B,6)=P(ulz,6)P(w|z,B)P(z|a) 起,这使得本文研究的问题变得更加复杂。被点击 展开上式中的多项分布和Dirichlet分布,利用多项 的URL是由对应的查询词经过搜索得出的。在网 分布和Dirichlet分布的共轭性质,分别积分掉参数 络搜索的情境中,URL是提交查询词给搜索引擎后1)查询词和 URL 的突发性现象研究要分开 建模[13] 。 2)建模时,网络搜索特点,包括查询词、URL 和 session 3 个维度都要考虑在内[14-15] 。 session 是指在短时间内提交的满足相同信息 需求的一系列查询。 为了避免同一会话中包含不 相干的查询而导致的性能降低,本文优先考虑同一 会话中查询词之间的语义一致性。 通过对比分析, 本文采用文献[16] 提出的一系列规则来划分搜索 session。 这些规则用于评估查询之间的词汇相似 性,并在检测相关搜索查询时表现出很高精度。 2.1 查询词和 URL 独立的主题模型(SBM) SBM 的生成过程是基于查询词和 URL 相互独 立的假设。 与 LDA 和 DCMLDA 等传统主题模型不 同,SBM 中的文档有查询词、被点击 URL 和查询时 间三项。 图 1 是 SBM 的搜索主题模型概率图。 首 先,从超参数为 α 的 Dirichlet 分布中抽样生成文档 与主题之间的关系矩阵 θ,θ 是一个 D×K 的矩阵,其 中 D 代表文档数量,K 代表主题数。 对于每一个主 题 k,从超参为 βk 和 δk 的 Dirichlet 分布中分别取样 生成查询词与主题之间的关系矩阵 θ 和 URL 与主 题之间的关系矩阵 Ω。 θ 和 Ω 是 D×K×V 的三维矩 阵,V 代表训练语料库中出现的所有词的词表。 对 于文档中的每一个 session,从参数为 θd 的多项分布 中选择一个主题 z,从参数为 φzd的查询词的多项分 布中,采样生成查询词 w。 然后,生成点击事件的二 项分布,如果 URL 被点击了,从参数为 Ωzd的 URL 的多项分布中,采样生成 URL u。 变量 θ 和 δ 是基 于单个特定文档的,因此 SBM 可以为每一个用户查 询词和 URL 的突发性建模。 图 1 SBM 网络搜索分析主题模型 Fig.1 SBM web search analysis topic model SBM 中 的 Gibbs 采 样 方 法 借 鉴 了 LDA 和 DCMLDA 中 Gibbs 采样的方法,并进行了推导。 模 型的完全似然函数为 P(w,u,z α,β,δ) = P(u z,δ)P(w z,β)P(z α) 展开上式中的多项分布和 Dirichlet 分布,利用多项 分布和 Dirichlet 分布的共轭性质,分别积分掉参数 θ 和 φ 以后,通过借鉴 LDA 和 DCMLDA 中 Gibbs 采 样的方法,在 SBM 中概率 P(z α)为 P(z α) = Γ(∑ K z = 1 αz) ∏ K z = 1 Γ(αz) æ è ç ç ç ö ø ÷ ÷ ÷ D ∏ D d = 1 ∏ T z = 1 Γ(ndz + αz) Γ(∑ Z z = 1 (ndz + αz)) 式中 ndz为第 d 个文档中主题 z 的数量。 概率 P(w|z,β)为 P(w z,β) = ∏ D d = 1 ∏ K k = 1 Γ(∑ W w = 1 βkw) ∏ W w = 1 Γ(βkw) ∏ W w = 1 Γ(ndkw + βkw) Γ(∑ W w = 1 (ndkw + βkw)) æ è ç ç ç ö ø ÷ ÷ ÷ 式中 ndkw为第 d 个文档中第 k 个主题下查询词 w 的 个数。 当该 session 中没有 URL 被点击时的条件概 率为 P(zi = k Xi = 0,z -i,w,u,α,β,δ) ∝ C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk ′) · Γ(∑ W t = 1 (C KWD kwd + βwk)) Γ(∑ W t = 1 (C KWD kwd + βwk + Niw)) ∏ W w = 1 Γ(C KWD kwd + βwk + Niw) Γ(C KWD kwd + βw) 式中:C DK dk 表示文档 d 中分配主题为 k 的 session 的 数量,C KWD kwd 表示文档 d 中查询词 w 被分配主题 k 的 次数,Niw表示第 i 个 session 中查询词 w 的个数。 当一个 session 中有 URL 被点击时的条件概 率为 P(zi = k | Xi = 1,z -i,w,u,α,β,δ) ∝ C DK dk + αk ∑ K k′ = 1 (C DK dk′ + αk ′) · Γ(∑ W w = 1 (C KWD kwd + βwk)) Γ(∑ W w = 1 (C KWD kwd + βw + Niw)) ∏ W w = 1 Γ(C KWD kwd + βwk + Niw) Γ(C KWD kwd + βwk) · Γ(∑ U u = 1 (C KUD kud + δuk)) Γ(∑ U u = 1 (C KUD kud + δuk + Niu)) ∏ U u = 1 Γ(C KUD kud + δuk + Niu) Γ(C KUD kud + δuk) 式中,C KUD kud 表示文档 d 中 URL u 被分配主题 k 的次 数,Niu表示第 i 个 session 中 URL u 的数量。 2.2 查询词和 URL 相关联的主题模型(CS⁃SBM) 查询词和 URL 通过搜索引擎紧密地结合在一 起,这使得本文研究的问题变得更加复杂。 被点击 的 URL 是由对应的查询词经过搜索得出的。 在网 络搜索的情境中,URL 是提交查询词给搜索引擎后 ·670· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有