正在加载图片...
第5期 张森,等:基于用户查询日志的网络搜索主题分析 ·673· ira+R) 对于SBM: M- ak'=∑(lnT(na+d陆)-lnr(δu)+ .k. IIr(B.) (nid +B)) ∑hr(∑)-hr(Σw+i.:) ΠT(nh+δn) 对于CS-SBM: u= i,'=∑(lnT(nh+in)-ln「(δ))+ g,k ΠT(δ) Σar(Σa.)-lhr(Σ+.) SBM-T完全似然P(w,u,za,B,8)的计算如下 上面的每一个公式无论a'B.k'还是6.k'、8., 所示: 都定义了一个向量。本文采用文献[18]中提出的 P(w,u,zla,B,6)= 有限空间的BFGS方法使它最大化。运行Gibbs采 ΠT(m4+a4) 样,然后选择B和6使P(w,u,za,B,δ,r)完全 k= 似然最大化,直到达到稳定状态。重复上述过程, Πr(a) (ma +ag)) 直到aB和6收敛。 =1 T(∑B) 4实验结果分析 ΠT(n+Bt) 三 4.1数据集 本文选择的实验数据是搜狗搜索发布的匿名 查询日志。它是搜狗在网上公开发布的用户查询 日志。该日志包括了用户2008年6月整月的网络 Ip(ta:I Ta.) 查询记录。日志主要包括5部分,即用户匿名D Ir(.) 查询词、查询时间、点击的URL的排名、点击的 CS-SBM-T完全似然P(w,u,za,B,8,T)的计 URL。这些数据是按照匿名用户的D顺序依次排 算如下所示: 列的。本文选取了在一个月内查询日志条目大于 500条的用户进行建模。首先,将同一用户的搜索 P(w,u,zla,B,8,r)= 查询日志放到一个文档中。然后,用文献[16]提出 ( ΠT(m+a) 的方法将搜索查询日志切分成了647164个session, k= 用于下一步搜索主题的发现。接下来,根据文献 Πr(a) [16]提出的停用词列表过滤掉那些没有意义的查 r(∑BA) 询词。同时,例如www.sougou.com、www.baid.com iT(na+Bt) 等主要的搜索引擎和门户网站也要过滤掉),因为 n=1 =1 它们没有提供有用信息。每一个文档的时间戳是 ΠT(B) (nd +B)) 由搜索日志上提供的查询时间决定的,并且根据文 r+- 献[20]提出的SSTM模型中用到的方法,将时间按 照先后顺序归一化到(0,1)。实验数据中,每一个 W= 文档都包括了一些session,每一个session都包括一 1r(6) 些查询词、URL(如果有点击事件)和时间戳。 I(a) 本文选用了两个衡量标准。第1个衡量标准是 用部分Held-Out数据评估模型预测未知数据的能 进行对数似然转换: 力。第2个衡量标准,本文参照了文献[21]提出的 a.((a)-In(a)) 方法,即在观察部分用户搜索记录以后,预测剩余 ∑(nr(∑a)-lnr(∑mu+a) 查询项的能力。两个衡量标准都选择了困惑度作 为评估模型泛化能力的衡量指标。一般而言,模型 B'=Σfnu+B)-nr(B.)+ 的困惑度越低,表明泛化能力越强,对模型的拟合 Σ(nf(∑Ba)-lhr(∑nw+B) 程度越高。由于很少有概率模型做有关获取网络 搜索查询突发性和时间上的主题突发性研究,很难∏d,k (( Γ(∑ W w = 1 βwk) ∏ W w = 1 Γ(βwk) ) ∏ W w = 1 Γ(nkwd + βwk) Γ(∑ W w = 1 (nkwd + βwk)) )· ∏ K k = 1 ∏ Q q = 1h (( Γ(∑ U u = 1 δqu ) ∏ U u = 1 Γ(δqu ) ) ∏ U u = 1 Γ(nqku + δqu ) Γ(∑ U u = 1 (nqku + δqu )) ) SBM⁃T 完全似然 P(w,u,z α,β,δ)的计算如下 所示: P(w,u,z α,β,δ) = ∏d ( Γ(∑ K k = 1 αk) ∏ K k = 1 Γ(αk) ) ∏ T k = 1 Γ(mdk + αk) Γ(∑ K k = 1 (mdk + αk)) · ∏d,k ( Γ(∑ W w = 1 βwk) ∏ W w = 1 Γ(βwk) ) ∏ W w = 1 Γ(nkwd + βwk) Γ(∑ W w = 1 (nkwd + βwk)) · æ è ç ç ç ( Γ(∑ U u = 1 δuk) ∏ U u = 1 Γ(δuk) ) ∏ U u = 1 Γ(nkud + δuk) Γ(∑ U u = 1 (nkud + δuk)) ö ø ÷ ÷ ÷ ∏d,s,i p(t dsi | τdks ) CS⁃SBM⁃T 完全似然 P(w,u,z α,β,δ,τ) 的计 算如下所示: P(w,u,z α,β,δ,τ) = ∏d ( Γ(∑ K k = 1 αk) ∏ K k = 1 Γ(αk) ) ∏ T k = 1 Γ(mdk + αk) Γ(∑ K k = 1 (mdk + αk)) · ∏d,k (( Γ(∑ W w = 1 βwk) ∏ W w = 1 Γ(βwk) ) ∏ W w = 1 Γ(nkwd + βwk) Γ(∑ W w = 1 (nkwd + βwk)) )· ∏ K z = 1 ∏ Q q = 1 (( Γ(∑ U u = 1 δqu ) ∏ U u = 1 Γ(δqu ) ) ∏ U u = 1 Γ(nqku + δqu ) Γ(∑ U u = 1 (nqku + δqu )) )· ∏d,s,i p(t dsi | τdks ) 进行对数似然转换: α.′ = ∑d,k (lnΓ(n. kd + αk) - lnΓ(αk)) + ∑d (lnΓ(∑k αk) - lnΓ(∑k n. kd + αk)) β. k ′ = ∑d,k,w (lnΓ(nwkd + βwk) - lnΓ(βwk)) + ∑d,k (lnΓ(∑w βwk) - lnΓ(∑w nwkd + βwk)) 对于 SBM: δ. k ′ = ∑d,k,u (lnΓ(nukd + δuk) - lnΓ(δuk)) + ∑d,k (lnΓ(∑u δuk) - lnΓ(∑u nukd + δuk)) 对于 CS⁃SBM: δ. q ′ = ∑q,k,u (ln Γ(nqku + δqu ) - lnΓ(δqu )) + ∑q,k (lnΓ(∑u δqu ) - lnΓ(∑u nqku + δqu )) 上面的每一个公式无论 α.′、β. k ′还是 δ. k ′、δ. q ′ 都定义了一个向量。 本文采用文献[18] 中提出的 有限空间的 BFGS 方法使它最大化。 运行 Gibbs 采 样,然后选择 α、β 和 δ 使 P(w,u,z| α,β,δ,τ)完全 似然最大化,直到达到稳定状态。 重复上述过程, 直到 α、β 和 δ 收敛。 4 实验结果分析 4.1 数据集 本文选择的实验数据是搜狗搜索发布的匿名 查询日志。 它是搜狗在网上公开发布的用户查询 日志。 该日志包括了用户 2008 年 6 月整月的网络 查询记录。 日志主要包括 5 部分,即用户匿名 ID、 查询词、 查询时间、 点击的 URL 的排名、 点击的 URL。 这些数据是按照匿名用户的 ID 顺序依次排 列的。 本文选取了在一个月内查询日志条目大于 500 条的用户进行建模。 首先,将同一用户的搜索 查询日志放到一个文档中。 然后,用文献[16]提出 的方法将搜索查询日志切分成了647 164个 session, 用于下一步搜索主题的发现。 接下来,根据文献 [16]提出的停用词列表过滤掉那些没有意义的查 询词。 同时,例如 www.sougou. com、www. baidu. com 等主要的搜索引擎和门户网站也要过滤掉[19] ,因为 它们没有提供有用信息。 每一个文档的时间戳是 由搜索日志上提供的查询时间决定的,并且根据文 献[20]提出的 SSTM 模型中用到的方法,将时间按 照先后顺序归一化到(0,1)。 实验数据中,每一个 文档都包括了一些 session,每一个 session 都包括一 些查询词、URL(如果有点击事件)和时间戳。 本文选用了两个衡量标准。 第 1 个衡量标准是 用部分 Held⁃Out 数据评估模型预测未知数据的能 力。 第 2 个衡量标准,本文参照了文献[21]提出的 方法,即在观察部分用户搜索记录以后,预测剩余 查询项的能力。 两个衡量标准都选择了困惑度作 为评估模型泛化能力的衡量指标。 一般而言,模型 的困惑度越低,表明泛化能力越强,对模型的拟合 程度越高。 由于很少有概率模型做有关获取网络 搜索查询突发性和时间上的主题突发性研究,很难 第 5 期 张森,等:基于用户查询日志的网络搜索主题分析 ·673·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有