正在加载图片...
第5期 张森,等:基于用户查询日志的网络搜索主题分析 ·669. 信息中显现出与传统的自然语言不同的特点,网络 型并不能预测词汇突发性出现的趋势。 搜索中每一个用户的搜索条目都包括查询词和 为了能够在获取主题的同时预测词汇突发性 URL两项。已经提出的Dirichlet Compound 现象,G.Doylets)提出了DCMLDA主题模型,该模型 Multinomial(DCM)模型[)和Dirichlet Compound 结合了DCM和LDA的优势,直接将DCM扩展合并 Multinomial Latent Dirichlet Allocation (DCMLDA) 到主题模型里面形成了一个比LDA更加复杂的模 型]可以对文章中词的突发性现象建模,但如果直 型。在DCMLDA中对于每个主题k和每个文档d 接应用于网络搜索建模却不是很理想。虽然大多 服从新的多项式分布Oa,每个主题k都有不同的 数的点击图模型)及其变体[s可以对网络搜索建 非均匀的B。向量。对于每一个文档d,Pu根据 模,但都是针对用户群体进行研究而忽略了用户个 Dirichlet(B,)的变化而变化,因此每个主题实例在 人特点。 文档之间是相互联系的。文档中的主题实例允许 本文通过分析用户查询日志来获取网络搜索 在同一主题不同文档中每一个词汇的概率不同,这 突发现象,并提出了两个模型:SBM(search 也就是突发现象。 burstiness model CS-SBM coupling-sensitive 随着带有时间标记的文本集合(例如,数字化 search burstiness model)。SBM是一个单极模型,假 的报纸、杂志、博客等)数量和体积的增加,如何有 设查询词和URL之间主题独立,突发性的相关信息 效地搜索这些数据变得更加重要。上述模型都难 存储在偏Dirichlet先验里。CS-SBM充分考虑查询 以发现主题的演化趋势。在这个背景下,文献[9] 词和URL之间的关联。本文还用Beta分布刻画了 等提出了Topic Over Time(TOT)模型。TOT将文档 用户搜索的时间特性,使前面提出的模型能够用来 的时间信息作为服从Bta分布的变量,将每个主题 捕获时间上的突发性。 通过Beta分布与时间信息相关联。TOT假设每个 生成的词汇对应的时间信息也是通过它所属主题 1 相关工作 相关的Beta分布采样生成,这样主题与时间信息也 Madsen指出,多项分布经常用于文本建模。然 有关系。T0T不依赖马尔可夫假说,这样能够避免 而,多项分布能获取到文档中词汇的突发性现象, 在离散化过程中遇到时间粒度选取的问题。 即一个词如果出现过一次,那么它很有可能再次出 另外,文献[10]系统地总结了自然语言处理中 现[)。因此Madsen提出了Dirichlet多项分布 主题模型的发展,对LDA模型进行了详细的分析,并 (DCM)来代替传统的多项分布。DCM拥有一级自 对主题模型的发展趋势进行了预测。根据微博的特 由度,能获取到词的突发性,但是没有涉及文档中 殊形式,在LDA的基础上进行了改进,分别提出了 词汇的主题。文献[2]将DCM模型扩展成为了混 (MicroBlogs--LDA)MB-LDA模型m和(MicroBlogs 合DCM分布,该模型能够训练表示一组文档,其中 HDP)MB-HDP模型2)],同时证明了提出模型能够很 每一个文档都来自不同的高级主题。但是,该模型 好地对微博进行主题挖掘。 还是不能建模一个文档包含多个主题单词的情景。 以前的工作都是集中在对自然语言文本中的 上述工作中,之所以不能很好地刻画文档主 同质项目进行分析,即对一个文档中的同质词汇进 题,其主要原因是DCM更关注突发性现象而非获取 行建模。然而在网络搜索分析中,文档是由查询词 文档主题。2003年Bleits]提出的Latent Dirichlet 和URL两个异构项目组成,并且带有时间信息。因 Allocation(LDA)是非监督的贝叶斯生成模型,它 此,本文结合网络搜索查询的文本特点,提出并研 可以将文档集中每篇文档的主题按照概率分布的 究了将主题模型运用到网络搜索分析中,对查询词 形式给出。LDA包括词汇、主题和文档3层。LDA 和URL这两个异构项目和它们之间的关系进行 引入了Dirichlet先验分布,成为了一个完备的贝叶 建模。 斯模型。LDA文档生成过程为,从Dirichlet分布中 2以用户为中心的概率主题模型 采样文档与主题、主题与词汇分布,再重复从文档 主题多项式分布中采样主题以及由主题-词汇多项 本节主要介绍了SBM和CS-SBM主题模型,以 式分布生成词汇的过程,逐步生成整个文档。LDA 及获取主题时间突发性的策略。 已经在学术和工业界得到广泛应用。但是,LDA模 提出的模型应具备以下条件:信息中显现出与传统的自然语言不同的特点,网络 搜索中每一个用户的搜索条目都包括查询词和 URL 两 项。 已 经 提 出 的 Dirichlet Compound Multinomial ( DCM) 模 型[2] 和 Dirichlet Compound Multinomial Latent Dirichlet Allocation (DCMLDA)模 型[3]可以对文章中词的突发性现象建模,但如果直 接应用于网络搜索建模却不是很理想。 虽然大多 数的点击图模型[4]及其变体[5-6]可以对网络搜索建 模,但都是针对用户群体进行研究而忽略了用户个 人特点。 本文通过分析用户查询日志来获取网络搜索 突发 现 象, 并 提 出 了 两 个 模 型: SBM ( search burstiness model ) 和 CS⁃SBM ( coupling⁃sensitive search burstiness model)。 SBM 是一个单极模型,假 设查询词和 URL 之间主题独立,突发性的相关信息 存储在偏 Dirichlet 先验里。 CS⁃SBM 充分考虑查询 词和 URL 之间的关联。 本文还用 Beta 分布刻画了 用户搜索的时间特性,使前面提出的模型能够用来 捕获时间上的突发性。 1 相关工作 Madsen 指出,多项分布经常用于文本建模。 然 而,多项分布能获取到文档中词汇的突发性现象, 即一个词如果出现过一次,那么它很有可能再次出 现[7] 。 因 此 Madsen 提 出 了 Dirichlet 多 项 分 布 (DCM)来代替传统的多项分布。 DCM 拥有一级自 由度,能获取到词的突发性,但是没有涉及文档中 词汇的主题。 文献[2] 将 DCM 模型扩展成为了混 合 DCM 分布,该模型能够训练表示一组文档,其中 每一个文档都来自不同的高级主题。 但是,该模型 还是不能建模一个文档包含多个主题单词的情景。 上述工作中,之所以不能很好地刻画文档主 题,其主要原因是 DCM 更关注突发性现象而非获取 文档主题。 2003 年 Blei [8] 提出的 Latent Dirichlet Allocation (LDA) 是非监督的贝叶斯生成模型,它 可以将文档集中每篇文档的主题按照概率分布的 形式给出。 LDA 包括词汇、主题和文档 3 层。 LDA 引入了 Dirichlet 先验分布,成为了一个完备的贝叶 斯模型。 LDA 文档生成过程为,从 Dirichlet 分布中 采样文档与主题、主题与词汇分布,再重复从文档- 主题多项式分布中采样主题以及由主题-词汇多项 式分布生成词汇的过程,逐步生成整个文档。 LDA 已经在学术和工业界得到广泛应用。 但是,LDA 模 型并不能预测词汇突发性出现的趋势。 为了能够在获取主题的同时预测词汇突发性 现象,G.Doyle [3]提出了 DCMLDA 主题模型,该模型 结合了 DCM 和 LDA 的优势,直接将 DCM 扩展合并 到主题模型里面形成了一个比 LDA 更加复杂的模 型。 在 DCMLDA 中对于每个主题 k 和每个文档 d 服从新的多项式分布 θkd ,每个主题 k 都有不同的、 非均匀的 βk 向量。 对于每一个文档 d, φkd 根据 Dirichlet(βk )的变化而变化,因此每个主题实例在 文档之间是相互联系的。 文档中的主题实例允许 在同一主题不同文档中每一个词汇的概率不同,这 也就是突发现象。 随着带有时间标记的文本集合(例如,数字化 的报纸、杂志、博客等) 数量和体积的增加,如何有 效地搜索这些数据变得更加重要。 上述模型都难 以发现主题的演化趋势。 在这个背景下,文献[9] 等提出了 Topic Over Time(TOT)模型。 TOT 将文档 的时间信息作为服从 Beta 分布的变量,将每个主题 通过 Beta 分布与时间信息相关联。 TOT 假设每个 生成的词汇对应的时间信息也是通过它所属主题 相关的 Beta 分布采样生成,这样主题与时间信息也 有关系。 TOT 不依赖马尔可夫假说,这样能够避免 在离散化过程中遇到时间粒度选取的问题。 另外,文献[10]系统地总结了自然语言处理中 主题模型的发展,对 LDA 模型进行了详细的分析,并 对主题模型的发展趋势进行了预测。 根据微博的特 殊形式,在 LDA 的基础上进行了改进,分别提出了 (MicroBlogs⁃LDA) MB⁃LDA 模 型[11] 和 ( MicroBlogs⁃ HDP)MB⁃HDP 模型[12] ,同时证明了提出模型能够很 好地对微博进行主题挖掘。 以前的工作都是集中在对自然语言文本中的 同质项目进行分析,即对一个文档中的同质词汇进 行建模。 然而在网络搜索分析中,文档是由查询词 和 URL 两个异构项目组成,并且带有时间信息。 因 此,本文结合网络搜索查询的文本特点,提出并研 究了将主题模型运用到网络搜索分析中,对查询词 和 URL 这两个异构项目和它们之间的关系进行 建模。 2 以用户为中心的概率主题模型 本节主要介绍了 SBM 和 CS⁃SBM 主题模型,以 及获取主题时间突发性的策略。 提出的模型应具备以下条件: 第 5 期 张森,等:基于用户查询日志的网络搜索主题分析 ·669·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有