找到提出模型的直接竞争对手。所以本文选取了３个常用的主题模型作为比较

正在加载图片...

674 智能系统学报第12卷找到提出模型的直接竞争对手。所以本文选取了3 671.09、561.26。本文中提出的模型再次取得了显个常用的主题模型作为比较基线，即LDA、DCMLDA 著的优势，其中SBM的困惑度是206.76，而CS-SBM 和T0T。达到了204.87。实验结果表明，SBM和CS-SBM有 4.2模型困惑度分析着更好的预测剩余查询项的能力。对于第一个衡量标准，困惑度义如下： 1.6×10 LDA 1.4 Perplexity)(()) ++DCMLDA 1.2 +TOT d=1i=1 SBM 式中，M是模型通过训练过程学习到的，N,是指第 1.0 -·CS-SBM d个文档中词汇数量。图3展示了困惑度的比较结果，从中可以发现这两个提出的模型与3个基线模 0.4 型相比表现出了更好的预测未知数据的能力。因 0.2 此，把搜索主题数设置为1O00时，SBM、CS-SBM、 t.... LDA、DCMLDA、TOT的困惑度分别为430.347 20 406080100 训练数据占总数据的百分比/% 400.16、1080.41、995.76、830.23。SBM和CS-SBM 自身的困惑度低，并且随着主题数增加困惑度还会图4 Observed数据的困惑度进一步降低。实验结果表明，SBM和CS-SBM更适 Fig.4 Perplexity of observed data 合于从给予的用户搜索历史中预测用户未来网络 4.3搜索主题发现及分析搜索查询。发现搜索主题的合理性是判断模型是否成功 ×10 的一个重要指标。本文中的实验结果证明了提出 3.0 →LDA 的模型在发现搜索主题方面表现突出，同时还准确 2.5 ◆◆DCMLDA ..TOT 地预测了查询主题在时间上的演化趋势。 20 -SBM 实验中设置主题的数目为K=50。搜索主题是 CS-SBM ☒1. 从Gibbs采样的1O00次迭代中单次采样提取的。 1.0 在表1~4中，展示了4个由SBM和CS-SBM分别在语料库级上和单个用户级上发现的搜索主题，并 0.5 列出了各主题概率值最大的前5个词汇及其概率。 0 2004006008001000 主题名称是根据该主题下词汇具体的语义信息定检索的主题个数/个义的。图5~8中，直方图显示了主题在时间轴上的图3Held-out数据的困惑度概率分布，光滑曲线为拟合Beta分布的概率密度函 Fig.3 Perplexity of held-out data 数曲线。下面将选取图中的两个搜索主题进行具第2种衡量标准的困惑度为体分析。 Perplexity(M)= 表1~2中的第一个主题是“地震”，通过图5~6 可以发现，本文提出的SBM模型在语料库级上和单三(w (II II p(,IM.w.)) 个用户级上都成功获取了主题时间上的突发性。 d=li=P+I 根据其时间分布来看，由于刚刚发生过汶川地震，第2种衡量标准可以评估提出的模型在观察一因此在6月份的前半个月，人们对地震的搜索比较部分用户搜索历史记录以后，预测剩余查询项的能频繁，但随着时间的推移，搜索数量逐渐减少。从力。例如，从用户的查询日志中得到已经观察的查语料库级的分析结果看，“汶川、地震、救灾”等高频询词心1，P,那么剩余查询项的预测分布为词汇都与地震相关。对于单个用户，本文从实验结 P(wW:P)。测试数据的困惑度是根据上面的困惑果中选择了一位有大量查询日志并且有地震主题度公式进行计算。举例来说，选择数据集中前80% 的用户做具体分析描述。结果发现，在这个主题下的搜索查询词作为观察训练数据，剩余的20%作为的词，例如地震、汶川、唐山、四川等词汇出现的概测试数据。图4呈现了部分观察数据的预测困惑率较高。总体来看，汶川地震引起了人们广泛的关度，LDA、DCMLDA、TOT的困惑度分别是684.83、注，对于全局来说，用户更关注地震救援工作：对于找到提出模型的直接竞争对手。所以本文选取了３个常用的主题模型作为比较基线，即ＬＤＡ、ＤＣＭＬＤＡ和ＴＯＴ。４．２模型困惑度分析对于第一个衡量标准，困惑度义如下：Ｐｅｒｐｌｅｘｉｔｙｈｅｌｄ－ｏｕｔ（Ｍ）＝（∏ Ｄｄ＝１ ∏ Ｎｄｉ＝１ｐ（ｗｉＭ））－１ ∑ Ｄｄ＝１（Ｎｄ）式中，Ｍ是模型通过训练过程学习到的，Ｎｄ是指第ｄ个文档中词汇数量。图３展示了困惑度的比较结果，从中可以发现这两个提出的模型与３个基线模型相比表现出了更好的预测未知数据的能力。因此，把搜索主题数设置为１０００时，ＳＢＭ、ＣＳ⁃ＳＢＭ、ＬＤＡ、ＤＣＭＬＤＡ、ＴＯＴ的困惑度分别为４３０．３４７、４００．１６、１０８０．４１、９９５．７６、８３０．２３。ＳＢＭ和ＣＳ⁃ＳＢＭ自身的困惑度低，并且随着主题数增加困惑度还会进一步降低。实验结果表明，ＳＢＭ和ＣＳ⁃ＳＢＭ更适合于从给予的用户搜索历史中预测用户未来网络搜索查询。图３Ｈｅｌｄ⁃ｏｕｔ数据的困惑度Ｆｉｇ．３Ｐｅｒｐｌｅｘｉｔｙｏｆｈｅｌｄ⁃ｏｕｔｄａｔａ第２种衡量标准的困惑度为Ｐｅｒｐｌｅｘｉｔｙｐｏｒｔｉｏｎ（Ｍ）＝（∏ Ｄｄ＝１ ∏ Ｎｄｉ＝Ｐ＋１ｐ（ｗｉＭ，Ｗａ：Ｐ））－１ ∑ Ｄｄ＝１（Ｎｄ）第２种衡量标准可以评估提出的模型在观察一部分用户搜索历史记录以后，预测剩余查询项的能力。例如，从用户的查询日志中得到已经观察的查询词ｗ１：Ｐ，那么剩余查询项的预测分布为Ｐｗ｜Ｗ１：Ｐ ( ) 。测试数据的困惑度是根据上面的困惑度公式进行计算。举例来说，选择数据集中前８０％的搜索查询词作为观察训练数据，剩余的２０％作为测试数据。图４呈现了部分观察数据的预测困惑度，ＬＤＡ、ＤＣＭＬＤＡ、ＴＯＴ的困惑度分别是６８４．８３、６７１．０９、５６１．２６。本文中提出的模型再次取得了显著的优势，其中ＳＢＭ的困惑度是２０６．７６，而ＣＳ⁃ＳＢＭ达到了２０４．８７。实验结果表明，ＳＢＭ和ＣＳ⁃ＳＢＭ有着更好的预测剩余查询项的能力。图４Ｏｂｓｅｒｖｅｄ数据的困惑度Ｆｉｇ．４Ｐｅｒｐｌｅｘｉｔｙｏｆｏｂｓｅｒｖｅｄｄａｔａ４．３搜索主题发现及分析发现搜索主题的合理性是判断模型是否成功的一个重要指标。本文中的实验结果证明了提出的模型在发现搜索主题方面表现突出，同时还准确地预测了查询主题在时间上的演化趋势。实验中设置主题的数目为Ｋ＝５０。搜索主题是从Ｇｉｂｂｓ采样的１０００次迭代中单次采样提取的。在表１～４中，展示了４个由ＳＢＭ和ＣＳ－ＳＢＭ分别在语料库级上和单个用户级上发现的搜索主题，并列出了各主题概率值最大的前５个词汇及其概率。主题名称是根据该主题下词汇具体的语义信息定义的。图５～８中，直方图显示了主题在时间轴上的概率分布，光滑曲线为拟合Ｂｅｔａ分布的概率密度函数曲线。下面将选取图中的两个搜索主题进行具体分析。表１～２中的第一个主题是“地震”，通过图５～６可以发现，本文提出的ＳＢＭ模型在语料库级上和单个用户级上都成功获取了主题时间上的突发性。根据其时间分布来看，由于刚刚发生过汶川地震，因此在６月份的前半个月，人们对地震的搜索比较频繁，但随着时间的推移，搜索数量逐渐减少。从语料库级的分析结果看，“汶川、地震、救灾”等高频词汇都与地震相关。对于单个用户，本文从实验结果中选择了一位有大量查询日志并且有地震主题的用户做具体分析描述。结果发现，在这个主题下的词，例如地震、汶川、唐山、四川等词汇出现的概率较高。总体来看，汶川地震引起了人们广泛的关注，对于全局来说，用户更关注地震救援工作；对于 ·６７４· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于用户查询日志的网络搜索主题分析