674 智能系统学报 第12卷 找到提出模型的直接竞争对手。所以本文选取了3 671.09、561.26。本文中提出的模型再次取得了显 个常用的主题模型作为比较基线,即LDA、DCMLDA 著的优势,其中SBM的困惑度是206.76,而CS-SBM 和T0T。 达到了204.87。实验结果表明,SBM和CS-SBM有 4.2模型困惑度分析 着更好的预测剩余查询项的能力。 对于第一个衡量标准,困惑度义如下: 1.6×10 LDA 1.4 Perplexity)(()) ++DCMLDA 1.2 +TOT d=1i=1 SBM 式中,M是模型通过训练过程学习到的,N,是指第 1.0 -·CS-SBM d个文档中词汇数量。图3展示了困惑度的比较结 果,从中可以发现这两个提出的模型与3个基线模 0.4 型相比表现出了更好的预测未知数据的能力。因 0.2 此,把搜索主题数设置为1O00时,SBM、CS-SBM、 t.... LDA、DCMLDA、TOT的困惑度分别为430.347 20 406080100 训练数据占总数据的百分比/% 400.16、1080.41、995.76、830.23。SBM和CS-SBM 自身的困惑度低,并且随着主题数增加困惑度还会 图4 Observed数据的困惑度 进一步降低。实验结果表明,SBM和CS-SBM更适 Fig.4 Perplexity of observed data 合于从给予的用户搜索历史中预测用户未来网络 4.3搜索主题发现及分析 搜索查询。 发现搜索主题的合理性是判断模型是否成功 ×10 的一个重要指标。本文中的实验结果证明了提出 3.0 →LDA 的模型在发现搜索主题方面表现突出,同时还准确 2.5 ◆◆DCMLDA ..TOT 地预测了查询主题在时间上的演化趋势。 20 -SBM 实验中设置主题的数目为K=50。搜索主题是 CS-SBM ☒1. 从Gibbs采样的1O00次迭代中单次采样提取的。 1.0 在表1~4中,展示了4个由SBM和CS-SBM分别 在语料库级上和单个用户级上发现的搜索主题,并 0.5 列出了各主题概率值最大的前5个词汇及其概率。 0 2004006008001000 主题名称是根据该主题下词汇具体的语义信息定 检索的主题个数/个 义的。图5~8中,直方图显示了主题在时间轴上的 图3Held-out数据的困惑度 概率分布,光滑曲线为拟合Beta分布的概率密度函 Fig.3 Perplexity of held-out data 数曲线。下面将选取图中的两个搜索主题进行具 第2种衡量标准的困惑度为 体分析。 Perplexity(M)= 表1~2中的第一个主题是“地震”,通过图5~6 可以发现,本文提出的SBM模型在语料库级上和单 三(w (II II p(,IM.w.)) 个用户级上都成功获取了主题时间上的突发性。 d=li=P+I 根据其时间分布来看,由于刚刚发生过汶川地震, 第2种衡量标准可以评估提出的模型在观察一 因此在6月份的前半个月,人们对地震的搜索比较 部分用户搜索历史记录以后,预测剩余查询项的能 频繁,但随着时间的推移,搜索数量逐渐减少。从 力。例如,从用户的查询日志中得到已经观察的查 语料库级的分析结果看,“汶川、地震、救灾”等高频 询词心1,P,那么剩余查询项的预测分布为 词汇都与地震相关。对于单个用户,本文从实验结 P(wW:P)。测试数据的困惑度是根据上面的困惑 果中选择了一位有大量查询日志并且有地震主题 度公式进行计算。举例来说,选择数据集中前80% 的用户做具体分析描述。结果发现,在这个主题下 的搜索查询词作为观察训练数据,剩余的20%作为 的词,例如地震、汶川、唐山、四川等词汇出现的概 测试数据。图4呈现了部分观察数据的预测困惑 率较高。总体来看,汶川地震引起了人们广泛的关 度,LDA、DCMLDA、TOT的困惑度分别是684.83、 注,对于全局来说,用户更关注地震救援工作:对于找到提出模型的直接竞争对手。 所以本文选取了 3 个常用的主题模型作为比较基线,即 LDA、DCMLDA 和 TOT。 4.2 模型困惑度分析 对于第一个衡量标准,困惑度义如下: Perplexityheld-out(M) = (∏ D d = 1 ∏ Nd i = 1 p(wi M)) -1 ∑ D d = 1 (Nd ) 式中,M 是模型通过训练过程学习到的,Nd 是指第 d 个文档中词汇数量。 图 3 展示了困惑度的比较结 果,从中可以发现这两个提出的模型与 3 个基线模 型相比表现出了更好的预测未知数据的能力。 因 此,把搜索主题数设置为 1 000 时,SBM、CS⁃SBM、 LDA、 DCMLDA、 TOT 的 困 惑 度 分 别 为 430. 347、 400.16、1 080. 41、995. 76、830. 23。 SBM 和 CS⁃SBM 自身的困惑度低,并且随着主题数增加困惑度还会 进一步降低。 实验结果表明,SBM 和 CS⁃SBM 更适 合于从给予的用户搜索历史中预测用户未来网络 搜索查询。 图 3 Held⁃out 数据的困惑度 Fig.3 Perplexity of held⁃out data 第 2 种衡量标准的困惑度为 Perplexityportion(M) = (∏ D d = 1 ∏ Nd i = P+1 p(wi M,Wa:P )) -1 ∑ D d = 1 (Nd ) 第 2 种衡量标准可以评估提出的模型在观察一 部分用户搜索历史记录以后,预测剩余查询项的能 力。 例如,从用户的查询日志中得到已经观察的查 询 词 w1:P , 那 么 剩 余 查 询 项 的 预 测 分 布 为 P w | W1:P ( ) 。 测试数据的困惑度是根据上面的困惑 度公式进行计算。 举例来说,选择数据集中前 80% 的搜索查询词作为观察训练数据,剩余的 20%作为 测试数据。 图 4 呈现了部分观察数据的预测困惑 度,LDA、DCMLDA、TOT 的困惑度分别是 684. 83、 671.09、561.26。 本文中提出的模型再次取得了显 著的优势,其中 SBM 的困惑度是 206.76,而 CS⁃SBM 达到了 204.87。 实验结果表明,SBM 和 CS⁃SBM 有 着更好的预测剩余查询项的能力。 图 4 Observed 数据的困惑度 Fig.4 Perplexity of observed data 4.3 搜索主题发现及分析 发现搜索主题的合理性是判断模型是否成功 的一个重要指标。 本文中的实验结果证明了提出 的模型在发现搜索主题方面表现突出,同时还准确 地预测了查询主题在时间上的演化趋势。 实验中设置主题的数目为 K = 50。 搜索主题是 从 Gibbs 采样的 1000 次迭代中单次采样提取的。 在表 1 ~ 4 中,展示了 4 个由 SBM 和 CS-SBM 分别 在语料库级上和单个用户级上发现的搜索主题,并 列出了各主题概率值最大的前 5 个词汇及其概率。 主题名称是根据该主题下词汇具体的语义信息定 义的。 图 5~8 中,直方图显示了主题在时间轴上的 概率分布,光滑曲线为拟合 Beta 分布的概率密度函 数曲线。 下面将选取图中的两个搜索主题进行具 体分析。 表 1~2 中的第一个主题是“地震”,通过图 5~6 可以发现,本文提出的 SBM 模型在语料库级上和单 个用户级上都成功获取了主题时间上的突发性。 根据其时间分布来看,由于刚刚发生过汶川地震, 因此在 6 月份的前半个月,人们对地震的搜索比较 频繁,但随着时间的推移,搜索数量逐渐减少。 从 语料库级的分析结果看,“汶川、地震、救灾”等高频 词汇都与地震相关。 对于单个用户,本文从实验结 果中选择了一位有大量查询日志并且有地震主题 的用户做具体分析描述。 结果发现,在这个主题下 的词,例如地震、汶川、唐山、四川等词汇出现的概 率较高。 总体来看,汶川地震引起了人们广泛的关 注,对于全局来说,用户更关注地震救援工作;对于 ·674· 智 能 系 统 学 报 第 12 卷