正在加载图片...
第5期 张森,等:基于用户查询日志的网络搜索主题分析 ·675. 表2中的个人用户来说,他们只是关注地震本身,而 250 没有救援相关的查询。 200 200 表3~4中,最后一个主题是“欧洲杯”,图7一8 100 100 中,CS-SBM的实验结果显示关于“欧洲杯”这个话 50 题的查询从第十天到第三十天越来越多,这也符合 0 1015202530 51015202530 随着欧洲杯的进行人们关注的热情越来越高的现 时间/天 时间/天 象。从整个语料库得到的结果来看,搜索主题“欧 (a)主题“电子产品”随着 (b)主题“欧洲杯”随着 洲杯”主要包括欧洲杯、瑞士、奥地利等词。其中 时间的变化趋势 时间的变化趋势 “瑞士”和“奥地利”是本届欧洲杯的举办地,这些词 图8 CS-SBM-TU发现的搜索主题在时间上的演化趋势 汇都与欧洲杯的主题紧密相关。而对于表4中的个 Fig.8 Latent evolutions of CS-SBM-TU discovered search topics 人用户,我们仍然从实验结果中选取了与“欧洲杯” 主题相关的用户进行分析说明。它包括欧洲杯、西 表1SBM-TG发现的搜索主题分布情况 班牙、冠军等关键词,这证明了该用户更关注于欧 Table 1 SBM-TG discovered search topics distribution 洲杯的冠军归属问题。 主题1 主题2 总体而言,发现的搜索主题与实际的情况大体 地震 NBA 相吻合,而且能较好地反应主题变化的趋势。 搜索词 概率 搜索词 概率 ×10 ×10 汶川 0.03628 NBA 0.03128 2.5 1.0 地震 0.03342 季后赛 0.02883 2.0 0.5 救灾 0.03217 西部 0.02832 1.0 05 武警 0.02774 湖人 0.02336 0 51015202530 51015202530 哄抢 0.02774 冠军 0.02092 时间/天 时间/天 (a)主题“地震”随着时间 (b)主题“NBA”随着时间 表2 SBM-TU发现的搜索主题分布情况 的变化趋势 的变化趋势 Table 2 SBM-TU discovered search topics distribution 图5CS-SBM网络搜索分析主题模型 主题1 主题2 Fig.5 Iatent evolutions of SBM-TG discovered search tonics 地震 NBA 750r 600 ← 600 500 搜索词 概率 搜索词 概率 450 400 300 300 地震 0.04762 总决赛 0.04293 200 150 100 汶川 0.04358 NBA 0.03912 0 5 1015202530 51015202530 唐山 0.04302 湖人 0.03641 时间/天 时间/天 (a)主题“地震”随着时间 (b)主题“NBA”随着时间 四川 0.03275 凯尔特人 0.03379 的变化趋势 的变化趋势 地壳 0.03028 斯台普斯 0.02311 图6SBM-TU发现的搜索主题在时间上的演化趋势 表3 CS-SBM-TG发现的搜索主题分布情况 Fig.6 Iatent evolutions of SBM-TI discovered search tonics ×10 ×10 Table 3 CS-SBM-TG discovered search topics distribution 35 2.5 主题3 3.0 电子产品 2.0 1.5 主题4 欧洲杯 1.0 搜索词 概率 搜索词 概率 0.5 0 51015202530 51015202530 手机 0.05004 欧洲杯 0.03487 时间/天 时间/天 内存卡 0.04818 瑞士 0.02983 (a)主题“电子产品”随着 (b)主题“欧洲杯”随着 耳机 0.04557 奥地利 0.02649 时间的变化趋势 时间的变化趋势 图7CS-SBM-TG发现的搜索主题在时间上的演化趋势 笔记本 0.04365 足球 0.02537 Fig.7 Latent evolutions of CS-SBM-TG discovered MP3 0.03876 决赛 0.02430 search topics表 2 中的个人用户来说,他们只是关注地震本身,而 没有救援相关的查询。 表 3~4 中,最后一个主题是“欧洲杯”,图 7 ~ 8 中,CS-SBM 的实验结果显示关于“欧洲杯”这个话 题的查询从第十天到第三十天越来越多,这也符合 随着欧洲杯的进行人们关注的热情越来越高的现 象。 从整个语料库得到的结果来看,搜索主题“欧 洲杯” 主要包括欧洲杯、瑞士、奥地利等词。 其中 “瑞士”和“奥地利”是本届欧洲杯的举办地,这些词 汇都与欧洲杯的主题紧密相关。 而对于表 4 中的个 人用户,我们仍然从实验结果中选取了与“欧洲杯” 主题相关的用户进行分析说明。 它包括欧洲杯、西 班牙、冠军等关键词,这证明了该用户更关注于欧 洲杯的冠军归属问题。 总体而言,发现的搜索主题与实际的情况大体 相吻合,而且能较好地反应主题变化的趋势。 (a)主题“地震”随着时间 (b)主题“NBA”随着时间 的变化趋势 的变化趋势 图 5 CS⁃SBM 网络搜索分析主题模型 Fig.5 Latent evolutions of SBM⁃TG discovered search topics (a)主题“地震”随着时间 (b)主题“NBA”随着时间 的变化趋势 的变化趋势 图 6 SBM⁃TU 发现的搜索主题在时间上的演化趋势 Fig.6 Latent evolutions of SBM⁃TU discovered search topics (a)主题“电子产品”随着 (b)主题“欧洲杯”随着 时间的变化趋势 时间的变化趋势 图 7 CS⁃SBM⁃TG 发现的搜索主题在时间上的演化趋势 Fig. 7 Latent evolutions of CS⁃SBM⁃TG discovered search topics (a)主题“电子产品”随着 (b)主题“欧洲杯”随着 时间的变化趋势 时间的变化趋势 图 8 CS⁃SBM⁃TU 发现的搜索主题在时间上的演化趋势 Fig. 8 Latent evolutions of CS⁃SBM⁃TU discovered search topics 表 1 SBM⁃TG 发现的搜索主题分布情况 Table 1 SBM⁃TG discovered search topics distribution 主题 1 地震 主题 2 NBA 搜索词 概率 搜索词 概率 汶川 0.036 28 NBA 0.031 28 地震 0.033 42 季后赛 0.028 83 救灾 0.032 17 西部 0.028 32 武警 0.027 74 湖人 0.023 36 哄抢 0.027 74 冠军 0.020 92 表 2 SBM⁃TU 发现的搜索主题分布情况 Table 2 SBM⁃TU discovered search topics distribution 主题 1 地震 主题 2 NBA 搜索词 概率 搜索词 概率 地震 0.047 62 总决赛 0.042 93 汶川 0.043 58 NBA 0.039 12 唐山 0.043 02 湖人 0.036 41 四川 0.032 75 凯尔特人 0.033 79 地壳 0.030 28 斯台普斯 0.023 11 表 3 CS⁃SBM⁃TG 发现的搜索主题分布情况 Table 3 CS⁃SBM⁃TG discovered search topics distribution 主题 3 主题 4 电子产品 欧洲杯 搜索词 概率 搜索词 概率 手机 0.050 04 欧洲杯 0.034 87 内存卡 0.048 18 瑞士 0.029 83 耳机 0.045 57 奥地利 0.026 49 笔记本 0.043 65 足球 0.025 37 MP3 0.038 76 决赛 0.024 30 第 5 期 张森,等:基于用户查询日志的网络搜索主题分析 ·675·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有