第12卷第5期 智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706096 网络出版地址:htp:/kns.cmki.net/kcms/detail/23.1538.TP.20171021.1349.004.html 基于用户查询日志的网络搜索主题分析 张森',张晨12,林培光1,张春云,郭玉超,任威龙,任可 (1.山东财经大学计算机科学与技术学院,山东济南250014:2.香港科技大学计算机科学及工程学系,香港 999077) 摘要:网络搜索分析在优化搜索引擎方面具有举足轻重的作用,而且对用户个人搜索特性进行分析能够提高搜索 引擎的精准度。目前,大多数已有模型(比如点击图模型及其变体),注重研究用户群体的共同特点。然而,关于如 何做到既可以获取用户群体共同特点又可以获取用户个人特点方面的研究却非常少。本文研究了基于个人用户网 络搜索分析新问题,即通过研究用户搜索的突发性现象,获取个人用户搜索查询的主题分布情况。提出了两个搜索 主题模型,即搜索突发性模型(SBM)和耦合敏感搜索突发性模型(CS-SBM)。SBM假设查询词和URL主题是无关 的,CS-SBM假设查询词和URL之间是有主题关联的,得到的主题分布信息存储在偏Dirichlet先验中,采用Beta分 布刻画用户搜索的时间特性。实验结果表明,每一个用户的网络搜索轨迹都有多种基于用户的独有特点。同时,在 使用大量真实用户查询日志数据情况下,与LDA,DCMLDA、TOT相比,本文提出的模型具有明显的泛化性能优势,并 且有效地描绘了用户搜索查询主题在时间上的变化过程。 关键词:网络搜索:搜索引擎:自然语言处理:主题模型:文本挖掘:突发性:时间分析:参数估计 中图分类号:TP391文献标志码:A文章编号:1673-4785(2017)05-0668-10 中文引用格式:张森,张晨,林培光,等.基于用户查询日志的网络搜索主题分析[J】.智能系统学报,2017,12(5):668-677. 英文引用格式:ZHANG Sen,ZHANG Chen,LIN Peiguang,etal.Web search topic analysis based on user search query logs[J]. CAAI transactions on intelligent systems,2017,12(5):668-677. Web search topic analysis based on user search query logs ZHANG Sen',ZHANG Chen'.2,LIN Peiguang',ZHANG Chunyun', GUO Yuchao',REN Weilong',REN Ke2 (1.School of Computer Science Technology,Shandong University of Finance Economics,Jinan 250014,China;2.Department of Computer Science Engineering,Hong Kong University of Science and Technology,Hong Kong 999077,China) Abstract:Web search analysis plays a critical role in improving the performance of contemporary search engines.In addition,search engine accuracy can be improved by analyzing the individual search properties of users.Most existing models,such as the click graph and its variants,focus on the common characteristics of the group. However,as yet,there has been little investigation of a model that would obtain both the collective group characteristics and the unique characteristics of individual users.In this paper,we investigate user-specific web search analysis,whereby we obtain the topic distributions of the search queries of individual users by determining the burstiness of user searches.We propose two topic models,i.e.,the search burstiness model (SBM)and the coupling-sensitive search burstiness model (CS-SBM).The SBM adopts the assumption that the query words and URL are topically independent,The CS-SBM supposes that the query words and URL are topically relevant.The obtained topic distribution information is stored in skewed Dirichlet priors and a beta distribution is used to capture the temporal properties of the user searches.Our experimental results show that each user's web search trail has unique characteristics,and that in the case of there being a large amount of real query log data,in comparison to the latent Dirichlet allocation (LDA)and topic over time (TOT)models,our proposed models have advantages with respect to generalized performance and effectively describes the temporal change process of user search queries. Keywords:web search;search engine;natural language processing;topic model;data mining;burstiness; temporal analysis;parameter estimate 1931年,Zipf)发现在自然语言中,词的频率与 这种现象称为上下文语言模型中词的突发性。后 它在词汇表中的排名成反比,服从幂律分布,他把 来发现,在金融、基因表达、计算机视觉等方面的数 据也存在这种突发现象。网络搜索已成为人们日 收稿日期:2017-07-01.网络出版日期:2017-10-21 基金项目:国家自然科学基金重点项目(U1201258)教育部人文社会科学研 常生活中必不可少的一部分,用户提交的搜索查询 究项目(15Y】AZ☑H042). 通信作者:张晨.E-mail:zhangchen..sdufe@gmail..com 词是人类智慧的结晶,并在搜索查询和微博等网络U 2 ) 17 第 12 卷第 5 期 智 能 系 统 学 报 Vol.12 №.5 2017 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2017 DOI:10.11992 / tis.201706096 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20171021.1349.004.html 基于用户查询日志的网络搜索主题分析 张森1 , 张晨1,2 , 林培光1 , 张春云1 ,郭玉超1 , 任威龙1 ,任可2 (1.山东财经大学 计算机科学与技术学院,山东 济南 250014;2. 香港科技大学 计算机科学及工程学系,香港 999077) 摘 要:网络搜索分析在优化搜索引擎方面具有举足轻重的作用,而且对用户个人搜索特性进行分析能够提高搜索 引擎的精准度。 目前,大多数已有模型(比如点击图模型及其变体),注重研究用户群体的共同特点。 然而,关于如 何做到既可以获取用户群体共同特点又可以获取用户个人特点方面的研究却非常少。 本文研究了基于个人用户网 络搜索分析新问题,即通过研究用户搜索的突发性现象,获取个人用户搜索查询的主题分布情况。 提出了两个搜索 主题模型,即搜索突发性模型(SBM)和耦合敏感搜索突发性模型(CS-SBM)。 SBM 假设查询词和 URL 主题是无关 的,CS-SBM 假设查询词和 URL 之间是有主题关联的,得到的主题分布信息存储在偏 Dirichlet 先验中,采用 Beta 分 布刻画用户搜索的时间特性。 实验结果表明,每一个用户的网络搜索轨迹都有多种基于用户的独有特点。 同时,在 使用大量真实用户查询日志数据情况下,与 LDA、DCMLDA、TOT 相比,本文提出的模型具有明显的泛化性能优势,并 且有效地描绘了用户搜索查询主题在时间上的变化过程。 关键词:网络搜索;搜索引擎;自然语言处理;主题模型;文本挖掘;突发性;时间分析;参数估计 中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2017)05-0668-10 中文引用格式:张森, 张晨, 林培光,等.基于用户查询日志的网络搜索主题分析[J]. 智能系统学报, 2017, 12(5): 668-677. 英文引用格式:ZHANG Sen, ZHANG Chen, LIN Peiguang, et al. Web search topic analysis based on user search query logs[ J]. CAAI transactions on intelligent systems, 2017, 12(5): 668-677. Web search topic analysis based on user search query logs ZHANG Sen 1 , ZHANG Chen 1,2 , LIN Peiguang 1 , ZHANG Chunyun 1 , GUO Yuchao 1 , REN Weilong 1 , REN Ke 2 (1. School of Computer Science & Technology, Shandong University of Finance & Economics, Jinan 250014, China; 2.Department of Computer Science & Engineering, Hong Kong University of Science and Technology, Hong Kong 999077, China) Abstract:Web search analysis plays a critical role in improving the performance of contemporary search engines. In addition, search engine accuracy can be improved by analyzing the individual search properties of users. Most existing models, such as the click graph and its variants, focus on the common characteristics of the group. However, as yet, there has been little investigation of a model that would obtain both the collective group characteristics and the unique characteristics of individual users. In this paper, we investigate user-specific web search analysis, whereby we obtain the topic distributions of the search queries of individual users by determining the burstiness of user searches. We propose two topic models, i.e., the search burstiness model (SBM) and the coupling⁃sensitive search burstiness model (CS⁃SBM). The SBM adopts the assumption that the query words and URL are topically independent, The CS⁃SBM supposes that the query words and URL are topically relevant. The obtained topic distribution information is stored in skewed Dirichlet priors and a beta distribution is used to capture the temporal properties of the user searches. Our experimental results show that each user’ s web search trail has unique characteristics, and that in the case of there being a large amount of real query log data, in comparison to the latent Dirichlet allocation (LDA) and topic over time ( TOT) models, our proposed models have advantages with respect to generalized performance and effectively describes the temporal change process of user search queries. Keywords:web search; search engine; natural language processing; topic model; data mining; burstiness; temporal analysis; parameter estimate 收稿日期:2017-07-01. 网络出版日期:20 -10-21. 基金项目:国家自然科学基金重点项目( 1 01258 1931 年,Zipf [1]发现在自然语言中,词的频率与 它在词汇表中的排名成反 通信作者:张晨. E⁃mail: zhangchen.sdufe@ gmail.com. 比,服从幂律分布,他把 这种现象称为上下文语言模型中词的突发性。 后 来发现,在金融、基因表达、计算机视觉等方面的数 据也存在这种突发现象。 网络搜索已成为人们日 常生活中必不可少的一部分,用户提交的搜索查询 词是人类智慧的结晶,并在搜索查询和微博等网络 教育部人文社会科学研 究项目(15YJAZH042).