正在加载图片...
·676 智能系统学报 第12卷 表4CS-SBM-TG发现的搜索主题分布情况 118-126 Table 4 CS-SBM-TG discovered search topics distribution [5]GUO F,LIU C,WANG Y M.Efficient multiple-click 主题3 电子产品 models in web search[C]//Proceedings of the Second ACM International Conference on Web Search and Data Mining. 主题4 欧洲杯 Barcelona,Spain,2009:124-131. 搜索词 概率 搜索词 概率 [6]张宇,宋巍,刘挺,等.基于URL主题的查询分类方法 诺基亚 0.03882 欧洲杯 0.03203 [J】.计算机研究与发展,2012,49(6):1298-1305 手机 0.03912 ZHANG Yu,SONG Wei,LIU Ting,et al.Query 西班牙 0.03064 classification based on url topic[J].Journal of computer 内存 0.03641 德国 0.02991 research and development,2012,49(6):1298-1305. 相机 0.03379 冠军 0.02901 [7]MADSEN R E,KAUCHAK D,ELKAN C.Modeling word HTC 0.02311 瑞士 0.02506 burstiness using the dirichlet distribution[C]//Proceedings of the 22nd international conference on Machine iearning. 5 结束语 Bonn,Germany,2005:545-552. [8]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet 本文提出了两个主题模型SBM和CS-SBM,从 allocation[J].Journal of machine learning research,2003, 全局和基于特定用户来建模网络搜索分析。SBM 3(1):993-1022. 主要是用于获取网络查询的突发现象。CS-SBM主 [9]WANG X,MCCALLUM A.Topics over time:a non-Markov 要添加了查询词和URL之间的关系,获取了主题突 continuous-time model of topical trends[Cl//Proceedings of 发性。为了使SBM和CS-SBM可以获取时间上的 the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.Philadelphia,USA, 突发性,本文采用Beta分布拟合主题在时间上的变 2006:424-433. 化的策略。本文还设计了一系列的实验验证了提 「10]徐戈,王厚峰.自然语言处理中主题模型的发展[J] 出模型拥有较好的泛化能力、主题发现能力和反应 计算机学报,2011.34(8):1423-1436. 主题时间上突发性的能力。本文的贡献主要有三 XU Ge,WANG Houfeng.The development of topic model 个方面:第一,研究了搜索引擎用户行为分析中突 in natural language processing [J].Chinese journal of 发性现象:第二,提出了两种新型的模型用来捕获 computers,2011,34(8):1423-1436. 网络搜索中各个方面的突发性:第三,通过大量的 [11]张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博 实验验证了模型的有效性。下一步工作中,将把这 主题挖掘[J].计算机研究与发展,2011,48(10): 1795-1802 些模型运用到团购广告投放。通过发现用户的搜 ZHANG Chenyi,SUN Jianling,DING Yiqun.Topic 索主题,然后将同一主题下的用户按照社团发现的 mining for microblog based on mb-lda model[].Journal of 规则进行分类,并进行广告投放。 computer research and development,2011,48(10): 参考文献: 1795-1802. [12]刘少鹏,印鉴,欧阳佳,等.基于MB-HDP模型的微博 [1]SUNEHAG P.Using two-stage conditional word frequency 主题挖掘[J].计算机学报,2015,38(7):1408-1419. models to model word burstiness and motivating TF-IDF[J]. LIU Shaopeng,YIN Jian,OUYANG Jia,et al.Topic Journal of machine learning reasearch,2017,2:8. mining from microblogs based on MB-HDP model[J]. [2]ELKAN C.Clustering documents with an exponential-family Chinese Journal of Computers,2015,38(7):1408-1419. approximation of the Dirichlet compound multinomial 13 JIANG D,TONG Y,SONG Y.Cross-lingual topic distribution [C]//Proceedings of the 23rd International discovery from multilingual search engine query log[J]. Conference on Machine Learning,Pittsburgh.Pennsylvania, ACM transactions on information systems(TOIS),2016, USA,2006:289-296. 35(2):9. [3]DOYLE G,ELKAN C.Accounting for burstiness in topic [14]JIANG D,LEUNG K W T,NG W.Query intent mining models[C]//Proceedings of the 26th Annual International with multiple dimensions of web search data[J].World Conference on Machine Learning Montreal.QC,Canada, wide web,2016,19(3):475. 2009:281-288. [15]JIANG D,YANG L.Query intent inference via search [4]XUE G R,ZENG H J,CHEN Z,et al.Optimizing web engine log [J].Knowledge and information systems, search using web click-through data[C]//Proceedings of 2016.49(2):661-685. the thirteenth ACM international conference on Information [16]HUANG J,EFTHIMIADIS E N.Analyzing and evaluating and Knowledge Management.Washington,USA,2004: query reformulation strategies in web search logs [C]/表 4 CS⁃SBM⁃TG 发现的搜索主题分布情况 Table 4 CS⁃SBM⁃TG discovered search topics distribution 主题 3 主题 4 电子产品 欧洲杯 搜索词 概率 搜索词 概率 诺基亚 0.038 82 欧洲杯 0.032 03 手机 0.039 12 西班牙 0.030 64 内存 0.036 41 德国 0.029 91 相机 0.033 79 冠军 0.029 01 HTC 0.023 11 瑞士 0.025 06 5 结束语 本文提出了两个主题模型 SBM 和 CS⁃SBM,从 全局和基于特定用户来建模网络搜索分析。 SBM 主要是用于获取网络查询的突发现象。 CS⁃SBM 主 要添加了查询词和 URL 之间的关系,获取了主题突 发性。 为了使 SBM 和 CS⁃SBM 可以获取时间上的 突发性,本文采用 Beta 分布拟合主题在时间上的变 化的策略。 本文还设计了一系列的实验验证了提 出模型拥有较好的泛化能力、主题发现能力和反应 主题时间上突发性的能力。 本文的贡献主要有三 个方面:第一,研究了搜索引擎用户行为分析中突 发性现象;第二,提出了两种新型的模型用来捕获 网络搜索中各个方面的突发性;第三,通过大量的 实验验证了模型的有效性。 下一步工作中,将把这 些模型运用到团购广告投放。 通过发现用户的搜 索主题,然后将同一主题下的用户按照社团发现的 规则进行分类,并进行广告投放。 参考文献: [1] SUNEHAG P. Using two⁃stage conditional word frequency models to model word burstiness and motivating TF⁃IDF[J]. Journal of machine learning reasearch, 2017, 2: 8. [2]ELKAN C. Clustering documents with an exponential⁃family approximation of the Dirichlet compound multinomial distribution [ C ] / / Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh. Pennsylvania, USA, 2006: 289-296. [3] DOYLE G, ELKAN C. Accounting for burstiness in topic models[C] / / Proceedings of the 26th Annual International Conference on Machine Learning Montreal. QC, Canada, 2009: 281-288. [4]XUE G R, ZENG H J, CHEN Z, et al. Optimizing web search using web click⁃through data [ C] / / Proceedings of the thirteenth ACM international conference on Information and Knowledge Management. Washington, USA, 2004: 118-126. [5] GUO F, LIU C, WANG Y M. Efficient multiple - click models in web search[C] / / Proceedings of the Second ACM International Conference on Web Search and Data Mining. Barcelona, Spain, 2009: 124-131. [6]张宇, 宋巍, 刘挺, 等. 基于 URL 主题的查询分类方法 [J]. 计算机研究与发展, 2012, 49(6): 1298-1305. ZHANG Yu, SONG Wei, LIU Ting, et al. Query classification based on url topic [ J]. Journal of computer research and development, 2012, 49(6): 1298-1305. [7]MADSEN R E, KAUCHAK D, ELKAN C. Modeling word burstiness using the dirichlet distribution[C] / / Proceedings of the 22nd international conference on Machine iearning. Bonn, Germany, 2005: 545-552. [8] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research, 2003, 3(1): 993-1022. [9]WANG X, MCCALLUM A. Topics over time: a non⁃Markov continuous⁃time model of topical trends[C] / / Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. Philadelphia, USA, 2006: 424-433. [10]徐戈, 王厚峰. 自然语言处理中主题模型的发展[ J]. 计算机学报, 2011, 34(8): 1423-1436. XU Ge, WANG Houfeng. The development of topic model in natural language processing [ J ]. Chinese journal of computers, 2011, 34(8): 1423-1436. [11]张晨逸, 孙建伶, 丁轶群. 基于 MB-LDA 模型的微博 主题挖掘[ J]. 计算机研究与发展, 2011, 48 ( 10): 1795-1802. ZHANG Chenyi, SUN Jianling, DING Yiqun. Topic mining for microblog based on mb⁃lda model[J]. Journal of computer research and development, 2011, 48 ( 10 ): 1795-1802. [12]刘少鹏, 印鉴, 欧阳佳, 等. 基于 MB⁃HDP 模型的微博 主题挖掘[J]. 计算机学报, 2015, 38(7): 1408-1419. LIU Shaopeng, YIN Jian, OUYANG Jia, et al. Topic mining from microblogs based on MB - HDP model [ J]. Chinese Journal of Computers, 2015, 38(7): 1408-1419. [ 13 ] JIANG D, TONG Y, SONG Y. Cross⁃lingual topic discovery from multilingual search engine query log[ J]. ACM transactions on information systems (TOIS), 2016, 35(2): 9. [14] JIANG D, LEUNG K W T, NG W. Query intent mining with multiple dimensions of web search data[ J]. World wide web, 2016, 19(3): 475. [15] JIANG D, YANG L. Query intent inference via search engine log [ J ]. Knowledge and information systems, 2016, 49(2): 661-685. [16]HUANG J, EFTHIMIADIS E N. Analyzing and evaluating query reformulation strategies in web search logs [ C] / / ·676· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有