【综述】搜索引擎点击模型综述

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：2.11MB

第11卷第6期智能系统学报 Vol.11 No.6 2016年12月 CAAI Transactions on Intelligent Systems Dec.2016 D0I:10.11992/is.201605023 网络出版地址：http://www.cnki.net/kcms/detail,/23.1538.TP.20170111.1619.004.html 搜索引擎点击模型综述王超，刘奕群，马少平 (清华大学计算机系，北京100084) 摘要：搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息（主要是点击行为信息）是搜索引擎用来改进结果排序的重要影响因素。然而，由于结果位置、展现形式等各种因素的影响，将反馈信息直接应用于搜索排序任务往往难以取得较好的效果。针对这一问题，研究人员提出了构建描述用户点击行为的点击模型，并基于不同的点击模型估计用户对展现结果的浏览概率，进而尝试去除结果展现位置等因素对用户行为的偏置性影响，以达到更好利用隐性反馈信息的目的。作为一种用户交互信息的有效利用方法，点击模型在学术界得到了充分关注，并在工业界得到了广泛的应用。本文是一篇针对点击模型发展过程的综述性文章，对点击模型发展过程中有代表性的多种模型进行了介绍。关键词：搜索引擎：信息检索：结果排序；用户行为分析；点击模型中图分类号：TP391文献标志码：A文章编号：1673-4785(2016)06-0711-08 中文引用格式：王超，刘奕群，马少平.搜索引擎点击模型综述[J].智能系统学报，2016,11(6)：711-718. 英文引用格式：WANG Chao,LIUYiqun,MA Shaoping.A survey of click models for Web browsing[J].CAAI Transactions on In- telligent Systems,2016,11(6):711-718. A survey of click models for Web browsing WANG Chao,LIU Yiqun,MA Shaoping (State Key Lab of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:The implicit feedback information contained in a user's search interaction process makes an important contribution to the improvement of search ranking.However,since user behavior is affected by several factors (or biases)caused by the ranked positions of the results,presentation styles,etc.,it is difficult to directly adopt click information as a relevant feedback mechanism of the search sequence task.To shed light on this research question, researchers have proposed several click models to describe how users examine and click on results from the search engine result pages (SERPs).Based on these models,it is possible to estimate the examination probability of search results and thus reduce the influence of behavior biases to obtain a justified estimation of the result's rele- vance.Much attention has been paid to the click model in recent years because it helps commercial search engines to improve ranking performance.In this paper,recent efforts made in constructing click models were investigated and their differences were compared in both performance and application scenarios. Keywords:search engine;information retrieval;result ranking;user behavior analysis;click model 在这个信息爆炸的时代，搜索引擎已成为人们在查找信息、获取资源还是寻求帮助、发现机遇，都离不互联网的数据海洋中遨游不可或缺的工具。无论是开搜索引擎的指引与参考。可以说，搜索引擎已经成为了互联网中的“基础设施”。根据CNNIC中国互联收稿日期：2016-05-26. 网络发展状况统计报告显示，截至2016年1月，已有基金项目：国家自然科学基金项目(61532011,61672311). 通信作者：马少平.E-mail:msp@tsinghua.ed.cn 823%的互联网用户使用搜索引擎，在互联网网络应

第１１卷第６期智能系统学报Ｖｏｌ．１１ №．６２０１６年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０５０２３网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０１１１．１６１９．００４．ｈｔｍｌ搜索引擎点击模型综述王超，刘奕群，马少平（清华大学计算机系，北京１０００８４）摘要：搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息（主要是点击行为信息）是搜索引擎用来改进结果排序的重要影响因素。然而，由于结果位置、展现形式等各种因素的影响，将反馈信息直接应用于搜索排序任务往往难以取得较好的效果。针对这一问题，研究人员提出了构建描述用户点击行为的点击模型，并基于不同的点击模型估计用户对展现结果的浏览概率，进而尝试去除结果展现位置等因素对用户行为的偏置性影响，以达到更好利用隐性反馈信息的目的。作为一种用户交互信息的有效利用方法，点击模型在学术界得到了充分关注，并在工业界得到了广泛的应用。本文是一篇针对点击模型发展过程的综述性文章，对点击模型发展过程中有代表性的多种模型进行了介绍。关键词：搜索引擎；信息检索；结果排序；用户行为分析；点击模型中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１６）０６－０７１１－０８中文引用格式：王超，刘奕群，马少平．搜索引擎点击模型综述［Ｊ］．智能系统学报，２０１６，１１（６）：７１１－７１８．英文引用格式：ＷＡＮＧＣｈａｏ，ＬＩＵＹｉｑｕｎ，ＭＡＳｈａｏｐｉｎｇ．ＡｓｕｒｖｅｙｏｆｃｌｉｃｋｍｏｄｅｌｓｆｏｒＷｅｂｂｒｏｗｓｉｎｇ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎ⁃ ｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（６）：７１１－７１８．ＡｓｕｒｖｅｙｏｆｃｌｉｃｋｍｏｄｅｌｓｆｏｒＷｅｂｂｒｏｗｓｉｎｇＷＡＮＧＣｈａｏ，ＬＩＵＹｉｑｕｎ，ＭＡＳｈａｏｐｉｎｇ（ＳｔａｔｅＫｅｙＬａｂｏｆＩｎｔｅｌｌｉｇｅｎｔＴｅｃｈｎｏｌｏｇｙａｎｄＳｙｓｔｅｍｓ，ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｉｍｐｌｉｃｉｔｆｅｅｄｂａｃｋｉｎｆｏｒｍａｔｉｏｎｃｏｎｔａｉｎｅｄｉｎａｕｓｅｒ’ ｓｓｅａｒｃｈｉｎｔｅｒａｃｔｉｏｎｐｒｏｃｅｓｓｍａｋｅｓａｎｉｍｐｏｒｔａｎｔｃｏｎｔｒｉｂｕｔｉｏｎｔｏｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆｓｅａｒｃｈｒａｎｋｉｎｇ．Ｈｏｗｅｖｅｒ，ｓｉｎｃｅｕｓｅｒｂｅｈａｖｉｏｒｉｓａｆｆｅｃｔｅｄｂｙｓｅｖｅｒａｌｆａｃｔｏｒｓ（ｏｒｂｉａｓｅｓ）ｃａｕｓｅｄｂｙｔｈｅｒａｎｋｅｄｐｏｓｉｔｉｏｎｓｏｆｔｈｅｒｅｓｕｌｔｓ，ｐｒｅｓｅｎｔａｔｉｏｎｓｔｙｌｅｓ，ｅｔｃ．，ｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｄｉｒｅｃｔｌｙａｄｏｐｔｃｌｉｃｋｉｎｆｏｒｍａｔｉｏｎａｓａｒｅｌｅｖａｎｔｆｅｅｄｂａｃｋｍｅｃｈａｎｉｓｍｏｆｔｈｅｓｅａｒｃｈｓｅｑｕｅｎｃｅｔａｓｋ．Ｔｏｓｈｅｄｌｉｇｈｔｏｎｔｈｉｓｒｅｓｅａｒｃｈｑｕｅｓｔｉｏｎ，ｒｅｓｅａｒｃｈｅｒｓｈａｖｅｐｒｏｐｏｓｅｄｓｅｖｅｒａｌｃｌｉｃｋｍｏｄｅｌｓｔｏｄｅｓｃｒｉｂｅｈｏｗｕｓｅｒｓｅｘａｍｉｎｅａｎｄｃｌｉｃｋｏｎｒｅｓｕｌｔｓｆｒｏｍｔｈｅｓｅａｒｃｈｅｎｇｉｎｅｒｅｓｕｌｔｐａｇｅｓ（ＳＥＲＰｓ）．Ｂａｓｅｄｏｎｔｈｅｓｅｍｏｄｅｌｓ，ｉｔｉｓｐｏｓｓｉｂｌｅｔｏｅｓｔｉｍａｔｅｔｈｅｅｘａｍｉｎａｔｉｏｎｐｒｏｂａｂｉｌｉｔｙｏｆｓｅａｒｃｈｒｅｓｕｌｔｓａｎｄｔｈｕｓｒｅｄｕｃｅｔｈｅｉｎｆｌｕｅｎｃｅｏｆｂｅｈａｖｉｏｒｂｉａｓｅｓｔｏｏｂｔａｉｎａｊｕｓｔｉｆｉｅｄｅｓｔｉｍａｔｉｏｎｏｆｔｈｅｒｅｓｕｌｔ’ｓｒｅｌｅ⁃ ｖａｎｃｅ．Ｍｕｃｈａｔｔｅｎｔｉｏｎｈａｓｂｅｅｎｐａｉｄｔｏｔｈｅｃｌｉｃｋｍｏｄｅｌｉｎｒｅｃｅｎｔｙｅａｒｓｂｅｃａｕｓｅｉｔｈｅｌｐｓｃｏｍｍｅｒｃｉａｌｓｅａｒｃｈｅｎｇｉｎｅｓｔｏｉｍｐｒｏｖｅｒａｎｋｉｎｇｐｅｒｆｏｒｍａｎｃｅ．Ｉｎｔｈｉｓｐａｐｅｒ，ｒｅｃｅｎｔｅｆｆｏｒｔｓｍａｄｅｉｎｃｏｎｓｔｒｕｃｔｉｎｇｃｌｉｃｋｍｏｄｅｌｓｗｅｒｅｉｎｖｅｓｔｉｇａｔｅｄａｎｄｔｈｅｉｒｄｉｆｆｅｒｅｎｃｅｓｗｅｒｅｃｏｍｐａｒｅｄｉｎｂｏｔｈｐｅｒｆｏｒｍａｎｃｅａｎｄａｐｐｌｉｃａｔｉｏｎｓｃｅｎａｒｉｏｓ．Ｋｅｙｗｏｒｄｓ：ｓｅａｒｃｈｅｎｇｉｎｅ；ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ；ｒｅｓｕｌｔｒａｎｋｉｎｇ；ｕｓｅｒｂｅｈａｖｉｏｒａｎａｌｙｓｉｓ；ｃｌｉｃｋｍｏｄｅｌ收稿日期：２０１６－０５－２６．基金项目：国家自然科学基金项目（６１５３２０１１，６１６７２３１１）．通信作者：马少平．Ｅ⁃ｍａｉｌ：ｍｓｐ＠ｔｓｉｎｇｈｕａ．ｅｄｕ．ｃｎ．在这个信息爆炸的时代，搜索引擎已成为人们在互联网的数据海洋中遨游不可或缺的工具。无论是查找信息、获取资源还是寻求帮助、发现机遇，都离不开搜索引擎的指引与参考。可以说，搜索引擎已经成为了互联网中的“基础设施”。根据ＣＮＮＩＣ中国互联网络发展状况统计报告显示，截至２０１６年１月，已有８２．３％的互联网用户使用搜索引擎，在互联网网络应

.712 智能系统学报第11卷用中排名第二；而在移动端也有77.1%的用户使用然而，用户在搜索过程中的点击行为可能会受移动端搜索引擎，在移动应用中排名第三。由此可到多种因素的影响。研究表明，由于搜索用户受到见，搜索引擎已成为大多数互联网用户必不可少的应结果位置[o]、展现形式)、可信度)等各种因素用之一，因此搜索引擎所提供的搜索结果质量对于用的影响，将反馈信息直接应用于结果相关性估计任户体验有着极为重要的影响。务往往难以取得较好的效果。针对这一问题，研究在搜索引擎对于不同搜索结果的质量（结果相人员提出了构建描述用户点击行为的点击模关性)进行判断（预测）时，最为传统的方法是基于型[1-5]来尝试解决上述问题。点击模型是用来描结果内容的相关性预测方法)，该方法通过对搜索述用户从开始搜索到搜索结束过程中点击行为的发时用户提交的查询词以及所有结果的文本内容进行生过程的模型，不同的模型会尝试描述用户在搜索处理，从中提取出有效的衡量结果相关性的特征过程中受到的不同因素的影响，以及这些影响之间 (例如TF-DF2]、BM253]等)，从而利用上述特征或的相互关联（例如，不同的点击模型会对用户检验指标来衡量不同搜索结果与查询词之间的相关性，不同位置的搜索结果的概率有不同的估计，进而尝进而对所有结果进行筛选和排序。这些方法为搜索试去除结果展现位置等因素对用户行为的偏置性影引擎系统快速并准确地从大量结果中筛选出符合用响)，最终利用大规模的用户点击信息去推测模型户真实搜索需求的结果列表提供了最为基础有效的中的不同影响因素所发挥的作用程度，从而更为准解决方案，成为了当前搜索引擎架构中基础的模块确地估计结果的真实相关性和新页面下用户的点击之一。然而上述方法并不能完美解决搜索结果相关概率，达到更好利用隐性反馈信息的目的。性预测及排序等问题，例如Lv等4]指出，当结果内作为一种用户交互信息的有效利用方法，点击容信息很长时，BM25指标会变得不能正确衡量结模型在学术界得到了充分关注，并在工业界得到了果的相关性。因此，除了结果的内容信息外，搜索引广泛的应用。传统的点击模型主要针对于传统同质擎有必要引入更多的信息去更好地衡量搜索结果的化的搜索页面（搜索页面中的结果均采用相近的文相关性，从而为搜索用户提供更好的结果排序。本形式展现，结果之间除了文字内容不同外并没有由于互联网网页中往往包含大量超链接，这些明显的展现形式差异)进行设计。随着Wb2.0时超链接使互联网网页得以互相连接，从而组成了不代的到来，富媒体展现形式被越来越多地应用于搜同的网络结构。因此，一个简单的推断是在该网络索交互界面，搜索结果也变得越来越异质化16)，这结构中，不同位置的节点其具有的重要性程度可能些变化使得用户的检验行为（注意力分布偏好、浏不同。所以第2种方法是利用互联网网页的链接结览顺序等)发生了明显的改变]，传统的点击模型构推断不同结果的重要性)、可靠性[6)等，从而对已经不能正确地描述用户的真实行为，相应的排序不同结果的相关性有更好地估计。上述方法为搜索方法也难以取得较优的效果。因此研究人员开始提引擎结果相关性估计和结果排序起到了进一步改进出针对于垂直搜索结果的点击模型以及针对非顺序的作用，同样成为了搜索引擎的重要模块之一。检验行为的点击模型。除了上述方法外，近年来，利用互联网群体智 1 慧[)来改善搜索结果相关性估计[8劉的方法开始受基于位置的点击模型到关注，并成为另一种提升搜索引擎结果相关性估主流的点击模型大都基于点击模型方面最基础计和改进搜索引擎排序的重要方法。由于每天都有的研究[9]，认为用户在浏览搜索引擎时采用的是沿大量的用户与搜索引擎进行交互，这些搜索引擎用着搜索结果列表从上到下依次浏览的方式，根据这户在与搜索引擎的交互过程中反映出的隐性反馈信个假设，用户的浏览顺序与搜索结果的位置顺序是息（主要是点击行为信息）也是搜索引擎改进结果一致的。因此大多数的点击模型都是基于位置的构排序的重要影响因素。直观来说，如果很多的搜索建方式（我们称作基于位置的点击模型）。另外，由用户在搜索同一个查询时点击了某个搜索结果，那于点击模型中最主要的信息来源为用户的交互信息么该搜索结果就有可能是一个相关的结果。由于每 (主要是点击信息)，因此模型对于用户行为以及结天搜索引擎都可以收集到海量的用户隐性反馈信果相关性的推断都来源于点击行为。因此大多数的息，如果我们能从这些信息中挖掘出用户对于搜索点击模型都假设搜索页面中的所有结果是同质的结果的真实相关性反馈，那么就可以利用上述信息 (所有具有类似的形式，仅在内容上有所区别，对应对搜索引擎的相关性预测进行更好地改进。到模型中即为仅在结果相关性上有所区别)，在排

用中排名第二；而在移动端也有７７．１％的用户使用移动端搜索引擎，在移动应用中排名第三。由此可见，搜索引擎已成为大多数互联网用户必不可少的应用之一，因此搜索引擎所提供的搜索结果质量对于用户体验有着极为重要的影响。在搜索引擎对于不同搜索结果的质量（结果相关性）进行判断（预测）时，最为传统的方法是基于结果内容的相关性预测方法［１］，该方法通过对搜索时用户提交的查询词以及所有结果的文本内容进行处理，从中提取出有效的衡量结果相关性的特征（例如ＴＦ⁃ＩＤＦ［２］、ＢＭ２５［３］等），从而利用上述特征或指标来衡量不同搜索结果与查询词之间的相关性，进而对所有结果进行筛选和排序。这些方法为搜索引擎系统快速并准确地从大量结果中筛选出符合用户真实搜索需求的结果列表提供了最为基础有效的解决方案，成为了当前搜索引擎架构中基础的模块之一。然而上述方法并不能完美解决搜索结果相关性预测及排序等问题，例如Ｌｖ等［４］指出，当结果内容信息很长时，ＢＭ２５指标会变得不能正确衡量结果的相关性。因此，除了结果的内容信息外，搜索引擎有必要引入更多的信息去更好地衡量搜索结果的相关性，从而为搜索用户提供更好的结果排序。由于互联网网页中往往包含大量超链接，这些超链接使互联网网页得以互相连接，从而组成了不同的网络结构。因此，一个简单的推断是在该网络结构中，不同位置的节点其具有的重要性程度可能不同。所以第２种方法是利用互联网网页的链接结构推断不同结果的重要性［５］、可靠性［６］等，从而对不同结果的相关性有更好地估计。上述方法为搜索引擎结果相关性估计和结果排序起到了进一步改进的作用，同样成为了搜索引擎的重要模块之一。除了上述方法外，近年来，利用互联网群体智慧［７］来改善搜索结果相关性估计［８］的方法开始受到关注，并成为另一种提升搜索引擎结果相关性估计和改进搜索引擎排序的重要方法。由于每天都有大量的用户与搜索引擎进行交互，这些搜索引擎用户在与搜索引擎的交互过程中反映出的隐性反馈信息（主要是点击行为信息）也是搜索引擎改进结果排序的重要影响因素。直观来说，如果很多的搜索用户在搜索同一个查询时点击了某个搜索结果，那么该搜索结果就有可能是一个相关的结果。由于每天搜索引擎都可以收集到海量的用户隐性反馈信息，如果我们能从这些信息中挖掘出用户对于搜索结果的真实相关性反馈，那么就可以利用上述信息对搜索引擎的相关性预测进行更好地改进。然而，用户在搜索过程中的点击行为可能会受到多种因素的影响。研究表明，由于搜索用户受到结果位置［９－１０］、展现形式［１１］、可信度［１２］等各种因素的影响，将反馈信息直接应用于结果相关性估计任务往往难以取得较好的效果。针对这一问题，研究人员提出了构建描述用户点击行为的点击模型［１３－１５］来尝试解决上述问题。点击模型是用来描述用户从开始搜索到搜索结束过程中点击行为的发生过程的模型，不同的模型会尝试描述用户在搜索过程中受到的不同因素的影响，以及这些影响之间的相互关联（例如，不同的点击模型会对用户检验不同位置的搜索结果的概率有不同的估计，进而尝试去除结果展现位置等因素对用户行为的偏置性影响），最终利用大规模的用户点击信息去推测模型中的不同影响因素所发挥的作用程度，从而更为准确地估计结果的真实相关性和新页面下用户的点击概率，达到更好利用隐性反馈信息的目的。作为一种用户交互信息的有效利用方法，点击模型在学术界得到了充分关注，并在工业界得到了广泛的应用。传统的点击模型主要针对于传统同质化的搜索页面（搜索页面中的结果均采用相近的文本形式展现，结果之间除了文字内容不同外并没有明显的展现形式差异）进行设计。随着Ｗｅｂ２．０时代的到来，富媒体展现形式被越来越多地应用于搜索交互界面，搜索结果也变得越来越异质化［１６］，这些变化使得用户的检验行为（注意力分布偏好、浏览顺序等）发生了明显的改变［１７］，传统的点击模型已经不能正确地描述用户的真实行为，相应的排序方法也难以取得较优的效果。因此研究人员开始提出针对于垂直搜索结果的点击模型以及针对非顺序检验行为的点击模型。１基于位置的点击模型主流的点击模型大都基于点击模型方面最基础的研究［９］，认为用户在浏览搜索引擎时采用的是沿着搜索结果列表从上到下依次浏览的方式，根据这个假设，用户的浏览顺序与搜索结果的位置顺序是一致的。因此大多数的点击模型都是基于位置的构建方式（我们称作基于位置的点击模型）。另外，由于点击模型中最主要的信息来源为用户的交互信息（主要是点击信息），因此模型对于用户行为以及结果相关性的推断都来源于点击行为。因此大多数的点击模型都假设搜索页面中的所有结果是同质的（所有具有类似的形式，仅在内容上有所区别，对应到模型中即为仅在结果相关性上有所区别），在排 ·７１２· 智能系统学报第１１卷

第6期王超，等搜索引擎点击模型综述 ·713 除结果相关性影响之后这些结果对于用户的行为不构成影响。结果结果4 上述两条假设成为了主流点击模型的基础假设，因此本部分的相关工作介绍主要介绍这些点击模型相关内容，其他的与之有所区别的点击模型会在本工作与这些工作相关的章节进行介绍。大多数的点击模型利用名为检验假设(examina- 图2级联模型示意图 tion hypothesis)[的用户行为假设来对用户的点击 Fig.2 Graphical representation of the cascade model 行为和其中蕴含的结果反馈之间的关联进行建模，其 (fragment)】具体描述为给定一个查询词g和对应的搜索结果列 1.2DCM模型表D=通常为10，即页面中包由级联模型的假设可知，该模型只能描述用户含10条搜索结果。对于其中第i个结果d,该结果仅有一次点击的搜索情况，而实际的用户行为中，用是否被点击(C,=1)当且仅当这个结果被用户检验户可能会发生多次点击，因此Guo等[]提出了de (E,=1),并且这个结果是一个相关的结果(A,=1), pendency click model(DCM)模型，该模型沿用了用而相关与检验则是两个独立的变量。户顺次向下检验的行为假设，同时假设当用户点击 C:=1→E=1,A=1 之后仍然有一定的概率继续下一步的浏览行为，其 E:=0→C:=0 浏览行为描述公式为 A,=0→C=0 P(E+1=11E:=1,C:=0)=1 根据以上假设，一个搜索结果被点击的概率可 P(E41=1IE:=1,C:=1)=入：以用式(1)表示： 1.3UBM模型 P(C,=1)=P(E:=1)P(A.=1) (1) 接下来，Dupret等a提出了user browsing model 这样我们在知道用户的点击信息之后，通过推 (UBM)模型，如图3所示。他们通过实验研究发现断用户的检验信息，就能推断出每个结果的真实相用户检验某个位置的结果的概率不仅和当前该结果关性信息。图1为检验假设的模型示意图。所处的位置相关，同时还和该结果与用户上一次点 a 击的结果的距离有着非常重要的关联，因此他们的模型假设： P(E:=1lC1t-1）=入，d Eu Au 式中：：表示当前该结果的位置，而d:表示当前结果和上次点击的结果的位置距离。 Cu Go-d 结果“ 结果u 图1检验假设示意图 Fig.1 Graphical representation of the examination hy- pothesis 图3UBM模型示意图 1.1级联模型 Fig.3 Graphical representation of the user browsing 级联模型[假设用户的浏览行为是沿着搜索 model (fragment) 结果列表从上到下依次检验的，当且仅当用户检验 1.4DBN模型了某个结果并且该用户没有做出点击该结果的行 Chapelle等s提出了dynamic Bayesian network 为，该用户才会继续检验排在该结果后一位的搜索 (DBN)模型，如图4。该模型首次将用户的浏览过结果。其模型的示意图如图2所示。针对该结果的程中的满意度行为引入模型描述中。该模型假设用公式为户每点击一条结果之后都会有一定的满意度改变， P(E)=1 而一旦用户在某次点击之后达到了满意的程度，那 P(Et1=1IE:=1,C:)=1-C 么他/她就会停止检验后续的结果并结束这次查询： P(S:=11C:=1)=su

除结果相关性影响之后这些结果对于用户的行为不构成影响。上述两条假设成为了主流点击模型的基础假设，因此本部分的相关工作介绍主要介绍这些点击模型相关内容，其他的与之有所区别的点击模型会在本工作与这些工作相关的章节进行介绍。大多数的点击模型利用名为检验假设（ｅｘａｍｉｎａ⁃ ｔｉｏｎｈｙｐｏｔｈｅｓｉｓ）［９］的用户行为假设来对用户的点击行为和其中蕴含的结果反馈之间的关联进行建模，其具体描述为给定一个查询词ｑ和对应的搜索结果列表Ｄ＝＜ｄ１，ｄ２，…，ｄｉ，…，ｄＭ＞通常为１０，即页面中包含１０条搜索结果。对于其中第ｉ个结果ｄｉ，该结果是否被点击（Ｃｉ＝１）当且仅当这个结果被用户检验（Ｅｉ＝１），并且这个结果是一个相关的结果（Ａｉ＝１），而相关与检验则是两个独立的变量。Ｃｉ＝１ → Ｅｉ＝１，Ａｉ＝１Ｅｉ＝０ → Ｃｉ＝０Ａｉ＝０ → Ｃｉ＝０根据以上假设，一个搜索结果被点击的概率可以用式（１）表示：Ｐ（Ｃｉ＝１）＝ＰＥｉ ( ＝１) ＰＡｉ ( ＝１) （１）这样我们在知道用户的点击信息之后，通过推断用户的检验信息，就能推断出每个结果的真实相关性信息。图１为检验假设的模型示意图。图１检验假设示意图Ｆｉｇ．１Ｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｅｘａｍｉｎａｔｉｏｎｈｙ⁃ ｐｏｔｈｅｓｉｓ１．１级联模型级联模型［９］假设用户的浏览行为是沿着搜索结果列表从上到下依次检验的，当且仅当用户检验了某个结果并且该用户没有做出点击该结果的行为，该用户才会继续检验排在该结果后一位的搜索结果。其模型的示意图如图２所示。针对该结果的公式为ＰＥ１ ( ) ＝１Ｐ（Ｅｉ＋１＝１｜Ｅｉ＝１，Ｃｉ）＝１－Ｃｉ图２级联模型示意图Ｆｉｇ．２Ｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｃａｓｃａｄｅｍｏｄｅｌ（ｆｒａｇｍｅｎｔ）１．２ＤＣＭ模型由级联模型的假设可知，该模型只能描述用户仅有一次点击的搜索情况，而实际的用户行为中，用户可能会发生多次点击，因此Ｇｕｏ等［１３］提出了ｄｅ⁃ ｐｅｎｄｅｎｃｙｃｌｉｃｋｍｏｄｅｌ（ＤＣＭ）模型，该模型沿用了用户顺次向下检验的行为假设，同时假设当用户点击之后仍然有一定的概率继续下一步的浏览行为，其浏览行为描述公式为ＰＥｉ＋１＝１｜Ｅｉ＝１，Ｃｉ ( ＝０) ＝１Ｐ（Ｅｉ＋１＝１｜Ｅｉ＝１，Ｃｉ＝１）＝ λｉ１．３ＵＢＭ模型接下来，Ｄｕｐｒｅｔ等［１４］提出了ｕｓｅｒｂｒｏｗｓｉｎｇｍｏｄｅｌ（ＵＢＭ）模型，如图３所示。他们通过实验研究发现用户检验某个位置的结果的概率不仅和当前该结果所处的位置相关，同时还和该结果与用户上一次点击的结果的距离有着非常重要的关联，因此他们的模型假设：Ｐ（Ｅｉ＝１｜Ｃ１…ｉ－１）＝ λｒｉ，ｄｉ式中：ｒｉ表示当前该结果的位置，而ｄｉ表示当前结果和上次点击的结果的位置距离。图３ＵＢＭ模型示意图Ｆｉｇ．３Ｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｕｓｅｒｂｒｏｗｓｉｎｇｍｏｄｅｌ（ｆｒａｇｍｅｎｔ）１．４ＤＢＮ模型Ｃｈａｐｅｌｌｅ等［１５］提出了ｄｙｎａｍｉｃＢａｙｅｓｉａｎｎｅｔｗｏｒｋ（ＤＢＮ）模型，如图４。该模型首次将用户的浏览过程中的满意度行为引入模型描述中。该模型假设用户每点击一条结果之后都会有一定的满意度改变，而一旦用户在某次点击之后达到了满意的程度，那么他／她就会停止检验后续的结果并结束这次查询：Ｐ（Ｓｉ＝１｜Ｃｉ＝１）＝ｓｕ第６期王超，等搜索引擎点击模型综述 ·７１３·

.714 智能系统学报第11卷 P(E+1IE,=1,S:=0)=入 1)普通结果：非垂直结果，最常见的搜索结果式中：S:表示用户点击了第i个结果之后的满意程展现形式，由一条超链接标题和一段文本摘要组成。度，入表示了用户不满意的情况下继续检验后续结 2)文本类垂直结果：由一段文本摘要和多条超果的概率。链接标题组成，例如新闻类或者百科类搜索结果。 3)多媒体类垂直结果：主要由一组多媒体组件结果山 (通常为一组图片)组成，如视频、图片类搜索结果。 4)应用类垂直结果：由嵌入搜索页面的一组组件组成，用户可以通过与组件交互直接得到搜索结果，例如计算汇率兑换的计算器。图4DBN模型示意图普通结果 Fig.4 Graphical representation of the dynamic Bayes- ian network model(fragment) 文本垂直结果除了上述模型之外，Guo等[2)提出了click chain model(CCM)模型描述用户可能存在的略过多媒体垂直结果行为：H山等[2]尝试区分不同查询意图下用户浏览行为的区别，从而对已有的点击模型进行改进：应用垂直结果 Chen等2)提出了noise-aware click model(NCM)尝试从所有的点击信息中区分哪些是用户真实的结果图5不同类型垂直结果示意图相关性判断，哪些是由于其他原因造成的不可信的 Fig.5 Different types of vertical results 点击。 2.1FCM模型可以看到，以上的一系列的点击模型都是基于 Chen等[I6最早提出了针对垂直结果的点击模用户的检验顺序严格从上到下进行一遍以及所有结型，他们分析了部分垂直结果对用户点击的影响，提果具有同质属性这两个基本的假设进行研究的。出了federated click model(FCM)模型，该模型假设用户的检验概率可能会受到最近的上一个垂直结果 2针对垂直搜索结果的点击模型的影响（吸引假设）：随着Wb2.0时代的快速发展，搜索引擎页面正 P(A =1)=hposnen 在变得越来越异质化，大量的包含富文本信息的搜索 P(E:=1|A=0)=9 结果被引入搜索页面。这些搜索结果来自于搜索引 P(E:=11A=1)=g:+（1-9:)B 擎的多个具有特定搜索目标的子引擎，通常被称为垂式中：A表示用户是否被垂直结果所吸引，如果用户直搜索引擎。这些来自垂直搜索引擎的垂直搜索结被垂直结果吸引A=1,那么该用户的检验其他普通结果的概率会受到一定的影响。果（例如图片搜索引擎得到的图片结果）往往与传统 2.2VCM模型的结果具有不同的展现形式，因此现今的搜索页面上的搜索结果正在变得非常异质化，这也使得用户的浏 Wag等1)利用眼动追踪设备对用户的搜索浏览行为进行了深入的分析，他们发现不同展现类型览行为习惯和偏好可能产生比较大的变化。 Wang等对一家中文商业搜索引擎的大规模的垂直结果对用户的视线注视行为有着很大的影响，如图6所示。搜索日志进行了分析（详细分析结果请见2.1小节)，发现当前中文搜索环境下超过80%的搜索结果页面包含有垂直结果，并且不同展现形式的垂直结果对用户的行为产生了很大的影响，包括对于垂直结果本身（局部影响）和对整个搜索页面（全局影响)。因此，对于现今的搜索引擎来说，考虑不同垂出直结果是非常重要的因素。 (a)不含垂直结果(b)包含多媒体垂直结果他们根据中文搜索引擎常见的搜索结果对结果图6多媒体垂直结果对用户的前两秒视觉注视行为的影响展现形式进行了分类，如图5所示： Fig.6 The impact of multimedia vertical results on us- er's first two seconds'fixation

ＰＥｉ＋１｜Ｅｉ＝１，Ｓｉ ( ＝０) ＝ λ 式中：Ｓｉ表示用户点击了第ｉ个结果之后的满意程度， λ 表示了用户不满意的情况下继续检验后续结果的概率。图４ＤＢＮ模型示意图Ｆｉｇ．４ＧｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｄｙｎａｍｉｃＢａｙｅｓ⁃ ｉａｎｎｅｔｗｏｒｋｍｏｄｅｌ（ｆｒａｇｍｅｎｔ）除了上述模型之外，Ｇｕｏ等［２３］提出了ｃｌｉｃｋｃｈａｉｎｍｏｄｅｌ（ＣＣＭ）模型描述用户可能存在的略过行为；Ｈｕ等［２４］尝试区分不同查询意图下用户浏览行为的区别，从而对已有的点击模型进行改进；Ｃｈｅｎ等［２５］提出了ｎｏｉｓｅ⁃ａｗａｒｅｃｌｉｃｋｍｏｄｅｌ（ＮＣＭ）尝试从所有的点击信息中区分哪些是用户真实的结果相关性判断，哪些是由于其他原因造成的不可信的点击。可以看到，以上的一系列的点击模型都是基于用户的检验顺序严格从上到下进行一遍以及所有结果具有同质属性这两个基本的假设进行研究的。２针对垂直搜索结果的点击模型随着Ｗｅｂ２．０时代的快速发展，搜索引擎页面正在变得越来越异质化，大量的包含富文本信息的搜索结果被引入搜索页面。这些搜索结果来自于搜索引擎的多个具有特定搜索目标的子引擎，通常被称为垂直搜索引擎。这些来自垂直搜索引擎的垂直搜索结果（例如图片搜索引擎得到的图片结果）往往与传统的结果具有不同的展现形式，因此现今的搜索页面上的搜索结果正在变得非常异质化，这也使得用户的浏览行为习惯和偏好可能产生比较大的变化。Ｗａｎｇ等［１１］对一家中文商业搜索引擎的大规模搜索日志进行了分析（详细分析结果请见２．１小节），发现当前中文搜索环境下超过８０％的搜索结果页面包含有垂直结果，并且不同展现形式的垂直结果对用户的行为产生了很大的影响，包括对于垂直结果本身（局部影响）和对整个搜索页面（全局影响）。因此，对于现今的搜索引擎来说，考虑不同垂直结果是非常重要的因素。他们根据中文搜索引擎常见的搜索结果对结果展现形式进行了分类，如图５所示：１）普通结果：非垂直结果，最常见的搜索结果展现形式，由一条超链接标题和一段文本摘要组成。２）文本类垂直结果：由一段文本摘要和多条超链接标题组成，例如新闻类或者百科类搜索结果。３）多媒体类垂直结果：主要由一组多媒体组件（通常为一组图片）组成，如视频、图片类搜索结果。４）应用类垂直结果：由嵌入搜索页面的一组组件组成，用户可以通过与组件交互直接得到搜索结果，例如计算汇率兑换的计算器。图５不同类型垂直结果示意图Ｆｉｇ．５Ｄｉｆｆｅｒｅｎｔｔｙｐｅｓｏｆｖｅｒｔｉｃａｌｒｅｓｕｌｔｓ２．１ＦＣＭ模型Ｃｈｅｎ等［１６］最早提出了针对垂直结果的点击模型，他们分析了部分垂直结果对用户点击的影响，提出了ｆｅｄｅｒａｔｅｄｃｌｉｃｋｍｏｄｅｌ（ＦＣＭ）模型，该模型假设用户的检验概率可能会受到最近的上一个垂直结果的影响（吸引假设）：Ｐ（Ａ＝１）＝ｈｐｏｓｒｖｅｒｔＰ（Ｅｉ＝１｜Ａ＝０）＝ φｉＰ（Ｅｉ＝１｜Ａ＝１）＝ φｉ＋（１－ φｉ） βｄｉｓｔ式中：Ａ表示用户是否被垂直结果所吸引，如果用户被垂直结果吸引Ａ＝１，那么该用户的检验其他普通结果的概率会受到一定的影响。２．２ＶＣＭ模型Ｗａｎｇ等［１１］利用眼动追踪设备对用户的搜索浏览行为进行了深入的分析，他们发现不同展现类型的垂直结果对用户的视线注视行为有着很大的影响，如图６所示。（ａ）不含垂直结果（ｂ）包含多媒体垂直结果图６多媒体垂直结果对用户的前两秒视觉注视行为的影响Ｆｉｇ．６Ｔｈｅｉｍｐａｃｔｏｆｍｕｌｔｉｍｅｄｉａｖｅｒｔｉｃａｌｒｅｓｕｌｔｓｏｎｕｓ⁃ ｅｒ’ｓｆｉｒｓｔｔｗｏｓｅｃｏｎｄｓ’ ｆｉｘａｔｉｏｎ ·７１４· 智能系统学报第１１卷

第6期王超，等搜索引擎点击模型综述 .715. 图6左侧为不含垂直结果的页面，右侧为包含检验顺序是顺着搜索结果列表的结果序列自上而下多媒体垂直结果的页面，热度图越暖色表示用户的浏览搜索结果并在浏览每个搜索结果的同时决定是视觉注视越多。可以看到，当多媒体垂直结果加入否点击。而宽度优先策略则是另一种类型，它描述页面后，用户的视线被很大程度吸引，从而不再像左用户在点击搜索结果之前会预先检验一系列的搜索图一样自上而下递减分布。结果，然后再在其中选择自己最中意的若干结果点 Wang等]针对用户的浏览行为变化进行了深击。由于根据深度优先假设，用户点击时受到的很入的分析，最终总结了4个用户行为偏置假设：重要的位置偏执影响能够很容易被模型所考虑进 1)吸引力偏置假设：如果有一个垂直结果在搜去，因此大多数的点击模型3-1]都遵从深度优先假索结果页面中出现，那么用户有一定的概率首先检设，也就是用户自上而下浏览一遍搜索结果列表。验该垂直结果。 2)全局影响偏置假设：如果有一个垂直结果在开始搜索结果页面中出现，并且用户首先检验了该垂直 N 结果，那么用户会对整个页面有一个全局印象，该印包含垂直结果？象会使得用户对普通搜索结果的检验和点击偏好产 Y 生影响。直接检验垂直结果？ 3)首位偏置影响假设：如果有一个垂直结果在 (吸引力俯置) 1-o1.I 搜索结果页面中出现，并且该垂直结果被排在了第 Y ,叫4 1位，那么用户就可能会更多地点击该垂直结果而设置0，和B 较少点击其他结果。 (全局影响偏置和首位偏置)》 4)浏览顺序偏置影响假设：如果有一个垂直结果在搜索结果页面中出现，并且用户首先检验了该之前的结果检验是从 N 垂直结果，那么用户会在接下来回看垂直结果之前底至上？（浏览顺序偏置) 1-ot1 的搜索结果，回看的路径或者回到顶端自上而下浏 Y at1 览，或者沿着自下而上的顺序反序浏览。改变检验顺序相应的点击模型描述为 P(C:=11E:=0)=0 参数估计 P(C,=1IE=1)=P(A:=1IE=1) P(F=1)=94 图7VCM模型流程 P(E:=1lF=0,C1i-i)=y,i-4 Fig.7 Graphical representation of the vertical click model P(E=11F=1,C1-1)=Y,i-4+8 然而，眼动视线追踪实验研究表明，仅有 P(A=11E:=1,F=0)=ag.i 34%的搜索用户的浏览序列是顺序（自上而下）的， P(4,=11E:=1,F=1)=a.i+B 而有50%以上的查询会话中用户会发生回访行为 P(B=1IF=0)=0 (自下而上的浏览搜索结果)或者略过的行为。因 P(B=11F=1)=04 此研究人员有必要对用户的非顺序浏览（点击和检其描述的用户浏览行为决策过程可以用图7表验)行为进行研究。示。用户在开始浏览时，他会有一定的机率决定是 3.1TCM模型否首先去检验垂直结果，如果首先检验了垂直结果， Xu等最先提出了名为temporal click model 那么用户会继续约定是否回到页面顶端自上而下浏 (TCM)[20]的模型在广告搜索中描述用户的点击行览，亦或是自下而上反序浏览。为。这个模型尝试将所有可能的检验序列全部计算 3基于点击顺序的点击模型出现概率，因此只能描述仅包含两个结果（广告）的页面，所描述的非顺序点击行为为：用户首先点击了已有的眼动追踪实验研究工作1)表明，搜索引第2个搜索结果，然后再点击了第1个搜索结果。擎用户的浏览习惯可以分为两种类型：深度优先策因此这个工作很难像其他点击模型一样扩展到描述略和宽度优先策略。其中深度优先策略描述用户的整个搜索结果列表

图６左侧为不含垂直结果的页面，右侧为包含多媒体垂直结果的页面，热度图越暖色表示用户的视觉注视越多。可以看到，当多媒体垂直结果加入页面后，用户的视线被很大程度吸引，从而不再像左图一样自上而下递减分布。Ｗａｎｇ等［１１］针对用户的浏览行为变化进行了深入的分析，最终总结了４个用户行为偏置假设：１）吸引力偏置假设：如果有一个垂直结果在搜索结果页面中出现，那么用户有一定的概率首先检验该垂直结果。２）全局影响偏置假设：如果有一个垂直结果在搜索结果页面中出现，并且用户首先检验了该垂直结果，那么用户会对整个页面有一个全局印象，该印象会使得用户对普通搜索结果的检验和点击偏好产生影响。３）首位偏置影响假设：如果有一个垂直结果在搜索结果页面中出现，并且该垂直结果被排在了第１位，那么用户就可能会更多地点击该垂直结果而较少点击其他结果。４）浏览顺序偏置影响假设：如果有一个垂直结果在搜索结果页面中出现，并且用户首先检验了该垂直结果，那么用户会在接下来回看垂直结果之前的搜索结果，回看的路径或者回到顶端自上而下浏览，或者沿着自下而上的顺序反序浏览。相应的点击模型描述为ＰＣｉ＝１｜Ｅｉ ( ＝０) ＝０ＰＣｉ＝１｜Ｅｉ ( ＝１) ＝Ｐ（Ａｉ＝１｜Ｅｉ＝１）Ｐ(Ｆ＝１) ＝ φｔｖ，ｌｖＰＥｉ＝１｜Ｆ＝０，Ｃ１：ｉ－１ ( ) ＝ γｉ，ｉ－ｌｉＰＥｉ＝１｜Ｆ＝１，Ｃ１：ｉ－１ ( ) ＝ γｉ，ｉ－ｌｉ＋ θｑ，ｉＰＡｉ＝１｜Ｅｉ ( ＝１，Ｆ＝０) ＝ αｑ，ｉＰＡｉ＝１｜Ｅｉ ( ＝１，Ｆ＝１) ＝ αｑ，ｉ＋ βｑ，ｉＰ(Ｂ＝１｜Ｆ＝０) ＝０Ｐ(Ｂ＝１｜Ｆ＝１) ＝ σｔｖ，ｌｖ其描述的用户浏览行为决策过程可以用图７表示。用户在开始浏览时，他会有一定的机率决定是否首先去检验垂直结果，如果首先检验了垂直结果，那么用户会继续约定是否回到页面顶端自上而下浏览，亦或是自下而上反序浏览。３基于点击顺序的点击模型已有的眼动追踪实验研究工作［１８］表明，搜索引擎用户的浏览习惯可以分为两种类型：深度优先策略和宽度优先策略。其中深度优先策略描述用户的检验顺序是顺着搜索结果列表的结果序列自上而下浏览搜索结果并在浏览每个搜索结果的同时决定是否点击。而宽度优先策略则是另一种类型，它描述用户在点击搜索结果之前会预先检验一系列的搜索结果，然后再在其中选择自己最中意的若干结果点击。由于根据深度优先假设，用户点击时受到的很重要的位置偏执影响能够很容易被模型所考虑进去，因此大多数的点击模型［１３－１５］都遵从深度优先假设，也就是用户自上而下浏览一遍搜索结果列表。图７ＶＣＭ模型流程Ｆｉｇ．７Ｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｖｅｒｔｉｃａｌｃｌｉｃｋｍｏｄｅｌ然而，眼动视线追踪实验研究［１９］表明，仅有３４％的搜索用户的浏览序列是顺序（自上而下）的，而有５０％以上的查询会话中用户会发生回访行为（自下而上的浏览搜索结果）或者略过的行为。因此研究人员有必要对用户的非顺序浏览（点击和检验）行为进行研究。３．１ＴＣＭ模型Ｘｕ等最先提出了名为ｔｅｍｐｏｒａｌｃｌｉｃｋｍｏｄｅｌ（ＴＣＭ）［２０］的模型在广告搜索中描述用户的点击行为。这个模型尝试将所有可能的检验序列全部计算出现概率，因此只能描述仅包含两个结果（广告）的页面，所描述的非顺序点击行为为：用户首先点击了第２个搜索结果，然后再点击了第１个搜索结果。因此这个工作很难像其他点击模型一样扩展到描述整个搜索结果列表。第６期王超，等搜索引擎点击模型综述 ·７１５·

.716 智能系统学报第11卷 3.2P0M模型相应的模型示意图如图9所示，点击行为首先 Wang等提出了名为partially observable Markov 根据时间信息记录为时间序列，接下来对于每一个 model(POM)[2的点击模型来描述用户的任意浏点击对，根据局部检验线性假设，用户在点击对之间览行为。POM模型将用户的检验事件当做一个部是线性的浏览行为，因此可以用一个基于位置点击分可观测的随机过程来进行描述。其流程示意图如模型的子模块来描述这个点击对之间的用户浏览行图8所示，对于一个可以观测的点击行为序列，该模为。而由于用户可能会略过一些结果，因此点击对型会试图寻找所有可能的检验序列并分别计算各种之间的所有搜索结果并不是都被用户检验，而是需检验序列的可能性。要模型推断用户检验了哪些搜索结果。观测O e 0 基于点击位置 (a)观测序列0 V:e 假设QVe, Vi-e S=0 S,=0 V=? S=0 基于点击序列 S=1 iS=1 2 4 图9PSCM模型流程示意图 (b)假设序列Q Fig.9 Graphical representation of the partially sequen- tial click model V=e V=e, 假设Qy,=e ,=e, s0=?s-0-? S0'=?1 S=0 4点击模型开源工具及数据集 52=1 S=1 3 由于点击模型具有很强的实用性，因此很多搜索 (c)假设序列Q2) 引擎公司都有部分模型的内部实现方案，而研究人员图8POM模型流程示意图也针对点击模型开发了一系列的开源工具实现： Fig.8 Graphical representation of the vertical click model 1)ClickModelProject https://github.com/varep- 尽管这个模型能够描述用户的非顺序检验行 silon/clickmodels)是一个基于Python的开源点击模为，但模型仅考虑了用户在不同位置之间的检验跳型项目，本文中介绍的DCM、UBM、DBN等模型在该转概率（也就是说，不同用户，不同查询，不同搜索开源项目中均有实现。结果下用户的检验跳转行为是一致的)，因此该模 2)PyClick https://github.com/markovi/Py- 型并不能针对具体的查询和结果给出点击概率预测 Click)是一个基于Python的开源点击模型项目，本和结果相关性预测，并且难以在实际环境中应用，并文中介绍的FCM、VCM等模型在该开源项目中均有和已有的点击模型进行比较。实现。 3.3PSCM模型 3)THUIRClick https://github.com/THUIR/ Wang等2]利用眼动视线追踪设备对用户的非 PSCMModel)是一个基于Python的开源点击模型项顺序浏览行为进行了深入的分析，在总结了用户浏目，本文中介绍的TCM、POM、PSCM等模型在该开览行为的一般规律后提出了如下两个用户非顺序浏源项目中均有实现。览行为假设。除了开源工具之外，业界搜索引擎公司也公布 1)局部检验线性假设：在两次点击之间，用户了一批公开的搜索日志资源：倾向于沿着点击方向检验结果而不再改变检验方 1)Yandex https://www.kaggle.com/c/yandex- 向，无论用户的点击方向是向上还是向下。 personalized--web-search-challenge)是一家俄文和英 2)非一阶检验假设：尽管用户在两次点击之间文搜索引擎公司，其公布了2012年某一个月的搜索的检验行为是局部线性有序的，但用户并不是一个日志。挨着一个检验搜索结果，而是会略过一些搜索结果。 2)Sogou (http://www.sogou.com/labs/dl/q-e

３．２ＰＯＭ模型Ｗａｎｇ等提出了名为ｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅＭａｒｋｏｖｍｏｄｅｌ（ＰＯＭ）［２１］的点击模型来描述用户的任意浏览行为。ＰＯＭ模型将用户的检验事件当做一个部分可观测的随机过程来进行描述。其流程示意图如图８所示，对于一个可以观测的点击行为序列，该模型会试图寻找所有可能的检验序列并分别计算各种检验序列的可能性。（ａ）观测序列Ｏ（ｂ）假设序列Ｑ１（ｃ）假设序列Ｑ２）图８ＰＯＭ模型流程示意图Ｆｉｇ．８Ｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｖｅｒｔｉｃａｌｃｌｉｃｋｍｏｄｅｌ尽管这个模型能够描述用户的非顺序检验行为，但模型仅考虑了用户在不同位置之间的检验跳转概率（也就是说，不同用户，不同查询，不同搜索结果下用户的检验跳转行为是一致的），因此该模型并不能针对具体的查询和结果给出点击概率预测和结果相关性预测，并且难以在实际环境中应用，并和已有的点击模型进行比较。３．３ＰＳＣＭ模型Ｗａｎｇ等［２２］利用眼动视线追踪设备对用户的非顺序浏览行为进行了深入的分析，在总结了用户浏览行为的一般规律后提出了如下两个用户非顺序浏览行为假设。１）局部检验线性假设：在两次点击之间，用户倾向于沿着点击方向检验结果而不再改变检验方向，无论用户的点击方向是向上还是向下。２）非一阶检验假设：尽管用户在两次点击之间的检验行为是局部线性有序的，但用户并不是一个挨着一个检验搜索结果，而是会略过一些搜索结果。相应的模型示意图如图９所示，点击行为首先根据时间信息记录为时间序列，接下来对于每一个点击对，根据局部检验线性假设，用户在点击对之间是线性的浏览行为，因此可以用一个基于位置点击模型的子模块来描述这个点击对之间的用户浏览行为。而由于用户可能会略过一些结果，因此点击对之间的所有搜索结果并不是都被用户检验，而是需要模型推断用户检验了哪些搜索结果。图９ＰＳＣＭ模型流程示意图Ｆｉｇ．９Ｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｐａｒｔｉａｌｌｙｓｅｑｕｅｎ⁃ ｔｉａｌｃｌｉｃｋｍｏｄｅｌ４点击模型开源工具及数据集由于点击模型具有很强的实用性，因此很多搜索引擎公司都有部分模型的内部实现方案，而研究人员也针对点击模型开发了一系列的开源工具实现：１）ＣｌｉｃｋＭｏｄｅｌＰｒｏｊｅｃｔ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｖａｒｅｐ⁃ ｓｉｌｏｎ／ｃｌｉｃｋｍｏｄｅｌｓ）是一个基于Ｐｙｔｈｏｎ的开源点击模型项目，本文中介绍的ＤＣＭ、ＵＢＭ、ＤＢＮ等模型在该开源项目中均有实现。２）ＰｙＣｌｉｃｋ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍａｒｋｏｖｉ／Ｐｙ⁃ Ｃｌｉｃｋ）是一个基于Ｐｙｔｈｏｎ的开源点击模型项目，本文中介绍的ＦＣＭ、ＶＣＭ等模型在该开源项目中均有实现。３）ＴＨＵＩＲＣｌｉｃｋ（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＴＨＵＩＲ／ＰＳＣＭＭｏｄｅｌ）是一个基于Ｐｙｔｈｏｎ的开源点击模型项目，本文中介绍的ＴＣＭ、ＰＯＭ、ＰＳＣＭ等模型在该开源项目中均有实现。除了开源工具之外，业界搜索引擎公司也公布了一批公开的搜索日志资源：１）Ｙａｎｄｅｘ（ｈｔｔｐｓ：／／ｗｗｗ．ｋａｇｇｌｅ．ｃｏｍ／ｃ／ｙａｎｄｅｘ⁃ ｐｅｒｓｏｎａｌｉｚｅｄ⁃ｗｅｂ⁃ｓｅａｒｃｈ⁃ｃｈａｌｌｅｎｇｅ）是一家俄文和英文搜索引擎公司，其公布了２０１２年某一个月的搜索日志。２）Ｓｏｇｏｕ（ｈｔｔｐ：／／ｗｗｗ．ｓｏｇｏｕ．ｃｏｍ／ｌａｂｓ／ｄｌ／ｑ－ｅ． ·７１６· 智能系统学报第１１卷

第6期王超，等搜索引擎点击模型综述 ·717. html)是一家中文搜索引擎公司，其公布了2012年 2008:87-94 部分时段的搜索日志。 [10]JOACHIMS T,GRANKA L,PAN B,et al.Accurately in- 3)Microsoft (http://research.microsoft.com/en- terpreting clickthrough data as implicit feedback [C] us/um/people/nicker/wscdo9/)公布了2006年MSN Proceedings of the 28th Annual International ACM SIGIR 的某一个月的搜索日志。 Conference on Research and Development in Information Retrieval.New York.NY.USA:ACM,2005:154-161. 5结束语 [11]WANG C.LIU Y,ZHANG M,et al.Incorporating vertical results into search click models[C]//Proceedings of the 点击模型作为一种用户交互信息的有效利用方 36th international ACM SIGIR conference on Research and 法，在学术界得到了充分关注，并在工业界得到了广 development in information retrieval.New York,NY, 泛的应用。本文主要介绍了点击模型的发展过程以 USA:ACM.2013:503-512. 及不同点击模型的功能。同时介绍了部分点击模型 [12]YUE Y S,PATEL R,ROEHRIG H.Beyond position bias: 研究中可用的资源。随着大数据时代的不断推进， Examining result attractiveness as a source of presentation 点击模型作为一种有效利用搜索引擎海量用户交互 bias in clickthrough data[C]//Proceedings of the 19th In- 数据的方法，必将在学术界得到更为全面的研究，也 ternational Conference on World Wide Web.New York, NY,USA:ACM,2010:1011-1018. 将在工业界得到更为深入的应用。 [13]GUO F,LIU C,WANG Y M.Efficient multiple-click 参考文献： models in web search [C]//Proceedings of the Second ACM International Conference on Web Search and Data [1]ROBERTSON S,ZARAGOZA H.The probabilistic rele- Mining.New York,NY,USA:ACM,2009:124-131. vance framework:BM25 and beyond[M].Hanover,MA: [14]DUPRET G E,PIWOWARSKI B.A user browsing model Now Publishers Inc,2009. to predict search engine click data from past observations [2]SPARCK JONES K.A statistical interpretation of term spe- [C]//Proceedings of the 31st Annual International ACM cificity and its application in retrieval[J].Journal of docu- SIGIR Conference on Research and Development in Infor- mentation,1972,28(1):11-21. mation Retrieval.New York,NY,USA:ACM,2008:331 [3]ROBERTSON S E,WALKER S,JONES S,et al.Okapi at -338. trec-3[Z].Nist Special Publication Sp,1995,109:109. [15]CHAPELLE O,ZHANG Y.A dynamic bayesian network [4]LV Y,ZHAI C.When documents are very long,bm25 click model for web search ranking[C]//Proceedings of fails![C]//Proceedings of the 34th International ACM SI- the 18th International Conference on World Wide Web. GIRConference on Research and Development in Informa- New York,NY,USA:ACM,2009:1-10. tion Retrieval.New York:ACM,2011:1103-1104. [16]CHEN D Q,CHEN W Z,WANG H X,et al.Beyond ten [5]PAGE L,BRIN S,MOTWANI R,et al.The pagerank cita- blue links:enabling user click modeling in federated web tion ranking:bringing order to the web[Z].Stanford:Stan- search[C]//Proceedings of the 5th ACM International ford University,1999. Conference on Web Search and Data Mining.New York, [6]GYONGYI Z,GARCIA-MOLINA H,PEDERSEN J.Com- NY.USA:ACM.2012:463-472. bating web spam with trustrank [C]//Proceedings of the [17]LIU Z Y,LIU Y Q,ZHOU K,et al.Influence of vertical 30th International Conference on Very Large Data Bases.To- result in web search examination C//Proceedings of the ronto,Canada:VLDB Endowment,2004:576-587. 38th International ACM SIGIR Conference on Research and [7]SUROWIECKI J.The wisdom of crowds[Z].Anchor,2005. Development in Information Retrieval.New York,NY, [8]AGICHTEIN E,BRILL E,DUMAIS S,et al.Learning user USA:ACM,2015:193-202. interaction models for predicting web search result prefer- [18]KLOCKNER K,WIRSCHUM N,JAMESON A.Depth-and ences[C]//Proceedings of the 29th Annual International breadth-first processing of search result lists[C]//CHI ACM SIGIR Conference on Research and Development in 04 Extended Abstracts on Human Factors in Computing. Information Retrieval.New York,NY,USA:ACM,2006: New York,NY,USA:ACM,2004:1539. 3-10. [19]LORIGO L,PAN B,HEMBROOKE H,et al.The influ- [9]CRASWELL N,ZOETER O,TAYLOR M,et al.An exper- ence of task and gender on search and evaluation behavior imental comparison of click position-bias models [C]/ using google[J].Information processing management, Proceedings of the 2008 International Conference on Web 2006,42(4):1123-1131. Search and Data Mining.New York,NY,USA:ACM, [20]XU W H,MANAVOGLU E,CANTU-PAZ E.Temporal

ｈｔｍｌ）是一家中文搜索引擎公司，其公布了２０１２年部分时段的搜索日志。３）Ｍｉｃｒｏｓｏｆｔ（ｈｔｔｐ：／／ｒｅｓｅａｒｃｈ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ／ｅｎ－ｕｓ／ｕｍ／ｐｅｏｐｌｅ／ｎｉｃｋｃｒ／ｗｓｃｄ０９／）公布了２００６年ＭＳＮ的某一个月的搜索日志。５结束语点击模型作为一种用户交互信息的有效利用方法，在学术界得到了充分关注，并在工业界得到了广泛的应用。本文主要介绍了点击模型的发展过程以及不同点击模型的功能。同时介绍了部分点击模型研究中可用的资源。随着大数据时代的不断推进，点击模型作为一种有效利用搜索引擎海量用户交互数据的方法，必将在学术界得到更为全面的研究，也将在工业界得到更为深入的应用。参考文献：［１］ＲＯＢＥＲＴＳＯＮＳ，ＺＡＲＡＧＯＺＡＨ．Ｔｈｅｐｒｏｂａｂｉｌｉｓｔｉｃｒｅｌｅ⁃ ｖａｎｃｅｆｒａｍｅｗｏｒｋ：ＢＭ２５ａｎｄｂｅｙｏｎｄ［Ｍ］．Ｈａｎｏｖｅｒ，ＭＡ：ＮｏｗＰｕｂｌｉｓｈｅｒｓＩｎｃ，２００９．［２］ＳＰＡＲＣＫＪＯＮＥＳＫ．Ａｓｔａｔｉｓｔｉｃａｌｉｎｔｅｒｐｒｅｔａｔｉｏｎｏｆｔｅｒｍｓｐｅ⁃ ｃｉｆｉｃｉｔｙａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｉｎｒｅｔｒｉｅｖａｌ［Ｊ］．Ｊｏｕｒｎａｌｏｆｄｏｃｕ⁃ ｍｅｎｔａｔｉｏｎ，１９７２，２８（１）：１１－２１．［３］ＲＯＢＥＲＴＳＯＮＳＥ，ＷＡＬＫＥＲＳ，ＪＯＮＥＳＳ，ｅｔａｌ．Ｏｋａｐｉａｔｔｒｅｃ－３［Ｚ］．ＮｉｓｔＳｐｅｃｉａｌＰｕｂｌｉｃａｔｉｏｎＳｐ，１９９５，１０９：１０９．［４］ＬＶＹ，ＺＨＡＩＣ．Ｗｈｅｎｄｏｃｕｍｅｎｔｓａｒｅｖｅｒｙｌｏｎｇ，ｂｍ２５ｆａｉｌｓ！［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩ⁃ ＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａ⁃ ｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ：ＡＣＭ，２０１１：１１０３－１１０４．［５］ＰＡＧＥＬ，ＢＲＩＮＳ，ＭＯＴＷＡＮＩＲ，ｅｔａｌ．Ｔｈｅｐａｇｅｒａｎｋｃｉｔａ⁃ ｔｉｏｎｒａｎｋｉｎｇ：ｂｒｉｎｇｉｎｇｏｒｄｅｒｔｏｔｈｅｗｅｂ［Ｚ］．Ｓｔａｎｆｏｒｄ：Ｓｔａｎ⁃ ｆｏｒｄＵｎｉｖｅｒｓｉｔｙ，１９９９．［６］ＧＹＯＮＧＹＩＺ，ＧＡＲＣＩＡ－ＭＯＬＩＮＡＨ，ＰＥＤＥＲＳＥＮＪ．Ｃｏｍ⁃ ｂａｔｉｎｇｗｅｂｓｐａｍｗｉｔｈｔｒｕｓｔｒａｎｋ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ．Ｔｏ⁃ ｒｏｎｔｏ，Ｃａｎａｄａ：ＶＬＤＢＥｎｄｏｗｍｅｎｔ，２００４：５７６－５８７．［７］ＳＵＲＯＷＩＥＣＫＩＪ．Ｔｈｅｗｉｓｄｏｍｏｆｃｒｏｗｄｓ［Ｚ］．Ａｎｃｈｏｒ，２００５．［８］ＡＧＩＣＨＴＥＩＮＥ，ＢＲＩＬＬＥ，ＤＵＭＡＩＳＳ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｕｓｅｒｉｎｔｅｒａｃｔｉｏｎｍｏｄｅｌｓｆｏｒｐｒｅｄｉｃｔｉｎｇｗｅｂｓｅａｒｃｈｒｅｓｕｌｔｐｒｅｆｅｒ⁃ ｅｎｃｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００６：３－１０．［９］ＣＲＡＳＷＥＬＬＮ，ＺＯＥＴＥＲＯ，ＴＡＹＬＯＲＭ，ｅｔａｌ．Ａｎｅｘｐｅｒ⁃ ｉｍｅｎｔａｌｃｏｍｐａｒｉｓｏｎｏｆｃｌｉｃｋｐｏｓｉｔｉｏｎ－ｂｉａｓｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００８：８７－９４．［１０］ＪＯＡＣＨＩＭＳＴ，ＧＲＡＮＫＡＬ，ＰＡＮＢ，ｅｔａｌ．Ａｃｃｕｒａｔｅｌｙｉｎ⁃ ｔｅｒｐｒｅｔｉｎｇｃｌｉｃｋｔｈｒｏｕｇｈｄａｔａａｓｉｍｐｌｉｃｉｔｆｅｅｄｂａｃｋ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００５：１５４－１６１．［１１］ＷＡＮＧＣ，ＬＩＵＹ，ＺＨＡＮＧＭ，ｅｔａｌ．Ｉｎｃｏｒｐｏｒａｔｉｎｇｖｅｒｔｉｃａｌｒｅｓｕｌｔｓｉｎｔｏｓｅａｒｃｈｃｌｉｃｋｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３６ｔｈｉｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲｃｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔｉｎｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１３：５０３－５１２．［１２］ＹＵＥＹＳ，ＰＡＴＥＬＲ，ＲＯＥＨＲＩＧＨ．Ｂｅｙｏｎｄｐｏｓｉｔｉｏｎｂｉａｓ：Ｅｘａｍｉｎｉｎｇｒｅｓｕｌｔａｔｔｒａｃｔｉｖｅｎｅｓｓａｓａｓｏｕｒｃｅｏｆｐｒｅｓｅｎｔａｔｉｏｎｂｉａｓｉｎｃｌｉｃｋｔｈｒｏｕｇｈｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１０：１０１１－１０１８．［１３］ＧＵＯＦ，ＬＩＵＣ，ＷＡＮＧＹＭ．Ｅｆｆｉｃｉｅｎｔｍｕｌｔｉｐｌｅ－ｃｌｉｃｋｍｏｄｅｌｓｉｎｗｅｂｓｅａｒｃｈ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｃｏｎｄＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００９：１２４－１３１．［１４］ＤＵＰＲＥＴＧＥ，ＰＩＷＯＷＡＲＳＫＩＢ．Ａｕｓｅｒｂｒｏｗｓｉｎｇｍｏｄｅｌｔｏｐｒｅｄｉｃｔｓｅａｒｃｈｅｎｇｉｎｅｃｌｉｃｋｄａｔａｆｒｏｍｐａｓｔｏｂｓｅｒｖａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒ⁃ ｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００８：３３１－３３８．［１５］ＣＨＡＰＥＬＬＥＯ，ＺＨＡＮＧＹ．Ａｄｙｎａｍｉｃｂａｙｅｓｉａｎｎｅｔｗｏｒｋｃｌｉｃｋｍｏｄｅｌｆｏｒｗｅｂｓｅａｒｃｈｒａｎｋｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００９：１－１０．［１６］ＣＨＥＮＤＱ，ＣＨＥＮＷＺ，ＷＡＮＧＨＸ，ｅｔａｌ．Ｂｅｙｏｎｄｔｅｎｂｌｕｅｌｉｎｋｓ：ｅｎａｂｌｉｎｇｕｓｅｒｃｌｉｃｋｍｏｄｅｌｉｎｇｉｎｆｅｄｅｒａｔｅｄｗｅｂｓｅａｒｃｈ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１２：４６３－４７２．［１７］ＬＩＵＺＹ，ＬＩＵＹＱ，ＺＨＯＵＫ，ｅｔａｌ．Ｉｎｆｌｕｅｎｃｅｏｆｖｅｒｔｉｃａｌｒｅｓｕｌｔｉｎｗｅｂｓｅａｒｃｈｅｘａｍｉｎａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１５：１９３－２０２．［１８］ＫＬÖＣＫＮＥＲＫ，ＷＩＲＳＣＨＵＭＮ，ＪＡＭＥＳＯＮＡ．Ｄｅｐｔｈ⁃ａｎｄｂｒｅａｄｔｈ－ｆｉｒｓｔｐｒｏｃｅｓｓｉｎｇｏｆｓｅａｒｃｈｒｅｓｕｌｔｌｉｓｔｓ［Ｃ］／／ＣＨＩ＇０４ＥｘｔｅｎｄｅｄＡｂｓｔｒａｃｔｓｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００４：１５３９．［１９］ＬＯＲＩＧＯＬ，ＰＡＮＢ，ＨＥＭＢＲＯＯＫＥＨ，ｅｔａｌ．Ｔｈｅｉｎｆｌｕ⁃ ｅｎｃｅｏｆｔａｓｋａｎｄｇｅｎｄｅｒｏｎｓｅａｒｃｈａｎｄｅｖａｌｕａｔｉｏｎｂｅｈａｖｉｏｒｕｓｉｎｇｇｏｏｇｌｅ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ＆ｍａｎａｇｅｍｅｎｔ，２００６，４２（４）：１１２３－１１３１．［２０］ＸＵＷＨ，ＭＡＮＡＶＯＧＬＵＥ，ＣＡＮＴＵ⁃ＰＡＺＥ．Ｔｅｍｐｏｒａｌ第６期王超，等搜索引擎点击模型综述 ·７１７·

·718. 智能系统学报第11卷 click model for sponsored search[C]//Proceedings of the 作者简介： 33rd International ACM SIGIR Conference on Research 王超.男，1989年生，博士，主要研 and Development in Information Retrieval.New York, 究方向为互联网搜索结果排序和用户 NY,USA:ACM.2010:106-113. 行为建模方面的研究，发表学术论文多 [21]WANG K S,GLOY N,LI X L.Inferring search behaviors 篇，获得SIGIR2015最佳论文提名奖。 using partially observable Markov (POM)model [C]/ Proceedings of the third ACM International Conference on Web Search and Data Mining.New York,NY,USA: 刘奕群，男，1981年生，副教授、博 ACM,2010:211-220. 士生导师中国人工智能学会理事，知识 [22]WANG C,LIU Y Q,WANG M,et al.Incorporating non- 工程与分布智能专委会委员，中国中文 sequential behavior into click models[C]/Proceedings of 信息学会信息检索与内容安全专委会 the 38th International ACM SIGIR Conference on Research 委员。主要研究方向为信息检索与互 and Development in Information Retrieval.New York,NY, 联网搜索技术。发表学术论文30余篇，获得SIGR(CCPA USA:ACM,2015:283-292. 类)最佳论文提名奖。据Google Scholar统计，论文被引用 [23]GUO F,LIU C,KANNAN A,et al.Click chain model in 1700余次。 web search [C]//Proceedings of the 18th International Conference on World Wide Web.New York,NY,USA: 马少平，男，1961年生，教授、博土 ACM.2009:11-20. 生导师中国人工智能学会副理事长， [24]HU B T,ZHANG Y C,CHEN W Z,et al.Characterizing 知识工程与分布式智能专委会主任，中 search intent diversity into click models[C]//Proceedings 国中文信息学会常务理事，信息检索与 of the 20th International Conference on World Wide Web. 内容安全专委会副主任。主要研究方 New York,NY,USA:ACM,2011:17-26. 向为智能信息处理，模式识别、文本信 [25 ]CHEN W Z,WANG D,ZHANG Y C,et al.A noise-a- 息检索、中文古籍的数字化与检索。作为项目负责人先后承 ware click model for web search[C]//Proceedings of the 担“973”、“863”、自然科学基金项目等多项课题。所领导的 5th ACM International Conference on Web Search and Data 文本信息检索小组，从2002年开始，在国际上著名的TREC Mining.New York,NY,USA:ACM,2012:313-322. (文本检索国际会议)文本检索标准评测中，多次取得第一名的好成绩，发表学术论文多篇

ｃｌｉｃｋｍｏｄｅｌｆｏｒｓｐｏｎｓｏｒｅｄｓｅａｒｃｈ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１０：１０６－１１３．［２１］ＷＡＮＧＫＳ，ＧＬＯＹＮ，ＬＩＸＬ．ＩｎｆｅｒｒｉｎｇｓｅａｒｃｈｂｅｈａｖｉｏｒｓｕｓｉｎｇｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅＭａｒｋｏｖ（ＰＯＭ）ｍｏｄｅｌ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｔｈｉｒｄＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１０：２１１－２２０．［２２］ＷＡＮＧＣ，ＬＩＵＹＱ，ＷＡＮＧＭ，ｅｔａｌ．Ｉｎｃｏｒｐｏｒａｔｉｎｇｎｏｎ－ｓｅｑｕｅｎｔｉａｌｂｅｈａｖｉｏｒｉｎｔｏｃｌｉｃｋｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１５：２８３－２９２．［２３］ＧＵＯＦ，ＬＩＵＣ，ＫＡＮＮＡＮＡ，ｅｔａｌ．Ｃｌｉｃｋｃｈａｉｎｍｏｄｅｌｉｎｗｅｂｓｅａｒｃｈ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭ，２００９：１１－２０．［２４］ＨＵＢＴ，ＺＨＡＮＧＹＣ，ＣＨＥＮＷＺ，ｅｔａｌ．Ｃｈａｒａｃｔｅｒｉｚｉｎｇｓｅａｒｃｈｉｎｔｅｎｔｄｉｖｅｒｓｉｔｙｉｎｔｏｃｌｉｃｋｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１１：１７－２６．［２５］ＣＨＥＮＷＺ，ＷＡＮＧＤ，ＺＨＡＮＧＹＣ，ｅｔａｌ．Ａｎｏｉｓｅ－ａ⁃ ｗａｒｅｃｌｉｃｋｍｏｄｅｌｆｏｒｗｅｂｓｅａｒｃｈ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２０１２：３１３－３２２．作者简介：王超，男，１９８９年生，博士，主要研究方向为互联网搜索结果排序和用户行为建模方面的研究，发表学术论文多篇，获得ＳＩＧＩＲ２０１５最佳论文提名奖。刘奕群，男，１９８１年生，副教授、博士生导师中国人工智能学会理事，知识工程与分布智能专委会委员，中国中文信息学会信息检索与内容安全专委会委员。主要研究方向为信息检索与互联网搜索技术。发表学术论文３０余篇，获得ＳＩＧＩＲ（ＣＣＦＡ类）最佳论文提名奖。据ＧｏｏｇｌｅＳｃｈｏｌａｒ统计，论文被引用ＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：马少平，男，１９６１年生，教授、博士生导师，中国人工智能学会副理事长，知识工程与分布式智能专委会主任，中国中文信息学会常务理事，信息检索与内容安全专委会副主任。主要研究方向为智能信息处理，模式识别、文本信息检索、中文古籍的数字化与检索。作为项目负责人先后承担“９７３”、“８６３”、自然科学基金项目等多项课题。所领导的文本信息检索小组，从２００２年开始，在国际上著名的ＴＲＥＣ（文本检索国际会议）文本检索标准评测中，多次取得第一名的好成绩，发表学术论文多篇。 ·７１８· 智能系统学报第１１卷１７００余次

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

【综述】搜索引擎点击模型综述