正在加载图片...
402 智能系统学报 第7卷 “用户体验改进计划”中抽取的,数据收集经过了用 成查询词候选集合词汇不足的主要原因有:1)用户 户的同意,并删除了用户的P、用户名等个人信息. 提交的查询词无法涵盖所有关键词;2)由于查询词 查询集合采用某商业搜索引擎18d(2010-1008 集合过大,对长尾查询词进行过滤,导致丢失了部分 10-25)的查询日志,对于锚文本,采用同一时期的用 有用的查询词数据。 户浏览日志信息 5结束语 随机选取10000个网页l,从中提取出财经领 域的网页,并且筛选出不合格的网页,共提取出134 基于领域关键词提取技术的关键词推荐方法可 个与财经相关的网页,利用领域关键词提取方法对 以更好地把握用户的信息需求,但是其有一定的局 相关网页进行推荐,然后通过人工标注,计算出该方 限性,只能在单个领域中发挥较好的作用.而基于查 法的前1位和前3位的准确率。 询词集合的关键词推荐方法可以在各个领域推荐出 基于用户查询集合的关键词推荐方法的实验则 用户需求的信息,虽然在准确率和召回率方面有一 是从10000个l中随机抽取1000个进行推荐,并 定的缺陷,但是其普适性对于推广该方法有很大的 计算相应的前1位和前3位的准确率, 帮助.接下来的工作中,将结合这2种方法的优缺 4.2实验结果及分析 点,得到更高效、准确的关键词推荐方法, 通过标注,得到基于领域关键词提取技术和基 参考文献: 于查询词集合的关键词推荐方法在不同网页下的实 验结果,如表1所示.从实验结果可以看出,这2种 [1]许海玲,吴潇,李晓东,等.互联网推荐系统比较研究 方法得到的关键词推荐都能得到较好的推荐效果, [J].软件学报,2009,20(2):350-362, 但是基于领域关键词提取技术的关键词推荐效果更 XU Hailing,WU Xiao,LI Xiaodong,et al.Comparison 为显著,具有更高的准确率。 study of intemet recommendation system[J].Joumnal of 表12种方法的实验结果 Software,2009,20(2):350-362. Table 1 Results of two methods [2]张培颖.基于Wb内容和日志挖掘的个性化网页推荐系 统[J].计算机系统应用,2008,17(9):9-12 方法 Pel Pe3 P ZHANG Peiying.Personalized web page recommendation 基于领域关键词 97.0 91.0 97.0 system based on web content and log mining[J].Computer 提取技术 System and Applications,2008,17(9):9-12. 基于查询集合 76.2 72.3 77.3 [3]YANG Qingyan,FAN Ju,WANG Jianyong,et al.Person- 对实验的结果进行具体的分析,造成基于领域 alizing web page recommendation via collaborative filtering 关键词提取技术推荐错误的主要原因在于不存在相 and topic-aware Markov model C]//IEEE International 对应的候选关键词.例如:网页标题为“主力研究”, Conference on Data Mining.Sydeny,Australia,2010: 1145-1150. 正文为“沪深两市依旧是小盘股全面活跃,大盘股 [4]SUMATHI C P,VALLI R P,SANTHANAM T.Automatic 不涨反跌.虽然不少投资者…”,基于领域关键词 recommendation of web pages in web usage mining[J].In- 提取技术的推荐方法得到的结果为“主力”.通过分 ternational Journal of Computer Science and Engineering, 析,候选集合中没有“主力研究”这个词,但在该网 2010,2(9):3046-3052. 页中,只有“主力研究”能够很好地反映该网页的内 [5]刘强,郭景峰.基于用户访问路径分析的页面推荐模型 容,对于基于查询集合的关键词推荐方法而言,导致 [J].计算机技术与发展,2007,17(1):151-154. 推荐结果不对的原因主要是某些关键词在查询词中 LIU Qiang,GUO Jingfeng.A web page recommendation 并没有出现,导致候选集合中并没有这些关键词.有 model based on analyzing user access pattern[J].Computer 如下的例子:网页标题为“Q友乐园”,网页正文为 Technology and Development,2007,17(1):151-154. “Q友乐园,专注分享精品头像与个性素材的专业性 [6]WU Y H,CHEN Y C,CHEN A L P.Enabling personal- ized recommendation on the web based on user interests and 网…”,查询词候选集合中,并没有“Q友乐园”这 behaviors[C]//Proceedings of the 11th International Work- 个候选词,所以最终的推荐结果中,只推荐了“乐 shop on Research Issues in Data Engineering.Washington, 园”这个词.由于领域关键词提取技术主要针对单 DC,USA:IEEE Computer Society,2001:17-24 个领域的词进行相应的过滤和提取,所以能够更好 [7]邵华,高凤荣,邢春晓,等.基于VSM的分层网页推荐算 地获取某个领域的关键词.而基于用户查询集合的 法[J].计算机科学,2006,33(11):85-88,105, 关键词推荐方法则主要依据用户提交的查询词,造 SHAO Hua,GAO Fengrong,XING Chunxiao,et al.A hi-
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有