正在加载图片...
第5期 闫兴龙,等:面向浏览推荐的网页关键词提取 ·401· 以上述领域关键词提取技术得到的领域关键词 符号,因为一般正常的查询都不存在符号.接下来去 为候选集合,对于每个候选词,提取其在网页中的以 除查询频率过低和过高的查询词,频率过低的查询 下特征:标题中出现的次数、标题中第一次出现的位 词一般不是真实存在的词语,而频率过高的查询词 置、正文中出现的次数和在正文中第一次出现的位 又没有真正的区分度,用户往往只是为了利用搜索 置,并且结合关键词本身的一些特征,如关键词的长 引擎引导到某个网站,如“新浪”、“搜狐”等 度、其在领域关键词提取时的频率以及TF/DF值.依 2)利用领域关键词提取技术中的新词发现算 据这7个特征,利用线性拟合的方法得到各个特征的 法,主要针对查询中小于等于4个字的结果,去除查 参数,根据这些特征的特征值,得到排序较高的前3 询词中非词语,从而提高检索的速度,该算法能很好 位结果作为推荐的关键词,即用户的兴趣点所在 地滤除非词语。 3基于用户查询集合的关键词推荐方法 3)建立基于长查询词和短查询词的映射关系, 一方面,由于查询词的集合过于庞大,为了提高查询 3.1用户查询集合的候选集选取 词匹配的速度,所以采用2级索引的方法.另一方 当前用户在浏览网页时获取所需信息的重要方 面,短查询词反映的含义简单扼要,但是有部分查询 式便是通过搜索引擎提交查询词,所以用户提交的 词无法全面反映用户的意图,所以采用2级索引,能 查询词是反应用户兴趣的重要信息,以查询词为候 更加全面地反映用户的信息需求 选集合,对用户进行关键词推荐,能够很好地表征用 3.2基于用户查询集的关键词推荐方法 户的信息需求 利用上述方法得到的短查询词集合为候选集 基于用户查询词集合的关键词推荐方法,首先 合,对于每个候选词,提取其在网页中的以下特征: 需要对查询词的候选集合进行选取,采用的查询词 标题中出现的次数、标题中第一次出现的位置、正文 选取方法的步骤分为以下3步(如图2所示). 中出现的次数和在正文中第一次出现的位置,并且 结合查询词本身的一些特征,如查询词的长度、其查 查询日志 询的频率以及T℉/DF值.根据这些特征,利用线性 拟合的方法,得到各个特征的参数值,通过计算得到 <在询问提取 排序靠前的查询候选词. 将得到的排序靠前的短查询词索引下的长查询 查询词候选集合 词作为长查询词候选集合,对于这个候选集合中的 候选词,以对应的短查询词的得分为基础,加入长查 候选多 预处理 了集合 询词的查询频率这个特征.最后根据上述2个特征 值,排序得到推荐的长查询词.从实验的结果可以看 候选多字集 现 出,长查询词往往是与文本内容相关的信息内容 率过滤 4实验 新词 现算法 基于左右 关键词的质量是影响基于内容的网页推荐系统 嫡过滤 候选查询 效果的重要因素,使用计算不同准确率的方法评价 词集合 关键词的推荐方法,准确率P的定义为 背景语 P=推荐出相关关键词的网页数 料库 TFIDF 推荐的网页数 候选术 4.1实验数据 语集合 由于领域关键词提取技术只能提取出单个领域 最终领域 术诰集合 的关键词,因此本文主要针对单个领域的网页进行 推荐,下面以财经领域的网页为例进行实验 图2用户查询词候选集合选取方法 利用用户浏览行为信息,抽取用户在浏览过程 Fig.2 Framework of selecting query candidate 中点击的锚文本信息,以该信息作为提取关键词的 1)预处理.因为查询词中有部分噪音的存在, 背景语料库.锚文本是指由网页制作者编写的,用于 比如标点符号、不成词的查询.首先去除存在的标点 描述对应的超链接网页内容的文本样式.数据是在
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有