第5期闫兴龙，等：面向浏览推荐的网页关键词提取 ·401

正在加载图片...

第5期闫兴龙，等：面向浏览推荐的网页关键词提取 ·401· 以上述领域关键词提取技术得到的领域关键词符号，因为一般正常的查询都不存在符号.接下来去为候选集合，对于每个候选词，提取其在网页中的以除查询频率过低和过高的查询词，频率过低的查询下特征：标题中出现的次数、标题中第一次出现的位词一般不是真实存在的词语，而频率过高的查询词置、正文中出现的次数和在正文中第一次出现的位又没有真正的区分度，用户往往只是为了利用搜索置，并且结合关键词本身的一些特征，如关键词的长引擎引导到某个网站，如“新浪”、“搜狐”等度、其在领域关键词提取时的频率以及TF/DF值.依 2)利用领域关键词提取技术中的新词发现算据这7个特征，利用线性拟合的方法得到各个特征的法，主要针对查询中小于等于4个字的结果，去除查参数，根据这些特征的特征值，得到排序较高的前3 询词中非词语，从而提高检索的速度，该算法能很好位结果作为推荐的关键词，即用户的兴趣点所在地滤除非词语。 3基于用户查询集合的关键词推荐方法 3)建立基于长查询词和短查询词的映射关系，一方面，由于查询词的集合过于庞大，为了提高查询 3.1用户查询集合的候选集选取词匹配的速度，所以采用2级索引的方法.另一方当前用户在浏览网页时获取所需信息的重要方面，短查询词反映的含义简单扼要，但是有部分查询式便是通过搜索引擎提交查询词，所以用户提交的词无法全面反映用户的意图，所以采用2级索引，能查询词是反应用户兴趣的重要信息，以查询词为候更加全面地反映用户的信息需求选集合，对用户进行关键词推荐，能够很好地表征用 3.2基于用户查询集的关键词推荐方法户的信息需求利用上述方法得到的短查询词集合为候选集基于用户查询词集合的关键词推荐方法，首先合，对于每个候选词，提取其在网页中的以下特征：需要对查询词的候选集合进行选取，采用的查询词标题中出现的次数、标题中第一次出现的位置、正文选取方法的步骤分为以下3步（如图2所示）. 中出现的次数和在正文中第一次出现的位置，并且结合查询词本身的一些特征，如查询词的长度、其查查询日志询的频率以及T℉/DF值.根据这些特征，利用线性拟合的方法，得到各个特征的参数值，通过计算得到 <在询问提取排序靠前的查询候选词. 将得到的排序靠前的短查询词索引下的长查询查询词候选集合词作为长查询词候选集合，对于这个候选集合中的候选词，以对应的短查询词的得分为基础，加入长查候选多预处理了集合询词的查询频率这个特征.最后根据上述2个特征值，排序得到推荐的长查询词.从实验的结果可以看候选多字集现出，长查询词往往是与文本内容相关的信息内容率过滤 4实验新词现算法基于左右关键词的质量是影响基于内容的网页推荐系统嫡过滤候选查询效果的重要因素，使用计算不同准确率的方法评价词集合关键词的推荐方法，准确率P的定义为背景语 P=推荐出相关关键词的网页数料库 TFIDF 推荐的网页数候选术 4.1实验数据语集合由于领域关键词提取技术只能提取出单个领域最终领域术诰集合的关键词，因此本文主要针对单个领域的网页进行推荐，下面以财经领域的网页为例进行实验图2用户查询词候选集合选取方法利用用户浏览行为信息，抽取用户在浏览过程 Fig.2 Framework of selecting query candidate 中点击的锚文本信息，以该信息作为提取关键词的 1)预处理.因为查询词中有部分噪音的存在，背景语料库.锚文本是指由网页制作者编写的，用于比如标点符号、不成词的查询.首先去除存在的标点描述对应的超链接网页内容的文本样式.数据是在

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】面向浏览推荐的网页关键词提取