正在加载图片...
第5期 月兴龙,等:面向浏览推荐的网页关键词提取 ·399· 用信息的主要方法是通过门户网站和搜索引擎.门 的长关键词:第2种方法并不针对网页文本,网页文 户网站和搜索引擎在一定程度上满足了用户信息过 本和书面文本存在一定的差异,并不一定能表征用 滤的需求,但是门户网站和搜索引擎都有其存在的 户的信息需求.本文对这2种方法得到的关键词候 问题,门户网站的主要问题就是网页的过滤是通过 选集进行对比实验,结果表明,基于用户行为信息的 人工的方法进行,这样会费时费力,而且并不能满足 领域关键词提取技术有更好的效果, 每个人的信息需求.搜索引擎是当前非常重要的用 2 户获取信息的途径,其主要的问题有2个方面: 基于领域关键词提取技术的关键词 1)无法提供用户的个性化需求;2)用户需要较为繁 推荐方法 琐地提供需求来获取信息.为了给用户提供更好、便 领域关键词抽取方法的流程如图1所示. 捷和个性化的服务,推荐系统应运而生.推荐系统和 搜索引擎的主要区别在于:1)搜索引擎面向的是所 W山资源 有的用户,提供主流的结果,推荐系统更重要地是研 究用户模型,利用用户的历史记录或者社交网络提 网页标 供用户的个性化服务;2)搜索引擎是用户主导的, 需要用户主动提供和修改查询词,推荐系统是由系 领域文本语料库 统主导用户浏览,能够提供更好的推荐结果.高质量 的推荐系统能够使用户更加依赖该系统,提高用户 <预处理 候选多字集合 的忠诚度 新 1 相关工作 候选多字集合 基于频 当前网页推荐系统基本上可以分为3种方法: 率过滤 基于日志挖掘的推荐方法、基于知识的推荐方法和 <新词发现算法 于左有 基于内容的推荐方法. 熵过滤 1)基于日志挖掘的推荐方法.基于日志挖掘的 候选术语集合 推荐方法26主要是根据用户的Wb访问日志信 背景语 润合度过滤 息,划分出用户的会话,通过模式匹配以及关联规则 料库 TFIDF筛选 等数据挖掘的方法,推荐出用户需要的网页.这种方 搜索引 法很好地利用了用户行为,能够更好地实现个性化 擎过滤 需求,但是由于互联网的扩散性和数据的稀疏性,这 最终领域 术语集金 种方法只能应用于小规模的封闭集合: 候选术语集合 2)基于知识的推荐方法.该方法更多的是利用 知识工程的方法对网页进行分析,在某种程度上可 以看成是一种推理技术.它主要是通过语义Wb的 图1基于Wb资源领域关键词提取方法框架 分析1,得到各个网页之间的关系,从而由系统推 Fig.1 Framework of domain-specific term extraction 荐出网页. based on Web resource 3)基于内容的推荐方法.该方法2,2]是当前网 本文主要通过4步运算,可以得到最终领域关 页推荐系统最主要的方法,它首先提取网页中用户 键词的集合 的信息需求,然后通过一系列的数据挖掘方法得到 1)网页标注.网页标注主要通过归纳总结找到 推荐的对象.所提取的用户信息需求特征主要通过 某个领域的网页的规律和特点,最终总结出基 关键词来表示,关键词的质量是影响这种方法最主 于ul的网页筛选方法.通过该方法可以得到某领 要的因素,当前基于内容的关键词提取主要通过以 域相关的Wb资源.大型新闻门户网站中某领域网 下2种方法实现:①基于已有的分词程序中的词语 页的均是在某个子域名下,而某领域专业网站 集合21;②基于已有的词语词典[91.但是上述2种 下的网页一般为该领域的相关文本。 方法同样存在各自的问题,在第1种方法中,分词程 2)预处理.预处理为新词发现算法处理语料库,对 序中的词语往往很短,无法得到更能反映用户需求 原有的网络文本进行整理,如对网页正文进行抽取,以
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有