正在加载图片...
44 智能系统学报 第7卷 后45%判定为浅度表述的博文.计算每一个博客下 1.4.2扩展词抽取 深度表述博文与浅度表述博文数量的差值,并对该 扩展词主要有2种:通过语言模型计算的权重 博客下博文的数量进行归一化,得到该博客的深浅 排序得到的词]和通过相似性KL距离计算得到 度分析结果S: 的命名实体扩展词的来源是初始查询结果通过标 Si=Some (b0) 记文本分类得到的相关文档类. 月ma.0)-85a.0) 语言模型进行扩展词抽取主要思想是将相关文 档类看作一个模型1],通过估计模型生成词的概率 n 来对词进行排序.词在相关文档类模型中的概率分 式中:S(b.,Q)为深浅度分析结果,为了区分下面 布如式(5): 的合并方法,用S表示. P(tI Ma)= 3)与博客的相关性结果合并得到最终排序.一 个博客深浅度分析的最终结果不能仅依赖于深浅度 ,Pn(t,d)1-》×Pe(t),f(t,d)>0; 分析,还要考虑该博客对于查询词的相关性,所以提 ,f,d)≤0, 出了以下的合并模型: S;= (5) 「Se(b.,Q)×Smm(B,Q),Scre(b.,Q)≥0; 式中:Pm(t,d)是词t在文档d中的归一化频率, 1-S(b,Q)x Som(B,Q),Scoe (b.,Q)<0. Pm(t)是词t的平均词频,R(t,d)是一个风险函数fa 式中:Sm(B,Q)为每个博客的相关性, 是t在文档类中的总词频,c,是相关文档集长度. 1.4相关反馈 一些查询往往与特定的领域或主题相关,这些 相关反馈是TREC在2008年发布的一项新任 领域内部的人物、机构、地点等通常能有助于区分相 务,基本的任务是:对于一个给定的查询,对文档集 关文档和不相关文档91.因此,可以将这些命名实 索引中抽取相关文档,得到初始查询结果;然后再给 体(包括人名、地名、组织机构)作为扩展查询的一 定一些标注过的与查询相关或无关的文档,通过标 部分.抽取的主要方法步骤是:1)对相关文档集进 记文档选择扩展词,对查询进行重构;最后重新查询 行命名实体标注,标注出人、组织和地名3类命名实 得到反馈结果.2008年采用了传统的Rocchio算法, 体;2)基于命名实体的词频对实体进行排序,得到 即正负反馈的方法.2009年相关反馈主要采用了文 词频较高的前20个命名实体;3)去掉这20个命名 本分类、语言模型提取扩展词的方法【6,其效果较 实体中的噪声实体,噪声实体是指在相关文档集和 好.2010年的相关反馈在2009年方法的基础之上 不相关文档集中都经常出现的实体;4)计算去噪后 加入了实体扩展、扩展词分类两部分 每个实体和相关文档的KL距离[0],找到与相关文 1.4.1结构流程 档距离最近的5个实体加入到扩展词集合中, 2010年相关反馈方法的流程如图1所示. 1.4.3扩展词分类 通过语言模型提取出的扩展词,并不是都能改 输入标注的 善原始查询的结果;因此采用对扩展词进行分类的 相关文档 方法,选择对原始查询改善效果比较好的扩展词,使 得查询能够得到更好的优化.在扩展词分类实验中, 查询初始结果 初始结果 分类器采用LIBSVM,特征选取方面,主要考虑的是 KNN分类 扩展词的分布特点、扩展词与查询词之间的共现频 度和距离等特征,训练样本来源于2009年TERC相 扩展词抽取 关反馈评测的数据。 根据扩展词对原始查询的不同影响,将扩展词 分为好扩展和坏扩展2种,并进行扩展词标注.好扩 扩展词分类 展是指当在扩展查询中该扩展词的权重为心时,返 回的结果比原始查询好,即正反馈;当权重为-0 查询扩展 反馈结果 时,返回结果比原始查询差,即负反馈.坏扩展与之 相反.实验中取0=0.01. 图1相关反馈的流程 使用LIBSVM2进行SVM的训练和预测.按照 Fig.1 The flow chart of relevance feedback 前面提到的标注方法,对2009年相关反馈提取的扩
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有