44 智能系统学报第7卷后45%判定为浅度表述的博文.计算每一个博客下

正在加载图片...

44 智能系统学报第7卷后45%判定为浅度表述的博文.计算每一个博客下 1.4.2扩展词抽取深度表述博文与浅度表述博文数量的差值，并对该扩展词主要有2种：通过语言模型计算的权重博客下博文的数量进行归一化，得到该博客的深浅排序得到的词]和通过相似性KL距离计算得到度分析结果S: 的命名实体扩展词的来源是初始查询结果通过标 Si=Some (b0) 记文本分类得到的相关文档类. 月ma.0)-85a.0) 语言模型进行扩展词抽取主要思想是将相关文档类看作一个模型1]，通过估计模型生成词的概率 n 来对词进行排序.词在相关文档类模型中的概率分式中：S(b.,Q)为深浅度分析结果，为了区分下面布如式(5)：的合并方法，用S表示. P(tI Ma)= 3)与博客的相关性结果合并得到最终排序.一个博客深浅度分析的最终结果不能仅依赖于深浅度 ,Pn(t,d)1-》×Pe(t),f(t,d)>0; 分析，还要考虑该博客对于查询词的相关性，所以提 ,f,d)≤0，出了以下的合并模型： S;= (5) 「Se(b.,Q)×Smm(B,Q),Scre(b.,Q)≥0；式中：Pm(t,d)是词t在文档d中的归一化频率， 1-S(b,Q)x Som(B,Q),Scoe (b.,Q)<0. Pm(t)是词t的平均词频，R(t,d)是一个风险函数fa 式中：Sm（B,Q)为每个博客的相关性，是t在文档类中的总词频，c,是相关文档集长度. 1.4相关反馈一些查询往往与特定的领域或主题相关，这些相关反馈是TREC在2008年发布的一项新任领域内部的人物、机构、地点等通常能有助于区分相务，基本的任务是：对于一个给定的查询，对文档集关文档和不相关文档91.因此，可以将这些命名实索引中抽取相关文档，得到初始查询结果；然后再给体（包括人名、地名、组织机构）作为扩展查询的一定一些标注过的与查询相关或无关的文档，通过标部分.抽取的主要方法步骤是：1)对相关文档集进记文档选择扩展词，对查询进行重构；最后重新查询行命名实体标注，标注出人、组织和地名3类命名实得到反馈结果.2008年采用了传统的Rocchio算法，体；2)基于命名实体的词频对实体进行排序，得到即正负反馈的方法.2009年相关反馈主要采用了文词频较高的前20个命名实体；3)去掉这20个命名本分类、语言模型提取扩展词的方法【6，其效果较实体中的噪声实体，噪声实体是指在相关文档集和好.2010年的相关反馈在2009年方法的基础之上不相关文档集中都经常出现的实体；4)计算去噪后加入了实体扩展、扩展词分类两部分每个实体和相关文档的KL距离[0]，找到与相关文 1.4.1结构流程档距离最近的5个实体加入到扩展词集合中， 2010年相关反馈方法的流程如图1所示. 1.4.3扩展词分类通过语言模型提取出的扩展词，并不是都能改输入标注的善原始查询的结果；因此采用对扩展词进行分类的相关文档方法，选择对原始查询改善效果比较好的扩展词，使得查询能够得到更好的优化.在扩展词分类实验中，查询初始结果初始结果分类器采用LIBSVM,特征选取方面，主要考虑的是 KNN分类扩展词的分布特点、扩展词与查询词之间的共现频度和距离等特征，训练样本来源于2009年TERC相扩展词抽取关反馈评测的数据。根据扩展词对原始查询的不同影响，将扩展词分为好扩展和坏扩展2种，并进行扩展词标注.好扩扩展词分类展是指当在扩展查询中该扩展词的权重为心时，返回的结果比原始查询好，即正反馈；当权重为-0 查询扩展反馈结果时，返回结果比原始查询差，即负反馈.坏扩展与之相反.实验中取0=0.01. 图1相关反馈的流程使用LIBSVM2进行SVM的训练和预测.按照 Fig.1 The flow chart of relevance feedback 前面提到的标注方法，对2009年相关反馈提取的扩

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】智能文本搜索新技术