42 智能系统学报第7卷年TREC评测新增加的一项任务].它可以看作是

正在加载图片...

42 智能系统学报第7卷年TREC评测新增加的一项任务].它可以看作是中的二阶思路，不同之处在于专家换成了实体.第1 从2005一2008年的专家检索任务发展而来.与专家阶段计算查询和文档的相关度使用的是语言模型和检索相比，它具有更新更丰富的内容.许多使用搜索推理网络.第2阶段计算实体和文档的相关度也是引擎的用户本意并不是找出各种各样的文档，而是一个检索的过程，可以采用概率模型等，将实体转换想知道答案是哪些具体的实体，因此，文本搜索的核成查询后就和第1阶段相同了. 心任务是相关实体查找(related entity finding,. 实体中心模型是实体处在结构的中层，文档或 REF).REF需要解决的问题是：给出一个输人实体，文档的片断在底层支撑实体，实体与顶层的查询直连同它的名字、主页、目标实体的类型，还有描述它接相连.与文档中心模型不同，实体中心模型只需要们之间关系的文本，找出与目标类型相符的实体，这 1次检索过程，些实体能够表示前面要求的与输入实体的关系.对单纯用文档支持实体过于粗糙，参考专家经验于每个查询，要求输出实体的排序，且每个实体必须模型，取实体的上下文作为与实体相关的信息.这里有惟一的主页.笔者的工作主要关注3个方面：针对的上下文称为片断，同样也取实体前后的150个词，每个查询，找出相关的实体；依据检索模型，对实体将某个实体的各个片断汇集在一起，形成一个新的进行排序；为每个实体赋予一个主页，文档.实体与实体文档一一对应，利用查询与这些文 1.2.1实体抽取档的相关度就可以直接对实体进行排序.排序的具与专家检索首先要定位专家相似，实体检索的体算法有前面提到的语言模型、BM25等. 前提是必须找出与查询相关的实体，而且尽量提高 1.2.3确定主页查准率和查全率，这就要用到实体抽取的技术.通与专家不同，实体需要一个主页与之对应，也是常，实体抽取主要分为基于统计和基于规则2种.基在网络上的惟一标识.为实体分配主页的方法主要于统计的方法例如最大熵(maximum entropy)[8]或有3种：1)计算实体和各相关文档的相关度，取相条件随机场(conditional random field)[9]将人名、地关度最高的作为主页，这种方法依赖于文档的内容；名等命名实体标识出来.基于规则的方法例如构建 2)制定规则，将实体与文档的URL作比较，找出相命名实体词典，用词典过滤出符合要求的实体，似度最高的作为主页；3)利用已有的外部资源，如为了更准确、更全面地抽取实体，可以将几种方搜索引擎排序靠前的网页、维基百科的参考链接等，法混合使用，即规则统计-规则.首先通过观察语料实际应用中混合使用这3种方法，相互补充，达到尽集、构造查询在搜索引擎或维基百科中查找特殊网量准确分配主页的目的页，这种网页多数以表格的方式呈现，或者有其他明 1.3博客检索显的特征.然后通过适当的规则将这些可信度较高文本检索会议TREC从2006年起制定了博客的实体抽取出来.这种方法可以保证准确率，但是实检索任务(Blog track),最初只对博客的观点度及其体的数量不够.接下来使用文档检索得到相关度最与查询的相似性进行研究.博客检索从2008年起开高的前N(N=5)篇文档，使用基于统计的命名实体始关注对博客倾向性的分析，并于2009年提出博客识别工具抽取出与目标实体类型相同的实体，调整精选任务，该任务将博客的倾向性分为3类：“个人 N可以保证实体的数量，但是准确率不高，这就又要的(personal)”或“官方的(of出cial)”;“深人分析的用到基于规则的方法.利用维基百科中每个词条的 (in-depth)”或“浅层描述的(shallow)”;“表达观点语义标签建立各种实体类型的映射规则，如对于组的(opinionated)”或“描述事实的(factual)”,其目的织名(organization),以“组织”、“公司”等开头的标是在博客关于查询的相似性检索的基础上进一步对签，采集这些标签对应的实体，建立实体词典，前面博客的倾向性进行检索和排序.笔者参加了2007一用工具抽取出的“实体”再经过词典过滤，添加到实 2010年的博客检索任务，并于2009年在多项评测体列表中指标中都取得了第1名的优异成绩， 1.2.2检索模型 l.3.1博客精选(Blog distillation) 有了实体列表就可以依据检索模型对实体排序随着各大博客网站的推出和兴起，网络上涌现了.在实体检索任务中，根据查询、文档、实体三者的出海量的博客用户，这些博客内容丰富多彩，种类多关系，形象地构建了2种模型：文档中心模型和实体样，同时也充斥着各种感情色彩，可谓鱼龙混杂.在中心模型. 信息如此泛滥的情况下来判断相对比较具体的一些文档中心模型将文档d看作查询q和实体e的话题的倾向性是有困难的，因此有必要事先挑选出桥梁，查询和实体的相关度由合并q、d的相关度和一些与话题相关性大的博客，再判断其倾向性.这也 e、q的相关度得到.文档中心模型借鉴了专家检索是把话题检索作为倾向性检索基础的原因

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】智能文本搜索新技术