正在加载图片...
42 智能系统学报 第7卷 年TREC评测新增加的一项任务].它可以看作是 中的二阶思路,不同之处在于专家换成了实体.第1 从2005一2008年的专家检索任务发展而来.与专家 阶段计算查询和文档的相关度使用的是语言模型和 检索相比,它具有更新更丰富的内容.许多使用搜索 推理网络.第2阶段计算实体和文档的相关度也是 引擎的用户本意并不是找出各种各样的文档,而是 一个检索的过程,可以采用概率模型等,将实体转换 想知道答案是哪些具体的实体,因此,文本搜索的核 成查询后就和第1阶段相同了. 心任务是相关实体查找(related entity finding,. 实体中心模型是实体处在结构的中层,文档或 REF).REF需要解决的问题是:给出一个输人实体, 文档的片断在底层支撑实体,实体与顶层的查询直 连同它的名字、主页、目标实体的类型,还有描述它 接相连.与文档中心模型不同,实体中心模型只需要 们之间关系的文本,找出与目标类型相符的实体,这 1次检索过程, 些实体能够表示前面要求的与输入实体的关系.对 单纯用文档支持实体过于粗糙,参考专家经验 于每个查询,要求输出实体的排序,且每个实体必须 模型,取实体的上下文作为与实体相关的信息.这里 有惟一的主页.笔者的工作主要关注3个方面:针对 的上下文称为片断,同样也取实体前后的150个词, 每个查询,找出相关的实体;依据检索模型,对实体 将某个实体的各个片断汇集在一起,形成一个新的 进行排序;为每个实体赋予一个主页, 文档.实体与实体文档一一对应,利用查询与这些文 1.2.1实体抽取 档的相关度就可以直接对实体进行排序.排序的具 与专家检索首先要定位专家相似,实体检索的 体算法有前面提到的语言模型、BM25等. 前提是必须找出与查询相关的实体,而且尽量提高 1.2.3确定主页 查准率和查全率,这就要用到实体抽取的技术.通 与专家不同,实体需要一个主页与之对应,也是 常,实体抽取主要分为基于统计和基于规则2种.基 在网络上的惟一标识.为实体分配主页的方法主要 于统计的方法例如最大熵(maximum entropy)[8]或 有3种:1)计算实体和各相关文档的相关度,取相 条件随机场(conditional random field)[9]将人名、地 关度最高的作为主页,这种方法依赖于文档的内容; 名等命名实体标识出来.基于规则的方法例如构建 2)制定规则,将实体与文档的URL作比较,找出相 命名实体词典,用词典过滤出符合要求的实体, 似度最高的作为主页;3)利用已有的外部资源,如 为了更准确、更全面地抽取实体,可以将几种方 搜索引擎排序靠前的网页、维基百科的参考链接等, 法混合使用,即规则统计-规则.首先通过观察语料 实际应用中混合使用这3种方法,相互补充,达到尽 集、构造查询在搜索引擎或维基百科中查找特殊网 量准确分配主页的目的 页,这种网页多数以表格的方式呈现,或者有其他明 1.3博客检索 显的特征.然后通过适当的规则将这些可信度较高 文本检索会议TREC从2006年起制定了博客 的实体抽取出来.这种方法可以保证准确率,但是实 检索任务(Blog track),最初只对博客的观点度及其 体的数量不够.接下来使用文档检索得到相关度最 与查询的相似性进行研究.博客检索从2008年起开 高的前N(N=5)篇文档,使用基于统计的命名实体 始关注对博客倾向性的分析,并于2009年提出博客 识别工具抽取出与目标实体类型相同的实体,调整 精选任务,该任务将博客的倾向性分为3类:“个人 N可以保证实体的数量,但是准确率不高,这就又要 的(personal)”或“官方的(of出cial)”;“深人分析的 用到基于规则的方法.利用维基百科中每个词条的 (in-depth)”或“浅层描述的(shallow)”;“表达观点 语义标签建立各种实体类型的映射规则,如对于组 的(opinionated)”或“描述事实的(factual)”,其目的 织名(organization),以“组织”、“公司”等开头的标 是在博客关于查询的相似性检索的基础上进一步对 签,采集这些标签对应的实体,建立实体词典,前面 博客的倾向性进行检索和排序.笔者参加了2007一 用工具抽取出的“实体”再经过词典过滤,添加到实 2010年的博客检索任务,并于2009年在多项评测 体列表中 指标中都取得了第1名的优异成绩, 1.2.2检索模型 l.3.1博客精选(Blog distillation) 有了实体列表就可以依据检索模型对实体排序 随着各大博客网站的推出和兴起,网络上涌现 了.在实体检索任务中,根据查询、文档、实体三者的 出海量的博客用户,这些博客内容丰富多彩,种类多 关系,形象地构建了2种模型:文档中心模型和实体 样,同时也充斥着各种感情色彩,可谓鱼龙混杂.在 中心模型. 信息如此泛滥的情况下来判断相对比较具体的一些 文档中心模型将文档d看作查询q和实体e的 话题的倾向性是有困难的,因此有必要事先挑选出 桥梁,查询和实体的相关度由合并q、d的相关度和 一些与话题相关性大的博客,再判断其倾向性.这也 e、q的相关度得到.文档中心模型借鉴了专家检索 是把话题检索作为倾向性检索基础的原因
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有