正在加载图片...
第1期 王占一,等:智能文本搜索新技术 45 展词进行了标注,为避免正负样本比例不协调的问 评测中,选用ndi作为建立索引的工具 题而影响分类效果,最后选定191个样本作为训练 样本,其中131个负样本,60个正样本.在训练过程 查询 中,采取了交叉验证的方法,将数据平均分成5组, ndri 并保证每一组数据有12个正样本,最后达到的平均 准确率为69.26834%. 测 相关 初 1.4.4查询扩展 文档集 根据给定的原始查询和从相关文档集合中抽取 试 识 的扩展词进行查询扩展.扩展过程中查询的格式如 集 测试集 相关文档 库 下22 摘罗 共指 集摘要 消解 combine query).title)#weight 1.0 #combine 实体类型 实体类型 (query)1.0#uw(query)0.2tems0.2#combine (named entity)). 命 其中:“query”为原始查询,“tems”为语言模型抽 实体 识 取、SVM分类过的扩展词,“named entity”为通过KL 距离抽取的命名实体.原始查询的权重设为1.0,扩 展词权重设为0.2. 图2实体关联的流程 Fig.2 The flow chart of entity linking 2信息抽取 3)命名实体识别.TAC评测中的query都是一 一般情况下,被用户认为有用的信息隐藏在大量 个实体,并且该实体可能是以下3种类别之一:人 文字中,或散乱分布在各种各样的网页中.如何将这 名、地名、组织机构名.首先需要判断该quey是哪 些符合特定需求的信息抽取出来,是当前文本搜索领 一种类别的实体,从而方便后续的处理,在TAC评 域的热点问题.著名的文本分析会议(text analysis 测中,使用了斯坦福大学提供的命名实体识别开源 conference,TAC)就将焦点放在信息的抽取和关联分 工具包 析上.TAC是由IAD(information access division)组织 4)判定方法.在评测中,需要对1个query和1 的一个评测,该评测自2008年举办以来,已经进行了 个文档进行相似度的计算,采用了以下2种方法: 3届,最初是从TREC评测的Question Answering a)基于VSM模型的相似度判断: Iack发展起来的a].笔者自2009年已经连续2年 参加了该评测的实体关联和实体填充12项任务, V(S)V(S2) 并在评测中取得了较为优异的成绩, S(SS:)=v(S v(S)T= 2.1实体关联任务及关键技术 01yX02: 实体关联(entity linking)的任务是根据每一个 b)基于KL距离的相似度判断: query的标题和支持文档找到KB中的惟一节点和 它对应,或者返回空(表示该节点不和任何KB中的 Da(P1Q)=∑(P0-0e6 节点对应).其中:KB(knowledge base)这个数据集 5)实体关联的改进.在2010年的TAC评测中, 中存放所有的KB节点;query是评测开始时官方提 笔者加人了许多规则,这些规则的引人主要来自于 供的数据,一个query包含1个tile(标题)和1篇支 对原始数据的观察,通过加入相关的这些规则,效果 持文档. 有了提高. 1)系统总体框架.系统主要包括以下几个模 2.2实体填充任务及关键技术 块:实体检索、命名实体识别、相似性判断、自动摘 实体填充(slot filling)任务即在测试集中寻找 要,如图2.基本思想是,首先对每一个实体quey进 与目标实体(查询)相关的信息,填充目标实体预先 行实体检索,得到一批实体候选列表,然后针对每一 规定的一系列属性值.目标实体分为2类:人名和组 个候选实体进行排序和相似度的打分,从而得到最 织机构,人名共有26种属性需要填充,组织机构共 终的结果。 有l6种属性需要填充.属性有single和ist的不同, 2)实体检索.在评测中,往往面对的是海量文本, 其中single为只能有一个答案的属性,如人的生日; 如果对于每一个查询都去遍历KB,那么其响应速度是 lst为可以有多个答案的属性,如人的子女. 不能接受的;因此,通常需要对KB建立索引,在TAC 1)系统总体框架.实体填充系统的总体框架由
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有