第1期王占一，等：智能文本搜索新技术 45 展词进行了标注，为避免正负样

正在加载图片...

第1期王占一，等：智能文本搜索新技术 45 展词进行了标注，为避免正负样本比例不协调的问评测中，选用ndi作为建立索引的工具题而影响分类效果，最后选定191个样本作为训练样本，其中131个负样本，60个正样本.在训练过程查询中，采取了交叉验证的方法，将数据平均分成5组， ndri 并保证每一组数据有12个正样本，最后达到的平均准确率为69.26834%. 测相关初 1.4.4查询扩展文档集根据给定的原始查询和从相关文档集合中抽取试识的扩展词进行查询扩展.扩展过程中查询的格式如集测试集相关文档库下22 摘罗共指集摘要消解 combine query).title)#weight 1.0 #combine 实体类型实体类型 (query）1.0#uw(query）0.2tems0.2#combine (named entity））. 命其中：“query”为原始查询，“tems”为语言模型抽实体识取、SVM分类过的扩展词，“named entity”为通过KL 距离抽取的命名实体.原始查询的权重设为1.0，扩展词权重设为0.2. 图2实体关联的流程 Fig.2 The flow chart of entity linking 2信息抽取 3)命名实体识别.TAC评测中的query都是一一般情况下，被用户认为有用的信息隐藏在大量个实体，并且该实体可能是以下3种类别之一：人文字中，或散乱分布在各种各样的网页中.如何将这名、地名、组织机构名.首先需要判断该quey是哪些符合特定需求的信息抽取出来，是当前文本搜索领一种类别的实体，从而方便后续的处理，在TAC评域的热点问题.著名的文本分析会议(text analysis 测中，使用了斯坦福大学提供的命名实体识别开源 conference,TAC)就将焦点放在信息的抽取和关联分工具包析上.TAC是由IAD(information access division)组织 4)判定方法.在评测中，需要对1个query和1 的一个评测，该评测自2008年举办以来，已经进行了个文档进行相似度的计算，采用了以下2种方法： 3届，最初是从TREC评测的Question Answering a)基于VSM模型的相似度判断： Iack发展起来的a].笔者自2009年已经连续2年参加了该评测的实体关联和实体填充12项任务， V(S)V(S2) 并在评测中取得了较为优异的成绩， S(SS:)=v(S v(S)T= 2.1实体关联任务及关键技术 01yX02: 实体关联(entity linking)的任务是根据每一个 b)基于KL距离的相似度判断： query的标题和支持文档找到KB中的惟一节点和它对应，或者返回空（表示该节点不和任何KB中的 Da(P1Q)=∑(P0-0e6 节点对应).其中：KB(knowledge base)这个数据集 5)实体关联的改进.在2010年的TAC评测中，中存放所有的KB节点；query是评测开始时官方提笔者加人了许多规则，这些规则的引人主要来自于供的数据，一个query包含1个tile(标题)和1篇支对原始数据的观察，通过加入相关的这些规则，效果持文档. 有了提高. 1)系统总体框架.系统主要包括以下几个模 2.2实体填充任务及关键技术块：实体检索、命名实体识别、相似性判断、自动摘实体填充(slot filling)任务即在测试集中寻找要，如图2.基本思想是，首先对每一个实体quey进与目标实体（查询）相关的信息，填充目标实体预先行实体检索，得到一批实体候选列表，然后针对每一规定的一系列属性值.目标实体分为2类：人名和组个候选实体进行排序和相似度的打分，从而得到最织机构，人名共有26种属性需要填充，组织机构共终的结果。有l6种属性需要填充.属性有single和ist的不同， 2)实体检索.在评测中，往往面对的是海量文本，其中single为只能有一个答案的属性，如人的生日；如果对于每一个查询都去遍历KB,那么其响应速度是 lst为可以有多个答案的属性，如人的子女. 不能接受的；因此，通常需要对KB建立索引，在TAC 1)系统总体框架.实体填充系统的总体框架由

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】智能文本搜索新技术