正在加载图片...
48 智能系统学报 第7卷 档索引技术.中文分词是命名实体识别和实体关系 前要抽取有价值的信息,过滤掉垃圾信息;抽取和过 抽取的前提和基础,C0SE中的中文分词技术综合 滤中也可以使用检索的方法进行初步处理;抽取和 应用基于字符串匹配和基于统计的中文分词技术. 过滤都有基于规则和基于统计的方法等.这些都很 命名实体识别是COSE系统的关键技术之一,采用 好地在互联网舆情、短信舆情和校园对象搜索引擎 基于统计与基于规则相结合的识别方法.实体关系 等系统中得到了体现.新的智能文本搜索技术将是 抽取是COSE系统中的另一项关键技术,鉴于正则 未来热门的研究方向,并且具有巨大的发展前景. 表达式的灵活性和强大的字符串匹配能力,COSE 系统借助成熟的Python字符处理规则,提出一种正 参考文献: 则表达式方案抽取对象属性信息.COSE中查询重 [1]郭军.Web搜索[M].北京:高等教育出版社,2009:1-3 构模块旨在解决以下2种形式的查询:1)复杂查 [2]方慧.TREC发展历程及现状分析[J].新世纪图书馆, 询:查询的不是单纯实体;2)问题式查询:比如某某 2010(1):57. 老师属于哪个学院.在用户使用COSE进行检索时, FANG Hui.On developing course and status analysis of 系统会返回2类信息:一类是与通用搜索引擎相似 TREC[J].New Century Library,2010(1):57. [3]BALOG K,SOBOROFF I,THOMAS P,et al.Overview of 的和查询相关的网页信息,另一类则是相关网页中 the TREC 2008 enterprise track[EB/OL].[2010-12-15]. 包含的命名实体及其相关属性, http://trec.nist.gov/pubs/trec17/papers/ENTERPRISE. 总结与展望 OVERVIEW.pdf. [4]RU Zhao,CHEN Yuehua,XU Weiran,et al.TREC2005 传统的文本搜索技术已经难以满足用户的需 enterprise track experiments at BUPT[EB/OL].[2010-12- 求,融合了信息检索、信息抽取和信息过滤等技术的 15].http://trec.nist.gov/pubs/trec14/papers/beijingu- 智能文本搜索新技术是当前的研究热点 of-pt.ent.pdf. 信息检索技术不再是单纯的按相关度呈现各个 [5]RU Zhao,LI Qian,XU Weiran,et al.BUPT at TREC 网页,更多的是对网页内容的深度挖掘、组织并反 2006:enterprise track[EB/OL].[2010-12-15].http:// 馈,提高检索的准确性、完备性、个性化程度.企业检 trec.nist.gov/pubs/trec15/papers/beijing-upt.ent.final pdf. 索主要研究在企业内部数据中的用户检索行为,主 [6]BAILEY P,CRASWELL N.Overview of the TREC 2007 要包含邮件检索、文档检索和专家检索任务,使用了 enterprise track EB/OL ][2010-12-15 ]http://trec. 二阶排序模型和专家经验模型.实体检索主要关注 nist.gov/pubs/trec16/papers/ENT.OVERVIEW16.pdf. 查找相关实体,除了使用文档中心模型和实体中心 [7]WANG Zhanyi,LIU Dongxin,XU Weiran,et al.BUPT at 模型外,还加入了实体抽取的关键技术和用来惟一 TREC 2009:entity track EB/OL].[2010-12-15 ]ht- 标识实体的主页.博客检索对博客中出现的观点及 tp://trec.nist.gov/pubs/trec18/papers/bupt.ENT.pdf. 其与查询的相似性进行研究,在此基础上对倾向性 [8]ZHANG Suxiang,WEN Juan,WANG Xiaojie,et al.Auto- 作分析,主要分为3类:个人与官方、表达观点与描 matic entity relation extraction based on maximum entropy 述事实、深入分析与浅层描述.相关反馈利用给定的 [C]//Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications.Ji'nan,Chi- 与查询相关或无关的标注文档,选择扩展词,对查询 na,2006:540-544. 进行重构,通过重排序改善原有检索系统的性能, [9]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Con- 信息抽取技术在文本分析会议评测中得到很好 ditional random fields:probabilistic models for segmenting 的体现.该评测分为实体关联和实体填充2个任务, and labeling sequence data[C]//Proceedings of the Intera- 深度剖析文本信息,致力于识别、分析、整合文本中 tional Conference on Machine Leaming.San Francisco, 出现的实体,信息抽取技术非常重要,为其他工作的 USA:Morgan Kaufmann Publishers Inc,2001:282-289. 顺利进行起到了基础性作用. [10]MACDONALD C,OUNIS I.Voting for candidates:adap- 信息过滤的关键技术被应用在垃圾邮件过滤评 ting data fusion techniques for an expert search task[C] 测中.该评测的目的是尽可能找到一种好的垃圾邮 Proceedings of the 15th ACM Interational Conference on 件过滤模型,保证过滤的有效性和可重复性,主要任 Information and Knowledge Management.New York, USA:ACM,2006:387-396. 务包括即时反馈、延时反馈、主动学习和部分反馈 [11]MANNING C D,RAGHAVAN P,SCHUTZE H,An intro- 等.其中加权朴素贝叶斯和分类器集成的方法表现 duction to information retrieval M].Cambridge,UK: 出了良好的效果 Cambridge University Press,2008:120-126. 信息检索、抽取和过滤三大技术是相互联系的, [12]WILSON T,WIEBE J,HOFFMANN P,Recognizing con- 经常融合在一起,发挥最大的作用.例如:在检索之 textual polarity in phrase-level sentiment analysis[C]/
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有