正在加载图片...
第7卷第1期 智能系统学报 Vol.7 No.1 2012年2月 CAAI Transactions on Intelligent Systems Feh.2012 D0I:10.3969/i.issn.16734785.201101001 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120218.1616.001.html 智能文本搜索新技术 王占一12,徐蔚然12,郭军12 (1.北京邮电大学模式识别与智能系统实验室,北京100876;2.北京邮电大学信息与通信工程学院,北京100876) 摘要:面对当今互联网上海量的信息,以及搜索信息准确、高数、个性化等需求,提出了一套包括信息检索、信息抽 取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检素新技术相关的企业检索、实体检索、博客检索、相 关反馈子任务.然后介绍了与信息抽取技术相关的实体关联和实体填充子任务,以及与信息过滤技术相关的垃圾邮 件过滤子任务.这些关键技术融合在一起,在多个著名的国际评测中得到应用,如美国主办的文本检索会议评测和 文本分析会议评测,并且在互联网舆情、短信奥情和校园网对象搜素引擎等实际系统中得到了检验. 关键词:智能文本搜索:文本检索:文本分析 中图分类号:TP393文献标识码:A文章编号:16734785(2012)010040-10 New technologies of intelligent text search WANG Zhanyi2,XU Weiran'2,GUO Jun'2 (1.Patter Recognition and Intelligent System (PRIS)Laboratory,Beijing University of Posts and Telecommunications,Beijing 100876,China;2.School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Bei- jing100876,China) Abstract:To adapt to the massive amount of information on the internet and the need for accuracy,efficiency,and individualization,a set of technologies of intelligent text search including information retrieval,extraction,and fil- tering were proposed.First,new technologies of information retrieval were illustrated including the subtasks of en- terprise retrieval,entity retrieval,blog retrieval,and relevance feedback.Second,the subtask of entity linking and slot filling related to information extraction was introduced.Finally,the subtask of spam e-mail filtering related to information filtering was described.These technologies were converged for application in many well-known interna- tional evaluations.These include the text retrieval conference (TREC)and text analysis conference (TAC)spon- sored in the USA,and these technologies of intelligent text search were proven in practical applications such as public opinions on the Internet,short message opinions,and the campus object search engine (COSE). Keywords:intelligent text search;text retrieval;text analysis 随着互联网技术的飞速发展,网络上的信息呈 传统的文本搜索基于数据库查询、关键词搜索 爆炸式增长.用户需要在这些海量信息数据中找到 等技术,有很强的局限性.而智能文本搜索解决的是 自己需要的内容,不是简单定位到某一个网站或网 数据海量、数据稀疏、大量并发请求、数据特征演进、 页,而是越精准、全面越好.同时他们希望使用尽量 主客观交叉等困难问题,从技术角度来说,智能文本 少的描述就可以找到自己感兴趣的内容,不带有任 搜索融合了信息的检索、抽取、过滤等方面.检索是 何垃圾信息.如何满足用户对这些信息的高精度、高 由用户提出查询请求,系统根据这个需求对Web信 效率、个性化、完备性等需求,是当前信息检索和数 息进行查询并给出结果,抽取是把文本里包含的信 据挖掘面临的新问题, 息进行结构化处理,变成表格一样的组织形式.过滤 是系统根据预先设定的条件,对W©b中与该条件相 收稿日期:20110102.网络出版时间:2012-02-18. 符的信息进行获取、隔离或封堵山 基金项目:国家自然科学基金资助项目(60905017);高等学校学科创 新引智计划项目(B08004). 为了探索前沿技术,解决上述问题,各国学术 通信作者:王占一.E-mail:wangzhanyi@gmail.com. 界、产业界和政府部门都给予了高度关注,一系列评
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有