正在加载图片...
·580· 北京科技大学学报 2001年第6期 想功能,在概念语义空间上选取足球总类,对其 入单词“奥林匹”后,系统首先经缩写展开将输 包含的876个概念词依次作了联想,联想的结果 人定义为“奥林匹克”,并找到其同义词“奥运” 如下:输人一大连实德,可联想到北京国安、 “奥运会” 海牛、山东鲁能、四川全兴;输人一罗马,可联 想到国际米兰、拉齐奥、意大利、佛罗伦萨、尤文 5 结束语 图斯、意甲、中田英寿,等等 试验证明基于概念空间和概念语义空间、 绝大部分概念词与联想出的概念词语义相 并具有智能检索接口的文本语义检索系统有传 关度非常高,符合实际情况,并对原文档进行了 对照后发现,在文档中这些词的共现率确实很 统检索系统所不具有的优势,可以大大提高了 用户的检索效率和准确度.该联想检索的准确 高,联想检索功能的准确性得到了验证 性可以得到保证,检索的查全率、查准率都很理 在对58个无法联想的概念词进行研究后, 想.其智能型检索接口在用户输入关键词后,可 发现绝大多数该类词仅在几篇文档中出现过很 少的几次,因此未能与其他概念词构成联想.由 以迅速做出反应,向用户提出正确的、具有建设 性的建议,具有一定的智能和互动功能. 于这些词都不是检索时的常用关键词,因此不 影响索引的查全率.再对足球总类下的子类甲 参考文献 A类进行了同样的试验,其结果与上述结果比 I Juha Vesanto,Esa Alhoniemi.Clustering of the Self-Or- 较,一些与甲A关联不大的词联想出的概念词 ganizing Map;IEEE Transactions on Neural Networks, 大量减少,而能联想出的结果大多与该子类(甲 May,2000,11(3): A类)的内容有关,其准确性有所提高.即检索 2罗承忠模糊集引论(上册),北京:北京师范大学出版 杜,1989 的查全率有所下降,但查准率有所上升 3 Salton G.Automatic Text Processing,Reading.MA:Addi- 对智能检索接口进行了测试,查找出的同 son-Wesley Publishing Company,Inc,1989 义词或同义原词间的语义十分接近,如“奥运 4 Gerard Salton,James Allan,Chris Buckley.Automatic 会”和“奥林匹克”,“奥林匹亚”、“奥运”为同义 Structuring and Retreval of Large Text Files.CACM, 1994.37(2:97 词,扩大同义的范围,查找出的同义原词还有 5 Chen H,Hsu P,Orwig L,et al.Automatic Concept Classi- “冬运会”“亚运会”“冬奥会”等.我们对876个 fication of Text from Electronic Meetings.Communic At- 概念词依次查找其同义词及同义原词,共找到 ions of the ACM,1994,37(10):56 不交叉的7626个词.如果考虑到使用缩写展开、 6 Chen H.Concept Space Approach to Addressing the Vo- 赘字消除的方法,该系统可以对上万个用户提 cabulary Problem in Scientific Information Retrieval:An 出的检索关键词做出响应,并在索引系统中的 Experiment on the Worm Community System.J American 876概念词中找到语义最接近的概念词.如输 Soc Information Science,1997,48(6):17 Association Retrieve Based On Concept Semantic Space LI Yuan",HE Qing".SHI Zhongzhi 1)Graduate School,Chinese University of Science and Technology.Beijing 100039,China 2)The Laboratory of Intelligent Information Processing,Institute of Computing Technology.Chinese Academy of Sciences,Beijing.100080,China ABSTRACT In order to satisfy the user's retrieve need promptly and accurately,and retrieve the informa- tion which the user need from a lot of text files,firstly a concept semantic space based on concept space of documents is established,then based on it establish an index system with the association function;secondly a retrieve interface with intelligent function based on large semantic dictionary was made for the system.The re- trieve interface can analysis the keyword that user input,and make sure user's really retrieve needing.Accord- ing to the results of experimentation,it is clear that the retrieve efficiency and accuracy has been improved using this method. KEY WORDS concept space;hopfield neural net;hownet;semantic space北 京 科 技 想功能 , 在概念语义 空 间 卜选取足球总类 , 对其 包含的 个概念词依次作 了联想 ,联想 的结果 如下 输人— 大连 实德 , 可 联想 到北 京 国安 、 海牛 、 山东鲁能 、 四川全兴 输人— 罗 马 , 可联 想 到国际米兰 、 拉齐奥 、 意大利 、 佛罗 伦萨 、 尤 文 图斯 、 意 甲 、 中 田英 寿 , 等等 绝 大部 分概念词 与联想 出 的概念词语义 相 关度 非 常高 , 符合实 际情况 , 并对原 文档进行 了 对照后 发现 , 在文 档 中这些 词 的 共 现 率确 实很 高 , 联想 检索功 能的 准确性得到 了验证 在 对 个 无 法联 想 的概念词 进行研究后 , 发现绝大多数该类词仅在几篇文档 中出现过很 少的几 次 , 因此未 能 与其他概念词构成联想 由 于 这些 词都不 是检索时 的常用 关键词 , 因此不 影 响索引的查 全率 再对足球总类 下 的子类 甲 类进 行 了 同样 的试验 , 其结果 与 述结果 比 较 , 一 些 与 甲 关联 不 大 的词 联 想 出 的概念词 大量减 少 , 而 能联想 出的结 果大 多与该子类 甲 类 的 内容有关 , 其准确性 有所提高 即检索 的查 全率有所 下 降 , 但查 准率有所上 升 对智能检索接 口 进行 了测试 , 查 找出的 同 义 词 或 同义原 词 间的语 义 十分接近 , 如 “ 奥运 会 ” 和 “ 奥林 匹 克 ” 、 “ 奥林 匹 亚 ” 、 “ 奥运 ” 为 同义 词 , 扩 大 同义 的范围 , 查找 出 的同义 原词 还 有 “ 冬运 会 ” “ 亚 运 会 ” “ 冬 奥会 ” 等 我 们对 个 概念词 依次查 找其 同义 词 及 同义 原 词 , 共找到 不交叉 的 个词 如 果考虑 到使用 缩写展 开 、 赘字 消除的 方法 , 该 系统可 以 对 上 万 个用 户 提 出 的检索关键词 做 出响 应 , 并在索引 系统 中的 概 念词 中找 到 语 义 最 接近 的概 念 词 如 输 大 学 学 报 年 第 期 人 单词 “ 奥林匹 ” 后 , 系统 首先经缩写 展 开将输 入定 义 为 “ 奥林匹 克 ” , 并找到其 同义 词 “ 奥运 ” “ 奥运会 ” 结束语 试验证 明基 于 概 念 空 间 和 概 念语 义 空 间 、 并具有智能检索接 口 的文 本语义检索系统有传 统检索系统所不 具有 的优势 , 可 以 大大提 高 了 用 户 的检索效率和 准确 度 该联想 检索 的准确 性 可以得 到保证 , 检索的查全率 、 查 准率都很理 想 其智能型检索接 口 在用户输人关键词后 , 可 以迅 速做出反应 , 向用户提出正 确的 、 具有建设 性 的建议 , 具有一 定的智 能和 互 动 功能 参 考 文 献 , · , , 罗 承忠 模糊集引论 上 册 , 北 京 北 京师范大学出版 社 , , 助 · 一 七 ‘ , 甘 , , 叱 · 、 , , , , 抽 , , 垃 即 , , 伙 刀石 心气 及汀 岁 尹 比 , , , , 吨 介 , 嗦 即 , , 以洲 , , , ” , , , , , 面
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有