正在加载图片...
D0I:10.13374/i.issn1001-053x.2001.06.028 第23卷第6期 北京科技大学学报 Vol.23 No.6 2001年12月 Journal of University of Science and Technology Beijing Dec.2001 基于概念语义空间的联想检索 李源”何清”史忠植) 1)中国科技大学研究生院计算机学部,北京1000392)中科院十算技术研究所智能信息处理开放实验室,北京100080 摘要为了快速准确地满足用户提出的检索需要,在大量的文本文件中检索出用户真正所 需的信息,首先在文本的概念空间上建立了概念语义空间并以此为基础建立.了一个具有联想 功能的索引系统,其次运用大型语义词典为用户提供了一个智能型检索接口.该接口能主动分 析使用者输人的关键问,并确定使用者的实际检索需求,这种检索系统能够大大提高用户的检 素效率和准确度, 关铺闻概念空间:Hopfield神经网络:知树:语义空间中图 分类号TP391.3 目前信息检索方法主要是基于关键词来检 结构,可用树型结构表示.其叶子节点是一篇篇 索信息,此方法有2个缺陷:一是检索结果只是 文档,各层的根节点是一个个从文档中提取出 在字面上符合用户的要求,实际内容往往偏离 的概念,用一个概括其子节点共同特征的关键 用户的实际需要:二是用户输入的在询词稍有 词表示.这种概念空间与月录的性质有些相同, 偏差,检索系统就无法确定用户的真需要,因 但它是机器通过学习,由下而上自动生成,而不 而无法提交正确的结果 是由人逐层分类、自上而下构成的.生成概念 本文研究的主要内容是:建立文本的概念 空间的具体过程如下, 空间和概念语义空间,生成具有联想检索功能 ()首先对文本进行编码预处理,以实现数 的语义索引:建立智能型的检索接口,实现文本 学抽象.本文从FM365网站上选取了1100篇 语义检索系统.该语义检索系统将大型语义词 足球类文档,采用传统的向量空间的模型对文 典一知网应用在用户检索接口上,为系统建 章进行编码.由于向量的维数是由所有文本生 立了智能型检索接口.接口可对用户输入的查 成的使用词集的个数来决定,因此首先要确定 询关键词进行自动判断,利用缩写展开,赘字消 ·个使用词集.在对文本经过切词、分词、滤去 除方法,自动转换成适合查询的字符串,并可将 停用词后,采用IDF(Inverse Document Fre- 关键词分解到义原的层次,实现关键词的同义 quency)算法对词集进行优化,得到最终的使用 原联想功能.语义检索系统对用户提出检索需 词集(本次试验得到876个词). 求,通过基于大型语义词典(知网)的检索接口 (2)通过自组织特征映射SOM算法进行文 进行规范化,形成概念语义空间可接受的查询 本聚类,并完成类别的标示及概念的自动生成. 式,提交给语义索引部分,检索出相关的文本作 SOM是一种无监督的自学y过程,它把n维输 为检索结果提交给用户.此检索系统有效地解 人空间映射成(输出层神经元的)一维或二维阵 决了基于关键词的文本检索系统的2个弊病, 列.对应到文本聚类的过程中,每个输人向量就 并具有查准率高、符合检索习惯等许多优势. 是编码后的文本,而向量的每维都代表一个关 1从文本中提取概念 键词,其具体的数值是归一化后的词频数.在进 行SOM计算后,就生成I个二维的映射图,其 SOM算法对文本进行聚类,并提取出概念, 中每1点对应1个类别. 概念归并后形成文档的概念空间概念空间 为了获得自然语言的类别标识,采用以下 是指对文档自然聚类后所得的一种概念的层次 策略:从每个神经元节点的向量中取向量维的 最大值对应的关键词作为此类的标注,也就是 收稿日期20010804李源明,28岁,研究牛 *国家自然科学基金资助课题(No.60073019:69803010) 生成了这个类别的概念.这是由于每个点又是第 卷 第 ‘ 期 年 月 北 京 科 技 大 学 学 报 毛沈 盯 匕 基于概念语义 空间的联想检索 李 源 ” 何 清 , 史忠植 ” 中国科技大学研究生院计算机学部 , 北京 中科院计算技术研究所智能信息处理开放实验室 , 北京 摘 要 为了快速 准确地 满足 用 户 提 出的检索需 要 , 在 大 量 的 文本 文 件 中检索 出用 户 真正 所 需 的信 息 , 首先 在文本 的概念空 间 建 立 了概念语 义 空 间 并以 此为基础 建 ’ 一个 具有联想 功能的索引系统 , 其次运 用 大 型语义 词 典为用 户提供 一 个智能型 检索接 口 该接 口 能 主动分 析使用 者输入 的关键 同 , 并确 定 使 用 者的实 际检索需 求 这 种 检索 系统能够大 大提 高用 户 的检 索效率和 准确度 关甘词 概念 空 间 叩 神经 网络 知 网 语 义空 间 中图 分类号 目前信息检索方法 主要 是基 于关键词来检 索信息 , 此 方法有 个缺 陷 一 是检 索结果 只是 在 字 面 上 符合用 户 的 要求 , 实 际 内容往 往 偏 离 用 户 的实际需 要 二 是用 户 输人 的 查 询词 稍有 偏 差 , 检索系统就 无法确定 用 户 的 真 正需要 , 因 而 无 法 提 交 正确 的结 果 本 文研 究 的 主要 内容是 建立 文 本 的概念 空 间 和 概 念 语 义 空 间 , 生 成具有 联 想 检索功 能 的语义 索引 建立智能型 的检索接 口 , 实现 文本 语 义 检索 系统 该语 义检索 系统将 大 刑 语 义词 典— 知网应用 在用 户 检索接 口 几 , 为系统建 立 了智能型 检索接 口 接 口 可 对 川 户输 人 的查 询关键词进 行 自动判断 , 利用缩 写 展 「 、 赘字 消 除 方法 , 自动转换 成适合查 询的字 符串 , 并 叮将 关键 词 分解 到 义 原 的 层 次 , 实 现 关键 词 的 同 义 原联 想 功 能 语 义检索 系统对 用 户 提 出检索需 求 , 通 过 基 于 大 型 语 义 词 典 知 网 的检 索 接 口 进 行规 范化 , 形 成概 念语 义 空 间 可接 受 的查 询 式 , 提交给语 义索引部分 , 检索 出相关 的 文 本作 为检索结 果提交 给用 户 此 检索 系统 有 效地 解 决 了 基 于 关键词 的 文本检索系统 的 个弊病 , 并具有查 准率高 、 符合检索 习惯 等许 多优 势 从文本中提取概念 算法对文本进 行 聚 类 , 并提 取 出概 念 , 概念 归并后形 成文档的概念 空 间 ’ 一 ,’ 概 念空 间 是指 对 文档 自然 聚类后 所 得 的一 种 概 念 的层 次 收稿 日期 刁 刁 李 源 男 , 岁 研究 牛 国家 自然 科学 基金 资助课题 石 结构 , 可 用树型结构表示 其叶子节点是一 篇篇 文档 , 各层 的根 节 点是 一 个个从文 档 中提取 出 的概 念 , 用 一 个 概括 其子 节 点共 同特 征 的关键 词表示 这 种概念空 间与 目录的性质有些相 同 , 但它是机器通 过学 习 , 由下而 上 自动生 成 , 而 不 是 由人 逐层 分类 、 自 卜而下 构成的 生 成概念 空 间 的具体过 程 如 下 首先对 文本进行 编码 预 处 理 , 以 实现 数 学抽 象 本文 从 网站 上选 取 了 篇 足球 类 文 档 , 采 用 传统 的 向量 空 间 的模 型 对 文 章进行编码 由于 向量 的维数是 由所有文本生 成 的使用 词 集 的个数来决定 , 因此 首先 要 确定 ‘ 个使用 词集 在 对 文 本经 过切 词 、 分词 、 滤 去 停 用 词 后 , 采 用 算法 对 词 集进 行 优化 , 得 到最终 的使用 同集 本次 试 验 得 到 个词 通 过 自组织 特征 映 射 算法 ‘” 进行 文 本聚类 , 并完成类 别的标示 及概念的 自动生 成 是 一 种 无 监 督 的 自学 刁 过 程 , 它 把 维 输 人空 间映射成 输 出层 神经元 的 一 维 或 二维 阵 列 对应到 文本 聚类的过 程 中 , 每个输人 向量就 是 编 码后 的 文 本 , 而 向量 的每维都代表一 个关 键词 , 其具体的数值是 归一 化后 的词频数 在进 行 计算 后 , 就 生 成 个二维 的 映 射 图 , 其 中每 点 对 应 个类 别 为 了获得 自然语 言的类别标识 , 采用 以 下 策略 从每个神经元 节 点 的 向量 中取 向量 维 的 最大值对 应 的 关键词作为此类 的标 注 , 也 就 是 生 成 了这 个 类 别的概 念 这 是 由于 每个 点又 是 DOI :10.13374/j .issn1001—53x.2001.06.028
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有