D0I:10.13374/i.issn1001-053x.2001.06.028 第23卷第6期 北京科技大学学报 Vol.23 No.6 2001年12月 Journal of University of Science and Technology Beijing Dec.2001 基于概念语义空间的联想检索 李源”何清”史忠植) 1)中国科技大学研究生院计算机学部,北京1000392)中科院十算技术研究所智能信息处理开放实验室,北京100080 摘要为了快速准确地满足用户提出的检索需要,在大量的文本文件中检索出用户真正所 需的信息,首先在文本的概念空间上建立了概念语义空间并以此为基础建立.了一个具有联想 功能的索引系统,其次运用大型语义词典为用户提供了一个智能型检索接口.该接口能主动分 析使用者输人的关键问,并确定使用者的实际检索需求,这种检索系统能够大大提高用户的检 素效率和准确度, 关铺闻概念空间:Hopfield神经网络:知树:语义空间中图 分类号TP391.3 目前信息检索方法主要是基于关键词来检 结构,可用树型结构表示.其叶子节点是一篇篇 索信息,此方法有2个缺陷:一是检索结果只是 文档,各层的根节点是一个个从文档中提取出 在字面上符合用户的要求,实际内容往往偏离 的概念,用一个概括其子节点共同特征的关键 用户的实际需要:二是用户输入的在询词稍有 词表示.这种概念空间与月录的性质有些相同, 偏差,检索系统就无法确定用户的真需要,因 但它是机器通过学习,由下而上自动生成,而不 而无法提交正确的结果 是由人逐层分类、自上而下构成的.生成概念 本文研究的主要内容是:建立文本的概念 空间的具体过程如下, 空间和概念语义空间,生成具有联想检索功能 ()首先对文本进行编码预处理,以实现数 的语义索引:建立智能型的检索接口,实现文本 学抽象.本文从FM365网站上选取了1100篇 语义检索系统.该语义检索系统将大型语义词 足球类文档,采用传统的向量空间的模型对文 典一知网应用在用户检索接口上,为系统建 章进行编码.由于向量的维数是由所有文本生 立了智能型检索接口.接口可对用户输入的查 成的使用词集的个数来决定,因此首先要确定 询关键词进行自动判断,利用缩写展开,赘字消 ·个使用词集.在对文本经过切词、分词、滤去 除方法,自动转换成适合查询的字符串,并可将 停用词后,采用IDF(Inverse Document Fre- 关键词分解到义原的层次,实现关键词的同义 quency)算法对词集进行优化,得到最终的使用 原联想功能.语义检索系统对用户提出检索需 词集(本次试验得到876个词). 求,通过基于大型语义词典(知网)的检索接口 (2)通过自组织特征映射SOM算法进行文 进行规范化,形成概念语义空间可接受的查询 本聚类,并完成类别的标示及概念的自动生成. 式,提交给语义索引部分,检索出相关的文本作 SOM是一种无监督的自学y过程,它把n维输 为检索结果提交给用户.此检索系统有效地解 人空间映射成(输出层神经元的)一维或二维阵 决了基于关键词的文本检索系统的2个弊病, 列.对应到文本聚类的过程中,每个输人向量就 并具有查准率高、符合检索习惯等许多优势. 是编码后的文本,而向量的每维都代表一个关 1从文本中提取概念 键词,其具体的数值是归一化后的词频数.在进 行SOM计算后,就生成I个二维的映射图,其 SOM算法对文本进行聚类,并提取出概念, 中每1点对应1个类别. 概念归并后形成文档的概念空间概念空间 为了获得自然语言的类别标识,采用以下 是指对文档自然聚类后所得的一种概念的层次 策略:从每个神经元节点的向量中取向量维的 最大值对应的关键词作为此类的标注,也就是 收稿日期20010804李源明,28岁,研究牛 *国家自然科学基金资助课题(No.60073019:69803010) 生成了这个类别的概念.这是由于每个点又是
第 卷 第 ‘ 期 年 月 北 京 科 技 大 学 学 报 毛沈 盯 匕 基于概念语义 空间的联想检索 李 源 ” 何 清 , 史忠植 ” 中国科技大学研究生院计算机学部 , 北京 中科院计算技术研究所智能信息处理开放实验室 , 北京 摘 要 为了快速 准确地 满足 用 户 提 出的检索需 要 , 在 大 量 的 文本 文 件 中检索 出用 户 真正 所 需 的信 息 , 首先 在文本 的概念空 间 建 立 了概念语 义 空 间 并以 此为基础 建 ’ 一个 具有联想 功能的索引系统 , 其次运 用 大 型语义 词 典为用 户提供 一 个智能型 检索接 口 该接 口 能 主动分 析使用 者输入 的关键 同 , 并确 定 使 用 者的实 际检索需 求 这 种 检索 系统能够大 大提 高用 户 的检 索效率和 准确度 关甘词 概念 空 间 叩 神经 网络 知 网 语 义空 间 中图 分类号 目前信息检索方法 主要 是基 于关键词来检 索信息 , 此 方法有 个缺 陷 一 是检 索结果 只是 在 字 面 上 符合用 户 的 要求 , 实 际 内容往 往 偏 离 用 户 的实际需 要 二 是用 户 输人 的 查 询词 稍有 偏 差 , 检索系统就 无法确定 用 户 的 真 正需要 , 因 而 无 法 提 交 正确 的结 果 本 文研 究 的 主要 内容是 建立 文 本 的概念 空 间 和 概 念 语 义 空 间 , 生 成具有 联 想 检索功 能 的语义 索引 建立智能型 的检索接 口 , 实现 文本 语 义 检索 系统 该语 义检索 系统将 大 刑 语 义词 典— 知网应用 在用 户 检索接 口 几 , 为系统建 立 了智能型 检索接 口 接 口 可 对 川 户输 人 的查 询关键词进 行 自动判断 , 利用缩 写 展 「 、 赘字 消 除 方法 , 自动转换 成适合查 询的字 符串 , 并 叮将 关键 词 分解 到 义 原 的 层 次 , 实 现 关键 词 的 同 义 原联 想 功 能 语 义检索 系统对 用 户 提 出检索需 求 , 通 过 基 于 大 型 语 义 词 典 知 网 的检 索 接 口 进 行规 范化 , 形 成概 念语 义 空 间 可接 受 的查 询 式 , 提交给语 义索引部分 , 检索 出相关 的 文 本作 为检索结 果提交 给用 户 此 检索 系统 有 效地 解 决 了 基 于 关键词 的 文本检索系统 的 个弊病 , 并具有查 准率高 、 符合检索 习惯 等许 多优 势 从文本中提取概念 算法对文本进 行 聚 类 , 并提 取 出概 念 , 概念 归并后形 成文档的概念 空 间 ’ 一 ,’ 概 念空 间 是指 对 文档 自然 聚类后 所 得 的一 种 概 念 的层 次 收稿 日期 刁 刁 李 源 男 , 岁 研究 牛 国家 自然 科学 基金 资助课题 石 结构 , 可 用树型结构表示 其叶子节点是一 篇篇 文档 , 各层 的根 节 点是 一 个个从文 档 中提取 出 的概 念 , 用 一 个 概括 其子 节 点共 同特 征 的关键 词表示 这 种概念空 间与 目录的性质有些相 同 , 但它是机器通 过学 习 , 由下而 上 自动生 成 , 而 不 是 由人 逐层 分类 、 自 卜而下 构成的 生 成概念 空 间 的具体过 程 如 下 首先对 文本进行 编码 预 处 理 , 以 实现 数 学抽 象 本文 从 网站 上选 取 了 篇 足球 类 文 档 , 采 用 传统 的 向量 空 间 的模 型 对 文 章进行编码 由于 向量 的维数是 由所有文本生 成 的使用 词 集 的个数来决定 , 因此 首先 要 确定 ‘ 个使用 词集 在 对 文 本经 过切 词 、 分词 、 滤 去 停 用 词 后 , 采 用 算法 对 词 集进 行 优化 , 得 到最终 的使用 同集 本次 试 验 得 到 个词 通 过 自组织 特征 映 射 算法 ‘” 进行 文 本聚类 , 并完成类 别的标示 及概念的 自动生 成 是 一 种 无 监 督 的 自学 刁 过 程 , 它 把 维 输 人空 间映射成 输 出层 神经元 的 一 维 或 二维 阵 列 对应到 文本 聚类的过 程 中 , 每个输人 向量就 是 编 码后 的 文 本 , 而 向量 的每维都代表一 个关 键词 , 其具体的数值是 归一 化后 的词频数 在进 行 计算 后 , 就 生 成 个二维 的 映 射 图 , 其 中每 点 对 应 个类 别 为 了获得 自然语 言的类别标识 , 采用 以 下 策略 从每个神经元 节 点 的 向量 中取 向量 维 的 最大值对 应 的 关键词作为此类 的标 注 , 也 就 是 生 成 了这 个 类 别的概 念 这 是 由于 每个 点又 是 DOI :10.13374/j .issn1001—53x.2001.06.028
·578· 北京科技大学学报 2001年第6期 一个向量,而前面编码的结构向量本身就隐含 聚类法进行类别的聚类.由于聚类后的类别还 着自然语言的类别.比如标注词是(word, 是数字的表示,因此还需从合并的向量中提取 word,,word),用Vect[w,wz,,w,]T代表输出获 出真正的关键词作为标识,即提取出上一层次 胜神经元的向量表示,w,与word是相对应的.当 的概念. wa=max(w,wz,,wp)时,w所对应的关键词即 提取上一层类别标示的策略如下:如果类 作为获胜神经元的类别标识.最后将每一篇的 ,j,k归为一类,则构造合并向量clusterm(w, 文本归入所属的类别,作为最底层的叶子节点. w,,w),因为向量间维数的最小值代表它们共 在试验中共得到216个底层的类别,每个类别 同属性的权值,也就是说同一关键词在它们之 中有几篇文档,提取出的概念为申花、佛罗伦 间至少要达到的出现程度,因此w=min(w,w, 萨、罗马等关键词. w).最后求w==max(w,w2,,wp(w,w,…,w, (3)最后对SOM算法生成底层类别进行聚 ∈clusterm),w所对应的关键词就是合并后类别 类,提取出上一层次的概念,完成概念的归并, 的标注词.至此,生成了文本的概念空间,文本 形成概念空间.为完成聚类,首先要计算各类别 的目录系统形成.在试验中将216个底层类别 互相之间的相似系数R.比如以下2个类别i和 聚为86个中层类别,并提取出中层的概念.如 j的向量用分别用cluster,,(w,w,,w,),cluster(w, 图1所示,标示为乌迪内斯、罗马、佛罗伦萨等 w,,w)表示,则它们的相似系数Rg=cluster- 的6个底层类别被聚为一类,并提取出一个中 cluster.在求得Ry后,可采用模糊数学中的直接 层概念:意大利 意大利(共有26篇文本) 乌迪内斯(7篇) 国际米兰(6篇) 罗马(3篇) 佛罗伦萨(3篇) 巴蒂斯图驿(2篇)意甲(5篇) 图1文本概念空间的结构 Fig.1 The structure of text conception space 概念空间 选定概念层 2概念语义空间的建立 文本空间 文本抽取 在文本概念空间生成后,按概念空间的结 [概念抽取 构分层、分类的建立起其有联想功能的语义索 [共现分析 引,然后将语义索引按其在概念空间上的位置 慨念语义空间一建立语义索引 构成一个概念语义空间.基于概念空间的概念 语义空间具有以下优点:①可以避免聚类过程 围1构造概念语义空间的流程 Fig.2 The flow chart of establish conception semantic space 中出现的噪音干扰,准确性就可以得到保证.② 生成语义索引,减少了总的计算量.而且在文档 一起出现的可能概率(Co-occurrence probability), 发生变化时,概念空间只有部分结构随之变化, 将概念作为神经网络的节点,节点间的连接权 只需对变化的那部分文档更新语义索引,而无 就是概念共现率,这样就构成了Hopfield神经 须对其它索引重新计算.③向用户提供友好的 网络 界面.由于语义索引是有组织有层次的,用户可 (3)用Hopfield神经网络算法所具有的联想 根据自己所需的查全率要求,控制检索面向文 功能对概念空间上的每一层分别生成具有联想 档的范围,实现分类查询.在文本概念空间的基 功能的语义索引,并按其在概念空间中的位置 础上构造概念语义空间,是语义检索系统的核 构成一个概念语义空间. 心部分.其过程如图2所示 基于概念语义空间的文本检索系统具有联 (1)确定在概念空间的某一个层次的某一类 想检索功能,被检索概念可连续转换,便于用户 上生成语义索引,从文本空间中抽取所有该类 查准.联想检索可在当前类的文本内进行,也可 包含的文档,以及相关的概念 在上一层的文本中进行,便于控制查全率. (2)针对这批文档,对文档中包含的概念(关 为了计算任意2个单词在多篇文档中一起 键词)通过概念共现率分析,得到任意2个概念 出现的可能概率(2个单词的共现率),使用了簇
北 京 科 技 大 学 学 报 年 第 期 一 个 向量 , 而 前面编码 的结构 向量本身就隐含 着 自然 语 言 的 类 别 比 如 标 注 词 是 , ,… , 刀 , 用 【 , ,… ,玛厂代表输 出获 胜神经元 的向量 表示 , ,与 ,是相 对应 的 当 、 ,姚 ,… , 力时 , 蝙所对应 的关键词 即 作为获胜神经元 的类别标识 最后将每一篇的 文本归人所属 的类别 , 作为最底层 的叶子节点 在试验 中共得到 个底层 的类 别 , 每个类别 中有几 篇文 档 , 提取 出的概念 为 申花 、 佛 罗 伦 萨 、 罗 马 等关键词 最后 对 算法 生 成底层 类 别进行聚 类 , 提取 出上 一层次的概念 , 完成概念 的归并 , 形成概念空 间 为完成聚类 , 首先要计算各类别 互相之间 的相似系数凡 比如 以 下 个类别 和 的向量用 分别用 ‘ , ,… ,玛 , , 跳 ,… ,铸 表示 , 则它们的相 似系数 。 卜 在求得凡后 , 可采用模糊数学 中的直接 聚类法 进行类别的聚类 由于 聚类后 的类别还 是数字 的表示 , 因此还 需从合并 的 向量 中提取 出真正 的关键询作为标识 , 即提取 出上 一层次 的概 念 提取上 一 层 类别标示 的策略如 下 如 果类 ,’ , 归 为一 类 , 则 构 造 合 并 向 量 · , 毗 ,… ,玛 , 因为 向量 间维数的最小值代表它们共 同属性的权值 , 也就是说 同一 关键词在它们之 间 至 少要 达到的 出现程度 , 因此 严 州 ,州 , 耐 最 后 求 黑 ,琳 ,… , 耐 … , , … ,阵 任 。 , 黑所对应 的关键词就是合并后类别 的标注词 至此 , 生 成 了文本的概念 空 间 , 文本 的 目录 系统形成 在试验 中将 个底层类别 聚 为 个 中层类别 , 并 提取 出中层 的概念 如 图 所示 , 标示 为乌迪 内斯 、 罗 马 、 佛罗 伦萨等 的 个底层类别被 聚 为一 类 , 并提取 出一 个 中 层概念 意大利 意大利 共有 篇文本 乌迪 内斯 篇 国际米兰拓篇 罗 马 篇 佛罗伦萨 篇 圈 文本概念空 间的结构 电 即 概念语义 空间的建立‘州 在 文 本概念 空 间 生 成后 , 按概念 空 间 的结 构分层 、 分类 的建立起具有联 想功 能 的语 义 索 引 , 然后 将语 义索 引按其在概 念 空 间上 的位置 构成一个概 念语 义 空 间 基 于 概念空 间的概念 语 义 空 间 具 有 以 下 优 点 ①可 以 避 免 聚 类 过程 中 出现 的噪音 干 扰 , 准确性就 可 以 得 到保证 ② 生成语义索引 , 减少 了总 的计算量 而且在文档 发生变化时 , 概念空 间只有部分结构随之变化 , 只需对变 化 的那 部分文 档更新语义 索 引 , 而无 须对其它 索 引 重 新计算 ③ 向用 户 提 供友 好 的 界面 由于语义 索引是有组织 有层次 的 , 用户 可 根 据 自己所需 的查 全率要 求 , 控制检索面 向文 档的范围 , 实现分类查询 在文本概念空间的基 础 上 构造概念语义 空 间 , 是语 义 检索系统 的核 心 部分 其过程如 图 所示 确定在概 念空 间 的某一 个层 次 的某一类 上 生 成语义 索引 , 从文 本 空 间 中抽取所有该类 包 含 的 文 档 , 以 及 相 关 的概念 针对这批文档 , 对文档中包含的概念 关 键词 通 过概念共现率分析 , 得到任意 个概念 概念空间 文本空间 选定概念层 滚面翻函虱 一 喧瑟溢 圈 构造概念语 义 空 间的流程 卜 口 一 一起出现的可 能概率 一 , 将概念作为神经 网络 的节点 , 节点间的连接权 就 是概念共现率 , 这样就构成 了 叩 神经 网络 用 叩 神经 网络算法所具有的联 想 功 能对概念空 间上 的每一层分别生成具有联想 功能 的语义 索引 , 并按其在概 念空 间 中的位置 构成一个概 念语义 空 间 基 于 概念语义 空 间 的文本检索系统具有联 想检索功 能 , 被检索概念可 连续转换 , 便于用户 查准 联想检索可在 当前类 的文本 内进行 , 也 可 在 上一层 的文 本 中进行 , 便于 控制查 全率 为 了计算任意 个单词 在多篇文档 中一起 出现的可 能概率 个单词 的共现率 , 使用 了簇
VoL23 李源等:基于概念语义空间的联想检款 ·579· 分析技术.文档的簇分析过程在一些论文中已 上.公布的成果.该系统的词典中现已有116533 有较为详细的论述[3,4.通过文档的簇分析得 个中文词组和57000英语单词.知网是一个以 到了概念词的语义关联权矩阵.将概念词作为 汉语和英语的词语所代表的概念为描述对象, 节点,概念词间的共现率作为节点间的连接权, 用来揭示以概念与概念之间以及概念所具有的 构成了Hopfield神经网络[5,6].当语义索引系统 属性之间的关系为基本内容的大型语义词典. 接到用户的一个查询关键词后,Hopfield神经网 知网采用义原来表示概念,义原是最基本的、不 络联想回忆的输人模式为: 易于再分割的意义的最小单位.董振东先生提 X=(KX,…,Xn)=0,X=1其中的节点i为 取出了800多个义原,并用它们的组合来表示 用户提交的关键词,被激活 世上所有的概念.比如对"扭亏为盈"这一概念 Hopfield神经网络中结点i到j之间的连接 词,在对它的定义中,用“改变”、“亏损”、“赚” 权值均为界于0.0-l.0的数.Hopfield神经网络 这3个义原的组合定义了这个概念:DEF=alter 算法进行联想回忆的方程可写为: 改变,Statelni-InDebt亏损,StateFin=earn赚.比较 V,+1)=fΣW,V]0s≤sN-1 (1) 组成2个概念词的义原,如义原完全相同,且义 式中,V()为结点i在时间t的输出;N为在数据 原的组织方式也相同,则这2个概念词就是同 库中的概念(关键词)总数:f为Sigmoid符号函 义原词. 数,即: 知网还着力描述了概念之间及概念的属性 f.(net)=1/{1+exp[-net-0)]/00) (2) 之间的各种关系,主要包括:(1)上下位关系:(2) 式中,0作为阅值或偏值;6用来修改Sigmoid符 同义关系;(3)反义关系,共8种关系,这些关系 号函数的形状.该式表现了Hopfield网络并行 隐含在知网的概念词典和各个特征文件的描述 松弛的特点.通过设置阈值,只有当神经元的输 中 出超过阅值时,该神经元才能够被激活,这样可 基于知网的智能型检索接口的工作流程图 以明显地改进系统联想的范围 如图3所示.对用户提供的检索需求,首先将其 式(1)决定了新的被激活结点的输出值,该 处理为字符串,并与语义空间中已有关键词的 迭代过程逐渐收敛直到满足式(3)时停止 字符申相比较.在经缩写展开、赘字消除方法处 [y+1)-VP≤E 理后,将用户的需求规范化,提交给概念语义空 (3) 间.如用户的需求经上述处理后,仍无法和概念 输出结点就是被联想单词经过Hopfield神 语义空间中已有概念词相匹配时,则要使用检 经网络联想出的概念.在式(3)中,ε为最大允许 索词的同义词.如果检索词的同义词仍无法满 误差值. 足系统的需要,就要把同义词的概念扩大到同 本文取0=0.15,8。=0.03,=1.经过联想回 义原词,对照概念词纪录中的概念定义项,可得 忆,得到和输人关键词相关的一组关键词,其结 到由相同义原组成的同义原词.智能型接口将 果构成了索引表 符合语义索引要求的同义或同义原词反馈给用 3智能型检索接口 户,经用户确认后提交给索引系统 由于用户提交的检索词常常与概念语义空 检索需求 间中的概念词不相符,这会导致系统无法向用 在语 同义概念 户提交结论,需用户自行变换检索词,直到与检 同义原概 义空 在语义空 否 念在语义 索系统所要求的字符串相符.系统的实用性因 间电 间中 、空间中 此大大降低.所以语义检索系统应有一个检索 是 接口,使系统能够主动分析用户提出的检索需 狄取查询 求,向用户提出即符合用户检索需求又符合索 图3智能型检索接口的工作流程图 引系统规范的检索关键词.为实现这些功能,给 Fig.3 Flow chart of retrieve interface with intelligent function 系统增加了一个基于大型语义词典一知网的智 能型检索接口 试验结果及分析 知网是董振东先生于1999年初在因特网 为了验证Hopfield算法生成语义索引的联
如 李源 等 基 于概念 语 义 空 间的联想检 索 一 分析技 术 文 档 的簇分析过 程在 一 些 论 文 中已 有较 为详细的论述 , 通 过 文 档 的簇分析得 到了概念词 的语义 关联权矩 阵 将概念词 作 为 节点 , 概念词 间的共现率作为节点间的连接权 , 构成 了 叩 神经 网络 , 当语义 索引系统 接到用 户 的一个查 询关键词 后 , 叩 神经 网 络联想 回忆 的输人模式为 式 ,… 尤 一 , ,戈 其 中的 节 点 为 用 户 提交 的关键词 , 被 激活 神经 网络 中结点 到 之 间 的连 接 权值均 为界 于 一 的数 神经 网络 算法进 行联 想 回忆 的方 程可 写 为 一 盆 鱿 【 叽 以 〕 匀‘ 一 式 中 , 以 为结点 在 时 间 的输 出 为在数据 库中的概念 关键词 总数 为 符号 函 数 , 即 七 〔 一 一 」 式 中 ,,作 为阐值或偏值 用来修改 符 号 函数 的形 状 该式表现 了 网络并行 松弛 的特点 通 过设置 闭值 , 只有 当神经元 的输 出超过 阐值时 , 该神经元才能够 被激 活 , 这样可 以 明显 地 改 进 系统联想 的范 围 式 决 定 了新 的被激 活结点 的输 出值 , 该 迭 代过 程逐 渐收敛直到满足 式 时停 止 艺〔以 一 以 ,‘ 司 输 出结点就是 被联想 单 词 经过 叩 神 经 网络联想 出的概念 在式 中 , 。 为最 大 允许 误差值 本 文 取 倪司 巧 , , 二 经 过 联 想 回 忆 , 得到和输人 关键词 相关的一 组关键词 , 其结 果 构成 了索引表 智能型检索接 口 由于 用 户 提交 的检索词 常常 与概念语 义 空 间 中的 概念 词 不 相符 , 这会 导 致 系统 无 法 向用 户 提交结论 , 需 用 户 自行变换检索词 , 直到与检 索系统所要 求的 字符 串相 符 系统 的 实用 性 因 此 大大 降低 所 以语义 检索系统应有一 个检索 接 口 , 使 系统 能够 主动分析用户 提 出的检索需 求 , 向用 户 提 出即符合用 户 检索需求 又 符合索 引 系统规范 的检索关键词 为 实现这些 功 能 , 给 系统增加 了一 个 基于 大 型语 义 词典一知 网 的智 能型 检索接 口 知 网是 董振 东先 生 于 年初 在 因特 网 公布的成 果 , 该 系统 的词 典 中现 已有 个 中文词 组 和 英语单词 知 网是一 个 以 汉 语 和 英语 的词 语 所代表 的概念 为描述 对象 , 用来揭示 以 概念 与概念之间 以 及 概念所具有 的 属性之 间 的 关系为基本 内容的 大 型 语义 词 典 知 网采用 义 原 来表示 概念 , 义 原是最基本 的 、 不 易于 再分割 的意义 的最 小单位 董振东先生 提 取 出 了 多个义 原 , 并用 它 们 的组 合来表示 世 所有 的概念 比如对 ” 扭亏 为盈 ” 这 一 概念 词 , 在对它 的定 义 中 , 用 “ 改 变 ” 、 “ 亏 损 ” 、 “ 赚 ” 这 个 义 原 的组合定 义 了这 个概念 改变 , 亏损 , 赚 比较 组 成 个概念词 的义 原 , 如 义 原 完全相 同 , 且 义 原 的组 织 方式也 相 同 , 则这 个概 念词 就是 同 义 原词 知 网还 着力 描述 了概 念之 间 及概念 的属性 之 间 的各种关系 , 主要 包括 下 位关系 同义 关 系 反 义 关系 , 共 种关系 , 这些 关 系 隐含在 知 网 的概念词 典和各个特征 文件 的描述 中 基 于 知 网的智能型检索接 口 的 工作流程 图 如 图 所示 对用 户 提供的检索需求 , 首先将其 处 理 为字 符 串 , 并 与语 义 空 间 中已 有 关键词 的 字符串相 比较 在经缩写 展 开 、 赘字消除方法处 理后 , 将用 户 的需 求规 范化 , 提交给概念语义 空 间 如 用 户 的需求经 上述处 理后 , 仍无法 和 概念 语 义 空 间 中已 有 概 念词 相 匹 配时 , 则要使用检 索词 的 同义 词 如 果检索词 的 同义 词 仍无法 满 足 系统 的需 要 , 就要 把 同义词 的概念扩大到 同 义 原词 , 对 照 概念词 纪 录 中的概念定义项 , 可得 到 由相 同义 原组 成 的 同义 原 词 智能型 接 口 将 符合语 义 索引要求的同义或同义 原词 反馈给用 户 , 经 用 户 确认后提交给索引系统 倾愁叶 、 上 嗬 别狡 星 曰 冲 。 检索需求 获取 查询 圈 铆能型检 索接 口 的 工 作 流 程 圈 代 场 试验结果及分析 为了 验证 叩 算法 生 成语 义 索 引 的联
·580· 北京科技大学学报 2001年第6期 想功能,在概念语义空间上选取足球总类,对其 入单词“奥林匹”后,系统首先经缩写展开将输 包含的876个概念词依次作了联想,联想的结果 人定义为“奥林匹克”,并找到其同义词“奥运” 如下:输人一大连实德,可联想到北京国安、 “奥运会” 海牛、山东鲁能、四川全兴;输人一罗马,可联 想到国际米兰、拉齐奥、意大利、佛罗伦萨、尤文 5 结束语 图斯、意甲、中田英寿,等等 试验证明基于概念空间和概念语义空间、 绝大部分概念词与联想出的概念词语义相 并具有智能检索接口的文本语义检索系统有传 关度非常高,符合实际情况,并对原文档进行了 对照后发现,在文档中这些词的共现率确实很 统检索系统所不具有的优势,可以大大提高了 用户的检索效率和准确度.该联想检索的准确 高,联想检索功能的准确性得到了验证 性可以得到保证,检索的查全率、查准率都很理 在对58个无法联想的概念词进行研究后, 想.其智能型检索接口在用户输入关键词后,可 发现绝大多数该类词仅在几篇文档中出现过很 少的几次,因此未能与其他概念词构成联想.由 以迅速做出反应,向用户提出正确的、具有建设 性的建议,具有一定的智能和互动功能. 于这些词都不是检索时的常用关键词,因此不 影响索引的查全率.再对足球总类下的子类甲 参考文献 A类进行了同样的试验,其结果与上述结果比 I Juha Vesanto,Esa Alhoniemi.Clustering of the Self-Or- 较,一些与甲A关联不大的词联想出的概念词 ganizing Map;IEEE Transactions on Neural Networks, 大量减少,而能联想出的结果大多与该子类(甲 May,2000,11(3): A类)的内容有关,其准确性有所提高.即检索 2罗承忠模糊集引论(上册),北京:北京师范大学出版 杜,1989 的查全率有所下降,但查准率有所上升 3 Salton G.Automatic Text Processing,Reading.MA:Addi- 对智能检索接口进行了测试,查找出的同 son-Wesley Publishing Company,Inc,1989 义词或同义原词间的语义十分接近,如“奥运 4 Gerard Salton,James Allan,Chris Buckley.Automatic 会”和“奥林匹克”,“奥林匹亚”、“奥运”为同义 Structuring and Retreval of Large Text Files.CACM, 1994.37(2:97 词,扩大同义的范围,查找出的同义原词还有 5 Chen H,Hsu P,Orwig L,et al.Automatic Concept Classi- “冬运会”“亚运会”“冬奥会”等.我们对876个 fication of Text from Electronic Meetings.Communic At- 概念词依次查找其同义词及同义原词,共找到 ions of the ACM,1994,37(10):56 不交叉的7626个词.如果考虑到使用缩写展开、 6 Chen H.Concept Space Approach to Addressing the Vo- 赘字消除的方法,该系统可以对上万个用户提 cabulary Problem in Scientific Information Retrieval:An 出的检索关键词做出响应,并在索引系统中的 Experiment on the Worm Community System.J American 876概念词中找到语义最接近的概念词.如输 Soc Information Science,1997,48(6):17 Association Retrieve Based On Concept Semantic Space LI Yuan",HE Qing".SHI Zhongzhi 1)Graduate School,Chinese University of Science and Technology.Beijing 100039,China 2)The Laboratory of Intelligent Information Processing,Institute of Computing Technology.Chinese Academy of Sciences,Beijing.100080,China ABSTRACT In order to satisfy the user's retrieve need promptly and accurately,and retrieve the informa- tion which the user need from a lot of text files,firstly a concept semantic space based on concept space of documents is established,then based on it establish an index system with the association function;secondly a retrieve interface with intelligent function based on large semantic dictionary was made for the system.The re- trieve interface can analysis the keyword that user input,and make sure user's really retrieve needing.Accord- ing to the results of experimentation,it is clear that the retrieve efficiency and accuracy has been improved using this method. KEY WORDS concept space;hopfield neural net;hownet;semantic space
北 京 科 技 想功能 , 在概念语义 空 间 卜选取足球总类 , 对其 包含的 个概念词依次作 了联想 ,联想 的结果 如下 输人— 大连 实德 , 可 联想 到北 京 国安 、 海牛 、 山东鲁能 、 四川全兴 输人— 罗 马 , 可联 想 到国际米兰 、 拉齐奥 、 意大利 、 佛罗 伦萨 、 尤 文 图斯 、 意 甲 、 中 田英 寿 , 等等 绝 大部 分概念词 与联想 出 的概念词语义 相 关度 非 常高 , 符合实 际情况 , 并对原 文档进行 了 对照后 发现 , 在文 档 中这些 词 的 共 现 率确 实很 高 , 联想 检索功 能的 准确性得到 了验证 在 对 个 无 法联 想 的概念词 进行研究后 , 发现绝大多数该类词仅在几篇文档 中出现过很 少的几 次 , 因此未 能 与其他概念词构成联想 由 于 这些 词都不 是检索时 的常用 关键词 , 因此不 影 响索引的查 全率 再对足球总类 下 的子类 甲 类进 行 了 同样 的试验 , 其结果 与 述结果 比 较 , 一 些 与 甲 关联 不 大 的词 联 想 出 的概念词 大量减 少 , 而 能联想 出的结 果大 多与该子类 甲 类 的 内容有关 , 其准确性 有所提高 即检索 的查 全率有所 下 降 , 但查 准率有所上 升 对智能检索接 口 进行 了测试 , 查 找出的 同 义 词 或 同义原 词 间的语 义 十分接近 , 如 “ 奥运 会 ” 和 “ 奥林 匹 克 ” 、 “ 奥林 匹 亚 ” 、 “ 奥运 ” 为 同义 词 , 扩 大 同义 的范围 , 查找 出 的同义 原词 还 有 “ 冬运 会 ” “ 亚 运 会 ” “ 冬 奥会 ” 等 我 们对 个 概念词 依次查 找其 同义 词 及 同义 原 词 , 共找到 不交叉 的 个词 如 果考虑 到使用 缩写展 开 、 赘字 消除的 方法 , 该 系统可 以 对 上 万 个用 户 提 出 的检索关键词 做 出响 应 , 并在索引 系统 中的 概 念词 中找 到 语 义 最 接近 的概 念 词 如 输 大 学 学 报 年 第 期 人 单词 “ 奥林匹 ” 后 , 系统 首先经缩写 展 开将输 入定 义 为 “ 奥林匹 克 ” , 并找到其 同义 词 “ 奥运 ” “ 奥运会 ” 结束语 试验证 明基 于 概 念 空 间 和 概 念语 义 空 间 、 并具有智能检索接 口 的文 本语义检索系统有传 统检索系统所不 具有 的优势 , 可 以 大大提 高 了 用 户 的检索效率和 准确 度 该联想 检索 的准确 性 可以得 到保证 , 检索的查全率 、 查 准率都很理 想 其智能型检索接 口 在用户输人关键词后 , 可 以迅 速做出反应 , 向用户提出正 确的 、 具有建设 性 的建议 , 具有一 定的智 能和 互 动 功能 参 考 文 献 , · , , 罗 承忠 模糊集引论 上 册 , 北 京 北 京师范大学出版 社 , , 助 · 一 七 ‘ , 甘 , , 叱 · 、 , , , , 抽 , , 垃 即 , , 伙 刀石 心气 及汀 岁 尹 比 , , , , 吨 介 , 嗦 即 , , 以洲 , , , ” , , , , , 面