正在加载图片...
VoL23 李源等:基于概念语义空间的联想检款 ·579· 分析技术.文档的簇分析过程在一些论文中已 上.公布的成果.该系统的词典中现已有116533 有较为详细的论述[3,4.通过文档的簇分析得 个中文词组和57000英语单词.知网是一个以 到了概念词的语义关联权矩阵.将概念词作为 汉语和英语的词语所代表的概念为描述对象, 节点,概念词间的共现率作为节点间的连接权, 用来揭示以概念与概念之间以及概念所具有的 构成了Hopfield神经网络[5,6].当语义索引系统 属性之间的关系为基本内容的大型语义词典. 接到用户的一个查询关键词后,Hopfield神经网 知网采用义原来表示概念,义原是最基本的、不 络联想回忆的输人模式为: 易于再分割的意义的最小单位.董振东先生提 X=(KX,…,Xn)=0,X=1其中的节点i为 取出了800多个义原,并用它们的组合来表示 用户提交的关键词,被激活 世上所有的概念.比如对"扭亏为盈"这一概念 Hopfield神经网络中结点i到j之间的连接 词,在对它的定义中,用“改变”、“亏损”、“赚” 权值均为界于0.0-l.0的数.Hopfield神经网络 这3个义原的组合定义了这个概念:DEF=alter 算法进行联想回忆的方程可写为: 改变,Statelni-InDebt亏损,StateFin=earn赚.比较 V,+1)=fΣW,V]0s≤sN-1 (1) 组成2个概念词的义原,如义原完全相同,且义 式中,V()为结点i在时间t的输出;N为在数据 原的组织方式也相同,则这2个概念词就是同 库中的概念(关键词)总数:f为Sigmoid符号函 义原词. 数,即: 知网还着力描述了概念之间及概念的属性 f.(net)=1/{1+exp[-net-0)]/00) (2) 之间的各种关系,主要包括:(1)上下位关系:(2) 式中,0作为阅值或偏值;6用来修改Sigmoid符 同义关系;(3)反义关系,共8种关系,这些关系 号函数的形状.该式表现了Hopfield网络并行 隐含在知网的概念词典和各个特征文件的描述 松弛的特点.通过设置阈值,只有当神经元的输 中 出超过阅值时,该神经元才能够被激活,这样可 基于知网的智能型检索接口的工作流程图 以明显地改进系统联想的范围 如图3所示.对用户提供的检索需求,首先将其 式(1)决定了新的被激活结点的输出值,该 处理为字符串,并与语义空间中已有关键词的 迭代过程逐渐收敛直到满足式(3)时停止 字符申相比较.在经缩写展开、赘字消除方法处 [y+1)-VP≤E 理后,将用户的需求规范化,提交给概念语义空 (3) 间.如用户的需求经上述处理后,仍无法和概念 输出结点就是被联想单词经过Hopfield神 语义空间中已有概念词相匹配时,则要使用检 经网络联想出的概念.在式(3)中,ε为最大允许 索词的同义词.如果检索词的同义词仍无法满 误差值. 足系统的需要,就要把同义词的概念扩大到同 本文取0=0.15,8。=0.03,=1.经过联想回 义原词,对照概念词纪录中的概念定义项,可得 忆,得到和输人关键词相关的一组关键词,其结 到由相同义原组成的同义原词.智能型接口将 果构成了索引表 符合语义索引要求的同义或同义原词反馈给用 3智能型检索接口 户,经用户确认后提交给索引系统 由于用户提交的检索词常常与概念语义空 检索需求 间中的概念词不相符,这会导致系统无法向用 在语 同义概念 户提交结论,需用户自行变换检索词,直到与检 同义原概 义空 在语义空 否 念在语义 索系统所要求的字符串相符.系统的实用性因 间电 间中 、空间中 此大大降低.所以语义检索系统应有一个检索 是 接口,使系统能够主动分析用户提出的检索需 狄取查询 求,向用户提出即符合用户检索需求又符合索 图3智能型检索接口的工作流程图 引系统规范的检索关键词.为实现这些功能,给 Fig.3 Flow chart of retrieve interface with intelligent function 系统增加了一个基于大型语义词典一知网的智 能型检索接口 试验结果及分析 知网是董振东先生于1999年初在因特网 为了验证Hopfield算法生成语义索引的联如 李源 等 基 于概念 语 义 空 间的联想检 索 一 分析技 术 文 档 的簇分析过 程在 一 些 论 文 中已 有较 为详细的论述 , 通 过 文 档 的簇分析得 到了概念词 的语义 关联权矩 阵 将概念词 作 为 节点 , 概念词 间的共现率作为节点间的连接权 , 构成 了 叩 神经 网络 , 当语义 索引系统 接到用 户 的一个查 询关键词 后 , 叩 神经 网 络联想 回忆 的输人模式为 式 ,… 尤 一 , ,戈 其 中的 节 点 为 用 户 提交 的关键词 , 被 激活 神经 网络 中结点 到 之 间 的连 接 权值均 为界 于 一 的数 神经 网络 算法进 行联 想 回忆 的方 程可 写 为 一 盆 鱿 【 叽 以 〕 匀‘ 一 式 中 , 以 为结点 在 时 间 的输 出 为在数据 库中的概念 关键词 总数 为 符号 函 数 , 即 七 〔 一 一 」 式 中 ,,作 为阐值或偏值 用来修改 符 号 函数 的形 状 该式表现 了 网络并行 松弛 的特点 通 过设置 闭值 , 只有 当神经元 的输 出超过 阐值时 , 该神经元才能够 被激 活 , 这样可 以 明显 地 改 进 系统联想 的范 围 式 决 定 了新 的被激 活结点 的输 出值 , 该 迭 代过 程逐 渐收敛直到满足 式 时停 止 艺〔以 一 以 ,‘ 司 输 出结点就是 被联想 单 词 经过 叩 神 经 网络联想 出的概念 在式 中 , 。 为最 大 允许 误差值 本 文 取 倪司 巧 , , 二 经 过 联 想 回 忆 , 得到和输人 关键词 相关的一 组关键词 , 其结 果 构成 了索引表 智能型检索接 口 由于 用 户 提交 的检索词 常常 与概念语 义 空 间 中的 概念 词 不 相符 , 这会 导 致 系统 无 法 向用 户 提交结论 , 需 用 户 自行变换检索词 , 直到与检 索系统所要 求的 字符 串相 符 系统 的 实用 性 因 此 大大 降低 所 以语义 检索系统应有一 个检索 接 口 , 使 系统 能够 主动分析用户 提 出的检索需 求 , 向用 户 提 出即符合用 户 检索需求 又 符合索 引 系统规范 的检索关键词 为 实现这些 功 能 , 给 系统增加 了一 个 基于 大 型语 义 词典一知 网 的智 能型 检索接 口 知 网是 董振 东先 生 于 年初 在 因特 网 公布的成 果 , 该 系统 的词 典 中现 已有 个 中文词 组 和 英语单词 知 网是一 个 以 汉 语 和 英语 的词 语 所代表 的概念 为描述 对象 , 用来揭示 以 概念 与概念之间 以 及 概念所具有 的 属性之 间 的 关系为基本 内容的 大 型 语义 词 典 知 网采用 义 原 来表示 概念 , 义 原是最基本 的 、 不 易于 再分割 的意义 的最 小单位 董振东先生 提 取 出 了 多个义 原 , 并用 它 们 的组 合来表示 世 所有 的概念 比如对 ” 扭亏 为盈 ” 这 一 概念 词 , 在对它 的定 义 中 , 用 “ 改 变 ” 、 “ 亏 损 ” 、 “ 赚 ” 这 个 义 原 的组合定 义 了这 个概念 改变 , 亏损 , 赚 比较 组 成 个概念词 的义 原 , 如 义 原 完全相 同 , 且 义 原 的组 织 方式也 相 同 , 则这 个概 念词 就是 同 义 原词 知 网还 着力 描述 了概 念之 间 及概念 的属性 之 间 的各种关系 , 主要 包括 下 位关系 同义 关 系 反 义 关系 , 共 种关系 , 这些 关 系 隐含在 知 网 的概念词 典和各个特征 文件 的描述 中 基 于 知 网的智能型检索接 口 的 工作流程 图 如 图 所示 对用 户 提供的检索需求 , 首先将其 处 理 为字 符 串 , 并 与语 义 空 间 中已 有 关键词 的 字符串相 比较 在经缩写 展 开 、 赘字消除方法处 理后 , 将用 户 的需 求规 范化 , 提交给概念语义 空 间 如 用 户 的需求经 上述处 理后 , 仍无法 和 概念 语 义 空 间 中已 有 概 念词 相 匹 配时 , 则要使用检 索词 的 同义 词 如 果检索词 的 同义 词 仍无法 满 足 系统 的需 要 , 就要 把 同义词 的概念扩大到 同 义 原词 , 对 照 概念词 纪 录 中的概念定义项 , 可得 到 由相 同义 原组 成 的 同义 原 词 智能型 接 口 将 符合语 义 索引要求的同义或同义 原词 反馈给用 户 , 经 用 户 确认后提交给索引系统 倾愁叶 、 上 嗬 别狡 星 曰 冲 。 检索需求 获取 查询 圈 铆能型检 索接 口 的 工 作 流 程 圈 代 场 试验结果及分析 为了 验证 叩 算法 生 成语 义 索 引 的联
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有