正在加载图片...
·578· 北京科技大学学报 2001年第6期 一个向量,而前面编码的结构向量本身就隐含 聚类法进行类别的聚类.由于聚类后的类别还 着自然语言的类别.比如标注词是(word, 是数字的表示,因此还需从合并的向量中提取 word,,word),用Vect[w,wz,,w,]T代表输出获 出真正的关键词作为标识,即提取出上一层次 胜神经元的向量表示,w,与word是相对应的.当 的概念. wa=max(w,wz,,wp)时,w所对应的关键词即 提取上一层类别标示的策略如下:如果类 作为获胜神经元的类别标识.最后将每一篇的 ,j,k归为一类,则构造合并向量clusterm(w, 文本归入所属的类别,作为最底层的叶子节点. w,,w),因为向量间维数的最小值代表它们共 在试验中共得到216个底层的类别,每个类别 同属性的权值,也就是说同一关键词在它们之 中有几篇文档,提取出的概念为申花、佛罗伦 间至少要达到的出现程度,因此w=min(w,w, 萨、罗马等关键词. w).最后求w==max(w,w2,,wp(w,w,…,w, (3)最后对SOM算法生成底层类别进行聚 ∈clusterm),w所对应的关键词就是合并后类别 类,提取出上一层次的概念,完成概念的归并, 的标注词.至此,生成了文本的概念空间,文本 形成概念空间.为完成聚类,首先要计算各类别 的目录系统形成.在试验中将216个底层类别 互相之间的相似系数R.比如以下2个类别i和 聚为86个中层类别,并提取出中层的概念.如 j的向量用分别用cluster,,(w,w,,w,),cluster(w, 图1所示,标示为乌迪内斯、罗马、佛罗伦萨等 w,,w)表示,则它们的相似系数Rg=cluster- 的6个底层类别被聚为一类,并提取出一个中 cluster.在求得Ry后,可采用模糊数学中的直接 层概念:意大利 意大利(共有26篇文本) 乌迪内斯(7篇) 国际米兰(6篇) 罗马(3篇) 佛罗伦萨(3篇) 巴蒂斯图驿(2篇)意甲(5篇) 图1文本概念空间的结构 Fig.1 The structure of text conception space 概念空间 选定概念层 2概念语义空间的建立 文本空间 文本抽取 在文本概念空间生成后,按概念空间的结 [概念抽取 构分层、分类的建立起其有联想功能的语义索 [共现分析 引,然后将语义索引按其在概念空间上的位置 慨念语义空间一建立语义索引 构成一个概念语义空间.基于概念空间的概念 语义空间具有以下优点:①可以避免聚类过程 围1构造概念语义空间的流程 Fig.2 The flow chart of establish conception semantic space 中出现的噪音干扰,准确性就可以得到保证.② 生成语义索引,减少了总的计算量.而且在文档 一起出现的可能概率(Co-occurrence probability), 发生变化时,概念空间只有部分结构随之变化, 将概念作为神经网络的节点,节点间的连接权 只需对变化的那部分文档更新语义索引,而无 就是概念共现率,这样就构成了Hopfield神经 须对其它索引重新计算.③向用户提供友好的 网络 界面.由于语义索引是有组织有层次的,用户可 (3)用Hopfield神经网络算法所具有的联想 根据自己所需的查全率要求,控制检索面向文 功能对概念空间上的每一层分别生成具有联想 档的范围,实现分类查询.在文本概念空间的基 功能的语义索引,并按其在概念空间中的位置 础上构造概念语义空间,是语义检索系统的核 构成一个概念语义空间. 心部分.其过程如图2所示 基于概念语义空间的文本检索系统具有联 (1)确定在概念空间的某一个层次的某一类 想检索功能,被检索概念可连续转换,便于用户 上生成语义索引,从文本空间中抽取所有该类 查准.联想检索可在当前类的文本内进行,也可 包含的文档,以及相关的概念 在上一层的文本中进行,便于控制查全率. (2)针对这批文档,对文档中包含的概念(关 为了计算任意2个单词在多篇文档中一起 键词)通过概念共现率分析,得到任意2个概念 出现的可能概率(2个单词的共现率),使用了簇北 京 科 技 大 学 学 报 年 第 期 一 个 向量 , 而 前面编码 的结构 向量本身就隐含 着 自然 语 言 的 类 别 比 如 标 注 词 是 , ,… , 刀 , 用 【 , ,… ,玛厂代表输 出获 胜神经元 的向量 表示 , ,与 ,是相 对应 的 当 、 ,姚 ,… , 力时 , 蝙所对应 的关键词 即 作为获胜神经元 的类别标识 最后将每一篇的 文本归人所属 的类别 , 作为最底层 的叶子节点 在试验 中共得到 个底层 的类 别 , 每个类别 中有几 篇文 档 , 提取 出的概念 为 申花 、 佛 罗 伦 萨 、 罗 马 等关键词 最后 对 算法 生 成底层 类 别进行聚 类 , 提取 出上 一层次的概念 , 完成概念 的归并 , 形成概念空 间 为完成聚类 , 首先要计算各类别 互相之间 的相似系数凡 比如 以 下 个类别 和 的向量用 分别用 ‘ , ,… ,玛 , , 跳 ,… ,铸 表示 , 则它们的相 似系数 。 卜 在求得凡后 , 可采用模糊数学 中的直接 聚类法 进行类别的聚类 由于 聚类后 的类别还 是数字 的表示 , 因此还 需从合并 的 向量 中提取 出真正 的关键询作为标识 , 即提取 出上 一层次 的概 念 提取上 一 层 类别标示 的策略如 下 如 果类 ,’ , 归 为一 类 , 则 构 造 合 并 向 量 · , 毗 ,… ,玛 , 因为 向量 间维数的最小值代表它们共 同属性的权值 , 也就是说 同一 关键词在它们之 间 至 少要 达到的 出现程度 , 因此 严 州 ,州 , 耐 最 后 求 黑 ,琳 ,… , 耐 … , , … ,阵 任 。 , 黑所对应 的关键词就是合并后类别 的标注词 至此 , 生 成 了文本的概念 空 间 , 文本 的 目录 系统形成 在试验 中将 个底层类别 聚 为 个 中层类别 , 并 提取 出中层 的概念 如 图 所示 , 标示 为乌迪 内斯 、 罗 马 、 佛罗 伦萨等 的 个底层类别被 聚 为一 类 , 并提取 出一 个 中 层概念 意大利 意大利 共有 篇文本 乌迪 内斯 篇 国际米兰拓篇 罗 马 篇 佛罗伦萨 篇 圈 文本概念空 间的结构 电 即 概念语义 空间的建立‘州 在 文 本概念 空 间 生 成后 , 按概念 空 间 的结 构分层 、 分类 的建立起具有联 想功 能 的语 义 索 引 , 然后 将语 义索 引按其在概 念 空 间上 的位置 构成一个概 念语 义 空 间 基 于 概念空 间的概念 语 义 空 间 具 有 以 下 优 点 ①可 以 避 免 聚 类 过程 中 出现 的噪音 干 扰 , 准确性就 可 以 得 到保证 ② 生成语义索引 , 减少 了总 的计算量 而且在文档 发生变化时 , 概念空 间只有部分结构随之变化 , 只需对变 化 的那 部分文 档更新语义 索 引 , 而无 须对其它 索 引 重 新计算 ③ 向用 户 提 供友 好 的 界面 由于语义 索引是有组织 有层次 的 , 用户 可 根 据 自己所需 的查 全率要 求 , 控制检索面 向文 档的范围 , 实现分类查询 在文本概念空间的基 础 上 构造概念语义 空 间 , 是语 义 检索系统 的核 心 部分 其过程如 图 所示 确定在概 念空 间 的某一 个层 次 的某一类 上 生 成语义 索引 , 从文 本 空 间 中抽取所有该类 包 含 的 文 档 , 以 及 相 关 的概念 针对这批文档 , 对文档中包含的概念 关 键词 通 过概念共现率分析 , 得到任意 个概念 概念空间 文本空间 选定概念层 滚面翻函虱 一 喧瑟溢 圈 构造概念语 义 空 间的流程 卜 口 一 一起出现的可 能概率 一 , 将概念作为神经 网络 的节点 , 节点间的连接权 就 是概念共现率 , 这样就构成 了 叩 神经 网络 用 叩 神经 网络算法所具有的联 想 功 能对概念空 间上 的每一层分别生成具有联想 功能 的语义 索引 , 并按其在概 念空 间 中的位置 构成一个概 念语义 空 间 基 于 概念语义 空 间 的文本检索系统具有联 想检索功 能 , 被检索概念可 连续转换 , 便于用户 查准 联想检索可在 当前类 的文本 内进行 , 也 可 在 上一层 的文 本 中进行 , 便于 控制查 全率 为 了计算任意 个单词 在多篇文档 中一起 出现的可 能概率 个单词 的共现率 , 使用 了簇
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有