基于概念语义空间的联想检索

为了快速准确地满足用户提出的检索需要,在大量的文本文件中检索出用户真正所需的信息,首先在文本的概念空间上建立了概念语义空间并以此为基础建立了一个具有联想功能的索引系统,其次运用大型语义词典为用户提供了一个智能型检索接口.该接口能主动分析使用者输入的关键词,并确定使用者的实际检索需求这种检索系统能够大大提高用户的检索效率和准确度.

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：562.81KB

D0I:10.13374/i.issn1001-053x.2001.06.028 第23卷第6期北京科技大学学报 Vol.23 No.6 2001年12月 Journal of University of Science and Technology Beijing Dec.2001 基于概念语义空间的联想检索李源”何清”史忠植) 1)中国科技大学研究生院计算机学部，北京1000392)中科院十算技术研究所智能信息处理开放实验室，北京100080 摘要为了快速准确地满足用户提出的检索需要，在大量的文本文件中检索出用户真正所需的信息，首先在文本的概念空间上建立了概念语义空间并以此为基础建立.了一个具有联想功能的索引系统，其次运用大型语义词典为用户提供了一个智能型检索接口.该接口能主动分析使用者输人的关键问，并确定使用者的实际检索需求，这种检索系统能够大大提高用户的检素效率和准确度，关铺闻概念空间：Hopfield神经网络：知树：语义空间中图分类号TP391.3 目前信息检索方法主要是基于关键词来检结构，可用树型结构表示.其叶子节点是一篇篇索信息，此方法有2个缺陷：一是检索结果只是文档，各层的根节点是一个个从文档中提取出在字面上符合用户的要求，实际内容往往偏离的概念，用一个概括其子节点共同特征的关键用户的实际需要：二是用户输入的在询词稍有词表示.这种概念空间与月录的性质有些相同，偏差，检索系统就无法确定用户的真需要，因但它是机器通过学习，由下而上自动生成，而不而无法提交正确的结果是由人逐层分类、自上而下构成的.生成概念本文研究的主要内容是：建立文本的概念空间的具体过程如下，空间和概念语义空间，生成具有联想检索功能 ()首先对文本进行编码预处理，以实现数的语义索引：建立智能型的检索接口，实现文本学抽象.本文从FM365网站上选取了1100篇语义检索系统.该语义检索系统将大型语义词足球类文档，采用传统的向量空间的模型对文典一知网应用在用户检索接口上，为系统建章进行编码.由于向量的维数是由所有文本生立了智能型检索接口.接口可对用户输入的查成的使用词集的个数来决定，因此首先要确定询关键词进行自动判断，利用缩写展开，赘字消 ·个使用词集.在对文本经过切词、分词、滤去除方法，自动转换成适合查询的字符串，并可将停用词后，采用IDF(Inverse Document Fre- 关键词分解到义原的层次，实现关键词的同义 quency)算法对词集进行优化，得到最终的使用原联想功能.语义检索系统对用户提出检索需词集（本次试验得到876个词）. 求，通过基于大型语义词典（知网）的检索接口 (2)通过自组织特征映射SOM算法进行文进行规范化，形成概念语义空间可接受的查询本聚类，并完成类别的标示及概念的自动生成. 式，提交给语义索引部分，检索出相关的文本作 SOM是一种无监督的自学y过程，它把n维输为检索结果提交给用户.此检索系统有效地解人空间映射成（输出层神经元的）一维或二维阵决了基于关键词的文本检索系统的2个弊病，列.对应到文本聚类的过程中，每个输人向量就并具有查准率高、符合检索习惯等许多优势. 是编码后的文本，而向量的每维都代表一个关 1从文本中提取概念键词，其具体的数值是归一化后的词频数.在进行SOM计算后，就生成I个二维的映射图，其 SOM算法对文本进行聚类，并提取出概念，中每1点对应1个类别. 概念归并后形成文档的概念空间概念空间为了获得自然语言的类别标识，采用以下是指对文档自然聚类后所得的一种概念的层次策略：从每个神经元节点的向量中取向量维的最大值对应的关键词作为此类的标注，也就是收稿日期20010804李源明，28岁，研究牛 *国家自然科学基金资助课题(No.60073019:69803010) 生成了这个类别的概念.这是由于每个点又是

第卷第 ‘ 期年月北京科技大学学报毛沈盯匕基于概念语义空间的联想检索李源 ” 何清，史忠植 ” 中国科技大学研究生院计算机学部，北京中科院计算技术研究所智能信息处理开放实验室，北京摘要为了快速准确地满足用户提出的检索需要，在大量的文本文件中检索出用户真正所需的信息，首先在文本的概念空间建立了概念语义空间并以此为基础建 ’ 一个具有联想功能的索引系统，其次运用大型语义词典为用户提供一个智能型检索接口该接口能主动分析使用者输入的关键同，并确定使用者的实际检索需求这种检索系统能够大大提高用户的检索效率和准确度关甘词概念空间叩神经网络知网语义空间中图分类号目前信息检索方法主要是基于关键词来检索信息，此方法有个缺陷一是检索结果只是在字面上符合用户的要求，实际内容往往偏离用户的实际需要二是用户输人的查询词稍有偏差，检索系统就无法确定用户的真正需要，因而无法提交正确的结果本文研究的主要内容是建立文本的概念空间和概念语义空间，生成具有联想检索功能的语义索引建立智能型的检索接口，实现文本语义检索系统该语义检索系统将大刑语义词典— 知网应用在用户检索接口几，为系统建立了智能型检索接口接口可对川户输人的查询关键词进行自动判断，利用缩写展「、赘字消除方法，自动转换成适合查询的字符串，并叮将关键词分解到义原的层次，实现关键词的同义原联想功能语义检索系统对用户提出检索需求，通过基于大型语义词典知网的检索接口进行规范化，形成概念语义空间可接受的查询式，提交给语义索引部分，检索出相关的文本作为检索结果提交给用户此检索系统有效地解决了基于关键词的文本检索系统的个弊病，并具有查准率高、符合检索习惯等许多优势从文本中提取概念算法对文本进行聚类，并提取出概念，概念归并后形成文档的概念空间 ’ 一，’ 概念空间是指对文档自然聚类后所得的一种概念的层次收稿日期刁刁李源男，岁研究牛国家自然科学基金资助课题石结构，可用树型结构表示其叶子节点是一篇篇文档，各层的根节点是一个个从文档中提取出的概念，用一个概括其子节点共同特征的关键词表示这种概念空间与目录的性质有些相同，但它是机器通过学习，由下而上自动生成，而不是由人逐层分类、自卜而下构成的生成概念空间的具体过程如下首先对文本进行编码预处理，以实现数学抽象本文从网站上选取了篇足球类文档，采用传统的向量空间的模型对文章进行编码由于向量的维数是由所有文本生成的使用词集的个数来决定，因此首先要确定 ‘ 个使用词集在对文本经过切词、分词、滤去停用词后，采用算法对词集进行优化，得到最终的使用同集本次试验得到个词通过自组织特征映射算法 ‘” 进行文本聚类，并完成类别的标示及概念的自动生成是一种无监督的自学刁过程，它把维输人空间映射成输出层神经元的一维或二维阵列对应到文本聚类的过程中，每个输人向量就是编码后的文本，而向量的每维都代表一个关键词，其具体的数值是归一化后的词频数在进行计算后，就生成个二维的映射图，其中每点对应个类别为了获得自然语言的类别标识，采用以下策略从每个神经元节点的向量中取向量维的最大值对应的关键词作为此类的标注，也就是生成了这个类别的概念这是由于每个点又是 DOI ：10．13374／j ．issn1001—53x．2001．06．028

·578· 北京科技大学学报 2001年第6期一个向量，而前面编码的结构向量本身就隐含聚类法进行类别的聚类.由于聚类后的类别还着自然语言的类别.比如标注词是(word, 是数字的表示，因此还需从合并的向量中提取 word,,word),用Vect[w,wz,,w,]T代表输出获出真正的关键词作为标识，即提取出上一层次胜神经元的向量表示，w,与word是相对应的.当的概念. wa=max(w,wz,,wp)时，w所对应的关键词即提取上一层类别标示的策略如下：如果类作为获胜神经元的类别标识.最后将每一篇的 ,j,k归为一类，则构造合并向量clusterm(w, 文本归入所属的类别，作为最底层的叶子节点. w,,w),因为向量间维数的最小值代表它们共在试验中共得到216个底层的类别，每个类别同属性的权值，也就是说同一关键词在它们之中有几篇文档，提取出的概念为申花、佛罗伦间至少要达到的出现程度，因此w=min(w,w, 萨、罗马等关键词. w).最后求w==max(w,w2,,wp(w,w,…,w, (3)最后对SOM算法生成底层类别进行聚 ∈clusterm),w所对应的关键词就是合并后类别类，提取出上一层次的概念，完成概念的归并，的标注词.至此，生成了文本的概念空间，文本形成概念空间.为完成聚类，首先要计算各类别的目录系统形成.在试验中将216个底层类别互相之间的相似系数R.比如以下2个类别i和聚为86个中层类别，并提取出中层的概念.如 j的向量用分别用cluster,,(w,w,,w,),cluster(w, 图1所示，标示为乌迪内斯、罗马、佛罗伦萨等 w,,w）表示，则它们的相似系数Rg=cluster- 的6个底层类别被聚为一类，并提取出一个中 cluster.在求得Ry后，可采用模糊数学中的直接层概念：意大利意大利（共有26篇文本）乌迪内斯(7篇) 国际米兰(6篇) 罗马(3篇) 佛罗伦萨(3篇) 巴蒂斯图驿(2篇)意甲(5篇) 图1文本概念空间的结构 Fig.1 The structure of text conception space 概念空间选定概念层 2概念语义空间的建立文本空间文本抽取在文本概念空间生成后，按概念空间的结 [概念抽取构分层、分类的建立起其有联想功能的语义索 [共现分析引，然后将语义索引按其在概念空间上的位置慨念语义空间一建立语义索引构成一个概念语义空间.基于概念空间的概念语义空间具有以下优点：①可以避免聚类过程围1构造概念语义空间的流程 Fig.2 The flow chart of establish conception semantic space 中出现的噪音干扰，准确性就可以得到保证.② 生成语义索引，减少了总的计算量.而且在文档一起出现的可能概率(Co-occurrence probability), 发生变化时，概念空间只有部分结构随之变化，将概念作为神经网络的节点，节点间的连接权只需对变化的那部分文档更新语义索引，而无就是概念共现率，这样就构成了Hopfield神经须对其它索引重新计算.③向用户提供友好的网络界面.由于语义索引是有组织有层次的，用户可 (3)用Hopfield神经网络算法所具有的联想根据自己所需的查全率要求，控制检索面向文功能对概念空间上的每一层分别生成具有联想档的范围，实现分类查询.在文本概念空间的基功能的语义索引，并按其在概念空间中的位置础上构造概念语义空间，是语义检索系统的核构成一个概念语义空间. 心部分.其过程如图2所示基于概念语义空间的文本检索系统具有联 (1)确定在概念空间的某一个层次的某一类想检索功能，被检索概念可连续转换，便于用户上生成语义索引，从文本空间中抽取所有该类查准.联想检索可在当前类的文本内进行，也可包含的文档，以及相关的概念在上一层的文本中进行，便于控制查全率. (2)针对这批文档，对文档中包含的概念（关为了计算任意2个单词在多篇文档中一起键词)通过概念共现率分析，得到任意2个概念出现的可能概率(2个单词的共现率)，使用了簇

北京科技大学学报年第期一个向量，而前面编码的结构向量本身就隐含着自然语言的类别比如标注词是，，… ，刀，用【，，… ，玛厂代表输出获胜神经元的向量表示，，与，是相对应的当、，姚，… ，力时，蝙所对应的关键词即作为获胜神经元的类别标识最后将每一篇的文本归人所属的类别，作为最底层的叶子节点在试验中共得到个底层的类别，每个类别中有几篇文档，提取出的概念为申花、佛罗伦萨、罗马等关键词最后对算法生成底层类别进行聚类，提取出上一层次的概念，完成概念的归并，形成概念空间为完成聚类，首先要计算各类别互相之间的相似系数凡比如以下个类别和的向量用分别用 ‘ ，，… ，玛，，跳，… ，铸表示，则它们的相似系数。卜在求得凡后，可采用模糊数学中的直接聚类法进行类别的聚类由于聚类后的类别还是数字的表示，因此还需从合并的向量中提取出真正的关键询作为标识，即提取出上一层次的概念提取上一层类别标示的策略如下如果类，’ ，归为一类，则构造合并向量 · ，毗，… ，玛，因为向量间维数的最小值代表它们共同属性的权值，也就是说同一关键词在它们之间至少要达到的出现程度，因此严州，州，耐最后求黑，琳，… ，耐 … ，， … ，阵任。，黑所对应的关键词就是合并后类别的标注词至此，生成了文本的概念空间，文本的目录系统形成在试验中将个底层类别聚为个中层类别，并提取出中层的概念如图所示，标示为乌迪内斯、罗马、佛罗伦萨等的个底层类别被聚为一类，并提取出一个中层概念意大利意大利共有篇文本乌迪内斯篇国际米兰拓篇罗马篇佛罗伦萨篇圈文本概念空间的结构电即概念语义空间的建立‘州在文本概念空间生成后，按概念空间的结构分层、分类的建立起具有联想功能的语义索引，然后将语义索引按其在概念空间上的位置构成一个概念语义空间基于概念空间的概念语义空间具有以下优点 ①可以避免聚类过程中出现的噪音干扰，准确性就可以得到保证 ② 生成语义索引，减少了总的计算量而且在文档发生变化时，概念空间只有部分结构随之变化，只需对变化的那部分文档更新语义索引，而无须对其它索引重新计算 ③ 向用户提供友好的界面由于语义索引是有组织有层次的，用户可根据自己所需的查全率要求，控制检索面向文档的范围，实现分类查询在文本概念空间的基础上构造概念语义空间，是语义检索系统的核心部分其过程如图所示确定在概念空间的某一个层次的某一类上生成语义索引，从文本空间中抽取所有该类包含的文档，以及相关的概念针对这批文档，对文档中包含的概念关键词通过概念共现率分析，得到任意个概念概念空间文本空间选定概念层滚面翻函虱一喧瑟溢圈构造概念语义空间的流程卜口一一起出现的可能概率一，将概念作为神经网络的节点，节点间的连接权就是概念共现率，这样就构成了叩神经网络用叩神经网络算法所具有的联想功能对概念空间上的每一层分别生成具有联想功能的语义索引，并按其在概念空间中的位置构成一个概念语义空间基于概念语义空间的文本检索系统具有联想检索功能，被检索概念可连续转换，便于用户查准联想检索可在当前类的文本内进行，也可在上一层的文本中进行，便于控制查全率为了计算任意个单词在多篇文档中一起出现的可能概率个单词的共现率，使用了簇

VoL23 李源等：基于概念语义空间的联想检款 ·579· 分析技术.文档的簇分析过程在一些论文中已上.公布的成果.该系统的词典中现已有116533 有较为详细的论述[3,4.通过文档的簇分析得个中文词组和57000英语单词.知网是一个以到了概念词的语义关联权矩阵.将概念词作为汉语和英语的词语所代表的概念为描述对象，节点，概念词间的共现率作为节点间的连接权，用来揭示以概念与概念之间以及概念所具有的构成了Hopfield神经网络[5,6].当语义索引系统属性之间的关系为基本内容的大型语义词典. 接到用户的一个查询关键词后，Hopfield神经网知网采用义原来表示概念，义原是最基本的、不络联想回忆的输人模式为：易于再分割的意义的最小单位.董振东先生提 X=(KX,…,Xn)=0,X=1其中的节点i为取出了800多个义原，并用它们的组合来表示用户提交的关键词，被激活世上所有的概念.比如对"扭亏为盈"这一概念 Hopfield神经网络中结点i到j之间的连接词，在对它的定义中，用“改变”、“亏损”、“赚” 权值均为界于0.0-l.0的数.Hopfield神经网络这3个义原的组合定义了这个概念：DEF=alter 算法进行联想回忆的方程可写为：改变，Statelni-InDebt亏损，StateFin=earn赚.比较 V,+1)=fΣW,V]0s≤sN-1 (1) 组成2个概念词的义原，如义原完全相同，且义式中，V()为结点i在时间t的输出；N为在数据原的组织方式也相同，则这2个概念词就是同库中的概念（关键词）总数：f为Sigmoid符号函义原词. 数，即：知网还着力描述了概念之间及概念的属性 f.(net)=1/{1+exp[-net-0)]/00) (2) 之间的各种关系，主要包括：(1)上下位关系：(2) 式中，0作为阅值或偏值；6用来修改Sigmoid符同义关系；(3)反义关系，共8种关系，这些关系号函数的形状.该式表现了Hopfield网络并行隐含在知网的概念词典和各个特征文件的描述松弛的特点.通过设置阈值，只有当神经元的输中出超过阅值时，该神经元才能够被激活，这样可基于知网的智能型检索接口的工作流程图以明显地改进系统联想的范围如图3所示.对用户提供的检索需求，首先将其式(1)决定了新的被激活结点的输出值，该处理为字符串，并与语义空间中已有关键词的迭代过程逐渐收敛直到满足式(3)时停止字符申相比较.在经缩写展开、赘字消除方法处 [y+1)-VP≤E 理后，将用户的需求规范化，提交给概念语义空 (3) 间.如用户的需求经上述处理后，仍无法和概念输出结点就是被联想单词经过Hopfield神语义空间中已有概念词相匹配时，则要使用检经网络联想出的概念.在式(3)中，ε为最大允许索词的同义词.如果检索词的同义词仍无法满误差值. 足系统的需要，就要把同义词的概念扩大到同本文取0=0.15,8。=0.03，=1.经过联想回义原词，对照概念词纪录中的概念定义项，可得忆，得到和输人关键词相关的一组关键词，其结到由相同义原组成的同义原词.智能型接口将果构成了索引表符合语义索引要求的同义或同义原词反馈给用 3智能型检索接口户，经用户确认后提交给索引系统由于用户提交的检索词常常与概念语义空检索需求间中的概念词不相符，这会导致系统无法向用在语同义概念户提交结论，需用户自行变换检索词，直到与检同义原概义空在语义空否念在语义索系统所要求的字符串相符.系统的实用性因间电间中、空间中此大大降低.所以语义检索系统应有一个检索是接口，使系统能够主动分析用户提出的检索需狄取查询求，向用户提出即符合用户检索需求又符合索图3智能型检索接口的工作流程图引系统规范的检索关键词.为实现这些功能，给 Fig.3 Flow chart of retrieve interface with intelligent function 系统增加了一个基于大型语义词典一知网的智能型检索接口试验结果及分析知网是董振东先生于1999年初在因特网为了验证Hopfield算法生成语义索引的联

如李源等基于概念语义空间的联想检索一分析技术文档的簇分析过程在一些论文中已有较为详细的论述，通过文档的簇分析得到了概念词的语义关联权矩阵将概念词作为节点，概念词间的共现率作为节点间的连接权，构成了叩神经网络，当语义索引系统接到用户的一个查询关键词后，叩神经网络联想回忆的输人模式为式，… 尤一，，戈其中的节点为用户提交的关键词，被激活神经网络中结点到之间的连接权值均为界于一的数神经网络算法进行联想回忆的方程可写为一盆鱿【叽以〕匀‘ 一式中，以为结点在时间的输出为在数据库中的概念关键词总数为符号函数，即七〔一一」式中，，作为阐值或偏值用来修改符号函数的形状该式表现了网络并行松弛的特点通过设置闭值，只有当神经元的输出超过阐值时，该神经元才能够被激活，这样可以明显地改进系统联想的范围式决定了新的被激活结点的输出值，该迭代过程逐渐收敛直到满足式时停止艺〔以一以，‘ 司输出结点就是被联想单词经过叩神经网络联想出的概念在式中，。为最大允许误差值本文取倪司巧，，二经过联想回忆，得到和输人关键词相关的一组关键词，其结果构成了索引表智能型检索接口由于用户提交的检索词常常与概念语义空间中的概念词不相符，这会导致系统无法向用户提交结论，需用户自行变换检索词，直到与检索系统所要求的字符串相符系统的实用性因此大大降低所以语义检索系统应有一个检索接口，使系统能够主动分析用户提出的检索需求，向用户提出即符合用户检索需求又符合索引系统规范的检索关键词为实现这些功能，给系统增加了一个基于大型语义词典一知网的智能型检索接口知网是董振东先生于年初在因特网公布的成果，该系统的词典中现已有个中文词组和英语单词知网是一个以汉语和英语的词语所代表的概念为描述对象，用来揭示以概念与概念之间以及概念所具有的属性之间的关系为基本内容的大型语义词典知网采用义原来表示概念，义原是最基本的、不易于再分割的意义的最小单位董振东先生提取出了多个义原，并用它们的组合来表示世所有的概念比如对 ” 扭亏为盈 ” 这一概念词，在对它的定义中，用 “ 改变 ” 、 “ 亏损 ” 、 “ 赚 ” 这个义原的组合定义了这个概念改变，亏损，赚比较组成个概念词的义原，如义原完全相同，且义原的组织方式也相同，则这个概念词就是同义原词知网还着力描述了概念之间及概念的属性之间的各种关系，主要包括下位关系同义关系反义关系，共种关系，这些关系隐含在知网的概念词典和各个特征文件的描述中基于知网的智能型检索接口的工作流程图如图所示对用户提供的检索需求，首先将其处理为字符串，并与语义空间中已有关键词的字符串相比较在经缩写展开、赘字消除方法处理后，将用户的需求规范化，提交给概念语义空间如用户的需求经上述处理后，仍无法和概念语义空间中已有概念词相匹配时，则要使用检索词的同义词如果检索词的同义词仍无法满足系统的需要，就要把同义词的概念扩大到同义原词，对照概念词纪录中的概念定义项，可得到由相同义原组成的同义原词智能型接口将符合语义索引要求的同义或同义原词反馈给用户，经用户确认后提交给索引系统倾愁叶、上嗬别狡星曰冲。检索需求获取查询圈铆能型检索接口的工作流程圈代场试验结果及分析为了验证叩算法生成语义索引的联

·580· 北京科技大学学报 2001年第6期想功能，在概念语义空间上选取足球总类，对其入单词“奥林匹”后，系统首先经缩写展开将输包含的876个概念词依次作了联想，联想的结果人定义为“奥林匹克”，并找到其同义词“奥运” 如下：输人一大连实德，可联想到北京国安、 “奥运会” 海牛、山东鲁能、四川全兴；输人一罗马，可联想到国际米兰、拉齐奥、意大利、佛罗伦萨、尤文 5 结束语图斯、意甲、中田英寿，等等试验证明基于概念空间和概念语义空间、绝大部分概念词与联想出的概念词语义相并具有智能检索接口的文本语义检索系统有传关度非常高，符合实际情况，并对原文档进行了对照后发现，在文档中这些词的共现率确实很统检索系统所不具有的优势，可以大大提高了用户的检索效率和准确度.该联想检索的准确高，联想检索功能的准确性得到了验证性可以得到保证，检索的查全率、查准率都很理在对58个无法联想的概念词进行研究后，想.其智能型检索接口在用户输入关键词后，可发现绝大多数该类词仅在几篇文档中出现过很少的几次，因此未能与其他概念词构成联想.由以迅速做出反应，向用户提出正确的、具有建设性的建议，具有一定的智能和互动功能. 于这些词都不是检索时的常用关键词，因此不影响索引的查全率.再对足球总类下的子类甲参考文献 A类进行了同样的试验，其结果与上述结果比 I Juha Vesanto,Esa Alhoniemi.Clustering of the Self-Or- 较，一些与甲A关联不大的词联想出的概念词 ganizing Map;IEEE Transactions on Neural Networks, 大量减少，而能联想出的结果大多与该子类（甲 May,2000,11(3): A类)的内容有关，其准确性有所提高.即检索 2罗承忠模糊集引论（上册），北京：北京师范大学出版杜，1989 的查全率有所下降，但查准率有所上升 3 Salton G.Automatic Text Processing,Reading.MA:Addi- 对智能检索接口进行了测试，查找出的同 son-Wesley Publishing Company,Inc,1989 义词或同义原词间的语义十分接近，如“奥运 4 Gerard Salton,James Allan,Chris Buckley.Automatic 会”和“奥林匹克”，“奥林匹亚”、“奥运”为同义 Structuring and Retreval of Large Text Files.CACM, 1994.37(2:97 词，扩大同义的范围，查找出的同义原词还有 5 Chen H,Hsu P,Orwig L,et al.Automatic Concept Classi- “冬运会”“亚运会”“冬奥会”等.我们对876个 fication of Text from Electronic Meetings.Communic At- 概念词依次查找其同义词及同义原词，共找到 ions of the ACM,1994,37(10):56 不交叉的7626个词.如果考虑到使用缩写展开、 6 Chen H.Concept Space Approach to Addressing the Vo- 赘字消除的方法，该系统可以对上万个用户提 cabulary Problem in Scientific Information Retrieval:An 出的检索关键词做出响应，并在索引系统中的 Experiment on the Worm Community System.J American 876概念词中找到语义最接近的概念词.如输 Soc Information Science,1997,48(6):17 Association Retrieve Based On Concept Semantic Space LI Yuan",HE Qing".SHI Zhongzhi 1)Graduate School,Chinese University of Science and Technology.Beijing 100039,China 2)The Laboratory of Intelligent Information Processing,Institute of Computing Technology.Chinese Academy of Sciences,Beijing.100080,China ABSTRACT In order to satisfy the user's retrieve need promptly and accurately,and retrieve the informa- tion which the user need from a lot of text files,firstly a concept semantic space based on concept space of documents is established,then based on it establish an index system with the association function;secondly a retrieve interface with intelligent function based on large semantic dictionary was made for the system.The re- trieve interface can analysis the keyword that user input,and make sure user's really retrieve needing.Accord- ing to the results of experimentation,it is clear that the retrieve efficiency and accuracy has been improved using this method. KEY WORDS concept space;hopfield neural net;hownet;semantic space

北京科技想功能，在概念语义空间卜选取足球总类，对其包含的个概念词依次作了联想，联想的结果如下输人— 大连实德，可联想到北京国安、海牛、山东鲁能、四川全兴输人— 罗马，可联想到国际米兰、拉齐奥、意大利、佛罗伦萨、尤文图斯、意甲、中田英寿，等等绝大部分概念词与联想出的概念词语义相关度非常高，符合实际情况，并对原文档进行了对照后发现，在文档中这些词的共现率确实很高，联想检索功能的准确性得到了验证在对个无法联想的概念词进行研究后，发现绝大多数该类词仅在几篇文档中出现过很少的几次，因此未能与其他概念词构成联想由于这些词都不是检索时的常用关键词，因此不影响索引的查全率再对足球总类下的子类甲类进行了同样的试验，其结果与述结果比较，一些与甲关联不大的词联想出的概念词大量减少，而能联想出的结果大多与该子类甲类的内容有关，其准确性有所提高即检索的查全率有所下降，但查准率有所上升对智能检索接口进行了测试，查找出的同义词或同义原词间的语义十分接近，如 “ 奥运会 ” 和 “ 奥林匹克 ” 、 “ 奥林匹亚 ” 、 “ 奥运 ” 为同义词，扩大同义的范围，查找出的同义原词还有 “ 冬运会 ” “ 亚运会 ” “ 冬奥会 ” 等我们对个概念词依次查找其同义词及同义原词，共找到不交叉的个词如果考虑到使用缩写展开、赘字消除的方法，该系统可以对上万个用户提出的检索关键词做出响应，并在索引系统中的概念词中找到语义最接近的概念词如输大学学报年第期人单词 “ 奥林匹 ” 后，系统首先经缩写展开将输入定义为 “ 奥林匹克 ” ，并找到其同义词 “ 奥运 ” “ 奥运会 ” 结束语试验证明基于概念空间和概念语义空间、并具有智能检索接口的文本语义检索系统有传统检索系统所不具有的优势，可以大大提高了用户的检索效率和准确度该联想检索的准确性可以得到保证，检索的查全率、查准率都很理想其智能型检索接口在用户输人关键词后，可以迅速做出反应，向用户提出正确的、具有建设性的建议，具有一定的智能和互动功能参考文献， · ，，罗承忠模糊集引论上册，北京北京师范大学出版社，，助 · 一七 ‘ ，甘，，叱 · 、，，，，抽，，垃即，，伙刀石心气及汀岁尹比，，，，吨介，嗦即，，以洲，，， ” ，，，，，面

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

基于概念语义空间的联想检索