第卷第 ‘ 期年月北京科技大学学报毛沈盯匕

正在加载图片...

D0I:10.13374/i.issn1001-053x.2001.06.028 第23卷第6期北京科技大学学报 Vol.23 No.6 2001年12月 Journal of University of Science and Technology Beijing Dec.2001 基于概念语义空间的联想检索李源”何清”史忠植) 1)中国科技大学研究生院计算机学部，北京1000392)中科院十算技术研究所智能信息处理开放实验室，北京100080 摘要为了快速准确地满足用户提出的检索需要，在大量的文本文件中检索出用户真正所需的信息，首先在文本的概念空间上建立了概念语义空间并以此为基础建立.了一个具有联想功能的索引系统，其次运用大型语义词典为用户提供了一个智能型检索接口.该接口能主动分析使用者输人的关键问，并确定使用者的实际检索需求，这种检索系统能够大大提高用户的检素效率和准确度，关铺闻概念空间：Hopfield神经网络：知树：语义空间中图分类号TP391.3 目前信息检索方法主要是基于关键词来检结构，可用树型结构表示.其叶子节点是一篇篇索信息，此方法有2个缺陷：一是检索结果只是文档，各层的根节点是一个个从文档中提取出在字面上符合用户的要求，实际内容往往偏离的概念，用一个概括其子节点共同特征的关键用户的实际需要：二是用户输入的在询词稍有词表示.这种概念空间与月录的性质有些相同，偏差，检索系统就无法确定用户的真需要，因但它是机器通过学习，由下而上自动生成，而不而无法提交正确的结果是由人逐层分类、自上而下构成的.生成概念本文研究的主要内容是：建立文本的概念空间的具体过程如下，空间和概念语义空间，生成具有联想检索功能 ()首先对文本进行编码预处理，以实现数的语义索引：建立智能型的检索接口，实现文本学抽象.本文从FM365网站上选取了1100篇语义检索系统.该语义检索系统将大型语义词足球类文档，采用传统的向量空间的模型对文典一知网应用在用户检索接口上，为系统建章进行编码.由于向量的维数是由所有文本生立了智能型检索接口.接口可对用户输入的查成的使用词集的个数来决定，因此首先要确定询关键词进行自动判断，利用缩写展开，赘字消 ·个使用词集.在对文本经过切词、分词、滤去除方法，自动转换成适合查询的字符串，并可将停用词后，采用IDF(Inverse Document Fre- 关键词分解到义原的层次，实现关键词的同义 quency)算法对词集进行优化，得到最终的使用原联想功能.语义检索系统对用户提出检索需词集（本次试验得到876个词）. 求，通过基于大型语义词典（知网）的检索接口 (2)通过自组织特征映射SOM算法进行文进行规范化，形成概念语义空间可接受的查询本聚类，并完成类别的标示及概念的自动生成. 式，提交给语义索引部分，检索出相关的文本作 SOM是一种无监督的自学y过程，它把n维输为检索结果提交给用户.此检索系统有效地解人空间映射成（输出层神经元的）一维或二维阵决了基于关键词的文本检索系统的2个弊病，列.对应到文本聚类的过程中，每个输人向量就并具有查准率高、符合检索习惯等许多优势. 是编码后的文本，而向量的每维都代表一个关 1从文本中提取概念键词，其具体的数值是归一化后的词频数.在进行SOM计算后，就生成I个二维的映射图，其 SOM算法对文本进行聚类，并提取出概念，中每1点对应1个类别. 概念归并后形成文档的概念空间概念空间为了获得自然语言的类别标识，采用以下是指对文档自然聚类后所得的一种概念的层次策略：从每个神经元节点的向量中取向量维的最大值对应的关键词作为此类的标注，也就是收稿日期20010804李源明，28岁，研究牛 *国家自然科学基金资助课题(No.60073019:69803010) 生成了这个类别的概念.这是由于每个点又是第卷第 ‘ 期年月北京科技大学学报毛沈盯匕基于概念语义空间的联想检索李源 ” 何清，史忠植 ” 中国科技大学研究生院计算机学部，北京中科院计算技术研究所智能信息处理开放实验室，北京摘要为了快速准确地满足用户提出的检索需要，在大量的文本文件中检索出用户真正所需的信息，首先在文本的概念空间建立了概念语义空间并以此为基础建 ’ 一个具有联想功能的索引系统，其次运用大型语义词典为用户提供一个智能型检索接口该接口能主动分析使用者输入的关键同，并确定使用者的实际检索需求这种检索系统能够大大提高用户的检索效率和准确度关甘词概念空间叩神经网络知网语义空间中图分类号目前信息检索方法主要是基于关键词来检索信息，此方法有个缺陷一是检索结果只是在字面上符合用户的要求，实际内容往往偏离用户的实际需要二是用户输人的查询词稍有偏差，检索系统就无法确定用户的真正需要，因而无法提交正确的结果本文研究的主要内容是建立文本的概念空间和概念语义空间，生成具有联想检索功能的语义索引建立智能型的检索接口，实现文本语义检索系统该语义检索系统将大刑语义词典— 知网应用在用户检索接口几，为系统建立了智能型检索接口接口可对川户输人的查询关键词进行自动判断，利用缩写展「、赘字消除方法，自动转换成适合查询的字符串，并叮将关键词分解到义原的层次，实现关键词的同义原联想功能语义检索系统对用户提出检索需求，通过基于大型语义词典知网的检索接口进行规范化，形成概念语义空间可接受的查询式，提交给语义索引部分，检索出相关的文本作为检索结果提交给用户此检索系统有效地解决了基于关键词的文本检索系统的个弊病，并具有查准率高、符合检索习惯等许多优势从文本中提取概念算法对文本进行聚类，并提取出概念，概念归并后形成文档的概念空间 ’ 一，’ 概念空间是指对文档自然聚类后所得的一种概念的层次收稿日期刁刁李源男，岁研究牛国家自然科学基金资助课题石结构，可用树型结构表示其叶子节点是一篇篇文档，各层的根节点是一个个从文档中提取出的概念，用一个概括其子节点共同特征的关键词表示这种概念空间与目录的性质有些相同，但它是机器通过学习，由下而上自动生成，而不是由人逐层分类、自卜而下构成的生成概念空间的具体过程如下首先对文本进行编码预处理，以实现数学抽象本文从网站上选取了篇足球类文档，采用传统的向量空间的模型对文章进行编码由于向量的维数是由所有文本生成的使用词集的个数来决定，因此首先要确定 ‘ 个使用词集在对文本经过切词、分词、滤去停用词后，采用算法对词集进行优化，得到最终的使用同集本次试验得到个词通过自组织特征映射算法 ‘” 进行文本聚类，并完成类别的标示及概念的自动生成是一种无监督的自学刁过程，它把维输人空间映射成输出层神经元的一维或二维阵列对应到文本聚类的过程中，每个输人向量就是编码后的文本，而向量的每维都代表一个关键词，其具体的数值是归一化后的词频数在进行计算后，就生成个二维的映射图，其中每点对应个类别为了获得自然语言的类别标识，采用以下策略从每个神经元节点的向量中取向量维的最大值对应的关键词作为此类的标注，也就是生成了这个类别的概念这是由于每个点又是 DOI ：10．13374／j ．issn1001—53x．2001．06．028

向下翻页>>

点击下载：基于概念语义空间的联想检索