北京科技大学学报年第期一个向量，而前面编码

正在加载图片...

·578· 北京科技大学学报 2001年第6期一个向量，而前面编码的结构向量本身就隐含聚类法进行类别的聚类.由于聚类后的类别还着自然语言的类别.比如标注词是(word, 是数字的表示，因此还需从合并的向量中提取 word,,word),用Vect[w,wz,,w,]T代表输出获出真正的关键词作为标识，即提取出上一层次胜神经元的向量表示，w,与word是相对应的.当的概念. wa=max(w,wz,,wp)时，w所对应的关键词即提取上一层类别标示的策略如下：如果类作为获胜神经元的类别标识.最后将每一篇的 ,j,k归为一类，则构造合并向量clusterm(w, 文本归入所属的类别，作为最底层的叶子节点. w,,w),因为向量间维数的最小值代表它们共在试验中共得到216个底层的类别，每个类别同属性的权值，也就是说同一关键词在它们之中有几篇文档，提取出的概念为申花、佛罗伦间至少要达到的出现程度，因此w=min(w,w, 萨、罗马等关键词. w).最后求w==max(w,w2,,wp(w,w,…,w, (3)最后对SOM算法生成底层类别进行聚 ∈clusterm),w所对应的关键词就是合并后类别类，提取出上一层次的概念，完成概念的归并，的标注词.至此，生成了文本的概念空间，文本形成概念空间.为完成聚类，首先要计算各类别的目录系统形成.在试验中将216个底层类别互相之间的相似系数R.比如以下2个类别i和聚为86个中层类别，并提取出中层的概念.如 j的向量用分别用cluster,,(w,w,,w,),cluster(w, 图1所示，标示为乌迪内斯、罗马、佛罗伦萨等 w,,w）表示，则它们的相似系数Rg=cluster- 的6个底层类别被聚为一类，并提取出一个中 cluster.在求得Ry后，可采用模糊数学中的直接层概念：意大利意大利（共有26篇文本）乌迪内斯(7篇) 国际米兰(6篇) 罗马(3篇) 佛罗伦萨(3篇) 巴蒂斯图驿(2篇)意甲(5篇) 图1文本概念空间的结构 Fig.1 The structure of text conception space 概念空间选定概念层 2概念语义空间的建立文本空间文本抽取在文本概念空间生成后，按概念空间的结 [概念抽取构分层、分类的建立起其有联想功能的语义索 [共现分析引，然后将语义索引按其在概念空间上的位置慨念语义空间一建立语义索引构成一个概念语义空间.基于概念空间的概念语义空间具有以下优点：①可以避免聚类过程围1构造概念语义空间的流程 Fig.2 The flow chart of establish conception semantic space 中出现的噪音干扰，准确性就可以得到保证.② 生成语义索引，减少了总的计算量.而且在文档一起出现的可能概率(Co-occurrence probability), 发生变化时，概念空间只有部分结构随之变化，将概念作为神经网络的节点，节点间的连接权只需对变化的那部分文档更新语义索引，而无就是概念共现率，这样就构成了Hopfield神经须对其它索引重新计算.③向用户提供友好的网络界面.由于语义索引是有组织有层次的，用户可 (3)用Hopfield神经网络算法所具有的联想根据自己所需的查全率要求，控制检索面向文功能对概念空间上的每一层分别生成具有联想档的范围，实现分类查询.在文本概念空间的基功能的语义索引，并按其在概念空间中的位置础上构造概念语义空间，是语义检索系统的核构成一个概念语义空间. 心部分.其过程如图2所示基于概念语义空间的文本检索系统具有联 (1)确定在概念空间的某一个层次的某一类想检索功能，被检索概念可连续转换，便于用户上生成语义索引，从文本空间中抽取所有该类查准.联想检索可在当前类的文本内进行，也可包含的文档，以及相关的概念在上一层的文本中进行，便于控制查全率. (2)针对这批文档，对文档中包含的概念（关为了计算任意2个单词在多篇文档中一起键词)通过概念共现率分析，得到任意2个概念出现的可能概率(2个单词的共现率)，使用了簇北京科技大学学报年第期一个向量，而前面编码的结构向量本身就隐含着自然语言的类别比如标注词是，，… ，刀，用【，，… ，玛厂代表输出获胜神经元的向量表示，，与，是相对应的当、，姚，… ，力时，蝙所对应的关键词即作为获胜神经元的类别标识最后将每一篇的文本归人所属的类别，作为最底层的叶子节点在试验中共得到个底层的类别，每个类别中有几篇文档，提取出的概念为申花、佛罗伦萨、罗马等关键词最后对算法生成底层类别进行聚类，提取出上一层次的概念，完成概念的归并，形成概念空间为完成聚类，首先要计算各类别互相之间的相似系数凡比如以下个类别和的向量用分别用 ‘ ，，… ，玛，，跳，… ，铸表示，则它们的相似系数。卜在求得凡后，可采用模糊数学中的直接聚类法进行类别的聚类由于聚类后的类别还是数字的表示，因此还需从合并的向量中提取出真正的关键询作为标识，即提取出上一层次的概念提取上一层类别标示的策略如下如果类，’ ，归为一类，则构造合并向量 · ，毗，… ，玛，因为向量间维数的最小值代表它们共同属性的权值，也就是说同一关键词在它们之间至少要达到的出现程度，因此严州，州，耐最后求黑，琳，… ，耐 … ，， … ，阵任。，黑所对应的关键词就是合并后类别的标注词至此，生成了文本的概念空间，文本的目录系统形成在试验中将个底层类别聚为个中层类别，并提取出中层的概念如图所示，标示为乌迪内斯、罗马、佛罗伦萨等的个底层类别被聚为一类，并提取出一个中层概念意大利意大利共有篇文本乌迪内斯篇国际米兰拓篇罗马篇佛罗伦萨篇圈文本概念空间的结构电即概念语义空间的建立‘州在文本概念空间生成后，按概念空间的结构分层、分类的建立起具有联想功能的语义索引，然后将语义索引按其在概念空间上的位置构成一个概念语义空间基于概念空间的概念语义空间具有以下优点 ①可以避免聚类过程中出现的噪音干扰，准确性就可以得到保证 ② 生成语义索引，减少了总的计算量而且在文档发生变化时，概念空间只有部分结构随之变化，只需对变化的那部分文档更新语义索引，而无须对其它索引重新计算 ③ 向用户提供友好的界面由于语义索引是有组织有层次的，用户可根据自己所需的查全率要求，控制检索面向文档的范围，实现分类查询在文本概念空间的基础上构造概念语义空间，是语义检索系统的核心部分其过程如图所示确定在概念空间的某一个层次的某一类上生成语义索引，从文本空间中抽取所有该类包含的文档，以及相关的概念针对这批文档，对文档中包含的概念关键词通过概念共现率分析，得到任意个概念概念空间文本空间选定概念层滚面翻函虱一喧瑟溢圈构造概念语义空间的流程卜口一一起出现的可能概率一，将概念作为神经网络的节点，节点间的连接权就是概念共现率，这样就构成了叩神经网络用叩神经网络算法所具有的联想功能对概念空间上的每一层分别生成具有联想功能的语义索引，并按其在概念空间中的位置构成一个概念语义空间基于概念语义空间的文本检索系统具有联想检索功能，被检索概念可连续转换，便于用户查准联想检索可在当前类的文本内进行，也可在上一层的文本中进行，便于控制查全率为了计算任意个单词在多篇文档中一起出现的可能概率个单词的共现率，使用了簇

<<向上翻页向下翻页>>

点击下载：基于概念语义空间的联想检索