【脑认知基础】计算机模拟汉字字形认知过程的研究

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.04MB

第3卷第3期智能系统学报 Vol 3 Na 3 2008年6月 CAAI Transactions on Intelligent Systems Jun 2008 计算机模拟汉字字形认知过程的研究陈静穆志纯，孙筱倩 d北京科技大学信息工程学院，北京100083) 摘要：对汉字的认知研究不仅是认知科学、也是计算机科学特别是人工智能领域中的一个研究热点.但是，目前汉字认知的计算机模拟研究还相对滞后，其在认知科学研究中的作用还无法和行为实验研究等同.从认知科学的角度出发，建立汉字字形表征库，构建模型，确定训练和测试方式等，对汉字字形认知过程（学习发展历程）中汉字聚类与部件拆分意识进行了计算机模拟，以便研究汉字字形学习中的某些认知规律.通过对模型的训练与测试，得到了输入汉字的聚类效果图、部件拆分情况，以及对模型进行生字测试的结果.得出的结果能够反映某些汉字认知的规律，所以模型在一定程度上模拟了汉字字形的认知过程. 关键词：认知科学；人工智能；汉字认知；计算机模拟；自组织模型中图分类号：TP391.1文献标识码：A文章编号：16734785(2008)03021606 Computer smultion of the cogn ition of Chnese characters CHEN Jing,MU Zhi-chun,SUN Xiao-qian (School of Inomation Engineering.University of Science and Technobgy Beijing,Beijing 100083,China) Abstract:Research on the cognition of Chinese characters is a hotspot in both cognitive science and computer sci- ence,and is an especially lively field among those investigating artificial intelligence In spite of this,research u- sing computer smulations to analyze Chinese character cognition remains relatively backward,and its value in cog- nition studies has not been comparable with expermental research on behavior In this paper,starting fiom the viewpoint of cognition science,a representative database of Chinese characters was set up,a cognitive model con- structed,and training and testing modes detem ined Computer smulations were made of the clustering and split- ting of Chinese characters in the course of cognition,so that cognition rules for the percep tion of Chinese characters may be better understood The model was based on a multi-layer selforganizing neural network This training and testing method ensured that we knew how the Chinese characters were clustered and split during analysis so that the recognition of unknown words could be achieved The research outcome suggests cognition rules for recognizing Chi nese characters,mp lying that the proposed model does smulate the cogniton process for Chinese characters Keywords:cognitive science;artificial intelligence,Chinese characters cognition;computer smulation,selforgan- ized model 21世纪被认为是生命科学的世纪，生命科学的用认知科学的观点和方法，研究语言习得中汉字信核心内容之一是对大脑的研究和探索.语言是反映息的输入、储存、内部加工和输出等过程.不少学者人脑信息处理能力的高级功能，因此，阐明语言加工认为，利用汉字的一些特点进行相应的研究有可能的信息处理机制对揭示人脑的奥秘具有重要意义. 澄清目前国际上关于言语加工机制中一些重要的争汉字是中国特有的表意文字，在形、音、义加工方面论，对认知科学的发展具有重要意义川.目前，随着与西方拼音文字有很大不同，研究汉字认知就是应认知科学的发展，汉字的认知研究取得了一些新的进步，比如从认知神经科学的角度，采用脑成像技术收稿日期：2007-10-26 对汉字认知脑机制的研究等2，.但是，将计算机科基金项目：北京市教委重点学科共建基金资助项目(XK100080537): 北京语言大学规划资助项目(04GH01). 学与认知心理学相结合所进行的汉字认知研究并不通讯作者：陈静.Emai止hear931@163.cm 多见 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第 3卷第 3期智能系统学报 Vol. 3 №. 3 2008年 6月 CAA I Transactions on Intelligent System s Jun. 2008 计算机模拟汉字字形认知过程的研究陈静 ,穆志纯 ,孙筱倩 (北京科技大学信息工程学院 ,北京 100083) 摘要 :对汉字的认知研究不仅是认知科学、也是计算机科学特别是人工智能领域中的一个研究热点. 但是 ,目前汉字认知的计算机模拟研究还相对滞后 ,其在认知科学研究中的作用还无法和行为实验研究等同. 从认知科学的角度出发 ,建立汉字字形表征库 ,构建模型 ,确定训练和测试方式等 ,对汉字字形认知过程 (学习发展历程 )中汉字聚类与部件拆分意识进行了计算机模拟 ,以便研究汉字字形学习中的某些认知规律. 通过对模型的训练与测试 ,得到了输入汉字的聚类效果图、部件拆分情况 ,以及对模型进行生字测试的结果. 得出的结果能够反映某些汉字认知的规律 , 所以模型在一定程度上模拟了汉字字形的认知过程. 关键词 :认知科学 ;人工智能 ;汉字认知 ;计算机模拟 ;自组织模型中图分类号 : TP391. 1 文献标识码 : A 文章编号 : 167324785 (2008) 0320216206 Computer simulation of the cognition of Chinese characters CHEN Jing, MU Zhi2chun, SUN Xiao2qian ( School of Information Engineering, University of Science and Technology Beijing, Beijing 100083, China) Abstract:Research on the cognition of Chinese characters is a hotspot in both cognitive science and computer sci2 ence, and is an especially lively field among those investigating artificial intelligence. In sp ite of this, research u2 sing computer simulations to analyze Chinese character cognition remains relatively backward, and its value in cog2 nition studies has not been comparable with experimental research on behavior. In this paper, starting from the viewpoint of cognition science, a rep resentative database of Chinese characters was set up, a cognitive model con2 structed, and training and testing modes determ ined. Computer simulations were made of the clustering and sp lit2 ting of Chinese characters in the course of cognition, so that cognition rules for the percep tion of Chinese characters may be better understood. The model was based on a multi2layer self2organizing neural network. This training and testing method ensured thatwe knew how the Chinese characterswere clustered and sp lit during analysis so that the recognition of unknown words could be achieved. The research outcome suggests cognition rules for recognizing Chi2 nese characters, imp lying that the p roposed model does simulate the cognition p rocess for Chinese characters. Keywords: cognitive science; artificial intelligence; Chinese characters cognition; computer simulation; self2organ2 ized model 收稿日期 : 2007210226. 基金项目 :北京市教委重点学科共建基金资助项目 (XK100080537) ; 北京语言大学规划资助项目 (04GH01). 通讯作者 :陈静. E2mail: heart931@163. com. 21世纪被认为是生命科学的世纪 ,生命科学的核心内容之一是对大脑的研究和探索. 语言是反映人脑信息处理能力的高级功能 ,因此 ,阐明语言加工的信息处理机制对揭示人脑的奥秘具有重要意义. 汉字是中国特有的表意文字 ,在形、音、义加工方面与西方拼音文字有很大不同 ,研究汉字认知就是应用认知科学的观点和方法 ,研究语言习得中汉字信息的输入、储存、内部加工和输出等过程. 不少学者认为 ,利用汉字的一些特点进行相应的研究有可能澄清目前国际上关于言语加工机制中一些重要的争论 ,对认知科学的发展具有重要意义 [ 1 ] . 目前 ,随着认知科学的发展 ,汉字的认知研究取得了一些新的进步 ,比如从认知神经科学的角度 ,采用脑成像技术对汉字认知脑机制的研究等 [ 2 ] . 但是 ,将计算机科学与认知心理学相结合所进行的汉字认知研究并不多见

第3期陈静，等：计算机模拟汉字字形认知过程的研究 ·217 尽管有关汉字认知的研究已经取得了一些成拟研究的目的不仅仅在于验证行为实验的结果，更果，但也有不少问题有待深入.这些问题不仅有汉字重要的是获得一些行为实验无法获得的结果认知规律各方面的内容，也包括了研究的方法和研从语言习得的应用角度来看，计算机模拟汉字究的角度.目前，在从认知心理学角度出发的汉字认认知过程的研究，能够发现汉字认知过程中的规律，知研究中，大多采用归纳式或经验式的行为实验方对汉字、汉语的教学及促进中外文化的交流也有积法，虽然能得到某些认知规律，但这些方法对数据需极的意义求量大、实验时间长、重复性差、局限性明显、且缺乏 2 对复杂认知规律的预测作用。随着计算机科学的发研究内容展，从认知心理学的角度出发，构建汉字认知过程的本课题旨在从认知心理学的角度出发，研究汉计算机模型，来研究汉字认知规律是汉字认知研究字字形认知过程的计算机模拟问题.建立模型要体的一个新途径.但是，目前相关的计算机模拟研究还现对汉字字形认知过程研究的特点，不像只是一般相对滞后，其在认知科学研究中的作用还无法与行的简单映射，对过程、中间结果等问题也要研究，所为实验等同.因此，根据汉字的认知心理学特点，建以在建立模型时要考虑到这些情况立计算机模型对汉字认知的信息加工过程进行深入根据汉字字形认知本身的特点，采用无监督学研究是必要的习的自组织特征映射网络(selforganizing feature 综上，汉字认知是现代认知科学的一个重要研 m即)，建立了汉字聚类及部件拆分模型.不只研究究领域.本研究通过建立计算机认知模型的方法，研汉字认知的结果，还要研究模拟汉字认知的信息加究汉字认知过程中的字形认知问题，期望能从新的工过程，从而对汉字认知心理机制进行描述和刻画，角度揭示汉字认知过程中的信息加工机制和规律. 21汉字聚类及部件拆分模型 21.1汉字及部件的表征 1 研究意义如何对汉字字形进行表征，是汉字认知过程的 1)认知心理学领域的传统研究方法多为归纳计算机模拟研究的关键，因为它是给模型提供输入实验和经验实验，这些实验局限性明显，需要大量的信息的方法和途径.表征方法不仅能够表征汉字的人员配合，大量的实验和统计时间，而且实验的可重结构规律，而且能够体现学习者汉字认知过程的特复性差.计算机模拟的研究方法不同，可以根据已掌征.但是目前这方面的研究很少，这可能是由于汉字握的认知心理学知识构建计算机模型，在较短的时字形的复杂性造成的间内，模拟出人类需要在较长时间内才能获得的知本研究中，汉字字形表征采用文献[3和文献识与技能，以便于探索认知过程的规律.而通过得到【4]中的表征方案，其汉字与部件的表征架构如图1 的计算机模拟结果，还可以更加深入地对认知行为所示.此表征方案的特点有：在结构上充分体现了在实验的结果进行分析并给出合理的解释.计算机模整字表征框架下的部件表征，表现了汉字结构的层拟还可以对某些认知现象（如不同汉字类型的自组次性：充分考虑到汉字认知的特点，如汉字字形的视织现象)的发生进行预测」觉特征以及部件构字位置的特征，有利于研究汉字 2)汉字字形认知过程的计算机模拟研究，对反字形认知的特点和过程：基于汉字字形信息统计的映字形的心理过程进行模拟，来表现汉字的认知特表征方法，是在客观分析汉字字形特征分布的基础征.而结合认知心理学的研究成果，提取汉字识别特上表征汉字字形的.由此提取和处理上述表征方案征，可以节省整字匹配处理的时间，也将有利于机器的表征库中的数据，并建立汉字与其对应部件表征自动识别汉字技术的发展」中的对应关系，作为输入数据进行计算机模拟汉字 3)行为实验在汉字认知研究中目前仍占有很字形认知过程的研究重要的地位，但是计算机模拟研究不仅在某种程度汉字结构汉字部件部件局部部件笔画表征1*9 数量1*9 结构1*9 关系1*7 上可以等同于行为实验研究，而且可能摆脱以行为非成字部佣部件视觉部件的部件笔画实验为主的研究方法的局限性.比如说可以随时改位置1*11 征36*10 笔形1*5 数1*16 变训练方法，检测不同训练方法对学习结果的影响：成字部件部件排列可以损伤任何一个部分的表征或形、音、义之间任何位置*m 方式1*7 的联结来模拟汉字认知过程中的阅读困难现象等，图1汉字与部件表征架构示意图这些都是行为实验无法实现的.因此，进行计算机模 Fig 1 Representations of Chinese characters and components 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net

尽管有关汉字认知的研究已经取得了一些成果 ,但也有不少问题有待深入. 这些问题不仅有汉字认知规律各方面的内容 ,也包括了研究的方法和研究的角度. 目前 ,在从认知心理学角度出发的汉字认知研究中 ,大多采用归纳式或经验式的行为实验方法 ,虽然能得到某些认知规律 ,但这些方法对数据需求量大、实验时间长、重复性差、局限性明显、且缺乏对复杂认知规律的预测作用。随着计算机科学的发展 ,从认知心理学的角度出发 ,构建汉字认知过程的计算机模型 ,来研究汉字认知规律是汉字认知研究的一个新途径. 但是 ,目前相关的计算机模拟研究还相对滞后 ,其在认知科学研究中的作用还无法与行为实验等同. 因此 ,根据汉字的认知心理学特点 ,建立计算机模型对汉字认知的信息加工过程进行深入研究是必要的. 综上 ,汉字认知是现代认知科学的一个重要研究领域. 本研究通过建立计算机认知模型的方法 ,研究汉字认知过程中的字形认知问题 ,期望能从新的角度揭示汉字认知过程中的信息加工机制和规律. 1 研究意义 1)认知心理学领域的传统研究方法多为归纳实验和经验实验 ,这些实验局限性明显 ,需要大量的人员配合 ,大量的实验和统计时间 ,而且实验的可重复性差. 计算机模拟的研究方法不同 ,可以根据已掌握的认知心理学知识构建计算机模型 ,在较短的时间内 ,模拟出人类需要在较长时间内才能获得的知识与技能 ,以便于探索认知过程的规律. 而通过得到的计算机模拟结果 ,还可以更加深入地对认知行为实验的结果进行分析并给出合理的解释. 计算机模拟还可以对某些认知现象 (如不同汉字类型的自组织现象 )的发生进行预测. 2)汉字字形认知过程的计算机模拟研究 ,对反映字形的心理过程进行模拟 ,来表现汉字的认知特征. 而结合认知心理学的研究成果 ,提取汉字识别特征 ,可以节省整字匹配处理的时间 ,也将有利于机器自动识别汉字技术的发展. 3)行为实验在汉字认知研究中目前仍占有很重要的地位 ,但是计算机模拟研究不仅在某种程度上可以等同于行为实验研究 ,而且可能摆脱以行为实验为主的研究方法的局限性. 比如说可以随时改变训练方法 ,检测不同训练方法对学习结果的影响 ; 可以损伤任何一个部分的表征或形、音、义之间任何的联结来模拟汉字认知过程中的阅读困难现象等 , 这些都是行为实验无法实现的. 因此 ,进行计算机模拟研究的目的不仅仅在于验证行为实验的结果 ,更重要的是获得一些行为实验无法获得的结果. 从语言习得的应用角度来看 ,计算机模拟汉字认知过程的研究 ,能够发现汉字认知过程中的规律 , 对汉字、汉语的教学及促进中外文化的交流也有积极的意义. 2 研究内容本课题旨在从认知心理学的角度出发 ,研究汉字字形认知过程的计算机模拟问题. 建立模型要体现对汉字字形认知过程研究的特点 ,不像只是一般的简单映射 ,对过程、中间结果等问题也要研究 ,所以在建立模型时要考虑到这些情况. 根据汉字字形认知本身的特点 ,采用无监督学习的自组织特征映射网络 ( self2organizing feature map) ,建立了汉字聚类及部件拆分模型. 不只研究汉字认知的结果 ,还要研究模拟汉字认知的信息加工过程 ,从而对汉字认知心理机制进行描述和刻画. 2. 1 汉字聚类及部件拆分模型 2. 1. 1 汉字及部件的表征如何对汉字字形进行表征 ,是汉字认知过程的计算机模拟研究的关键 ,因为它是给模型提供输入信息的方法和途径. 表征方法不仅能够表征汉字的结构规律 ,而且能够体现学习者汉字认知过程的特征. 但是目前这方面的研究很少 ,这可能是由于汉字字形的复杂性造成的. 本研究中 ,汉字字形表征采用文献 [ 3 ]和文献 [ 4 ]中的表征方案 ,其汉字与部件的表征架构如图 1 所示. 此表征方案的特点有 :在结构上充分体现了在整字表征框架下的部件表征 ,表现了汉字结构的层次性 ;充分考虑到汉字认知的特点 ,如汉字字形的视觉特征以及部件构字位置的特征 ,有利于研究汉字字形认知的特点和过程 ;基于汉字字形信息统计的表征方法 ,是在客观分析汉字字形特征分布的基础上表征汉字字形的. 由此提取和处理上述表征方案的表征库中的数据 ,并建立汉字与其对应部件表征中的对应关系 ,作为输入数据进行计算机模拟汉字字形认知过程的研究. 图 1 汉字与部件表征架构示意图 Fig. 1 Rep resentations of Chinese characters and components 第 3期陈静 ,等 :计算机模拟汉字字形认知过程的研究 · 712 ·

·218· 智能系统学报第3卷图1中，每一个方框代表在汉字字形中需要表示局部反馈；在大脑处理信息的过程中，聚类(Cluste- 出来的特征，可以视为一个表征环节，以反映每个汉 rig)是极其重要的功能，大脑通过聚类过程从而识字的独有的特征.每个表征环节下面都有一个数据别外界信号，并产生自组织现象.由此可以总结出，量，要用到向量维数n与该表征划分的等级m,它充要选用的计算机模型须具备以下几个特征：具有与分表示了该环节的表征.在图中的n*m,如“1*9”，大脑类似的拓扑结构：具有内反馈的功能：具有无监表示"汉字结构表征"可以用1个维度来表示，在表示督的学习功能：具有对知识自组织的过程：能够实现时可以把它划分成9个等级，如用01111~09999 聚类分别来表示.每一个表征环节的向量维数与等级的划神经网络中的自组织特征映射模型，是Koho~ 分都有其汉字字形统计信息依据， nen依据大脑对信号进行处理的特点提出的一种神以扒字为例，汉字和部件具体的表征向量如经网络模型6].自组织特征映射模型是由输入层下所示： (模拟视网膜神经元)和竞争层（模拟大脑皮层神经扒0.286（部件数）1.0000.00000000.000 元，也叫输出层)构成的网络（如图2所示）：它的输 0.0000.000000000000000030000000000 出层以二维阵列的形式输出获胜神经元，这种结构 0.0000.0000.0000.0000.00000000.0000.000 能够较好地模拟大脑皮层神经元的拓扑结构；2层 00000.000000000000000000000000000 之间的各神经元实现双向全连接，且输出层的获胜 0.0000.0000000000000000.0000.0000.000 神经元能影响其邻域内神经元的连接权值，网络中 0000020010000200000001880.3330636 没有隐含层，在模拟过程中不断调整2层神经元全 (第1个部件)..1.000000000000.0000.000 连接的权值和输出层获胜神经元邻域内的神经元权 0.0000.0000000000000000.0000.0000.000 值，来模拟大脑认知过程中的反馈作用；自组织特征 0.0000.0000000000000000.0001.0000.000 映射模型可以反映自组织特征，自组织的过程实际 00000.000000000000000000000000000 上就是一种无指导的学习过程；自组织特征映射网 00000.000000000000000000000000000 络可实现从一组表征数据中提取有意义的特征或者 0.6000.8000.0000.0000.12505000.091(第7 一些内在的规律性，它通过自身训练，自动对输入模个部件). 式进行分类实现聚类功能扌a10.700(左右结构)0.10010001.000（部件位置)0.0000.000000000000.0000.000 0.0000.0000300000000000.00000000000 甘集) 0.0000.000000000000000000000000.000 0.0000.000000000000.0000.00000000.000 润 0.0000.00000000.0000.0000.000(视觉特征) 输入层 0.2001.00002000000(笔形特征)0.188（笔画数)0333笔画结构关系)0.636（位置特征）图2SOM网络结构示意图八a70.7000.7000.000..0.1250.500 Fig 2 SOM netork structure 0091 21.2汉字聚类及部件拆分模型结构及算法由此可见，自组织特征映射网络接近生物神经目前已经有人研究出一些语言模型，但是这些系统，其工作过程比较符合人类大脑认知的过程的模型采用的算法中大多是有监督的学习算法，例如特点典型的反馈式学习方法.而从语言材料和语言学习由于模拟汉字认知过程中汉字聚类和部件拆分的关系来看，语言认知过程基本是一个类似于无监情况，涉及到整字与部件2个方面以及它们之间的督的学习过程，而教师的指导只是一种促进.所以，关系，因此要研究汉字和部件的认知过程，描述汉字采用无监督的自组织特征映射网络学习算法可能将与部件之间的关系，就需要对传统的SOM网络进作为实现这一模型的方法之一行改进，使模型能够分别实现汉字的聚类和部件的研究发现1，大脑是由大量协同作用的神经元拆分，建立了汉字聚类与部件拆分模型（双层双向群体组成的，大脑的神经网络是一个十分复杂的反网络).要求训练好的网络既能够描述由汉字到部馈系统：这个系统含有各种反馈作用，有整体反馈、件的学习过程，即部件的拆分情况；又能够描述由部 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

图 1中 ,每一个方框代表在汉字字形中需要表示出来的特征 ,可以视为一个表征环节 ,以反映每个汉字的独有的特征. 每个表征环节下面都有一个数据量 ,要用到向量维数 n与该表征划分的等级 m ,它充分表示了该环节的表征. 在图中的 n3 m ,如“13 9”, 表示 "汉字结构表征 "可以用 1个维度来表示 ,在表示时可以把它划分成 9个等级 ,如用 0. 111 1～0. 999 9 分别来表示. 每一个表征环节的向量维数与等级的划分都有其汉字字形统计信息依据. 以“扒 ”字为例 ,汉字和部件具体的表征向量如下所示 : 扒 0. 286 (部件数 ) 1. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 300 0. 000 0. 000 0. 000 0. 0000. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 200 1. 000 0. 200 0. 000 0. 188 0. 333 0. 636 (第 1个部件 ). . . 1. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 1. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 600 0. 800 0. 000 0. 000 0. 125 0. 500 0. 091 (第 7 个部件 ). 扌 a1 0. 700 (左右结构 ) 0. 100 1. 000 1. 000 (部件位置 ) 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 300 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 0. 000 (视觉特征 ) 0. 200 1. 000 0. 200 0. 000 (笔形特征 ) 0. 188 (笔画数 ) 0. 333 (笔画结构关系 ) 0. 636 (位置特征 ). 八 a7 0. 700 0. 700 0. 000 . . . 0. 125 0. 500 0. 091. 2. 1. 2 汉字聚类及部件拆分模型结构及算法目前已经有人研究出一些语言模型 ,但是这些模型采用的算法中大多是有监督的学习算法 ,例如典型的反馈式学习方法. 而从语言材料和语言学习的关系来看 ,语言认知过程基本是一个类似于无监督的学习过程 ,而教师的指导只是一种促进. 所以 , 采用无监督的自组织特征映射网络学习算法可能将作为实现这一模型的方法之一. 研究发现 [ 5 ] ,大脑是由大量协同作用的神经元群体组成的 ,大脑的神经网络是一个十分复杂的反馈系统 ;这个系统含有各种反馈作用 ,有整体反馈、局部反馈 ;在大脑处理信息的过程中 ,聚类 (Cluste2 ring)是极其重要的功能 ,大脑通过聚类过程从而识别外界信号 ,并产生自组织现象. 由此可以总结出 , 要选用的计算机模型须具备以下几个特征 :具有与大脑类似的拓扑结构 ;具有内反馈的功能 ;具有无监督的学习功能 ;具有对知识自组织的过程 ;能够实现聚类. 神经网络中的自组织特征映射模型 ,是 Koho2 nen依据大脑对信号进行处理的特点提出的一种神经网络模型 [ 6 ] . 自组织特征映射模型是由输入层 (模拟视网膜神经元 )和竞争层 (模拟大脑皮层神经元 ,也叫输出层 )构成的网络 (如图 2所示 ) :它的输出层以二维阵列的形式输出获胜神经元 ,这种结构能够较好地模拟大脑皮层神经元的拓扑结构 ; 2层之间的各神经元实现双向全连接 ,且输出层的获胜神经元能影响其邻域内神经元的连接权值 ,网络中没有隐含层 ,在模拟过程中不断调整 2层神经元全连接的权值和输出层获胜神经元邻域内的神经元权值 ,来模拟大脑认知过程中的反馈作用 ;自组织特征映射模型可以反映自组织特征 ,自组织的过程实际上就是一种无指导的学习过程 ;自组织特征映射网络可实现从一组表征数据中提取有意义的特征或者一些内在的规律性 ,它通过自身训练 ,自动对输入模式进行分类实现聚类功能. 图 2 SOM网络结构示意图 Fig. 2 SOM network structure 由此可见 ,自组织特征映射网络接近生物神经系统 ,其工作过程比较符合人类大脑认知的过程的特点. 由于模拟汉字认知过程中汉字聚类和部件拆分情况 ,涉及到整字与部件 2个方面以及它们之间的关系 ,因此要研究汉字和部件的认知过程 ,描述汉字与部件之间的关系 ,就需要对传统的 SOFM 网络进行改进 ,使模型能够分别实现汉字的聚类和部件的拆分 ,建立了汉字聚类与部件拆分模型 (双层双向网络 ). 要求训练好的网络既能够描述由汉字到部件的学习过程 ,即部件的拆分情况 ;又能够描述由部 · 812 · 智能系统学报第 3卷

第3期陈静，等：计算机模拟汉字字形认知过程的研究 ·219· 件到汉字的学习过程，即部件的构字情况.模型结构接权值；ad和分别是2层连接中从源网络到目标如图3所示，将模型分为输入层、汉字聚类层和部件网络的输出值拆分层.其中汉字聚类层与部件拆分层之间互相都 2层之间的连接关系如图4所示，在各层网络有连接关系，从而体现出汉字的部件构成情况以及中，每一个单元都与该层网络的输入向量相连，由权部件的构字情况.由图3可知，在汉字聚类与部件拆值向量来表达它们之间的连结强度：而在2层网络分模型的训练阶段，将所选汉字样本的表征向量输之间，各层的每个单元又与另一层的每个单元相连，入汉字层，同时将对应部件的表征向量输入部件层. 由连接权值表达连结强度.这里只画出了2层之间这是模型的输入，模拟汉字认知过程中的视觉刺激. 其中一个单元与另一层的连结关系.通过对配对输模型通过自组织形成获胜神经元，并不断调整2层入的学习，只有少数连结被认为是有效连结，如果最间的权连接，建立汉字与部件之间的关系，模拟汉字大激活部件单元被找到了，那么这个汉字相应的部认知过程中汉字聚类与部件拆分意识的形成过程，件单元就被确定下来了.反之道理是一样的汉字字形表征汉字聚类层通过训练和不同的测试项，并对计算机模拟结果加以分析，得到了与认知科学中行为实验研究相汉字与部件配对 Hebb 关系表征学习规则似的结果，而且还可以对行为实验结果做出合理的汉字部件表征 :部件拆分层解释输入模式图3模型结构图 Fig 3 Architecture of the model 完成自组织特征映射的算法较多，常用的自组聚类层 ○○○○○ ○○ 获胜神经元织算法可描述为 1)权值初始化并选定领域的大小；邻域神经元 2)输入模式： 3)计算空间距离：拆分层 N.I d=∑[x()-wg()了 1) 式中：x,()是时刻节点的输入，w,()是输入节点i 图4聚类层与拆分层连接关系示意图与输出节点的连接强度，N为输入节点的数目； Fig 4 The relation of clustering layer and splitting layer 4)选择节点广，满足mind 模型的训练 5)按式2改变广和其他领域节点的连接强度以图5和图6所示部分的汉字聚类结果为例 wg(t+1)=wg()+a(刊[x()-wg()1 (2) 式中：jej的领域，0≤≤v-1,a()为衰减因子：袍 6)返回到2)，直至满足[x()-w,()子<￡净 (ε为给定的误差或学习次数大于预定值次奇通过这种无监督的学习，稳定后的网络输出就对输入模式生成自然的特征映射，从而达到自动聚类的目的此外，本文借鉴了李平在文献[8中提出的方法汉字聚类层和汉字部件拆分层两层之间的连接关图5汉字的聚类结果部分) 系是双向的，并且同时接受输入层输入的表征信息 Fig 5 Chinese characters clustering 如图1所示).2层之间节点的权值更新使用Hebb 学习规则：图5是训练完成后的汉字聚类情况，从图中的 △wb=a( 3) 阴影部分可以看出，网络对形似的汉字能够进行聚式中：w是从源网络节点到目标网络节点p的连类，如铤”锥和铎”以及烙”络和洛等 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net

件到汉字的学习过程 ,即部件的构字情况. 模型结构如图 3所示 ,将模型分为输入层、汉字聚类层和部件拆分层. 其中汉字聚类层与部件拆分层之间互相都有连接关系 ,从而体现出汉字的部件构成情况以及部件的构字情况. 由图 3可知 ,在汉字聚类与部件拆分模型的训练阶段 ,将所选汉字样本的表征向量输入汉字层 ,同时将对应部件的表征向量输入部件层. 这是模型的输入 ,模拟汉字认知过程中的视觉刺激. 模型通过自组织形成获胜神经元 ,并不断调整 2层间的权连接 ,建立汉字与部件之间的关系 ,模拟汉字认知过程中汉字聚类与部件拆分意识的形成过程. 图 3 模型结构图 Fig. 3 A rchitecture of the model 完成自组织特征映射的算法较多 ,常用的自组织算法可描述为 [ 7 ] 1)权值初始化并选定领域的大小 ; 2)输入模式 ; 3)计算空间距离 : di = ∑ N - 1 i =0 [ xi ( t) - wij ( t) ] 2 . (1) 式中: xi ( t)是 t时刻 i节点的输入, wij ( t)是输入节点 i 与输出节点 j的连接强度, N为输入节点的数目; 4)选择节点 j 3 ,满足min j dj; 5)按式 (2)改变 j 3 和其他领域节点的连接强度: wij ( t + 1) = wij ( t) +α( t) [ xi ( t) - wij ( t) ]. (2) 式中 : j∈j 3 的领域 , 0≤i≤N - 1 ,α( t)为衰减因子; 6)返回到 2) ,直至满足 [ xi ( t) - wij ( t) ] 2 <ε (ε为给定的误差 )或学习次数大于预定值. 通过这种无监督的学习 ,稳定后的网络输出就对输入模式生成自然的特征映射 ,从而达到自动聚类的目的. 此外 ,本文借鉴了李平在文献 [ 8 ]中提出的方法汉字聚类层和汉字部件拆分层两层之间的连接关系是双向的 ,并且同时接受输入层输入的表征信息 (如图 1所示 ). 2层之间节点的权值更新使用 Hebb 学习规则 : Δwlp =α( t) a S l a D p . (3) 式中 : wlp是从源网络节点 l到目标网络节点 p的连接权值; a S l 和 a D p分别是 2层连接中从源网络到目标网络的输出值. 2层之间的连接关系如图 4所示 ,在各层网络中 ,每一个单元都与该层网络的输入向量相连 ,由权值向量来表达它们之间的连结强度;而在 2层网络之间 ,各层的每个单元又与另一层的每个单元相连 , 由连接权值表达连结强度. 这里只画出了 2层之间其中一个单元与另一层的连结关系. 通过对配对输入的学习 ,只有少数连结被认为是有效连结 ,如果最大激活部件单元被找到了 ,那么这个汉字相应的部件单元就被确定下来了. 反之道理是一样的. 通过训练和不同的测试项 ,并对计算机模拟结果加以分析 ,得到了与认知科学中行为实验研究相似的结果 ,而且还可以对行为实验结果做出合理的解释. 图 4 聚类层与拆分层连接关系示意图 Fig. 4 The relation of clustering layer and sp litting layer 3 模型的训练以图 5和图 6所示部分的汉字聚类结果为例. 图 5 汉字的聚类结果 (部分 ) Fig. 5 Chinese characters clustering 图 5是训练完成后的汉字聚类情况 ,从图中的阴影部分可以看出 ,网络对形似的汉字能够进行聚类,如“铤 ”、“锥 ”和“铎 ”,以及“烙 ”、“络 ”和“洛 ”等第 3期陈静 ,等 :计算机模拟汉字字形认知过程的研究 · 912 ·

·220· 智能系统学报第3卷都放在了相邻近的位置上.图6中显示了训练学习汉字字形认知过程中自组织分类学习的认知心理学 100次、180次、270次、330次的汉字的聚类结果.通特征：而且从图5和图6中可以发现随着学习次数的过汉字聚类结果的实验，可以得出以下结论：汉字聚增加，模型的汉字聚类效果也增强，并逐渐趋于稳定类与部件拆分模型训练过程可以体现自组织聚类现这也大致符合汉字认知过程中随着学习量的增加掌象，具有相似特征的汉字和部件分布比较接近，这种握的知识量和知识结构趋于稳定的现象. 聚类结果是网络算法拓扑性质的体现，同时表现出在净面备 (a)学习100次 (b)学习180次 (c)学习270次 (d)学习330次图6汉字的聚类动态过程部分) Fig 6 The dynam ic process of Chinese characters clustering 此外，研究工作还包括部件拆分汉字的部件络组成的研究，也得到了一些结果.汉字聚类层与部 k回7 件拆分层之间的关系，表示某个汉字由哪几个部件组成，如图7所示.在批注中显示出这个单元格对应嘈激活的另外一层中的单元格的结果.图中显示出软 “呵字的部件“口a7”、丁b6”、“口al”部件后面盎岗的字母及数字组合表示的是该部件在不同汉字中的织不同位置信息.部件拆分层与汉字聚类层也有相似的连接关系，表示的是某个部件对应其激活了的那图7汉字聚类层与部件拆分层连接关系图部分) 些汉字，如图8所示.由所得到的结果，可以总结汉 Fig 7 The connection relation of Chinese charac- 字拆分成部件的学习效果，并可以归纳出2种情况： ters clustering layer and components split- 1)网络的汉字学习结果是完全正确的.如” ting layer 呵字的激活部件是“口a7”、丁b6”、“口al”,部黑a7 末a7 件层的激活神经元所代表的部件与汉字的实际部件 7 拆分结果相吻合。千b7 a7 2)网络的汉字学习结果是不完全正确的.而这 b7 种情况下，又分为部件混淆和部件冗余2种出错类广7 a6 型.部件混淆是指部件层激活的部件序列中，部件数又c a7 目与实际相符，但是存在一个或几个部件与相应的又b4 b71刀a7刀b2 实际部件不符.例如唤"字的激活部件中的“厂b1” 图8部件拆分层与汉字聚类层连接关系图部分) 和“na5”,在实际序列中找不到完全吻合的部件 Fig 8 The relation connection of components split- 但是可以找到与之形似的部件“厂a5和“门a6”部 ting layer and Chinese characters clustering 件冗余则是指激活的部件多于实际部件数目，如 layer 柴字，在学习结果中，除了正确激活的“匕2” 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

都放在了相邻近的位置上. 图 6中显示了训练学习 100次、180次、270次、330次的汉字的聚类结果. 通过汉字聚类结果的实验,可以得出以下结论:汉字聚类与部件拆分模型训练过程可以体现自组织聚类现象,具有相似特征的汉字和部件分布比较接近,这种聚类结果是网络算法拓扑性质的体现 ,同时表现出在汉字字形认知过程中自组织分类学习的认知心理学特征;而且从图 5和图 6中可以发现随着学习次数的增加,模型的汉字聚类效果也增强,并逐渐趋于稳定 , 这也大致符合汉字认知过程中随着学习量的增加掌握的知识量和知识结构趋于稳定的现象. 图 6 汉字的聚类动态过程 (部分 ) Fig. 6 The dynamic p rocess of Chinese characters clustering 此外 ,研究工作还包括部件拆分 (汉字的部件组成 )的研究 ,也得到了一些结果. 汉字聚类层与部件拆分层之间的关系 ,表示某个汉字由哪几个部件组成 ,如图 7所示. 在批注中显示出这个单元格对应激活的另外一层中的单元格的结果. 图中显示出 “呵 ”字的部件“口 a7”、“丁 b6”、“口 a1”,部件后面的字母及数字组合表示的是该部件在不同汉字中的不同位置信息. 部件拆分层与汉字聚类层也有相似的连接关系 ,表示的是某个部件对应其激活了的那些汉字 ,如图 8所示. 由所得到的结果 ,可以总结汉字拆分成部件的学习效果 ,并可以归纳出 2种情况 : 1) 网络的汉字学习结果是完全正确的. 如 " 呵 "字的激活部件是“口 a7”、“丁 b6”、“口 a1”,部件层的激活神经元所代表的部件与汉字的实际部件拆分结果相吻合. 2) 网络的汉字学习结果是不完全正确的. 而这种情况下 ,又分为部件混淆和部件冗余 2种出错类型. 部件混淆是指部件层激活的部件序列中 ,部件数目与实际相符 ,但是存在一个或几个部件与相应的实际部件不符. 例如 "唤 "字的激活部件中的“ㄏb1” 和“ㄇa5”,在实际序列中找不到完全吻合的部件 , 但是可以找到与之形似的部件“ㄏa5”和“ㄇa6”. 部件冗余则是指激活的部件多于实际部件数目 , 如 “柴 ”字 , 在学习结果中 , 除了正确激活的“匕 b2” 图 7 汉字聚类层与部件拆分层连接关系图 (部分 ) Fig. 7 The connection relation of Chinese charac2 ters clustering layer and components sp lit2 ting layer 图 8 部件拆分层与汉字聚类层连接关系图 (部分 ) Fig. 8 The relation connection of components sp lit2 ting layer and Chinese characters clustering layer · 022 · 智能系统学报第 3卷

第3期陈静，等：计算机模拟汉字字形认知过程的研究 ·221- 外，还多出了“匕5这个部件.但是多出来的部件 [3王建勤.外因学生汉字构形意识发展的模拟研究—基并不是同相应的汉字完全无关，它们总是与实际的于自组织特征映射网络的汉字习得模型[D]北京：北京部件有很大的相似度. 语言大学，2005 模型通过训练得到的这些结论与心理学研究中 WANG Jiangin Smulating studies of CFL leamers'Chinese 行为实验研究的结果相似，从不同的方面反映了汉 orthographic awareness development based on selforganizing 字字形认知过程中的某些规律，体现了汉字字形认 feature map nework[D ]Beijing Language and Culture U- niversity,2005. 知过程中的部分特点， [4邢红兵.小学语言教材形声字表音情况统计分析及小学生 4模型的测试形声字命名的自组织模型[D]北京：北京师范大学，2002 XNG Hongbing Analysis of phonetics of semantic-phonetic 对训练好的模型进行测试，以输入生字来考察 compound characters in elementary school textbooks and a self 模型测试效果为例，取生字50个字，选用包括了左 organizing connectionist model of character acquisiton in Chi 右、上下、包围3个结构的字.测试结果如图9所示 nese[D].Beijing Language and Culture University,2002 图中阴影中的字为测试字，可以看出网络能够根据 [5舒华，韩在住，许忠宝认知神经心理学的基本假设和之前学到的知识对输入的生字进行推测识别，测试研究方法[J].心理科学，2002(6)：721-722 字根据与已学过汉字有相似的结构或部件信息放在 SHU Hua,HAN Zaizhu,XU Zhongbao The basal hypothe- 了这些汉字的附近，可以看出测试结果图中汉字的 ses and research methods in cognitive neuropsychobgy[J] 聚类效果仍然存在，例如将怅放在了张的附 Psychological Science,2002(6):721-722 [6边肇祺，张学工.模式识别[M]北京：清华大学出版社，近，训放在了计的附近 2000:259 系账行 [7]KANAGAS J,KOHONEN T Devebpments and applications of 张芒芳连过补迈迫 the selforganizingmap and related algprithms[J]Mathematics 建边 and Computers in Smulation,1996,41:3-12 计双冈 [8 ]L I P,FARKAS I MACWH NNEY B.Early lexical devel- 竿叫另扎先此■ opment in a selforganizing neural nework[J ]Neural Net- w0ks2004(17):1345-1362 黄复作者简介：图9生字测试结果图部分) 陈静，女，1979年生，博士研究 Fig 9 Testing result of new Chinese character 生，主要研究方向为人工智能、模式识别 5结束语从模型模拟过程中可以看出，对模型进行训练网络通过对汉字及其部件信息的学习，对汉字的构穆志纯，男，1952年生，教授，博士形方式、结构规则等都有了一定的认识，能够发现其生导师，主要研究方向为人工智能及其中的规律，在对学习的汉字进行其部件的拆分的同应用、模式识别图像处理、生物特征识时，还能将有相似结构或部件的汉字聚类，在一定程别、复杂系统的建模与控制.1989~ 度上模拟了汉字字形的认知过程。 1991年和19971999年间在英国进行参考文献访问研究.曾主持、参加国家自然科学基金项目4项、青年“863项目1项国家科技攻关和国际合 [1调志华，曹存根.神经网络及其应用[M]北京：清华大作项目多项，并获部级科技进步二等奖1项、三等奖2项.己学出版社，2004：366 发表论文90余篇，其中被S℃和E检索40余篇 [2唐一源，张武田，马林，翁旭初，李德军，何华，贾富仓.默读汉字词的脑功能偏侧化成像研究[J]心理学孙筱倩，女，1983年生，硕士研究报，2002,34(4)：333-337 生，主要研究方向为人工智能、模式识 TANG Yiyuan,ZHANG Wutian,MA L in,WENG Xuchu. 别 LIDejun,HE Hua,JA Fucang The laterality of brain function in silent reading of Chinese words revealed by FMR [J ]Acta Psychobgical Sinica,2002,34(4):333-337 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

外 ,还多出了“匕 l5”这个部件. 但是多出来的部件并不是同相应的汉字完全无关 ,它们总是与实际的部件有很大的相似度. 模型通过训练得到的这些结论与心理学研究中行为实验研究的结果相似 ,从不同的方面反映了汉字字形认知过程中的某些规律 ,体现了汉字字形认知过程中的部分特点. 4 模型的测试对训练好的模型进行测试 ,以输入生字来考察模型测试效果为例 ,取生字 50个字 ,选用包括了左右、上下、包围 3个结构的字. 测试结果如图 9所示. 图中阴影中的字为测试字 ,可以看出网络能够根据之前学到的知识对输入的生字进行推测识别 ,测试字根据与已学过汉字有相似的结构或部件信息放在了这些汉字的附近 ,可以看出测试结果图中汉字的聚类效果仍然存在 , 例如将“怅 ”放在了“张 ”的附近 ,“训 ”放在了“计 ”的附近. 图 9 生字测试结果图 (部分 ) Fig. 9 Testing result of new Chinese character 5 结束语从模型模拟过程中可以看出 ,对模型进行训练 , 网络通过对汉字及其部件信息的学习 ,对汉字的构形方式、结构规则等都有了一定的认识 ,能够发现其中的规律 ,在对学习的汉字进行其部件的拆分的同时 ,还能将有相似结构或部件的汉字聚类 ,在一定程度上模拟了汉字字形的认知过程. 参考文献 [ 1 ]周志华 ,曹存根. 神经网络及其应用 [M ]. 北京 :清华大学出版社 , 2004: 366. [ 2 ]唐一源 , 张武田 ,马林 ,翁旭初 ,李德军 ,何华 ,贾富仓. 默读汉字词的脑功能偏侧化成像研究 [ J ]. 心理学报 , 2002 , 34 (4) : 3332337. TANG Yiyuan, ZHANG W utian, MA L in, W ENG Xuchu, L I Dejun, HE Hua, J IA Fucang. The laterality of brain function in silent reading of Chinese words revealed by FMR [J ]. Acta Psychological Sinica, 2002, 34 (4) : 3332337. [ 3 ]王建勤. 外国学生汉字构形意识发展的模拟研究 ———基于自组织特征映射网络的汉字习得模型 [D ]. 北京 :北京语言大学 , 2005. WANG Jianqin. Simulating studies of CFL learners’Chinese orthographic awareness development based on self2organizing feature map network[D ]. Beijing Language and Culture U2 niversity, 2005. [4 ]邢红兵.小学语言教材形声字表音情况统计分析及小学生形声字命名的自组织模型 [D ].北京:北京师范大学 , 2002. XING Hongbing. Analysis of phonetics of semantic2phonetic compound characters in elementary school textbooks and a self2 organizing connectionist model of character acquisition in Chi2 nese[D ]. Beijing Language and Culture University, 2002. [ 5 ]舒华 ,韩在住 ,许忠宝. 认知神经心理学的基本假设和研究方法 [J ]. 心理科学 , 2002 (6) : 7212722. SHU Hua, HAN Zaizhu, XU Zhongbao. The basal hypothe2 ses and research methods in cognitive neurop sychology[J ]. Psychological Science, 2002 (6) : 7212722. [ 6 ]边肇祺 ,张学工. 模式识别 [M ]. 北京 :清华大学出版社 , 2000: 259. [7 ]KANAGAS J, KOHONEN T. Developments and applications of the self2organizingmap and related algorithms[J ]. Mathematics and Computers in Simulation, 1996, 41: 3212. [ 8 ]L I P, FARKAS I, MACWH INNEY B. Early lexical devel2 opment in a self2organizing neural network[J ]. Neural Net2 works, 2004 (17) : 134521362. 作者简介 : 陈静 ,女 , 1979年生 ,博士研究生 ,主要研究方向为人工智能、模式识别. 穆志纯 ,男 , 1952年生 ,教授 ,博士生导师 ,主要研究方向为人工智能及其应用、模式识别、图像处理、生物特征识别、复杂系统的建模与控制. 1989 ～ 1991年和 1997～1999年间在英国进行访问研究. 曾主持、参加国家自然科学基金项目 4项、青年“863”项目 1项、国家科技攻关和国际合作项目多项 ,并获部级科技进步二等奖 1项、三等奖 2项. 已发表论文 90余篇 ,其中被 SCI和 EI检索 40余篇. 孙筱倩 ,女 , 1983年生 ,硕士研究生 ,主要研究方向为人工智能、模式识别. 第 3期陈静 ,等 :计算机模拟汉字字形认知过程的研究 · 122 ·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录