第3卷第3期 智能系统学报 Vol 3 Na 3 2008年6月 CAAI Transactions on Intelligent Systems Jun 2008 计算机模拟汉字字形认知过程的研究 陈静穆志纯,孙筱倩 d北京科技大学信息工程学院,北京100083) 摘要:对汉字的认知研究不仅是认知科学、也是计算机科学特别是人工智能领域中的一个研究热点.但是,目前汉 字认知的计算机模拟研究还相对滞后,其在认知科学研究中的作用还无法和行为实验研究等同.从认知科学的角度 出发,建立汉字字形表征库,构建模型,确定训练和测试方式等,对汉字字形认知过程(学习发展历程)中汉字聚类与 部件拆分意识进行了计算机模拟,以便研究汉字字形学习中的某些认知规律.通过对模型的训练与测试,得到了输 入汉字的聚类效果图、部件拆分情况,以及对模型进行生字测试的结果.得出的结果能够反映某些汉字认知的规律, 所以模型在一定程度上模拟了汉字字形的认知过程. 关键词:认知科学;人工智能;汉字认知;计算机模拟;自组织模型 中图分类号:TP391.1文献标识码:A文章编号:16734785(2008)03021606 Computer smultion of the cogn ition of Chnese characters CHEN Jing,MU Zhi-chun,SUN Xiao-qian (School of Inomation Engineering.University of Science and Technobgy Beijing,Beijing 100083,China) Abstract:Research on the cognition of Chinese characters is a hotspot in both cognitive science and computer sci- ence,and is an especially lively field among those investigating artificial intelligence In spite of this,research u- sing computer smulations to analyze Chinese character cognition remains relatively backward,and its value in cog- nition studies has not been comparable with expermental research on behavior In this paper,starting fiom the viewpoint of cognition science,a representative database of Chinese characters was set up,a cognitive model con- structed,and training and testing modes detem ined Computer smulations were made of the clustering and split- ting of Chinese characters in the course of cognition,so that cognition rules for the percep tion of Chinese characters may be better understood The model was based on a multi-layer selforganizing neural network This training and testing method ensured that we knew how the Chinese characters were clustered and split during analysis so that the recognition of unknown words could be achieved The research outcome suggests cognition rules for recognizing Chi nese characters,mp lying that the proposed model does smulate the cogniton process for Chinese characters Keywords:cognitive science;artificial intelligence,Chinese characters cognition;computer smulation,selforgan- ized model 21世纪被认为是生命科学的世纪,生命科学的 用认知科学的观点和方法,研究语言习得中汉字信 核心内容之一是对大脑的研究和探索.语言是反映 息的输入、储存、内部加工和输出等过程.不少学者 人脑信息处理能力的高级功能,因此,阐明语言加工认为,利用汉字的一些特点进行相应的研究有可能 的信息处理机制对揭示人脑的奥秘具有重要意义. 澄清目前国际上关于言语加工机制中一些重要的争 汉字是中国特有的表意文字,在形、音、义加工方面 论,对认知科学的发展具有重要意义川.目前,随着 与西方拼音文字有很大不同,研究汉字认知就是应 认知科学的发展,汉字的认知研究取得了一些新的 进步,比如从认知神经科学的角度,采用脑成像技术 收稿日期:2007-10-26 对汉字认知脑机制的研究等2,.但是,将计算机科 基金项目:北京市教委重点学科共建基金资助项目(XK100080537): 北京语言大学规划资助项目(04GH01). 学与认知心理学相结合所进行的汉字认知研究并不 通讯作者:陈静.Emai止hear931@163.cm 多见 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 3卷第 3期 智 能 系 统 学 报 Vol. 3 №. 3 2008年 6月 CAA I Transactions on Intelligent System s Jun. 2008 计算机模拟汉字字形认知过程的研究 陈 静 ,穆志纯 ,孙筱倩 (北京科技大学 信息工程学院 ,北京 100083) 摘 要 :对汉字的认知研究不仅是认知科学、也是计算机科学特别是人工智能领域中的一个研究热点. 但是 ,目前汉 字认知的计算机模拟研究还相对滞后 ,其在认知科学研究中的作用还无法和行为实验研究等同. 从认知科学的角度 出发 ,建立汉字字形表征库 ,构建模型 ,确定训练和测试方式等 ,对汉字字形认知过程 (学习发展历程 )中汉字聚类与 部件拆分意识进行了计算机模拟 ,以便研究汉字字形学习中的某些认知规律. 通过对模型的训练与测试 ,得到了输 入汉字的聚类效果图、部件拆分情况 ,以及对模型进行生字测试的结果. 得出的结果能够反映某些汉字认知的规律 , 所以模型在一定程度上模拟了汉字字形的认知过程. 关键词 :认知科学 ;人工智能 ;汉字认知 ;计算机模拟 ;自组织模型 中图分类号 : TP391. 1 文献标识码 : A 文章编号 : 167324785 (2008) 0320216206 Computer simulation of the cognition of Chinese characters CHEN Jing, MU Zhi2chun, SUN Xiao2qian ( School of Information Engineering, University of Science and Technology Beijing, Beijing 100083, China) Abstract:Research on the cognition of Chinese characters is a hotspot in both cognitive science and computer sci2 ence, and is an especially lively field among those investigating artificial intelligence. In sp ite of this, research u2 sing computer simulations to analyze Chinese character cognition remains relatively backward, and its value in cog2 nition studies has not been comparable with experimental research on behavior. In this paper, starting from the viewpoint of cognition science, a rep resentative database of Chinese characters was set up, a cognitive model con2 structed, and training and testing modes determ ined. Computer simulations were made of the clustering and sp lit2 ting of Chinese characters in the course of cognition, so that cognition rules for the percep tion of Chinese characters may be better understood. The model was based on a multi2layer self2organizing neural network. This training and testing method ensured thatwe knew how the Chinese characterswere clustered and sp lit during analysis so that the recognition of unknown words could be achieved. The research outcome suggests cognition rules for recognizing Chi2 nese characters, imp lying that the p roposed model does simulate the cognition p rocess for Chinese characters. Keywords: cognitive science; artificial intelligence; Chinese characters cognition; computer simulation; self2organ2 ized model 收稿日期 : 2007210226. 基金项目 :北京市教委重点学科共建基金资助项目 (XK100080537) ; 北京语言大学规划资助项目 (04GH01). 通讯作者 :陈 静. E2mail: heart931@163. com. 21世纪被认为是生命科学的世纪 ,生命科学的 核心内容之一是对大脑的研究和探索. 语言是反映 人脑信息处理能力的高级功能 ,因此 ,阐明语言加工 的信息处理机制对揭示人脑的奥秘具有重要意义. 汉字是中国特有的表意文字 ,在形、音、义加工方面 与西方拼音文字有很大不同 ,研究汉字认知就是应 用认知科学的观点和方法 ,研究语言习得中汉字信 息的输入、储存、内部加工和输出等过程. 不少学者 认为 ,利用汉字的一些特点进行相应的研究有可能 澄清目前国际上关于言语加工机制中一些重要的争 论 ,对认知科学的发展具有重要意义 [ 1 ] . 目前 ,随着 认知科学的发展 ,汉字的认知研究取得了一些新的 进步 ,比如从认知神经科学的角度 ,采用脑成像技术 对汉字认知脑机制的研究等 [ 2 ] . 但是 ,将计算机科 学与认知心理学相结合所进行的汉字认知研究并不 多见