D0I:10.13374/i.issnl00113.2007.0L.022 第29卷第1期 北京科技大学学报 Vol.29 No.1 2007年1月 Journal of University of Science and Technology Beijing Jan.2007 一种用于模拟汉字认知过程的多层自组织神经网络 杜大鹏穆志纯陈静方新 北京科技大学信息工程学院,北京100083 摘要为了模拟汉语初学者的汉字认知过程,在Kohonen神经网络的基础上,改进了其网络结构和算法,并且将改进后的 网络输出层根据Hebbian学习规则连接,构建了一个多Kohonen网络协同工作的汉字认知自组织神经网络模型.模拟研究结 果表明,模型能够成功地学习到汉字的结构类型,且能有效识别出汉字的部件,在一定程度上模拟了汉字认知的部分过程,说 明该模型用于汉字认知乃至汉语言习得的可行性 关键词自组织神经网络;多层:汉字学习:汉字结构类型:汉字部件 分类号TP391.12 依据大脑对信号处理的特点,芬兰学者Koho- 学习的网络(图1),由输入层和输出层组成,其中输 nen于l982年提出了著名的自组织特征映射网络 入层又称为匹配层,计算输入模式向量与权值向量 一SOFM山,该网络利用其自组织特性来实现聚 之间的距离,即匹配程度;输出层又称为竞争层,层 类、识别、排序以及拓扑不变性映射等功能.语言研 上各神经元以匹配程度为依据进行竞争,确定获胜 究则是自组织网络的一个重要应用,在一定程度上 神经元,同时获胜神经元及其邻域内神经元的权值 能够模拟人类的学习过程,最早采用自组织网络研 向量向模式矢量方向更新.竞争和学习的过程不断 究语言的是Ritter和Kohonen关于野生肉食动物和 重复,直到神经元学会所有输入模式,并且以权值向 鸟类的自组织分类,他们将野生肉食动物(如老 量的方式存储在网络中,这一过程就是网络的自组 虎、狮子和狼等)和鸟类(如鹰、猫头鹰等)通过自组 织学习过程 织学习划分到映射图上不同的区域,在同一区域内, Kohonen层 ●获胜神经元 相似的动物则更加靠近.在以后的研究中,Mkku ●邻蚊抑经元 laine根据Hebbian连接规则将不同信息层次中协同 工作的多个SOFM互相连接,建立了一个关于记忆 和自然语言处理的综合模型[③]. 汉语的认知研究相对于英语来说起步较晚,而 输人层○O○○○ 且作为汉语的书写符号系统汉字具有不同于拼音文 ↑↑↑↑ 字的特点,导致汉字的信息加工在某些方面和拼音 输人模式量 文字有所区别,而利用神经网络对汉语认知过程进 行的研究也较少,本文是在北京语言大学提供的汉 图1 Kohonen神经网络结构 字及其部件编码库的基础上,采用多层协同工作的 Fig-1 Structure of the Kohonen neural network 改进Kohonen神经网络对汉语言初学者的汉字认 1.1 Kohonen神经网络算法描述 知过程进行模拟研究,模拟内容主要包括对汉字结 Kohonen神经网络的算法步骤如下. 构类型的学习过程和汉字部件的识别过程两个主要 (1)初始化网络权值向量Wo∈RcM,学习率 方面, a(to)∈(0,1),邻域大小N(to),允许误差精度e, 1 Kohonen神经网络及其改进 e是大于0的小常数,令迭代计数器t=1. (2)计算输入模式向量X,∈Rm与所有输出神 Kohonen提出的SOFM是一种前馈式无监督 经元向量的欧氏距离: 收稿日期:2005-11-06修回日期:2006-09-06 作者简介:杜大鹏(1980一),男,硕士研究生:穆志纯(1952一)男, ‖X-W‖= (X:-W)2 (1) =1 教授,博士生导师 (3)选择具有最小距离神经元作为获胜神一种用于模拟汉字认知过程的多层自组织神经网络 杜大鹏 穆志纯 陈 静 方 新 北京科技大学信息工程学院北京100083 摘 要 为了模拟汉语初学者的汉字认知过程在 Kohonen 神经网络的基础上改进了其网络结构和算法并且将改进后的 网络输出层根据 Hebbian 学习规则连接构建了一个多 Kohonen 网络协同工作的汉字认知自组织神经网络模型.模拟研究结 果表明模型能够成功地学习到汉字的结构类型且能有效识别出汉字的部件在一定程度上模拟了汉字认知的部分过程说 明该模型用于汉字认知乃至汉语言习得的可行性. 关键词 自组织神经网络;多层;汉字学习;汉字结构类型;汉字部件 分类号 TP391∙12 收稿日期:20051106 修回日期:20060906 作者简介:杜大鹏(1980—)男硕士研究生;穆志纯(1952—)男 教授博士生导师 依据大脑对信号处理的特点芬兰学者 Kohonen 于1982年提出了著名的自组织特征映射网络 ———SOFM [1]该网络利用其自组织特性来实现聚 类、识别、排序以及拓扑不变性映射等功能.语言研 究则是自组织网络的一个重要应用在一定程度上 能够模拟人类的学习过程.最早采用自组织网络研 究语言的是 Ritter 和 Kohonen 关于野生肉食动物和 鸟类的自组织分类[2]他们将野生肉食动物(如老 虎、狮子和狼等)和鸟类(如鹰、猫头鹰等)通过自组 织学习划分到映射图上不同的区域在同一区域内 相似的动物则更加靠近.在以后的研究中Miikkulaine 根据 Hebbian 连接规则将不同信息层次中协同 工作的多个 SOFM 互相连接建立了一个关于记忆 和自然语言处理的综合模型[3]. 汉语的认知研究相对于英语来说起步较晚而 且作为汉语的书写符号系统汉字具有不同于拼音文 字的特点导致汉字的信息加工在某些方面和拼音 文字有所区别而利用神经网络对汉语认知过程进 行的研究也较少.本文是在北京语言大学提供的汉 字及其部件编码库的基础上采用多层协同工作的 改进 Kohonen 神经网络对汉语言初学者的汉字认 知过程进行模拟研究模拟内容主要包括对汉字结 构类型的学习过程和汉字部件的识别过程两个主要 方面. 1 Kohonen 神经网络及其改进 Kohonen 提出的 SOFM 是一种前馈式无监督 学习的网络(图1)由输入层和输出层组成.其中输 入层又称为匹配层计算输入模式向量与权值向量 之间的距离即匹配程度;输出层又称为竞争层层 上各神经元以匹配程度为依据进行竞争确定获胜 神经元同时获胜神经元及其邻域内神经元的权值 向量向模式矢量方向更新.竞争和学习的过程不断 重复直到神经元学会所有输入模式并且以权值向 量的方式存储在网络中.这一过程就是网络的自组 织学习过程. 图1 Kohonen 神经网络结构 Fig.1 Structure of the Kohonen neural network 1∙1 Kohonen 神经网络算法描述 Kohonen 神经网络的算法步骤如下. (1) 初始化网络权值向量 W0∈R CM学习率 α( t0)∈(01)邻域大小 Nc( t0)允许误差精度 ε ε是大于0的小常数令迭代计数器 t=1. (2) 计算输入模式向量 Xk∈Rm 与所有输出神 经元向量的欧氏距离: ‖X— Wj‖= ∑ n i=1 ( Xi - Wij) 2 (1) (3) 选择具有最小距离神经元作为获胜神 第29卷 第1期 2007年 1月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29No.1 Jan.2007 DOI:10.13374/j.issn1001-053x.2007.01.022