一种用于模拟汉字认知过程的多层自组织神经网络杜大鹏穆志纯陈静方

正在加载图片...

D0I:10.13374/i.issnl00113.2007.0L.022 第29卷第1期北京科技大学学报 Vol.29 No.1 2007年1月 Journal of University of Science and Technology Beijing Jan.2007 一种用于模拟汉字认知过程的多层自组织神经网络杜大鹏穆志纯陈静方新北京科技大学信息工程学院，北京100083 摘要为了模拟汉语初学者的汉字认知过程，在Kohonen神经网络的基础上，改进了其网络结构和算法，并且将改进后的网络输出层根据Hebbian学习规则连接，构建了一个多Kohonen网络协同工作的汉字认知自组织神经网络模型.模拟研究结果表明，模型能够成功地学习到汉字的结构类型，且能有效识别出汉字的部件，在一定程度上模拟了汉字认知的部分过程，说明该模型用于汉字认知乃至汉语言习得的可行性关键词自组织神经网络；多层：汉字学习：汉字结构类型：汉字部件分类号TP391.12 依据大脑对信号处理的特点，芬兰学者Koho- 学习的网络（图1），由输入层和输出层组成，其中输 nen于l982年提出了著名的自组织特征映射网络入层又称为匹配层，计算输入模式向量与权值向量一SOFM山，该网络利用其自组织特性来实现聚之间的距离，即匹配程度；输出层又称为竞争层，层类、识别、排序以及拓扑不变性映射等功能.语言研上各神经元以匹配程度为依据进行竞争，确定获胜究则是自组织网络的一个重要应用，在一定程度上神经元，同时获胜神经元及其邻域内神经元的权值能够模拟人类的学习过程，最早采用自组织网络研向量向模式矢量方向更新.竞争和学习的过程不断究语言的是Ritter和Kohonen关于野生肉食动物和重复，直到神经元学会所有输入模式，并且以权值向鸟类的自组织分类，他们将野生肉食动物（如老量的方式存储在网络中，这一过程就是网络的自组虎、狮子和狼等)和鸟类（如鹰、猫头鹰等）通过自组织学习过程织学习划分到映射图上不同的区域，在同一区域内， Kohonen层 ●获胜神经元相似的动物则更加靠近.在以后的研究中，Mkku ●邻蚊抑经元 laine根据Hebbian连接规则将不同信息层次中协同工作的多个SOFM互相连接，建立了一个关于记忆和自然语言处理的综合模型[③]. 汉语的认知研究相对于英语来说起步较晚，而输人层○O○○○ 且作为汉语的书写符号系统汉字具有不同于拼音文 ↑↑↑↑ 字的特点，导致汉字的信息加工在某些方面和拼音输人模式量文字有所区别，而利用神经网络对汉语认知过程进行的研究也较少，本文是在北京语言大学提供的汉图1 Kohonen神经网络结构字及其部件编码库的基础上，采用多层协同工作的 Fig-1 Structure of the Kohonen neural network 改进Kohonen神经网络对汉语言初学者的汉字认 1.1 Kohonen神经网络算法描述知过程进行模拟研究，模拟内容主要包括对汉字结 Kohonen神经网络的算法步骤如下. 构类型的学习过程和汉字部件的识别过程两个主要 (1)初始化网络权值向量Wo∈RcM,学习率方面， a(to)∈(0,1)，邻域大小N(to),允许误差精度e, 1 Kohonen神经网络及其改进 e是大于0的小常数，令迭代计数器t=1. (2)计算输入模式向量X,∈Rm与所有输出神 Kohonen提出的SOFM是一种前馈式无监督经元向量的欧氏距离：收稿日期：2005-11-06修回日期：2006-09-06 作者简介：杜大鹏(1980一)，男，硕士研究生：穆志纯(1952一)男， ‖X-W‖= (X:-W)2 (1) =1 教授，博士生导师 (3)选择具有最小距离神经元作为获胜神一种用于模拟汉字认知过程的多层自组织神经网络杜大鹏穆志纯陈静方新北京科技大学信息工程学院北京100083 摘要为了模拟汉语初学者的汉字认知过程在 Kohonen 神经网络的基础上改进了其网络结构和算法并且将改进后的网络输出层根据 Hebbian 学习规则连接构建了一个多 Kohonen 网络协同工作的汉字认知自组织神经网络模型．模拟研究结果表明模型能够成功地学习到汉字的结构类型且能有效识别出汉字的部件在一定程度上模拟了汉字认知的部分过程说明该模型用于汉字认知乃至汉语言习得的可行性．关键词自组织神经网络；多层；汉字学习；汉字结构类型；汉字部件分类号 TP391∙12 收稿日期：20051106 修回日期：20060906 作者简介：杜大鹏（1980—）男硕士研究生；穆志纯（1952—）男教授博士生导师依据大脑对信号处理的特点芬兰学者 Kohonen 于1982年提出了著名的自组织特征映射网络 ———SOFM ［1］该网络利用其自组织特性来实现聚类、识别、排序以及拓扑不变性映射等功能．语言研究则是自组织网络的一个重要应用在一定程度上能够模拟人类的学习过程．最早采用自组织网络研究语言的是 Ritter 和 Kohonen 关于野生肉食动物和鸟类的自组织分类［2］他们将野生肉食动物（如老虎、狮子和狼等）和鸟类（如鹰、猫头鹰等）通过自组织学习划分到映射图上不同的区域在同一区域内相似的动物则更加靠近．在以后的研究中Miikkulaine 根据 Hebbian 连接规则将不同信息层次中协同工作的多个 SOFM 互相连接建立了一个关于记忆和自然语言处理的综合模型［3］．汉语的认知研究相对于英语来说起步较晚而且作为汉语的书写符号系统汉字具有不同于拼音文字的特点导致汉字的信息加工在某些方面和拼音文字有所区别而利用神经网络对汉语认知过程进行的研究也较少．本文是在北京语言大学提供的汉字及其部件编码库的基础上采用多层协同工作的改进 Kohonen 神经网络对汉语言初学者的汉字认知过程进行模拟研究模拟内容主要包括对汉字结构类型的学习过程和汉字部件的识别过程两个主要方面． 1 Kohonen 神经网络及其改进 Kohonen 提出的 SOFM 是一种前馈式无监督学习的网络（图1）由输入层和输出层组成．其中输入层又称为匹配层计算输入模式向量与权值向量之间的距离即匹配程度；输出层又称为竞争层层上各神经元以匹配程度为依据进行竞争确定获胜神经元同时获胜神经元及其邻域内神经元的权值向量向模式矢量方向更新．竞争和学习的过程不断重复直到神经元学会所有输入模式并且以权值向量的方式存储在网络中．这一过程就是网络的自组织学习过程．图1 Kohonen 神经网络结构 Fig．1 Structure of the Kohonen neural network 1∙1 Kohonen 神经网络算法描述 Kohonen 神经网络的算法步骤如下．（1）初始化网络权值向量 W0∈R CM学习率 α（ t0）∈（01）邻域大小 Nc（ t0）允许误差精度 ε ε是大于0的小常数令迭代计数器 t＝1．（2）计算输入模式向量 Xk∈Rm 与所有输出神经元向量的欧氏距离： ‖X— Wj‖＝ ∑ n i＝1 （ Xi － Wij） 2 （1）（3）选择具有最小距离神经元作为获胜神第29卷第1期 2007年 1月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．29No．1 Jan．2007 DOI:10．13374／j．issn1001－053x．2007．01．022

向下翻页>>

点击下载：一种用于模拟汉字认知过程的多层自组织神经网络