正在加载图片...
第4期 陈建平,等:基于大脑情感学习的四轮驱动机器人速度补偿控制 ·363. 生理结构的基础上,将大脑情感学习模型划分为两 输入与输出、控制量以及跟踪误差等因素的函数.因 大组成部分,即分别对应杏仁核和眶额皮质.大脑情 为A-0组织中的可调权值较多,其节点个数通常设 感学习模型的基本工作原理及结构如图3所示 置为多个,因此,感官输入函数通常为向量形式 感官 由于全向移动机器人的角速度可以单独进行规 输人S丘脑 感官 皮质 眶额 划,此处只讨论机器人的线速度补偿控制器.又由于 皮质 机器人在局部坐标系的x和y方向上有相似的运动 特性,因此本文以x方向上的线速度为例设计补偿 奖励信号R 香仁体 输出E 控制器.基于大脑情感学习的速度补偿控制器结构 图3大脑情感学习模型的基本结构 如图4所示. Fig.3 Structure of brain emotional learning model 感官输人 由图3可知,感官输入信号S,的最大值通过丘 函数S, BEL 情感暗示 模型E 受控 脑传递给杏仁体,则有A.=max(S,)· 函数Rw 系统 1)对于每一个刺激信号,杏仁体内均有一个对 BEL控制器 应节点A:来接收,该刺激信号包括感官输入信号 S,、奖励信号Rx以及丘脑信号A,则杏仁体的输出 为 图4基于大脑情感学习的速度补偿控制器 Fig.4 Velocity compensation controller based on brain A:=V:·S,Am+1=Vm+1·Ah,i=0,1,…,m emotional learning (3) 设x方向机器人的线速度误差为e,为了便于 式中:m为刺激信号的数目,V为各节点的权值,其 与文献[10]中的方法进行比较,选取感官输入函数 调节律为: 为PD控制器的形式,则有感官输入函数为 △y:=a[S4·max(0,Rw-】 A,)门,(4) s=e小地6 △Vn+1=a[Ah·max(0,Rw-】 41.(5 以刺激学习的奖励信号R为目标函数的情感 式中:α为学习率,它影响杏仁体的学习速度:△V 暗示函数为 的单调性与S,的符号保持一致. de Rpw =re raedt +rsdi 2)对于刺激信号,眶额皮质内也有节点接收, 则有BEL模型的输出为 它的刺激信号为感官皮质信号(即感官输入信号) 和来自杏仁体的信号,而对丘脑的信号不产生刺激 u=E= W·S,= 它的输出为 0,=W·S (6) kre+kedt+ks d de 式中:W,为各节点的权值,它的调节律为 式中:k、k2、k、k4、T1、r2、T3分别为权重调节系 AW:=B[S,·(E'-Rw)] (7) 数,1、2r3为对象误差减小的期望.k~ka的调节 式中:B为学习率,且B>0,E为不含丘脑信号刺激 律为: 下的杏仁体的输出,可表示为 S, △k:=S,[a·max(0,Rew-V· (8) i=1 i=1 由式(3)~(8)可以看出,△W,可取正值也可取 S B(V. -W·S,-Rw)],i=1,2,3: 负值,即眶额皮质能抑制或增强杏仁体的学习过程, A 通过消除奖励信号Rw与杏仁体输出E'之间的差 ,=aAm(0.R-A)], 值,使杏仁体向着期望值学习. 32基于大脑情感学习的速度补偿控制器 式中:S,表示S,中的各个向量元素。 BEL模型与实际系统相结合,必须事先确定感 通常,神经网络学习需要利用系统的导数信息, 官输入信号S,和奖励信号R的函数形式,分别称 按照梯度下降的思想进行权值的更新迭代,易受到 之为感官输入函数和情感暗示函数,它们为系统的 初始取值的影响,计算效率低:而由权值调节式生理结构的基础上,将大脑情感学习模型划分为两 大组成部分,即分别对应杏仁核和眶额皮质.大脑情 感学习模型的基本工作原理及结构如图 3 所示. 图 3 大脑情感学习模型的基本结构 Fig.3 Structure of brain emotional learning model 由图 3 可知,感官输入信号 SI 的最大值通过丘 脑传递给杏仁体,则有 Ath =max(SI). 1)对于每一个刺激信号,杏仁体内均有一个对 应节点 Ai 来接收,该刺激信号包括感官输入信号 SI、奖励信号 REW以及丘脑信号 Ath ,则杏仁体的输出 为 Ai = Vi·SI i ,Am+1 = Vm+1·Ath , i = 0,1,…,m. (3) 式中:m 为刺激信号的数目,Vi 为各节点的权值,其 调节律为: ΔVi = α [SI i ·max(0,REW - ∑ m+1 i = 1 Ai)], (4) ΔVm+1 = α [Ath·max(0,REW - ∑ m+1 i = 1 Ai)]. (5) 式中:α 为学习率,它影响杏仁体的学习速度;ΔVi 的单调性与 SI i 的符号保持一致. 2)对于刺激信号,眶额皮质内也有节点接收, 它的刺激信号为感官皮质信号(即感官输入信号) 和来自杏仁体的信号,而对丘脑的信号不产生刺激. 它的输出为 Oi = Wi·SI i . (6) 式中:Wi 为各节点的权值,它的调节律为 ΔWi = β [SI i ·(E′ - REW )]. (7) 式中:β 为学习率,且 β>0,E′为不含丘脑信号刺激 下的杏仁体的输出,可表示为 E′ = ∑ m i = 1 Ai - ∑ m i = 1 Oi . (8) 由式(3) ~ (8)可以看出,ΔWi 可取正值也可取 负值,即眶额皮质能抑制或增强杏仁体的学习过程, 通过消除奖励信号 REW与杏仁体输出 E′之间的差 值,使杏仁体向着期望值学习. 3.2 基于大脑情感学习的速度补偿控制器 BEL 模型与实际系统相结合,必须事先确定感 官输入信号 SI 和奖励信号 REW的函数形式,分别称 之为感官输入函数和情感暗示函数,它们为系统的 输入与输出、控制量以及跟踪误差等因素的函数.因 为 A⁃O 组织中的可调权值较多,其节点个数通常设 置为多个,因此,感官输入函数通常为向量形式. 由于全向移动机器人的角速度可以单独进行规 划,此处只讨论机器人的线速度补偿控制器.又由于 机器人在局部坐标系的 x 和 y 方向上有相似的运动 特性,因此本文以 x 方向上的线速度为例设计补偿 控制器.基于大脑情感学习的速度补偿控制器结构 如图 4 所示. 图 4 基于大脑情感学习的速度补偿控制器 Fig.4 Velocity compensation controller based on brain emotional learning 设 x 方向机器人的线速度误差为 e,为了便于 与文献[10]中的方法进行比较,选取感官输入函数 为 PID 控制器的形式,则有感官输入函数为 SI = (k1 e k2 ∫edt k3 de dt ) T . 以刺激学习的奖励信号 REW为目标函数的情感 暗示函数为 REW = r1 e + r2 ∫edt + r3 de dt . 则有 BEL 模型的输出为 u = E = V· SI Ath é ë ê ê ù û ú ú - W·SI = k1 e + k2 ∫edt + k3 de dt + k4Ath . 式中: k1 、 k2 、 k3 、 k4 、 r1 、 r2 、 r3 分别为权重调节系 数, r1 、r2 、r3 为对象误差减小的期望. k1 ~ k4 的调节 律为: Δki = SI i [α·max (0,REW - V· SI Ath é ë ê ê ù û ú ú ) - β(V· SI Ath é ë ê ê ù û ú ú - W·SI - REW )], i = 1,2,3; Δk4 = α[Ath·max(0,REW - ∑ m+1 i = 1 Ai)]. 式中:SI i 表示 SI 中的各个向量元素. 通常,神经网络学习需要利用系统的导数信息, 按照梯度下降的思想进行权值的更新迭代,易受到 初始取值的影响, 计算效率低; 而由权值调节式 第 4 期 陈建平,等:基于大脑情感学习的四轮驱动机器人速度补偿控制 ·363·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有