经网络的记忆结果 ,对感知输入的状态进行评价. 每一个状态都有一个与之相

正在加载图片...

第2期徐雄：基于人工情感的进化控制系统实现 ·137 经网络的记忆结果，对感知输入的状态进行评价.每在状态j下执行动作α后返回状态i.动作选择规则一个状态都有一个与之相对应的内分泌腺体.假设用式()进行描述，其中*号表示状态j下所有可能在t时刻系统的输入状态为j,即Status()=j,与的动作。该状态相对应的腺体为gland(j).t时刻系统采取 a=Afunc{E}=max{E·j} (1) 的动作是a,通过效应器的作用，使环境发生改变而 2)对状态i进行情感评价.得到其情感因子E. 使系统到达状态i,即Status(t+l)=i,与该状态相评价规则用式2)描述对应的腺体为gland(i).情感评估模块对状态i进 E,=Efunc/E·=max{E·/ (2) 行评价，得到状态i的情感因子E:,本文把E对应 3)情感学习.情感学习规则用式3)描述为腺体gland(i)分泌的激素.可以认为机器人具有 E(t+1)Ufunc(E.E (=(1-B Eg +BE 情感因子E,是因为在状态j下执行了动作a而引 (3) 起的.此时应根据E来调整在状态j下执行动作a 式中：表示学习率的情感值.这种调整对应于激素之间的相互作用，如 4)令j=i,返回1) 果E为正，说明gland()分泌的激素对gland(j)起上面步骤中的3个函数关系可以针对实际问题促进作用，否则起抑制作用.即将E和动作a同时自行设计，只要能保证学习过程的收敛就可以.另外输入情感学习模块，进行情感学习.情感学习的结果在实际应用中，都要定义一个情感学习的结束条件返回给神经网络，得到新的在状态j下执行动作a 情感学习结束后，神经网络中保存有机器人对行为的情感值，进而影响神经网络的行为决策.这种结构环境的自适应结果，这些自适应结果通过基于遗传充分体现了神经系统和内分泌系统的相互作用，有算法的进化机制而传给下一代个体.因而下一代与很好的生物学基础上一代相比，下一代有更加适应行为环境的趋势 2.2基于人工情感控制结构的实现 3基于人工情感控制系统仿真实验在自然系统中，情感(emotion)有着非常重要的作用，研究表明，自然情感对人的记忆、注意力、推理 3.1倒立摆系统等方面都有重要的影响，甚至一些研究者提出人的在各种非线性系统中，倒立摆是一个十分典型大脑分为2个主要的独立交互系统：情感的和认知的例子.用神经网络或进化计算来实现倒立摆的平的，2个系统都影响行为衡控制，迄今已经取得了不少成果.在下面的仿真实人工情感强调内部状态对机器人行为的影响. 验中，控制系统将决定在各时刻加在小车的水平方般都根据特定场景维护了一个内部的情感模型，向上的力的作用方向（左还是右）.本实验中可选的并预先设定了刺激、情感状态及行为之间的传递方动作只有2个，分别是左推和右推.定义左推对应的式和映射关系（如网络中的权值、荷尔蒙参数等）. 动作序号为0，右推对应的序号为1. 首先，这个控制系统由3个相互作用的子部分这里首先对倒立摆系统的状态空间进行划分：所组成：神经网络的记忆与决策、进化的继承与修角度0的论域为[-12°，+12°]，对0作6个划分正、人工情感的高层调节.人工情感模块用（状态、动 [-12°，-8°]，[-8°，4°]，[-4°，0°]，[0°，+4°]，作、情感值)这样三维序列的集合来表述.集合的起【+4°，+8°]，[+8°，+12].小车的位置的论域为始值是从进化环境中获得初始输入.为了算法描述【-2.4,+2.4],对x作3个划分：[-2.4，-0.8]，的方便，引入3个符号：E、E和E.E表示的是三 [-0.8,+0.8],[+0.8,+2.4].角速度0的论域为维序列<状态，动作，情感值>的集合，可以用一个 (-∞，+∞)，单位(rad/s),对0作4个划分：矩阵来表示，矩阵的行号表示动作的序号，矩阵的列 (-∞，-/31，[-/3，-/61，[-/6,0]，号表示状态的序号，矩阵的元素值表示相应状态动 0,+/61,[+/6,+/37,[+π/3，+网.速度作对的情感值；Ea表示的是在状态i下执行动作a 的论域为(-∞，+y,单位m/s,对x作3个划分：的情感值：E表示状态ⅰ的情感因子.人工情感的 (-°，-0.5]，[-0.5，+0.5]，[+0.5，+y.这样高层调节是通过对系统状态的评估及根据评估结果把摆立摆系统的状态空间离散化为4×4×3×3= 的反馈学习来实现的，下面是其算法步骤： 324个子空间，各个子空间对应的序号为1~324的 1)在状态j下选择一个动作，设所选动作为a, 一个数.然后对每个状态子空间用4位二进制串进 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net经网络的记忆结果 ,对感知输入的状态进行评价. 每一个状态都有一个与之相对应的内分泌腺体. 假设在 t 时刻系统的输入状态为 j ,即 Stat us( t) = j ,与该状态相对应的腺体为 gland ( j) . t 时刻系统采取的动作是 a ,通过效应器的作用 ,使环境发生改变而使系统到达状态 i ,即 Status( t + 1) = i ,与该状态相对应的腺体为 gland ( i) . 情感评估模块对状态 i 进行评价 ,得到状态 i 的情感因子 Ei ,本文把 Ei 对应为腺体 gland ( i) 分泌的激素. 可以认为机器人具有情感因子 Ei ,是因为在状态 j 下执行了动作 a 而引起的. 此时应根据 Ei 来调整在状态 j 下执行动作 a 的情感值. 这种调整对应于激素之间的相互作用 ,如果 Ei 为正 ,说明 gland ( i) 分泌的激素对 gland ( j) 起促进作用 ,否则起抑制作用. 即将 Ei 和动作 a 同时输入情感学习模块 ,进行情感学习. 情感学习的结果返回给神经网络 ,得到新的在状态 j 下执行动作 a 的情感值 ,进而影响神经网络的行为决策. 这种结构充分体现了神经系统和内分泌系统的相互作用 ,有很好的生物学基础. 212 基于人工情感控制结构的实现在自然系统中 ,情感(emotion) 有着非常重要的作用 ,研究表明 ,自然情感对人的记忆、注意力、推理等方面都有重要的影响 ,甚至一些研究者提出人的大脑分为 2 个主要的独立交互系统 :情感的和认知的 ,2 个系统都影响行为. 人工情感强调内部状态对机器人行为的影响 , 一般都根据特定场景维护了一个内部的情感模型 , 并预先设定了刺激、情感状态及行为之间的传递方式和映射关系(如网络中的权值、荷尔蒙参数等) . 首先 ,这个控制系统由 3 个相互作用的子部分所组成 :神经网络的记忆与决策、进化的继承与修正、人工情感的高层调节. 人工情感模块用(状态、动作、情感值) 这样三维序列的集合来表述. 集合的起始值是从进化环境中获得初始输入. 为了算法描述的方便 ,引入 3 个符号 : E、Eai 和 Ei . E 表示的是三维序列 < 状态 ,动作 ,情感值 > 的集合 ,可以用一个矩阵来表示 ,矩阵的行号表示动作的序号 ,矩阵的列号表示状态的序号 ,矩阵的元素值表示相应状态动作对的情感值; Eai 表示的是在状态 i 下执行动作 a 的情感值; Ei 表示状态 i 的情感因子. 人工情感的高层调节是通过对系统状态的评估及根据评估结果的反馈学习来实现的 ,下面是其算法步骤 : 1) 在状态 j 下选择一个动作 ,设所选动作为 a , 在状态 j 下执行动作 a 后返回状态 i . 动作选择规则用式(1) 进行描述 ,其中 3 号表示状态 j 下所有可能的动作. a = Af unc{ E3 j} = max{ E3 j} . (1) 2) 对状态 i 进行情感评价 ,得到其情感因子 Ei . 评价规则用式(2) 描述. Ei = Ef unc{ E3 i} = max{ E3 i} . (2) 3) 情感学习. 情感学习规则用式(3) 描述. Eaj (t + 1) = Ufunc( Ei , Eaj (t) ) = (1 - β) Eaj (t) +βEi (3) 式中 :β表示学习率. 4) 令 j = i ,返回 1) . 上面步骤中的 3 个函数关系可以针对实际问题自行设计 ,只要能保证学习过程的收敛就可以. 另外在实际应用中 ,都要定义一个情感学习的结束条件. 情感学习结束后 ,神经网络中保存有机器人对行为环境的自适应结果 ,这些自适应结果通过基于遗传算法的进化机制而传给下一代个体. 因而下一代与上一代相比 ,下一代有更加适应行为环境的趋势. 3 基于人工情感控制系统仿真实验 311 倒立摆系统在各种非线性系统中 ,倒立摆是一个十分典型的例子. 用神经网络或进化计算来实现倒立摆的平衡控制 ,迄今已经取得了不少成果. 在下面的仿真实验中 ,控制系统将决定在各时刻加在小车的水平方向上的力的作用方向 (左还是右) . 本实验中可选的动作只有 2 个 ,分别是左推和右推. 定义左推对应的动作序号为 0 ,右推对应的序号为 1. 这里首先对倒立摆系统的状态空间进行划分 : 角度θ的论域为[ - 12°, + 12°] ,对θ作 6 个划分 : [ - 12°, - 8°] , [ - 8°, 4°] , [ - 4°, 0°] , [ 0°, + 4°] , [ + 4°, + 8°] ,[ + 8°, + 12°]. 小车的位置的论域为 [ - 2. 4 , + 2. 4 ] ,对 x 作 3 个划分 :[ - 214 , - 018 ] , [ - 018 , + 018 ] ,[ + 018 , + 214 ]. 角速度θÛ的论域为 ( - ∞, + ∞) , 单位 ( rad/ s) , 对 θÛ作 4 个划分 : ( - ∞, - π/ 3 ] , [ - π/ 3 , -π/ 6 ] , [ - π/ 6 , 0 ] , [0 , +π/ 6 ] ,[ +π/ 6 , +π/ 3 ] , [ +π/ 3 , + ∞) . 速度 Ûx 的论域为( - ∞, + ∞) ,单位 m/ s,对 Ûx 作 3 个划分 : ( - ∞, - 015 ] ,[ - 015 , + 015 ] ,[ + 015 , + ∞) . 这样把摆立摆系统的状态空间离散化为 4 ×4 ×3 ×3 = 324 个子空间 ,各个子空间对应的序号为 1～324 的一个数. 然后对每个状态子空间用 4 位二进制串进第 2 期徐雄 :基于人工情感的进化控制系统实现 ·137 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

<<向上翻页向下翻页>>

点击下载：智能系统：人工情感的进化控制系统实现