正在加载图片...
第2期 徐雄:基于人工情感的进化控制系统实现 ·137 经网络的记忆结果,对感知输入的状态进行评价.每 在状态j下执行动作α后返回状态i.动作选择规则 一个状态都有一个与之相对应的内分泌腺体.假设 用式()进行描述,其中*号表示状态j下所有可能 在t时刻系统的输入状态为j,即Status()=j,与 的动作。 该状态相对应的腺体为gland(j).t时刻系统采取 a=Afunc{E}=max{E·j} (1) 的动作是a,通过效应器的作用,使环境发生改变而 2)对状态i进行情感评价.得到其情感因子E. 使系统到达状态i,即Status(t+l)=i,与该状态相 评价规则用式2)描述 对应的腺体为gland(i).情感评估模块对状态i进 E,=Efunc/E·=max{E·/ (2) 行评价,得到状态i的情感因子E:,本文把E对应 3)情感学习.情感学习规则用式3)描述 为腺体gland(i)分泌的激素.可以认为机器人具有 E(t+1)Ufunc(E.E (=(1-B Eg +BE 情感因子E,是因为在状态j下执行了动作a而引 (3) 起的.此时应根据E来调整在状态j下执行动作a 式中:表示学习率 的情感值.这种调整对应于激素之间的相互作用,如 4)令j=i,返回1) 果E为正,说明gland()分泌的激素对gland(j)起 上面步骤中的3个函数关系可以针对实际问题 促进作用,否则起抑制作用.即将E和动作a同时 自行设计,只要能保证学习过程的收敛就可以.另外 输入情感学习模块,进行情感学习.情感学习的结果 在实际应用中,都要定义一个情感学习的结束条件 返回给神经网络,得到新的在状态j下执行动作a 情感学习结束后,神经网络中保存有机器人对行为 的情感值,进而影响神经网络的行为决策.这种结构 环境的自适应结果,这些自适应结果通过基于遗传 充分体现了神经系统和内分泌系统的相互作用,有 算法的进化机制而传给下一代个体.因而下一代与 很好的生物学基础 上一代相比,下一代有更加适应行为环境的趋势 2.2基于人工情感控制结构的实现 3基于人工情感控制系统仿真实验 在自然系统中,情感(emotion)有着非常重要的 作用,研究表明,自然情感对人的记忆、注意力、推理 3.1倒立摆系统 等方面都有重要的影响,甚至一些研究者提出人的 在各种非线性系统中,倒立摆是一个十分典型 大脑分为2个主要的独立交互系统:情感的和认知 的例子.用神经网络或进化计算来实现倒立摆的平 的,2个系统都影响行为 衡控制,迄今已经取得了不少成果.在下面的仿真实 人工情感强调内部状态对机器人行为的影响. 验中,控制系统将决定在各时刻加在小车的水平方 般都根据特定场景维护了一个内部的情感模型, 向上的力的作用方向(左还是右).本实验中可选的 并预先设定了刺激、情感状态及行为之间的传递方 动作只有2个,分别是左推和右推.定义左推对应的 式和映射关系(如网络中的权值、荷尔蒙参数等). 动作序号为0,右推对应的序号为1. 首先,这个控制系统由3个相互作用的子部分 这里首先对倒立摆系统的状态空间进行划分: 所组成:神经网络的记忆与决策、进化的继承与修 角度0的论域为[-12°,+12°],对0作6个划分 正、人工情感的高层调节.人工情感模块用(状态、动 [-12°,-8°],[-8°,4°],[-4°,0°],[0°,+4°], 作、情感值)这样三维序列的集合来表述.集合的起 【+4°,+8°],[+8°,+12].小车的位置的论域为 始值是从进化环境中获得初始输入.为了算法描述 【-2.4,+2.4],对x作3个划分:[-2.4,-0.8], 的方便,引入3个符号:E、E和E.E表示的是三 [-0.8,+0.8],[+0.8,+2.4].角速度0的论域为 维序列<状态,动作,情感值>的集合,可以用一个 (-∞,+∞),单位(rad/s),对0作4个划分: 矩阵来表示,矩阵的行号表示动作的序号,矩阵的列 (-∞,-/31,[-/3,-/61,[-/6,0], 号表示状态的序号,矩阵的元素值表示相应状态动 0,+/61,[+/6,+/37,[+π/3,+网.速度 作对的情感值;Ea表示的是在状态i下执行动作a 的论域为(-∞,+y,单位m/s,对x作3个划分: 的情感值:E表示状态ⅰ的情感因子.人工情感的 (-°,-0.5],[-0.5,+0.5],[+0.5,+y.这样 高层调节是通过对系统状态的评估及根据评估结果 把摆立摆系统的状态空间离散化为4×4×3×3= 的反馈学习来实现的,下面是其算法步骤: 324个子空间,各个子空间对应的序号为1~324的 1)在状态j下选择一个动作,设所选动作为a, 一个数.然后对每个状态子空间用4位二进制串进 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net经网络的记忆结果 ,对感知输入的状态进行评价. 每 一个状态都有一个与之相对应的内分泌腺体. 假设 在 t 时刻系统的输入状态为 j ,即 Stat us( t) = j ,与 该状态相对应的腺体为 gland ( j) . t 时刻系统采取 的动作是 a ,通过效应器的作用 ,使环境发生改变而 使系统到达状态 i ,即 Status( t + 1) = i ,与该状态相 对应的腺体为 gland ( i) . 情感评估模块对状态 i 进 行评价 ,得到状态 i 的情感因子 Ei ,本文把 Ei 对应 为腺体 gland ( i) 分泌的激素. 可以认为机器人具有 情感因子 Ei ,是因为在状态 j 下执行了动作 a 而引 起的. 此时应根据 Ei 来调整在状态 j 下执行动作 a 的情感值. 这种调整对应于激素之间的相互作用 ,如 果 Ei 为正 ,说明 gland ( i) 分泌的激素对 gland ( j) 起 促进作用 ,否则起抑制作用. 即将 Ei 和动作 a 同时 输入情感学习模块 ,进行情感学习. 情感学习的结果 返回给神经网络 ,得到新的在状态 j 下执行动作 a 的情感值 ,进而影响神经网络的行为决策. 这种结构 充分体现了神经系统和内分泌系统的相互作用 ,有 很好的生物学基础. 212 基于人工情感控制结构的实现 在自然系统中 ,情感(emotion) 有着非常重要的 作用 ,研究表明 ,自然情感对人的记忆、注意力、推理 等方面都有重要的影响 ,甚至一些研究者提出人的 大脑分为 2 个主要的独立交互系统 :情感的和认知 的 ,2 个系统都影响行为. 人工情感强调内部状态对机器人行为的影响 , 一般都根据特定场景维护了一个内部的情感模型 , 并预先设定了刺激、情感状态及行为之间的传递方 式和映射关系(如网络中的权值、荷尔蒙参数等) . 首先 ,这个控制系统由 3 个相互作用的子部分 所组成 :神经网络的记忆与决策、进化的继承与修 正、人工情感的高层调节. 人工情感模块用(状态、动 作、情感值) 这样三维序列的集合来表述. 集合的起 始值是从进化环境中获得初始输入. 为了算法描述 的方便 ,引入 3 个符号 : E、Eai 和 Ei . E 表示的是三 维序列 < 状态 ,动作 ,情感值 > 的集合 ,可以用一个 矩阵来表示 ,矩阵的行号表示动作的序号 ,矩阵的列 号表示状态的序号 ,矩阵的元素值表示相应状态动 作对的情感值; Eai 表示的是在状态 i 下执行动作 a 的情感值; Ei 表示状态 i 的情感因子. 人工情感的 高层调节是通过对系统状态的评估及根据评估结果 的反馈学习来实现的 ,下面是其算法步骤 : 1) 在状态 j 下选择一个动作 ,设所选动作为 a , 在状态 j 下执行动作 a 后返回状态 i . 动作选择规则 用式(1) 进行描述 ,其中 3 号表示状态 j 下所有可能 的动作. a = Af unc{ E3 j} = max{ E3 j} . (1) 2) 对状态 i 进行情感评价 ,得到其情感因子 Ei . 评价规则用式(2) 描述. Ei = Ef unc{ E3 i} = max{ E3 i} . (2) 3) 情感学习. 情感学习规则用式(3) 描述. Eaj (t + 1) = Ufunc( Ei , Eaj (t) ) = (1 - β) Eaj (t) +βEi (3) 式中 :β表示学习率. 4) 令 j = i ,返回 1) . 上面步骤中的 3 个函数关系可以针对实际问题 自行设计 ,只要能保证学习过程的收敛就可以. 另外 在实际应用中 ,都要定义一个情感学习的结束条件. 情感学习结束后 ,神经网络中保存有机器人对行为 环境的自适应结果 ,这些自适应结果通过基于遗传 算法的进化机制而传给下一代个体. 因而下一代与 上一代相比 ,下一代有更加适应行为环境的趋势. 3 基于人工情感控制系统仿真实验 311 倒立摆系统 在各种非线性系统中 ,倒立摆是一个十分典型 的例子. 用神经网络或进化计算来实现倒立摆的平 衡控制 ,迄今已经取得了不少成果. 在下面的仿真实 验中 ,控制系统将决定在各时刻加在小车的水平方 向上的力的作用方向 (左还是右) . 本实验中可选的 动作只有 2 个 ,分别是左推和右推. 定义左推对应的 动作序号为 0 ,右推对应的序号为 1. 这里首先对倒立摆系统的状态空间进行划分 : 角度θ的论域为[ - 12°, + 12°] ,对θ作 6 个划分 : [ - 12°, - 8°] , [ - 8°, 4°] , [ - 4°, 0°] , [ 0°, + 4°] , [ + 4°, + 8°] ,[ + 8°, + 12°]. 小车的位置的论域为 [ - 2. 4 , + 2. 4 ] ,对 x 作 3 个划分 :[ - 214 , - 018 ] , [ - 018 , + 018 ] ,[ + 018 , + 214 ]. 角速度θÛ的论域为 ( - ∞, + ∞) , 单 位 ( rad/ s) , 对 θÛ作 4 个划分 : ( - ∞, - π/ 3 ] , [ - π/ 3 , -π/ 6 ] , [ - π/ 6 , 0 ] , [0 , +π/ 6 ] ,[ +π/ 6 , +π/ 3 ] , [ +π/ 3 , + ∞) . 速度 Ûx 的论域为( - ∞, + ∞) ,单位 m/ s,对 Ûx 作 3 个划分 : ( - ∞, - 015 ] ,[ - 015 , + 015 ] ,[ + 015 , + ∞) . 这样 把摆立摆系统的状态空间离散化为 4 ×4 ×3 ×3 = 324 个子空间 ,各个子空间对应的序号为 1~324 的 一个数. 然后对每个状态子空间用 4 位二进制串进 第 2 期 徐 雄 :基于人工情感的进化控制系统实现 ·137 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有