第3卷第2期 智能系统学报 Vol.3№2 2008年4月 CAAI Transactions on Intelligent Systems Apr.2008 人工情感的进化控制系统实现 徐雄 (湖北师范学院,湖北黄石435002) 摘要:人工情感在机器人的研究中至关重要,简要概括了当前人工情感的应用.在借鉴情感学习控制的理论的基 础上,融入了进化控制的思想,设计出了一种基于人工情感的控制体系结构,在此结构中包含有基于遗传算法的进 化控制系统神经和人工情感控制系统,机器人通过神经系统接受环境信息并进行行为决策,行为决策的效果通过 情感学习模型进行反馈情感学习模型根据机器人的内、外环境状态,产生情感因子(即生物激素),再由情感因子来 调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模块又由进化系统得以继承.该控制结构加强了机器 人在动态环境中的学习和自适应能力.仿真实验验证了该控制结构的有效性,仿真结果也表明机器人具有很强的学 习和自适应能力 关键词:神经网络:遗传算法;人工情感;行为决策:机器人 中图分类号:TP18文献标识码:A文章编号:16734785(2008)02013505 Implementation of an evolutionary control system based on artificial emotion XU Xiong (Hubei Normal University,Huangshi 435002,China) Abstract:Artificial emotion is essential to robotics study.Typical implementation of artificial emotion is briefly summarized in this paper.In order to better implement emotiomlearning control mechanisms,a new control architecture based on artificial emotion is proposed.It incorporates an evolutiomcontrol sys- tem based on a Genetic Algorithm with a neural and an artificial emotion control system.The neural sys- tem receives environmental information and makes decisions.The results of decisionmaking are fed back to the emotion-learning model.The emotion-learning model produces emotional factors (hormones)based on inner and outer conditions of the robot,and these factors is used to regulate the neural system.In the final step,the memorization and behavior module of the neural system is exported to the genetic environ- ment.This control architecture enhances learning and adaptive capacities of robots in a dynamic environ- ment.Simulation was made to confirm the validity of the control architecture. Key words neural network;genetic algorithm;artificial emotion;decisiommaking;robot 近年来,人工情感在自主系统中发挥的重要作问题:如何为情感建立模型,以及如何在机器人 用正得到越来越广泛的关注.Toda提出,情感能提 中运用人工情感模型来提高机器人的性能】.而复 供机器人所需的自主性,并且是自主的最终来源山, 杂环境下行为的自组织、自适应是当前自主控制领 Minsky甚至认为如果没有情感,机器人就不可能表 域的一个研究热点.其中,生物信息处理机制有很好 现出自主行为).目前人工情感研究中有2个重要 的借鉴意义,在这方面己有很多学者做了大量的工 作.如借鉴人类脑神经机制,人们建立了人工神经网 收稿日期:2007-03-29 基金项目:因家自然科学基金资助项目(50275150);教育部博士学科 络;借鉴生物的进化机制,人们提出了进化算法等」 点专项科研基金资助项目(20040533035):湖北师范学院 但也存在一些问题,忽略了人工情感系统的高层调 研究生科研启动基金 通讯作者:徐雄.Email:xuxiong83@yahoo.com.cn. 节作用.实际上,生物的行为除了受神经和进化系 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved hup://www.cnki.net
第 3 卷第 2 期 智 能 系 统 学 报 Vol. 3 №. 2 2008 年 4 月 CAA I Transactions on Intelligent Systems Apr. 2008 人工情感的进化控制系统实现 徐 雄 (湖北师范学院 ,湖北 黄石 435002) 摘 要 :人工情感在机器人的研究中至关重要 ,简要概括了当前人工情感的应用. 在借鉴情感学习控制的理论的基 础上 , 融入了进化控制的思想 ,设计出了一种基于人工情感的控制体系结构 ,在此结构中包含有基于遗传算法的进 化控制系统、神经和人工情感控制系统. 机器人通过神经系统接受环境信息并进行行为决策 ,行为决策的效果通过 情感学习模型进行反馈. 情感学习模型根据机器人的内、外环境状态 ,产生情感因子 (即生物激素) ,再由情感因子来 调节神经系统的记忆和行为决策 ,最后神经系统的记忆与行为模块又由进化系统得以继承. 该控制结构加强了机器 人在动态环境中的学习和自适应能力. 仿真实验验证了该控制结构的有效性 ,仿真结果也表明机器人具有很强的学 习和自适应能力. 关键词 :神经网络 ;遗传算法 ;人工情感 ;行为决策 ;机器人 中图分类号 : TP18 文献标识码 :A 文章编号 :167324785 (2008) 0220135205 Implementation of an evolutionary control system based on artificial emotion XU Xiong ( Hubei Normal University , Huangshi 435002 , China) Abstract :Artificial emotion is essential to robotics st udy. Typical implementation of artificial emotion is briefly summarized in t his paper. In order to better implement emotion2learning control mechanisms , a new control architect ure based on artificial emotion is proposed. It incorporates an evolution2control sys2 tem based on a Genetic Algorit hm wit h a neural and an artificial emotion control system. The neural sys2 tem receives environmental information and makes decisions. The results of decision2making are fed back to t he emotion2learning model. The emotion2learning model produces emotional factors (hormones) based on inner and outer conditions of t he robot , and t hese factors is used to regulate t he neural system. In t he final step , t he memorization and behavior module of t he neural system is exported to t he genetic environ2 ment. This control architecture enhances learning and adaptive capacities of robots in a dynamic environ2 ment. Simulation was made to confirm t he validity of t he control architecture. Keywords :neural network ;genetic algorit hm ; artificial emotion ; decision2making ; robot 收稿日期 :2007203229. 基金项目 :国家自然科学基金资助项目(50275150) ;教育部博士学科 点专项科研基金资助项目(20040533035) ;湖北师范学院 研究生科研启动基金. 通讯作者 :徐 雄. E2mail :xuxiong83 @yahoo. com. cn. 近年来 ,人工情感在自主系统中发挥的重要作 用正得到越来越广泛的关注. Toda 提出 ,情感能提 供机器人所需的自主性 ,并且是自主的最终来源[1 ] . Minsky 甚至认为如果没有情感 ,机器人就不可能表 现出自主行为[2 ] . 目前人工情感研究中有 2 个重要 问题 :如何为情感建立模型[324 ] ,以及如何在机器人 中运用人工情感模型来提高机器人的性能[ 528 ] . 而复 杂环境下行为的自组织、自适应是当前自主控制领 域的一个研究热点. 其中 ,生物信息处理机制有很好 的借鉴意义 ,在这方面已有很多学者做了大量的工 作. 如借鉴人类脑神经机制 ,人们建立了人工神经网 络 ;借鉴生物的进化机制 ,人们提出了进化算法等. 但也存在一些问题 ,忽略了人工情感系统的高层调 节作用. 实际上 , 生物的行为除了受神经和进化系 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·136· 智能系统学报 第3卷 统的调节外,还受人工情感系统的控制.最近几年, of tolerance)等等.也可以产生一些生理参数,如:促 人们开始意识到生物调节机制对开发新的自主计算 进信号.这个促进信号在行为代数中可以产生中断 方法的启发意义.典型工作如:W.M.Shen等人模 行为 拟人工情感系统分布调节机制,提出了一个简单的 2基于人工情感的控制结构设计 分布式同步控制算法,并将该算法应用于变结构机 器人研究91:D.Canamero提出了一个简单的人工 2.1BIC控制结构 情感模型,并将该模型应用于机器人行为的控制研 BC控制结构如图2所示.在设计机器人时考 究4):OGATAT借鉴人工情感系统对人体内环境 虑2个环境:行为环境和进化环境.机器人从基于遗 的动态调节机制,提出了一种新的机器人行为控制传算法的进化环境中得到神经网络的初始记忆.神 策略5]等.本文受生物系统控制论的启发,采用神 经网络作为系统的一个主要组成部分,它从行为环 经、进化和人工情感系统去共同控制机器人的行为. 境中接收信息,并控制效应器的动作和人工情感评 鉴于此,本文提出并实现了一种新的机器人体系结 估系统的状态变化,人工情感系统在接收到相应的 (integrated biology inspired control,IBIC), 神经信号后,分泌相应的激素,这些激素通过激素回 BIC中包含有进化、神经网络和人工情感控制系 路而返回给神经网络,对神经网络起着重要的调节 统.借鉴人工情感系统的调节机制,提出了一种新 作用,进而影响机器人的行为决策,神经网络中保存 的机器人行为规划算法. 有机器人对行为环境的适应结果.即使环境是变化 的,机器人也可以通过在环境中学习来完成任务.行 1情感学习控制 为环境的状态通过机器人的学习得到体现.机器人 图1这个交叉自适应阵列结构(crossbar adap- 可以根据反应机器人在己知环境适应度的数据结 tive array architecture,CAA)既要计算出状态的评 构,通过改变相应路径上的蚂蚁留下的信息素可以 价(即情感值),也要计算出行为的评价.它由3个基 进化给下一代,这样新一代对于同样的行为环境更 本模块组成:交叉记忆存储器、状态评估器、行为选 具有适应性 择器.基本流程:I)CAA首先计算出当前所处状态 行为环境 的情感值,然后通过一个反馈环计算出下一次在同 感输入 样的状态再选择这个行为的概率,2)状态评价模块 状态识别 Agent 计算出智能体全部的情感值:然后通过神经·荷尔 感知输出 蒙信号传给交叉学习存储器(crossbar learning 选择的 memory);3)行为计算模块使用一些行为的代数式. 神经系统行为 行为决策 效应器 初始行为默认为一个好奇驱动(curiosity driven), 行为记忆 然后逐渐地被学习后的行为所取代。 人工情 感系统 状态 状态的情感评估 情感值 情感学月 交叉记忆 学习后 行为 行为 情感因子(激素) 存储器 的行为 选择 Agentf信息激素 状态 个性 进化环境 评估器 参数 情感值 图2基于人工情感的机器人行为规划系统的工作结构 图1CAA结构 Fig 2 Robot architecture based on artificial emotion regulation mechanism Fig 1 Crossbar adaptive array architecture 个性参数模块针对特殊的智能体设置的个性参 图2中的人工情感系统由2个模块所构成:情 数,例如:好奇心(curiosity)、忍耐的限度(threshold 感评估模块和情感学习模块.情感评估模块根据神 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
统的调节外 ,还受人工情感系统的控制. 最近几年 , 人们开始意识到生物调节机制对开发新的自主计算 方法的启发意义. 典型工作如 :W. M. Shen 等人模 拟人工情感系统分布调节机制 ,提出了一个简单的 分布式同步控制算法 , 并将该算法应用于变结构机 器人研究[9213 ] ;D. Canamero 提出了一个简单的人工 情感模型 ,并将该模型应用于机器人行为的控制研 究[14 ] ;O GA TA T 借鉴人工情感系统对人体内环境 的动态调节机制 ,提出了一种新的机器人行为控制 策略[ 15 ]等. 本文受生物系统控制论的启发 ,采用神 经、进化和人工情感系统去共同控制机器人的行为. 鉴于此 ,本文提出并实现了一种新的机器人体系结 构 (integrated biology inspired control , IBIC) , 在 IBIC 中包含有进化、神经网络和人工情感控制系 统. 借鉴人工情感系统的调节机制 , 提出了一种新 的机器人行为规划算法. 1 情感学习控制 图 1 这个交叉自适应阵列结构 (crossbar adap2 tive array architect ure ,CAA) 既要计算出状态的评 价(即情感值) ,也要计算出行为的评价. 它由 3 个基 本模块组成 :交叉记忆存储器、状态评估器、行为选 择器. 基本流程 :1) CAA 首先计算出当前所处状态 的情感值 ,然后通过一个反馈环计算出下一次在同 样的状态再选择这个行为的概率 ;2) 状态评价模块 计算出智能体全部的情感值 ;然后通过神经 - 荷尔 蒙信号传给交叉学 习存储 器 ( crossbar learning memory) ;3) 行为计算模块使用一些行为的代数式. 初始行为默认为一个好奇驱动 (curio sity driven) , 然后逐渐地被学习后的行为所取代. 图 1 CAA 结构 Fig11 Crossbar adaptive array architecture 个性参数模块针对特殊的智能体设置的个性参 数 ,例如 :好奇心(curiosity) 、忍耐的限度 (t hreshold of tolerance) 等等. 也可以产生一些生理参数 ,如 :促 进信号. 这个促进信号在行为代数中可以产生中断 行为. 2 基于人工情感的控制结构设计 211 IBIC 控制结构 IBIC 控制结构如图 2 所示. 在设计机器人时考 虑 2 个环境 :行为环境和进化环境. 机器人从基于遗 传算法的进化环境中得到神经网络的初始记忆. 神 经网络作为系统的一个主要组成部分 ,它从行为环 境中接收信息 ,并控制效应器的动作和人工情感评 估系统的状态变化 ,人工情感系统在接收到相应的 神经信号后 ,分泌相应的激素 ,这些激素通过激素回 路而返回给神经网络 ,对神经网络起着重要的调节 作用 ,进而影响机器人的行为决策 ,神经网络中保存 有机器人对行为环境的适应结果. 即使环境是变化 的 ,机器人也可以通过在环境中学习来完成任务. 行 为环境的状态通过机器人的学习得到体现. 机器人 可以根据反应机器人在已知环境适应度的数据结 构 ,通过改变相应路径上的蚂蚁留下的信息素可以 进化给下一代 ,这样新一代对于同样的行为环境更 具有适应性. 图 2 基于人工情感的机器人行为规划系统的工作结构 Fig12 Robot architecture based on artificial emotion regulation mechanism 图 2 中的人工情感系统由 2 个模块所构成 :情 感评估模块和情感学习模块. 情感评估模块根据神 ·136 · 智 能 系 统 学 报 第 3 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第2期 徐雄:基于人工情感的进化控制系统实现 ·137 经网络的记忆结果,对感知输入的状态进行评价.每 在状态j下执行动作α后返回状态i.动作选择规则 一个状态都有一个与之相对应的内分泌腺体.假设 用式()进行描述,其中*号表示状态j下所有可能 在t时刻系统的输入状态为j,即Status()=j,与 的动作。 该状态相对应的腺体为gland(j).t时刻系统采取 a=Afunc{E}=max{E·j} (1) 的动作是a,通过效应器的作用,使环境发生改变而 2)对状态i进行情感评价.得到其情感因子E. 使系统到达状态i,即Status(t+l)=i,与该状态相 评价规则用式2)描述 对应的腺体为gland(i).情感评估模块对状态i进 E,=Efunc/E·=max{E·/ (2) 行评价,得到状态i的情感因子E:,本文把E对应 3)情感学习.情感学习规则用式3)描述 为腺体gland(i)分泌的激素.可以认为机器人具有 E(t+1)Ufunc(E.E (=(1-B Eg +BE 情感因子E,是因为在状态j下执行了动作a而引 (3) 起的.此时应根据E来调整在状态j下执行动作a 式中:表示学习率 的情感值.这种调整对应于激素之间的相互作用,如 4)令j=i,返回1) 果E为正,说明gland()分泌的激素对gland(j)起 上面步骤中的3个函数关系可以针对实际问题 促进作用,否则起抑制作用.即将E和动作a同时 自行设计,只要能保证学习过程的收敛就可以.另外 输入情感学习模块,进行情感学习.情感学习的结果 在实际应用中,都要定义一个情感学习的结束条件 返回给神经网络,得到新的在状态j下执行动作a 情感学习结束后,神经网络中保存有机器人对行为 的情感值,进而影响神经网络的行为决策.这种结构 环境的自适应结果,这些自适应结果通过基于遗传 充分体现了神经系统和内分泌系统的相互作用,有 算法的进化机制而传给下一代个体.因而下一代与 很好的生物学基础 上一代相比,下一代有更加适应行为环境的趋势 2.2基于人工情感控制结构的实现 3基于人工情感控制系统仿真实验 在自然系统中,情感(emotion)有着非常重要的 作用,研究表明,自然情感对人的记忆、注意力、推理 3.1倒立摆系统 等方面都有重要的影响,甚至一些研究者提出人的 在各种非线性系统中,倒立摆是一个十分典型 大脑分为2个主要的独立交互系统:情感的和认知 的例子.用神经网络或进化计算来实现倒立摆的平 的,2个系统都影响行为 衡控制,迄今已经取得了不少成果.在下面的仿真实 人工情感强调内部状态对机器人行为的影响. 验中,控制系统将决定在各时刻加在小车的水平方 般都根据特定场景维护了一个内部的情感模型, 向上的力的作用方向(左还是右).本实验中可选的 并预先设定了刺激、情感状态及行为之间的传递方 动作只有2个,分别是左推和右推.定义左推对应的 式和映射关系(如网络中的权值、荷尔蒙参数等). 动作序号为0,右推对应的序号为1. 首先,这个控制系统由3个相互作用的子部分 这里首先对倒立摆系统的状态空间进行划分: 所组成:神经网络的记忆与决策、进化的继承与修 角度0的论域为[-12°,+12°],对0作6个划分 正、人工情感的高层调节.人工情感模块用(状态、动 [-12°,-8°],[-8°,4°],[-4°,0°],[0°,+4°], 作、情感值)这样三维序列的集合来表述.集合的起 【+4°,+8°],[+8°,+12].小车的位置的论域为 始值是从进化环境中获得初始输入.为了算法描述 【-2.4,+2.4],对x作3个划分:[-2.4,-0.8], 的方便,引入3个符号:E、E和E.E表示的是三 [-0.8,+0.8],[+0.8,+2.4].角速度0的论域为 维序列的集合,可以用一个 (-∞,+∞),单位(rad/s),对0作4个划分: 矩阵来表示,矩阵的行号表示动作的序号,矩阵的列 (-∞,-/31,[-/3,-/61,[-/6,0], 号表示状态的序号,矩阵的元素值表示相应状态动 0,+/61,[+/6,+/37,[+π/3,+网.速度 作对的情感值;Ea表示的是在状态i下执行动作a 的论域为(-∞,+y,单位m/s,对x作3个划分: 的情感值:E表示状态ⅰ的情感因子.人工情感的 (-°,-0.5],[-0.5,+0.5],[+0.5,+y.这样 高层调节是通过对系统状态的评估及根据评估结果 把摆立摆系统的状态空间离散化为4×4×3×3= 的反馈学习来实现的,下面是其算法步骤: 324个子空间,各个子空间对应的序号为1~324的 1)在状态j下选择一个动作,设所选动作为a, 一个数.然后对每个状态子空间用4位二进制串进 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
经网络的记忆结果 ,对感知输入的状态进行评价. 每 一个状态都有一个与之相对应的内分泌腺体. 假设 在 t 时刻系统的输入状态为 j ,即 Stat us( t) = j ,与 该状态相对应的腺体为 gland ( j) . t 时刻系统采取 的动作是 a ,通过效应器的作用 ,使环境发生改变而 使系统到达状态 i ,即 Status( t + 1) = i ,与该状态相 对应的腺体为 gland ( i) . 情感评估模块对状态 i 进 行评价 ,得到状态 i 的情感因子 Ei ,本文把 Ei 对应 为腺体 gland ( i) 分泌的激素. 可以认为机器人具有 情感因子 Ei ,是因为在状态 j 下执行了动作 a 而引 起的. 此时应根据 Ei 来调整在状态 j 下执行动作 a 的情感值. 这种调整对应于激素之间的相互作用 ,如 果 Ei 为正 ,说明 gland ( i) 分泌的激素对 gland ( j) 起 促进作用 ,否则起抑制作用. 即将 Ei 和动作 a 同时 输入情感学习模块 ,进行情感学习. 情感学习的结果 返回给神经网络 ,得到新的在状态 j 下执行动作 a 的情感值 ,进而影响神经网络的行为决策. 这种结构 充分体现了神经系统和内分泌系统的相互作用 ,有 很好的生物学基础. 212 基于人工情感控制结构的实现 在自然系统中 ,情感(emotion) 有着非常重要的 作用 ,研究表明 ,自然情感对人的记忆、注意力、推理 等方面都有重要的影响 ,甚至一些研究者提出人的 大脑分为 2 个主要的独立交互系统 :情感的和认知 的 ,2 个系统都影响行为. 人工情感强调内部状态对机器人行为的影响 , 一般都根据特定场景维护了一个内部的情感模型 , 并预先设定了刺激、情感状态及行为之间的传递方 式和映射关系(如网络中的权值、荷尔蒙参数等) . 首先 ,这个控制系统由 3 个相互作用的子部分 所组成 :神经网络的记忆与决策、进化的继承与修 正、人工情感的高层调节. 人工情感模块用(状态、动 作、情感值) 这样三维序列的集合来表述. 集合的起 始值是从进化环境中获得初始输入. 为了算法描述 的方便 ,引入 3 个符号 : E、Eai 和 Ei . E 表示的是三 维序列 的集合 ,可以用一个 矩阵来表示 ,矩阵的行号表示动作的序号 ,矩阵的列 号表示状态的序号 ,矩阵的元素值表示相应状态动 作对的情感值; Eai 表示的是在状态 i 下执行动作 a 的情感值; Ei 表示状态 i 的情感因子. 人工情感的 高层调节是通过对系统状态的评估及根据评估结果 的反馈学习来实现的 ,下面是其算法步骤 : 1) 在状态 j 下选择一个动作 ,设所选动作为 a , 在状态 j 下执行动作 a 后返回状态 i . 动作选择规则 用式(1) 进行描述 ,其中 3 号表示状态 j 下所有可能 的动作. a = Af unc{ E3 j} = max{ E3 j} . (1) 2) 对状态 i 进行情感评价 ,得到其情感因子 Ei . 评价规则用式(2) 描述. Ei = Ef unc{ E3 i} = max{ E3 i} . (2) 3) 情感学习. 情感学习规则用式(3) 描述. Eaj (t + 1) = Ufunc( Ei , Eaj (t) ) = (1 - β) Eaj (t) +βEi (3) 式中 :β表示学习率. 4) 令 j = i ,返回 1) . 上面步骤中的 3 个函数关系可以针对实际问题 自行设计 ,只要能保证学习过程的收敛就可以. 另外 在实际应用中 ,都要定义一个情感学习的结束条件. 情感学习结束后 ,神经网络中保存有机器人对行为 环境的自适应结果 ,这些自适应结果通过基于遗传 算法的进化机制而传给下一代个体. 因而下一代与 上一代相比 ,下一代有更加适应行为环境的趋势. 3 基于人工情感控制系统仿真实验 311 倒立摆系统 在各种非线性系统中 ,倒立摆是一个十分典型 的例子. 用神经网络或进化计算来实现倒立摆的平 衡控制 ,迄今已经取得了不少成果. 在下面的仿真实 验中 ,控制系统将决定在各时刻加在小车的水平方 向上的力的作用方向 (左还是右) . 本实验中可选的 动作只有 2 个 ,分别是左推和右推. 定义左推对应的 动作序号为 0 ,右推对应的序号为 1. 这里首先对倒立摆系统的状态空间进行划分 : 角度θ的论域为[ - 12°, + 12°] ,对θ作 6 个划分 : [ - 12°, - 8°] , [ - 8°, 4°] , [ - 4°, 0°] , [ 0°, + 4°] , [ + 4°, + 8°] ,[ + 8°, + 12°]. 小车的位置的论域为 [ - 2. 4 , + 2. 4 ] ,对 x 作 3 个划分 :[ - 214 , - 018 ] , [ - 018 , + 018 ] ,[ + 018 , + 214 ]. 角速度θÛ的论域为 ( - ∞, + ∞) , 单 位 ( rad/ s) , 对 θÛ作 4 个划分 : ( - ∞, - π/ 3 ] , [ - π/ 3 , -π/ 6 ] , [ - π/ 6 , 0 ] , [0 , +π/ 6 ] ,[ +π/ 6 , +π/ 3 ] , [ +π/ 3 , + ∞) . 速度 Ûx 的论域为( - ∞, + ∞) ,单位 m/ s,对 Ûx 作 3 个划分 : ( - ∞, - 015 ] ,[ - 015 , + 015 ] ,[ + 015 , + ∞) . 这样 把摆立摆系统的状态空间离散化为 4 ×4 ×3 ×3 = 324 个子空间 ,各个子空间对应的序号为 1~324 的 一个数. 然后对每个状态子空间用 4 位二进制串进 第 2 期 徐 雄 :基于人工情感的进化控制系统实现 ·137 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·138· 智能系统学报 第3卷 行表示,二进制串值表示该状态对应的一个情感评 从表1中的数据可以算出10次实验的平均代 价值,情感评价值要归一化到[-1,+1]间的一个 数,结果为12代.从表1还可以看出,本文所提出的 数 情感学习算法有很好的稳定性,对这种稳定性本文 3.2算法步骤 给出的解释是:虽然初始群体的生成是随机的,但由 1)随机生成初始群体 于系统能实时感知行为对环境的影响,并通过内分 2)如果进化代数超过50,则结束运算:否则用 泌系统内部腺体与腺体之间的相互促进与抑制、以 群体中每个个体所包含的信息去控制倒立摆的运 及内分泌系统对神经系统的调节作用,使自主体及 动.在控制过程中,首先将摆的初始角速度、小车的 时地调整行为,因此算法才具有较好的稳定性,对算 速度、摆的角度和小车的位置赋0,然后采用前面所 法稳定性的理论分析,将进一步进行探讨 描述的情感学习算法去控制倒立倒的运动.在本实 本文借鉴生物系统控制的机制,提出的一种新 验中,情感学习算法控制的结束条件是摆倒下或者 的自主体结构,在此结构中行为等于对神经、进化和 摆能保持1000000步不倒.如果后一种情况出现, 内分泌三大子系统的综合控制.本文后半部分重点 则在记录下此次的运行步数后,终止运行,同时输出 探讨了该自主体结构的学习机理,提出了一种基于 E矩阵.对每个个体连续进行100次试探,在这100 内分泌系统的情感学习算法,并进行了倒立摆控制 次试探中取最大的运行步数,作为该个体的适应度, 的仿真实验.实验结果表明了算法的有效性,同时还 同时记录相对应的E矩阵.E矩阵经归一化处理后 与其他一些学习算法进行了对比,如AHC), 转化为一个新的染色体,并用新的染色体替换原来 FACL1]等.下一步的工作是对该算法进行系统分 的个体,这样新一代群体应有更好的适应相同行为 析,对其收敛性从理论上进行研究,得到更完备的理 环境的能力.在此实验中学习率B取值为0.2 论基础 3)选择(使用赌轮法) 表2是本文所采用的情感学习算法和其他学习 4)交叉(使用一点交叉) 算法的一个实验结果对比.表2中AHC的结果是 5)变异(按位bit进行),转向2) 由参考文献[17]提供的,FACL是由文献[18]提供 除步骤2)外,整个算法和遗传算法基本相同.在 的.对比结果表明情感学习算法学习速度明显比其 第2)步中,采用情感学习算法去控制倒立摆的行为. 他的学习算法快。 4 计算机仿真结果 表2几种学习算法对比 本文作了10次独立的实验,这10次实验的结 Table 2 Learning method comparison on 果如表1所示 inverted pendulum control 学习算法 设置的最大的运行步数 进化代数/代 表1仿真实验结果 AHCI7 500000 75 Table 1 Simulational results FACLUS] 500000 12.59 序号 进化代数 最大运行步数 情感学习 1000000 12 1 10 1661653 2 13 1617543 5 结束语 3 10 1645149 人工情感正成为机器人研究中的一个重要方 4 10 1612658 面.在借鉴生物系统控制理论的基础上,设计了一 5 9 4925168 种基于人工情感的控制体系结构,在此结构中包含 6 25 1198978 有进化、神经和人工情感控制系统,并进行了仿真实 > 10 1605106 验.人工情感对控制结构的影响主要体现在机器人 12 1618512 主体对环境及内部状态的评价从而影响机器人的行 9 15 1501387 为决策,加强了机器人在复杂动态环境中的学习和 10 11 1398762 自适应能力 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
行表示 ,二进制串值表示该状态对应的一个情感评 价值 ,情感评价值要归一化到[ - 1 , + 1 ]间的一个 数. 312 算法步骤 1) 随机生成初始群体. 2) 如果进化代数超过 50 ,则结束运算 ;否则用 群体中每个个体所包含的信息去控制倒立摆的运 动. 在控制过程中 ,首先将摆的初始角速度、小车的 速度、摆的角度和小车的位置赋 0 ,然后采用前面所 描述的情感学习算法去控制倒立倒的运动. 在本实 验中 ,情感学习算法控制的结束条件是摆倒下或者 摆能保持 1 000 000 步不倒. 如果后一种情况出现 , 则在记录下此次的运行步数后 ,终止运行 ,同时输出 E 矩阵. 对每个个体连续进行 100 次试探 ,在这 100 次试探中取最大的运行步数 ,作为该个体的适应度 , 同时记录相对应的 E 矩阵. E 矩阵经归一化处理后 转化为一个新的染色体 ,并用新的染色体替换原来 的个体 ,这样新一代群体应有更好的适应相同行为 环境的能力. 在此实验中学习率β取值为 012. 3) 选择(使用赌轮法) . 4) 交叉(使用一点交叉) . 5) 变异(按位 bit 进行) ,转向 2) . 除步骤 2)外 ,整个算法和遗传算法基本相同. 在 第 2)步中 ,采用情感学习算法去控制倒立摆的行为. 4 计算机仿真结果 本文作了 10 次独立的实验 ,这 10 次实验的结 果如表 1 所示. 表 1 仿真实验结果 Table 1 Simulational results 序号 进化代数 最大运行步数 1 10 1 661 653 2 13 1 617 543 3 10 1 645 149 4 10 1 612 658 5 9 4 925 168 6 25 1 198 978 7 10 1 605 106 8 12 1 618 512 9 15 1 501 387 10 11 1 398 762 从表 1 中的数据可以算出 10 次实验的平均代 数 ,结果为 12 代. 从表 1 还可以看出 ,本文所提出的 情感学习算法有很好的稳定性 ,对这种稳定性本文 给出的解释是 :虽然初始群体的生成是随机的 ,但由 于系统能实时感知行为对环境的影响 ,并通过内分 泌系统内部腺体与腺体之间的相互促进与抑制、以 及内分泌系统对神经系统的调节作用 ,使自主体及 时地调整行为 ,因此算法才具有较好的稳定性 ,对算 法稳定性的理论分析 ,将进一步进行探讨. 本文借鉴生物系统控制的机制 ,提出的一种新 的自主体结构 ,在此结构中行为等于对神经、进化和 内分泌三大子系统的综合控制. 本文后半部分重点 探讨了该自主体结构的学习机理 ,提出了一种基于 内分泌系统的情感学习算法 ,并进行了倒立摆控制 的仿真实验. 实验结果表明了算法的有效性 ,同时还 与其他一些学习算法进行了对比 , 如 A HC [17 ] , FACL [ 18 ]等. 下一步的工作是对该算法进行系统分 析 ,对其收敛性从理论上进行研究 ,得到更完备的理 论基础. 表 2 是本文所采用的情感学习算法和其他学习 算法的一个实验结果对比. 表 2 中 A HC 的结果是 由参考文献[ 17 ]提供的 ,FACL 是由文献[ 18 ]提供 的. 对比结果表明情感学习算法学习速度明显比其 他的学习算法快. 表 2 几种学习算法对比 Table 2 Learning method comparison on inverted pendulum control 学习算法 设置的最大的运行步数 进化代数/ 代 A HC [17 ] 500 000 75 FACL [18 ] 500 000 12159 情感学习 1 000 000 12 5 结束语 人工情感正成为机器人研究中的一个重要方 面. 在借鉴生物系统控制理论的基础上 , 设计了一 种基于人工情感的控制体系结构 ,在此结构中包含 有进化、神经和人工情感控制系统 ,并进行了仿真实 验. 人工情感对控制结构的影响主要体现在机器人 主体对环境及内部状态的评价从而影响机器人的行 为决策 ,加强了机器人在复杂动态环境中的学习和 自适应能力. ·138 · 智 能 系 统 学 报 第 3 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第2期 徐雄:基于人工情感的进化控制系统实现 ·139 [11 ]SHEN W M SAL EMIB,WILL P.Hormone for self- 参考文献: reconfigurable robots C]//Proc Intl Conf,Intelligent [1]TODA M.The urge theory of emotion and cognition: Autonomous Systems,2000:918-925. SCCS Technical report [R].Nagoya:Chuyko Universi- [12]SAL EMI B,SHEN W M,W ILL P.Hormone con- ty,1994. trolled metamorphic robots [C]//Proc Intl Conf Robot- [2]MINSKY M.The society of mind[M].New York:Si- ics and Automation,Seoul,Korea,2001:4194-4199. mon and Schuster,1986. [13 ]IZARD C E.Four systems for emotion activation:cog- [3]FRUDA N P.Relations among emotion,appraisal,and nitive and nomcognitive processes[J].Psychological Re- emotional action readiness[J].Journal of Personality and view,1993,100(1):68-90. Social Psychology,1989,57:212-228. [14]CANAMERO D.A hormonal model of emotions for be- [4]CAL HOUN C,SOLOMAN R.What is an emotion[M]. havior control [C]/ECAL'97.[S.1.]1997:28-31. London:Oxford University Press,1984. [15 ]OGATA T,SUGANO S.Emotional communication [5]CAMURRIA,COG IOA.An architecture for emotional between humans and the autonomous robot which has agents[J].IEEE Multimedia,1998,5(4):24-33. the emotion model [J].IEEE Intl Conf,Robotics and [6]KUBOTAN,KOJ IMAF,FU KUDA T.Self-conscious- Automation,1999,4:3177-3182 ness and emotion for a pet robot with structure intelli- [16]GADAN HO S C.Reinforcement learning in autonomous gence[C]//Proc 9th Joint Conf of IFSA World Congress robots:an empirical investigation of the role of emotions and 20th NAFIPS Intel Conf.Vancouver,Canada,2001: [D].Edinburgh University of Edinburgh,1999 27862791. [17]BARTO A,SUTTON R,ANDERSON C.Neuronlike a- [7]KITAMURA T.An architecture of emotiom based be- daptive elements that can solve difficult learning control havior selection for mobile robots [J ]Cybernetics and problems[J].IEEE Trans Systems,Man,and Cyber- Systems,2001,32:671-690. netics,1983,13:834-846. [8]GADAN HOS C,HALLAMJ.Emotiomtriggered learn- [18]JOUFFE L.Fuzzy inference system learning by rein- ing in autonomous robot control [J ]Cybernetics and forcement methods[J ]IEEE Transactions on Systems Systems,2001,32:531-559. Man and Cybernetics,1998,28(3):338-355 [9]WILL P,CASTANO A,SHEN W M.Robot modulari- 作者简介: ty for self-reconfiguration[C]//Proc SPIE Sensor Fu 徐雄,男,讲师,1983年生,主要 sion and Decentralized Control II.[S.I.]1999:236 研究方向为智能机器人系统与控制.发 245 表学术论文7篇 [10]SHEN W M,LU Y,W ILL P.Hormonebased com trol for self-reconfigurable robots[C]//Proc Intel Conf, Autonomous Agents ,New York,USA,2000:1-8. 2008 International Conference on Intelligent Computation Technology and Automation 2008年智能计算技术与自动化国际会议 2008 International Conference on Intelligent Computation Technology and Automation (ICICTA 2008)will be held on 20-22 October,2008 in Changsha,China.ICICTA08 aims to provide a high-level in- ternational forum for scientists,engineers,and educators to present the state of the art of intelligent com- putation and automation research and applications in diverse fields.The conference will feature plenary speeches given by renowned scholars and regular sessions with broad coverage. 会议网站:http://www.icicta.org 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net
参考文献 : [1 ] TODA M. The urge theory of emotion and cognition : SCCS Technical report [ R ]. Nagoya : Chuyko Universi2 ty , 1994. [2 ]MINSKY M. The society of mind[ M ]. New York : Si2 mon and Schuster , 1986. [3 ] FRIJDA N P. Relations among emotion , appraisal , and emotional action readiness[J ].Journal of Personality and Social Psychology ,1989 ,57 :2122228. [4 ]CAL HOUN C ,SOLOMAN R. What is an emotion[ M ]. London : Oxford University Press ,1984. [5 ]CAMURRIA , CO GL IOA. An architecture for emotional agents[J ]. IEEE Multimedia ,1998 ,5 (4) :24233. [6 ] KUBO TAN , KOJ IMAF , FU KUDA T. Self2conscious2 ness and emotion for a pet robot with structure intelli2 gence [C]/ / Proc 9th Joint Conf of IFSA World Congress and 20th NAFIPS Intel Conf. Vancouver ,Canada ,2001 : 278622791. [7 ] KITAMURA T. An architecture of emotion2based be2 havior selection for mobile robots [J ]. Cybernetics and Systems ,2001 ,32 :6712690. [8 ] GADAN HOS C , HALLAM J. Emotion2triggered learn2 ing in autonomous robot control [J ]. Cybernetics and Systems ,2001 ,32 :5312559. [ 9 ]WILL P , CASTANO A , SHEN W M. Robot modulari2 ty for self2reconfiguration [ C ]/ / Proc SPIE Sensor Fu2 sion and Decentralized Control II. [ S. l. ] , 1999 : 2362 245. [10 ]SHEN W M , LU Y , W ILL P. Hormone2based con2 trol for self2reconfigurable robots[C]/ / Proc Intel Conf , Autonomous Agents ,New York ,USA ,2000 :128. [ 11 ]SHEN W M , SAL EMI B , WILL P. Hormone for self2 reconfigurable robots [ C ]/ / Proc Intl Conf , Intelligent Autonomous Systems ,2000 :9182925. [12 ]SAL EMI B , SHEN W M , W ILL P. Hormone con2 trolled metamorphic robots [ C]/ / Proc Intl Conf Robot2 ics and Automation ,Seoul , Korea , 2001 :41942 4199. [13 ]IZARD C E. Four systems for emotion activation : cog2 nitive and non2cognitive processes[J ]. Psychological Re2 view , 1993 ,100 (1) :68290. [ 14 ]CANAMERO D. A hormonal model of emotions for be2 havior control [C]/ / ECAL ’97. [ S. l. ] , 1997 :28231. [15 ] O GA TA T , SU GANO S. Emotional communication between humans and the autonomous robot which has the emotion model [J ]. IEEE Intl Conf , Robotics and Automation , 1999 , 4 :317723182. [16 ] GADAN HO S C. Reinforcement learning in autonomous robots : an empirical investigation of the role of emotions [D]. Edinburgh :University of Edinburgh ,1999. [17 ]BARTO A ,SU TTON R ,ANDERSON C. Neuronlike a2 daptive elements that can solve difficult learning control problems[J ]. IEEE Trans Systems , Man , and Cyber2 netics ,1983 ,13 :8342846. [18 ]JOU FFE L. Fuzzy inference system learning by rein2 forcement methods[J ]. IEEE Transactions on Systems Man and Cybernetics ,1998 , 28 (3) :3382355. 作者简介 : 徐 雄 ,男 ,讲师 ,1983 年生 ,主要 研究方向为智能机器人系统与控制. 发 表学术论文 7 篇. 2008 International Conference on Intelligent Computation Technology and Automation 2008 年智能计算技术与自动化国际会议 2008 International Conference on Intelligent Comp utation Technology and Automation ( ICICTA 2008) will be held on 20222 October ,2008 in Changsha , China. ICICTA08 aims to provide a high2level in2 ternational forum for scientists , engineers , and educators to present the state of t he art of intelligent com2 p utation and automation research and applications in diverse fields. The conference will feature plenary speeches given by renowned scholars and regular sessions with broad coverage. 会议网站 :http :/ / www.icicta. org 第 2 期 徐 雄 :基于人工情感的进化控制系统实现 ·139 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net