智能系统：人工情感的进化控制系统实现

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：319KB

第3卷第2期智能系统学报 Vol.3№2 2008年4月 CAAI Transactions on Intelligent Systems Apr.2008 人工情感的进化控制系统实现徐雄 (湖北师范学院，湖北黄石435002) 摘要：人工情感在机器人的研究中至关重要，简要概括了当前人工情感的应用.在借鉴情感学习控制的理论的基础上，融入了进化控制的思想，设计出了一种基于人工情感的控制体系结构，在此结构中包含有基于遗传算法的进化控制系统神经和人工情感控制系统，机器人通过神经系统接受环境信息并进行行为决策，行为决策的效果通过情感学习模型进行反馈情感学习模型根据机器人的内、外环境状态，产生情感因子（即生物激素），再由情感因子来调节神经系统的记忆和行为决策，最后神经系统的记忆与行为模块又由进化系统得以继承.该控制结构加强了机器人在动态环境中的学习和自适应能力.仿真实验验证了该控制结构的有效性，仿真结果也表明机器人具有很强的学习和自适应能力关键词：神经网络：遗传算法；人工情感；行为决策：机器人中图分类号：TP18文献标识码：A文章编号：16734785(2008)02013505 Implementation of an evolutionary control system based on artificial emotion XU Xiong (Hubei Normal University,Huangshi 435002,China) Abstract:Artificial emotion is essential to robotics study.Typical implementation of artificial emotion is briefly summarized in this paper.In order to better implement emotiomlearning control mechanisms,a new control architecture based on artificial emotion is proposed.It incorporates an evolutiomcontrol sys- tem based on a Genetic Algorithm with a neural and an artificial emotion control system.The neural sys- tem receives environmental information and makes decisions.The results of decisionmaking are fed back to the emotion-learning model.The emotion-learning model produces emotional factors (hormones)based on inner and outer conditions of the robot,and these factors is used to regulate the neural system.In the final step,the memorization and behavior module of the neural system is exported to the genetic environ- ment.This control architecture enhances learning and adaptive capacities of robots in a dynamic environ- ment.Simulation was made to confirm the validity of the control architecture. Key words neural network;genetic algorithm;artificial emotion;decisiommaking;robot 近年来，人工情感在自主系统中发挥的重要作问题：如何为情感建立模型，以及如何在机器人用正得到越来越广泛的关注.Toda提出，情感能提中运用人工情感模型来提高机器人的性能】.而复供机器人所需的自主性，并且是自主的最终来源山，杂环境下行为的自组织、自适应是当前自主控制领 Minsky甚至认为如果没有情感，机器人就不可能表域的一个研究热点.其中，生物信息处理机制有很好现出自主行为).目前人工情感研究中有2个重要的借鉴意义，在这方面己有很多学者做了大量的工作.如借鉴人类脑神经机制，人们建立了人工神经网收稿日期：2007-03-29 基金项目：因家自然科学基金资助项目(50275150)；教育部博士学科络；借鉴生物的进化机制，人们提出了进化算法等」点专项科研基金资助项目(20040533035)：湖北师范学院但也存在一些问题，忽略了人工情感系统的高层调研究生科研启动基金通讯作者：徐雄.Email:xuxiong83@yahoo.com.cn. 节作用.实际上，生物的行为除了受神经和进化系 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved hup://www.cnki.net

第 3 卷第 2 期智能系统学报 Vol. 3 №. 2 2008 年 4 月 CAA I Transactions on Intelligent Systems Apr. 2008 人工情感的进化控制系统实现徐雄 (湖北师范学院 ,湖北黄石 435002) 摘要 :人工情感在机器人的研究中至关重要 ,简要概括了当前人工情感的应用. 在借鉴情感学习控制的理论的基础上 , 融入了进化控制的思想 ,设计出了一种基于人工情感的控制体系结构 ,在此结构中包含有基于遗传算法的进化控制系统、神经和人工情感控制系统. 机器人通过神经系统接受环境信息并进行行为决策 ,行为决策的效果通过情感学习模型进行反馈. 情感学习模型根据机器人的内、外环境状态 ,产生情感因子 (即生物激素) ,再由情感因子来调节神经系统的记忆和行为决策 ,最后神经系统的记忆与行为模块又由进化系统得以继承. 该控制结构加强了机器人在动态环境中的学习和自适应能力. 仿真实验验证了该控制结构的有效性 ,仿真结果也表明机器人具有很强的学习和自适应能力. 关键词 :神经网络 ;遗传算法 ;人工情感 ;行为决策 ;机器人中图分类号 : TP18 文献标识码 :A 文章编号 :167324785 (2008) 0220135205 Implementation of an evolutionary control system based on artificial emotion XU Xiong ( Hubei Normal University , Huangshi 435002 , China) Abstract :Artificial emotion is essential to robotics st udy. Typical implementation of artificial emotion is briefly summarized in t his paper. In order to better implement emotion2learning control mechanisms , a new control architect ure based on artificial emotion is proposed. It incorporates an evolution2control sys2 tem based on a Genetic Algorit hm wit h a neural and an artificial emotion control system. The neural sys2 tem receives environmental information and makes decisions. The results of decision2making are fed back to t he emotion2learning model. The emotion2learning model produces emotional factors (hormones) based on inner and outer conditions of t he robot , and t hese factors is used to regulate t he neural system. In t he final step , t he memorization and behavior module of t he neural system is exported to t he genetic environ2 ment. This control architecture enhances learning and adaptive capacities of robots in a dynamic environ2 ment. Simulation was made to confirm t he validity of t he control architecture. Keywords :neural network ;genetic algorit hm ; artificial emotion ; decision2making ; robot 收稿日期 :2007203229. 基金项目 :国家自然科学基金资助项目(50275150) ;教育部博士学科点专项科研基金资助项目(20040533035) ;湖北师范学院研究生科研启动基金. 通讯作者 :徐雄. E2mail :xuxiong83 @yahoo. com. cn. 近年来 ,人工情感在自主系统中发挥的重要作用正得到越来越广泛的关注. Toda 提出 ,情感能提供机器人所需的自主性 ,并且是自主的最终来源[1 ] . Minsky 甚至认为如果没有情感 ,机器人就不可能表现出自主行为[2 ] . 目前人工情感研究中有 2 个重要问题 :如何为情感建立模型[324 ] ,以及如何在机器人中运用人工情感模型来提高机器人的性能[ 528 ] . 而复杂环境下行为的自组织、自适应是当前自主控制领域的一个研究热点. 其中 ,生物信息处理机制有很好的借鉴意义 ,在这方面已有很多学者做了大量的工作. 如借鉴人类脑神经机制 ,人们建立了人工神经网络 ;借鉴生物的进化机制 ,人们提出了进化算法等. 但也存在一些问题 ,忽略了人工情感系统的高层调节作用. 实际上 , 生物的行为除了受神经和进化系 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

·136· 智能系统学报第3卷统的调节外，还受人工情感系统的控制.最近几年， of tolerance)等等.也可以产生一些生理参数，如：促人们开始意识到生物调节机制对开发新的自主计算进信号.这个促进信号在行为代数中可以产生中断方法的启发意义.典型工作如：W.M.Shen等人模行为拟人工情感系统分布调节机制，提出了一个简单的 2基于人工情感的控制结构设计分布式同步控制算法，并将该算法应用于变结构机器人研究91：D.Canamero提出了一个简单的人工 2.1BIC控制结构情感模型，并将该模型应用于机器人行为的控制研 BC控制结构如图2所示.在设计机器人时考究4)：OGATAT借鉴人工情感系统对人体内环境虑2个环境：行为环境和进化环境.机器人从基于遗的动态调节机制，提出了一种新的机器人行为控制传算法的进化环境中得到神经网络的初始记忆.神策略5]等.本文受生物系统控制论的启发，采用神经网络作为系统的一个主要组成部分，它从行为环经、进化和人工情感系统去共同控制机器人的行为. 境中接收信息，并控制效应器的动作和人工情感评鉴于此，本文提出并实现了一种新的机器人体系结估系统的状态变化，人工情感系统在接收到相应的 (integrated biology inspired control,IBIC), 神经信号后，分泌相应的激素，这些激素通过激素回 BIC中包含有进化、神经网络和人工情感控制系路而返回给神经网络，对神经网络起着重要的调节统.借鉴人工情感系统的调节机制，提出了一种新作用，进而影响机器人的行为决策，神经网络中保存的机器人行为规划算法. 有机器人对行为环境的适应结果.即使环境是变化的，机器人也可以通过在环境中学习来完成任务.行 1情感学习控制为环境的状态通过机器人的学习得到体现.机器人图1这个交叉自适应阵列结构(crossbar adap- 可以根据反应机器人在己知环境适应度的数据结 tive array architecture,CAA)既要计算出状态的评构，通过改变相应路径上的蚂蚁留下的信息素可以价（即情感值），也要计算出行为的评价.它由3个基进化给下一代，这样新一代对于同样的行为环境更本模块组成：交叉记忆存储器、状态评估器、行为选具有适应性择器.基本流程：I)CAA首先计算出当前所处状态行为环境的情感值，然后通过一个反馈环计算出下一次在同感输入样的状态再选择这个行为的概率，2)状态评价模块状态识别 Agent 计算出智能体全部的情感值：然后通过神经·荷尔感知输出蒙信号传给交叉学习存储器(crossbar learning 选择的 memory);3)行为计算模块使用一些行为的代数式. 神经系统行为行为决策效应器初始行为默认为一个好奇驱动(curiosity driven), 行为记忆然后逐渐地被学习后的行为所取代。人工情感系统状态状态的情感评估情感值情感学月交叉记忆学习后行为行为情感因子（激素）存储器的行为选择 Agentf信息激素状态个性进化环境评估器参数情感值图2基于人工情感的机器人行为规划系统的工作结构图1CAA结构 Fig 2 Robot architecture based on artificial emotion regulation mechanism Fig 1 Crossbar adaptive array architecture 个性参数模块针对特殊的智能体设置的个性参图2中的人工情感系统由2个模块所构成：情数，例如：好奇心(curiosity)、忍耐的限度(threshold 感评估模块和情感学习模块.情感评估模块根据神 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

统的调节外 ,还受人工情感系统的控制. 最近几年 , 人们开始意识到生物调节机制对开发新的自主计算方法的启发意义. 典型工作如 :W. M. Shen 等人模拟人工情感系统分布调节机制 ,提出了一个简单的分布式同步控制算法 , 并将该算法应用于变结构机器人研究[9213 ] ;D. Canamero 提出了一个简单的人工情感模型 ,并将该模型应用于机器人行为的控制研究[14 ] ;O GA TA T 借鉴人工情感系统对人体内环境的动态调节机制 ,提出了一种新的机器人行为控制策略[ 15 ]等. 本文受生物系统控制论的启发 ,采用神经、进化和人工情感系统去共同控制机器人的行为. 鉴于此 ,本文提出并实现了一种新的机器人体系结构 (integrated biology inspired control , IBIC) , 在 IBIC 中包含有进化、神经网络和人工情感控制系统. 借鉴人工情感系统的调节机制 , 提出了一种新的机器人行为规划算法. 1 情感学习控制图 1 这个交叉自适应阵列结构 (crossbar adap2 tive array architect ure ,CAA) 既要计算出状态的评价(即情感值) ,也要计算出行为的评价. 它由 3 个基本模块组成 :交叉记忆存储器、状态评估器、行为选择器. 基本流程 :1) CAA 首先计算出当前所处状态的情感值 ,然后通过一个反馈环计算出下一次在同样的状态再选择这个行为的概率 ;2) 状态评价模块计算出智能体全部的情感值 ;然后通过神经 - 荷尔蒙信号传给交叉学习存储器 ( crossbar learning memory) ;3) 行为计算模块使用一些行为的代数式. 初始行为默认为一个好奇驱动 (curio sity driven) , 然后逐渐地被学习后的行为所取代. 图 1 CAA 结构 Fig11 Crossbar adaptive array architecture 个性参数模块针对特殊的智能体设置的个性参数 ,例如 :好奇心(curiosity) 、忍耐的限度 (t hreshold of tolerance) 等等. 也可以产生一些生理参数 ,如 :促进信号. 这个促进信号在行为代数中可以产生中断行为. 2 基于人工情感的控制结构设计 211 IBIC 控制结构 IBIC 控制结构如图 2 所示. 在设计机器人时考虑 2 个环境 :行为环境和进化环境. 机器人从基于遗传算法的进化环境中得到神经网络的初始记忆. 神经网络作为系统的一个主要组成部分 ,它从行为环境中接收信息 ,并控制效应器的动作和人工情感评估系统的状态变化 ,人工情感系统在接收到相应的神经信号后 ,分泌相应的激素 ,这些激素通过激素回路而返回给神经网络 ,对神经网络起着重要的调节作用 ,进而影响机器人的行为决策 ,神经网络中保存有机器人对行为环境的适应结果. 即使环境是变化的 ,机器人也可以通过在环境中学习来完成任务. 行为环境的状态通过机器人的学习得到体现. 机器人可以根据反应机器人在已知环境适应度的数据结构 ,通过改变相应路径上的蚂蚁留下的信息素可以进化给下一代 ,这样新一代对于同样的行为环境更具有适应性. 图 2 基于人工情感的机器人行为规划系统的工作结构 Fig12 Robot architecture based on artificial emotion regulation mechanism 图 2 中的人工情感系统由 2 个模块所构成 :情感评估模块和情感学习模块. 情感评估模块根据神 ·136 · 智能系统学报第 3 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第2期徐雄：基于人工情感的进化控制系统实现 ·137 经网络的记忆结果，对感知输入的状态进行评价.每在状态j下执行动作α后返回状态i.动作选择规则一个状态都有一个与之相对应的内分泌腺体.假设用式()进行描述，其中*号表示状态j下所有可能在t时刻系统的输入状态为j,即Status()=j,与的动作。该状态相对应的腺体为gland(j).t时刻系统采取 a=Afunc{E}=max{E·j} (1) 的动作是a,通过效应器的作用，使环境发生改变而 2)对状态i进行情感评价.得到其情感因子E. 使系统到达状态i,即Status(t+l)=i,与该状态相评价规则用式2)描述对应的腺体为gland(i).情感评估模块对状态i进 E,=Efunc/E·=max{E·/ (2) 行评价，得到状态i的情感因子E:,本文把E对应 3)情感学习.情感学习规则用式3)描述为腺体gland(i)分泌的激素.可以认为机器人具有 E(t+1)Ufunc(E.E (=(1-B Eg +BE 情感因子E,是因为在状态j下执行了动作a而引 (3) 起的.此时应根据E来调整在状态j下执行动作a 式中：表示学习率的情感值.这种调整对应于激素之间的相互作用，如 4)令j=i,返回1) 果E为正，说明gland()分泌的激素对gland(j)起上面步骤中的3个函数关系可以针对实际问题促进作用，否则起抑制作用.即将E和动作a同时自行设计，只要能保证学习过程的收敛就可以.另外输入情感学习模块，进行情感学习.情感学习的结果在实际应用中，都要定义一个情感学习的结束条件返回给神经网络，得到新的在状态j下执行动作a 情感学习结束后，神经网络中保存有机器人对行为的情感值，进而影响神经网络的行为决策.这种结构环境的自适应结果，这些自适应结果通过基于遗传充分体现了神经系统和内分泌系统的相互作用，有算法的进化机制而传给下一代个体.因而下一代与很好的生物学基础上一代相比，下一代有更加适应行为环境的趋势 2.2基于人工情感控制结构的实现 3基于人工情感控制系统仿真实验在自然系统中，情感(emotion)有着非常重要的作用，研究表明，自然情感对人的记忆、注意力、推理 3.1倒立摆系统等方面都有重要的影响，甚至一些研究者提出人的在各种非线性系统中，倒立摆是一个十分典型大脑分为2个主要的独立交互系统：情感的和认知的例子.用神经网络或进化计算来实现倒立摆的平的，2个系统都影响行为衡控制，迄今已经取得了不少成果.在下面的仿真实人工情感强调内部状态对机器人行为的影响. 验中，控制系统将决定在各时刻加在小车的水平方般都根据特定场景维护了一个内部的情感模型，向上的力的作用方向（左还是右）.本实验中可选的并预先设定了刺激、情感状态及行为之间的传递方动作只有2个，分别是左推和右推.定义左推对应的式和映射关系（如网络中的权值、荷尔蒙参数等）. 动作序号为0，右推对应的序号为1. 首先，这个控制系统由3个相互作用的子部分这里首先对倒立摆系统的状态空间进行划分：所组成：神经网络的记忆与决策、进化的继承与修角度0的论域为[-12°，+12°]，对0作6个划分正、人工情感的高层调节.人工情感模块用（状态、动 [-12°，-8°]，[-8°，4°]，[-4°，0°]，[0°，+4°]，作、情感值)这样三维序列的集合来表述.集合的起【+4°，+8°]，[+8°，+12].小车的位置的论域为始值是从进化环境中获得初始输入.为了算法描述【-2.4,+2.4],对x作3个划分：[-2.4，-0.8]，的方便，引入3个符号：E、E和E.E表示的是三 [-0.8,+0.8],[+0.8,+2.4].角速度0的论域为维序列的集合，可以用一个 (-∞，+∞)，单位(rad/s),对0作4个划分：矩阵来表示，矩阵的行号表示动作的序号，矩阵的列 (-∞，-/31，[-/3，-/61，[-/6,0]，号表示状态的序号，矩阵的元素值表示相应状态动 0,+/61,[+/6,+/37,[+π/3，+网.速度作对的情感值；Ea表示的是在状态i下执行动作a 的论域为(-∞，+y,单位m/s,对x作3个划分：的情感值：E表示状态ⅰ的情感因子.人工情感的 (-°，-0.5]，[-0.5，+0.5]，[+0.5，+y.这样高层调节是通过对系统状态的评估及根据评估结果把摆立摆系统的状态空间离散化为4×4×3×3= 的反馈学习来实现的，下面是其算法步骤： 324个子空间，各个子空间对应的序号为1~324的 1)在状态j下选择一个动作，设所选动作为a, 一个数.然后对每个状态子空间用4位二进制串进 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

经网络的记忆结果 ,对感知输入的状态进行评价. 每一个状态都有一个与之相对应的内分泌腺体. 假设在 t 时刻系统的输入状态为 j ,即 Stat us( t) = j ,与该状态相对应的腺体为 gland ( j) . t 时刻系统采取的动作是 a ,通过效应器的作用 ,使环境发生改变而使系统到达状态 i ,即 Status( t + 1) = i ,与该状态相对应的腺体为 gland ( i) . 情感评估模块对状态 i 进行评价 ,得到状态 i 的情感因子 Ei ,本文把 Ei 对应为腺体 gland ( i) 分泌的激素. 可以认为机器人具有情感因子 Ei ,是因为在状态 j 下执行了动作 a 而引起的. 此时应根据 Ei 来调整在状态 j 下执行动作 a 的情感值. 这种调整对应于激素之间的相互作用 ,如果 Ei 为正 ,说明 gland ( i) 分泌的激素对 gland ( j) 起促进作用 ,否则起抑制作用. 即将 Ei 和动作 a 同时输入情感学习模块 ,进行情感学习. 情感学习的结果返回给神经网络 ,得到新的在状态 j 下执行动作 a 的情感值 ,进而影响神经网络的行为决策. 这种结构充分体现了神经系统和内分泌系统的相互作用 ,有很好的生物学基础. 212 基于人工情感控制结构的实现在自然系统中 ,情感(emotion) 有着非常重要的作用 ,研究表明 ,自然情感对人的记忆、注意力、推理等方面都有重要的影响 ,甚至一些研究者提出人的大脑分为 2 个主要的独立交互系统 :情感的和认知的 ,2 个系统都影响行为. 人工情感强调内部状态对机器人行为的影响 , 一般都根据特定场景维护了一个内部的情感模型 , 并预先设定了刺激、情感状态及行为之间的传递方式和映射关系(如网络中的权值、荷尔蒙参数等) . 首先 ,这个控制系统由 3 个相互作用的子部分所组成 :神经网络的记忆与决策、进化的继承与修正、人工情感的高层调节. 人工情感模块用(状态、动作、情感值) 这样三维序列的集合来表述. 集合的起始值是从进化环境中获得初始输入. 为了算法描述的方便 ,引入 3 个符号 : E、Eai 和 Ei . E 表示的是三维序列的集合 ,可以用一个矩阵来表示 ,矩阵的行号表示动作的序号 ,矩阵的列号表示状态的序号 ,矩阵的元素值表示相应状态动作对的情感值; Eai 表示的是在状态 i 下执行动作 a 的情感值; Ei 表示状态 i 的情感因子. 人工情感的高层调节是通过对系统状态的评估及根据评估结果的反馈学习来实现的 ,下面是其算法步骤 : 1) 在状态 j 下选择一个动作 ,设所选动作为 a , 在状态 j 下执行动作 a 后返回状态 i . 动作选择规则用式(1) 进行描述 ,其中 3 号表示状态 j 下所有可能的动作. a = Af unc{ E3 j} = max{ E3 j} . (1) 2) 对状态 i 进行情感评价 ,得到其情感因子 Ei . 评价规则用式(2) 描述. Ei = Ef unc{ E3 i} = max{ E3 i} . (2) 3) 情感学习. 情感学习规则用式(3) 描述. Eaj (t + 1) = Ufunc( Ei , Eaj (t) ) = (1 - β) Eaj (t) +βEi (3) 式中 :β表示学习率. 4) 令 j = i ,返回 1) . 上面步骤中的 3 个函数关系可以针对实际问题自行设计 ,只要能保证学习过程的收敛就可以. 另外在实际应用中 ,都要定义一个情感学习的结束条件. 情感学习结束后 ,神经网络中保存有机器人对行为环境的自适应结果 ,这些自适应结果通过基于遗传算法的进化机制而传给下一代个体. 因而下一代与上一代相比 ,下一代有更加适应行为环境的趋势. 3 基于人工情感控制系统仿真实验 311 倒立摆系统在各种非线性系统中 ,倒立摆是一个十分典型的例子. 用神经网络或进化计算来实现倒立摆的平衡控制 ,迄今已经取得了不少成果. 在下面的仿真实验中 ,控制系统将决定在各时刻加在小车的水平方向上的力的作用方向 (左还是右) . 本实验中可选的动作只有 2 个 ,分别是左推和右推. 定义左推对应的动作序号为 0 ,右推对应的序号为 1. 这里首先对倒立摆系统的状态空间进行划分 : 角度θ的论域为[ - 12°, + 12°] ,对θ作 6 个划分 : [ - 12°, - 8°] , [ - 8°, 4°] , [ - 4°, 0°] , [ 0°, + 4°] , [ + 4°, + 8°] ,[ + 8°, + 12°]. 小车的位置的论域为 [ - 2. 4 , + 2. 4 ] ,对 x 作 3 个划分 :[ - 214 , - 018 ] , [ - 018 , + 018 ] ,[ + 018 , + 214 ]. 角速度θÛ的论域为 ( - ∞, + ∞) , 单位 ( rad/ s) , 对 θÛ作 4 个划分 : ( - ∞, - π/ 3 ] , [ - π/ 3 , -π/ 6 ] , [ - π/ 6 , 0 ] , [0 , +π/ 6 ] ,[ +π/ 6 , +π/ 3 ] , [ +π/ 3 , + ∞) . 速度 Ûx 的论域为( - ∞, + ∞) ,单位 m/ s,对 Ûx 作 3 个划分 : ( - ∞, - 015 ] ,[ - 015 , + 015 ] ,[ + 015 , + ∞) . 这样把摆立摆系统的状态空间离散化为 4 ×4 ×3 ×3 = 324 个子空间 ,各个子空间对应的序号为 1～324 的一个数. 然后对每个状态子空间用 4 位二进制串进第 2 期徐雄 :基于人工情感的进化控制系统实现 ·137 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

·138· 智能系统学报第3卷行表示，二进制串值表示该状态对应的一个情感评从表1中的数据可以算出10次实验的平均代价值，情感评价值要归一化到[-1，+1]间的一个数，结果为12代.从表1还可以看出，本文所提出的数情感学习算法有很好的稳定性，对这种稳定性本文 3.2算法步骤给出的解释是：虽然初始群体的生成是随机的，但由 1)随机生成初始群体于系统能实时感知行为对环境的影响，并通过内分 2)如果进化代数超过50，则结束运算：否则用泌系统内部腺体与腺体之间的相互促进与抑制、以群体中每个个体所包含的信息去控制倒立摆的运及内分泌系统对神经系统的调节作用，使自主体及动.在控制过程中，首先将摆的初始角速度、小车的时地调整行为，因此算法才具有较好的稳定性，对算速度、摆的角度和小车的位置赋0，然后采用前面所法稳定性的理论分析，将进一步进行探讨描述的情感学习算法去控制倒立倒的运动.在本实本文借鉴生物系统控制的机制，提出的一种新验中，情感学习算法控制的结束条件是摆倒下或者的自主体结构，在此结构中行为等于对神经、进化和摆能保持1000000步不倒.如果后一种情况出现，内分泌三大子系统的综合控制.本文后半部分重点则在记录下此次的运行步数后，终止运行，同时输出探讨了该自主体结构的学习机理，提出了一种基于 E矩阵.对每个个体连续进行100次试探，在这100 内分泌系统的情感学习算法，并进行了倒立摆控制次试探中取最大的运行步数，作为该个体的适应度，的仿真实验.实验结果表明了算法的有效性，同时还同时记录相对应的E矩阵.E矩阵经归一化处理后与其他一些学习算法进行了对比，如AHC), 转化为一个新的染色体，并用新的染色体替换原来 FACL1]等.下一步的工作是对该算法进行系统分的个体，这样新一代群体应有更好的适应相同行为析，对其收敛性从理论上进行研究，得到更完备的理环境的能力.在此实验中学习率B取值为0.2 论基础 3)选择（使用赌轮法）表2是本文所采用的情感学习算法和其他学习 4)交叉（使用一点交叉）算法的一个实验结果对比.表2中AHC的结果是 5)变异（按位bit进行），转向2) 由参考文献[17]提供的，FACL是由文献[18]提供除步骤2)外，整个算法和遗传算法基本相同.在的.对比结果表明情感学习算法学习速度明显比其第2)步中，采用情感学习算法去控制倒立摆的行为. 他的学习算法快。 4 计算机仿真结果表2几种学习算法对比本文作了10次独立的实验，这10次实验的结 Table 2 Learning method comparison on 果如表1所示 inverted pendulum control 学习算法设置的最大的运行步数进化代数/代表1仿真实验结果 AHCI7 500000 75 Table 1 Simulational results FACLUS] 500000 12.59 序号进化代数最大运行步数情感学习 1000000 12 1 10 1661653 2 13 1617543 5 结束语 3 10 1645149 人工情感正成为机器人研究中的一个重要方 4 10 1612658 面.在借鉴生物系统控制理论的基础上，设计了一 5 9 4925168 种基于人工情感的控制体系结构，在此结构中包含 6 25 1198978 有进化、神经和人工情感控制系统，并进行了仿真实 > 10 1605106 验.人工情感对控制结构的影响主要体现在机器人 12 1618512 主体对环境及内部状态的评价从而影响机器人的行 9 15 1501387 为决策，加强了机器人在复杂动态环境中的学习和 10 11 1398762 自适应能力 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

行表示 ,二进制串值表示该状态对应的一个情感评价值 ,情感评价值要归一化到[ - 1 , + 1 ]间的一个数. 312 算法步骤 1) 随机生成初始群体. 2) 如果进化代数超过 50 ,则结束运算 ;否则用群体中每个个体所包含的信息去控制倒立摆的运动. 在控制过程中 ,首先将摆的初始角速度、小车的速度、摆的角度和小车的位置赋 0 ,然后采用前面所描述的情感学习算法去控制倒立倒的运动. 在本实验中 ,情感学习算法控制的结束条件是摆倒下或者摆能保持 1 000 000 步不倒. 如果后一种情况出现 , 则在记录下此次的运行步数后 ,终止运行 ,同时输出 E 矩阵. 对每个个体连续进行 100 次试探 ,在这 100 次试探中取最大的运行步数 ,作为该个体的适应度 , 同时记录相对应的 E 矩阵. E 矩阵经归一化处理后转化为一个新的染色体 ,并用新的染色体替换原来的个体 ,这样新一代群体应有更好的适应相同行为环境的能力. 在此实验中学习率β取值为 012. 3) 选择(使用赌轮法) . 4) 交叉(使用一点交叉) . 5) 变异(按位 bit 进行) ,转向 2) . 除步骤 2)外 ,整个算法和遗传算法基本相同. 在第 2)步中 ,采用情感学习算法去控制倒立摆的行为. 4 计算机仿真结果本文作了 10 次独立的实验 ,这 10 次实验的结果如表 1 所示. 表 1 仿真实验结果 Table 1 Simulational results 序号进化代数最大运行步数 1 10 1 661 653 2 13 1 617 543 3 10 1 645 149 4 10 1 612 658 5 9 4 925 168 6 25 1 198 978 7 10 1 605 106 8 12 1 618 512 9 15 1 501 387 10 11 1 398 762 从表 1 中的数据可以算出 10 次实验的平均代数 ,结果为 12 代. 从表 1 还可以看出 ,本文所提出的情感学习算法有很好的稳定性 ,对这种稳定性本文给出的解释是 :虽然初始群体的生成是随机的 ,但由于系统能实时感知行为对环境的影响 ,并通过内分泌系统内部腺体与腺体之间的相互促进与抑制、以及内分泌系统对神经系统的调节作用 ,使自主体及时地调整行为 ,因此算法才具有较好的稳定性 ,对算法稳定性的理论分析 ,将进一步进行探讨. 本文借鉴生物系统控制的机制 ,提出的一种新的自主体结构 ,在此结构中行为等于对神经、进化和内分泌三大子系统的综合控制. 本文后半部分重点探讨了该自主体结构的学习机理 ,提出了一种基于内分泌系统的情感学习算法 ,并进行了倒立摆控制的仿真实验. 实验结果表明了算法的有效性 ,同时还与其他一些学习算法进行了对比 , 如 A HC [17 ] , FACL [ 18 ]等. 下一步的工作是对该算法进行系统分析 ,对其收敛性从理论上进行研究 ,得到更完备的理论基础. 表 2 是本文所采用的情感学习算法和其他学习算法的一个实验结果对比. 表 2 中 A HC 的结果是由参考文献[ 17 ]提供的 ,FACL 是由文献[ 18 ]提供的. 对比结果表明情感学习算法学习速度明显比其他的学习算法快. 表 2 几种学习算法对比 Table 2 Learning method comparison on inverted pendulum control 学习算法设置的最大的运行步数进化代数/ 代 A HC [17 ] 500 000 75 FACL [18 ] 500 000 12159 情感学习 1 000 000 12 5 结束语人工情感正成为机器人研究中的一个重要方面. 在借鉴生物系统控制理论的基础上 , 设计了一种基于人工情感的控制体系结构 ,在此结构中包含有进化、神经和人工情感控制系统 ,并进行了仿真实验. 人工情感对控制结构的影响主要体现在机器人主体对环境及内部状态的评价从而影响机器人的行为决策 ,加强了机器人在复杂动态环境中的学习和自适应能力. ·138 · 智能系统学报第 3 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第2期徐雄：基于人工情感的进化控制系统实现 ·139 [11 ]SHEN W M SAL EMIB,WILL P.Hormone for self- 参考文献： reconfigurable robots C]//Proc Intl Conf,Intelligent [1]TODA M.The urge theory of emotion and cognition: Autonomous Systems,2000:918-925. SCCS Technical report [R].Nagoya:Chuyko Universi- [12]SAL EMI B,SHEN W M,W ILL P.Hormone con- ty,1994. trolled metamorphic robots [C]//Proc Intl Conf Robot- [2]MINSKY M.The society of mind[M].New York:Si- ics and Automation,Seoul,Korea,2001:4194-4199. mon and Schuster,1986. [13 ]IZARD C E.Four systems for emotion activation:cog- [3]FRUDA N P.Relations among emotion,appraisal,and nitive and nomcognitive processes[J].Psychological Re- emotional action readiness[J].Journal of Personality and view,1993,100(1):68-90. Social Psychology,1989,57:212-228. [14]CANAMERO D.A hormonal model of emotions for be- [4]CAL HOUN C,SOLOMAN R.What is an emotion[M]. havior control [C]/ECAL'97.[S.1.]1997:28-31. London:Oxford University Press,1984. [15 ]OGATA T,SUGANO S.Emotional communication [5]CAMURRIA,COG IOA.An architecture for emotional between humans and the autonomous robot which has agents[J].IEEE Multimedia,1998,5(4):24-33. the emotion model [J].IEEE Intl Conf,Robotics and [6]KUBOTAN,KOJ IMAF,FU KUDA T.Self-conscious- Automation,1999,4:3177-3182 ness and emotion for a pet robot with structure intelli- [16]GADAN HO S C.Reinforcement learning in autonomous gence[C]//Proc 9th Joint Conf of IFSA World Congress robots:an empirical investigation of the role of emotions and 20th NAFIPS Intel Conf.Vancouver,Canada,2001: [D].Edinburgh University of Edinburgh,1999 27862791. [17]BARTO A,SUTTON R,ANDERSON C.Neuronlike a- [7]KITAMURA T.An architecture of emotiom based be- daptive elements that can solve difficult learning control havior selection for mobile robots [J ]Cybernetics and problems[J].IEEE Trans Systems,Man,and Cyber- Systems,2001,32:671-690. netics,1983,13:834-846. [8]GADAN HOS C,HALLAMJ.Emotiomtriggered learn- [18]JOUFFE L.Fuzzy inference system learning by rein- ing in autonomous robot control [J ]Cybernetics and forcement methods[J ]IEEE Transactions on Systems Systems,2001,32:531-559. Man and Cybernetics,1998,28(3):338-355 [9]WILL P,CASTANO A,SHEN W M.Robot modulari- 作者简介： ty for self-reconfiguration[C]//Proc SPIE Sensor Fu 徐雄，男，讲师，1983年生，主要 sion and Decentralized Control II.[S.I.]1999:236 研究方向为智能机器人系统与控制.发 245 表学术论文7篇 [10]SHEN W M,LU Y,W ILL P.Hormonebased com trol for self-reconfigurable robots[C]//Proc Intel Conf, Autonomous Agents ,New York,USA,2000:1-8. 2008 International Conference on Intelligent Computation Technology and Automation 2008年智能计算技术与自动化国际会议 2008 International Conference on Intelligent Computation Technology and Automation (ICICTA 2008)will be held on 20-22 October,2008 in Changsha,China.ICICTA08 aims to provide a high-level in- ternational forum for scientists,engineers,and educators to present the state of the art of intelligent com- putation and automation research and applications in diverse fields.The conference will feature plenary speeches given by renowned scholars and regular sessions with broad coverage. 会议网站：http://www.icicta.org 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net

参考文献 : [1 ] TODA M. The urge theory of emotion and cognition : SCCS Technical report [ R ]. Nagoya : Chuyko Universi2 ty , 1994. [2 ]MINSKY M. The society of mind[ M ]. New York : Si2 mon and Schuster , 1986. [3 ] FRIJDA N P. Relations among emotion , appraisal , and emotional action readiness[J ].Journal of Personality and Social Psychology ,1989 ,57 :2122228. [4 ]CAL HOUN C ,SOLOMAN R. What is an emotion[ M ]. London : Oxford University Press ,1984. [5 ]CAMURRIA , CO GL IOA. An architecture for emotional agents[J ]. IEEE Multimedia ,1998 ,5 (4) :24233. [6 ] KUBO TAN , KOJ IMAF , FU KUDA T. Self2conscious2 ness and emotion for a pet robot with structure intelli2 gence [C]/ / Proc 9th Joint Conf of IFSA World Congress and 20th NAFIPS Intel Conf. Vancouver ,Canada ,2001 : 278622791. [7 ] KITAMURA T. An architecture of emotion2based be2 havior selection for mobile robots [J ]. Cybernetics and Systems ,2001 ,32 :6712690. [8 ] GADAN HOS C , HALLAM J. Emotion2triggered learn2 ing in autonomous robot control [J ]. Cybernetics and Systems ,2001 ,32 :5312559. [ 9 ]WILL P , CASTANO A , SHEN W M. Robot modulari2 ty for self2reconfiguration [ C ]/ / Proc SPIE Sensor Fu2 sion and Decentralized Control II. [ S. l. ] , 1999 : 2362 245. [10 ]SHEN W M , LU Y , W ILL P. Hormone2based con2 trol for self2reconfigurable robots[C]/ / Proc Intel Conf , Autonomous Agents ,New York ,USA ,2000 :128. [ 11 ]SHEN W M , SAL EMI B , WILL P. Hormone for self2 reconfigurable robots [ C ]/ / Proc Intl Conf , Intelligent Autonomous Systems ,2000 :9182925. [12 ]SAL EMI B , SHEN W M , W ILL P. Hormone con2 trolled metamorphic robots [ C]/ / Proc Intl Conf Robot2 ics and Automation ,Seoul , Korea , 2001 :41942 4199. [13 ]IZARD C E. Four systems for emotion activation : cog2 nitive and non2cognitive processes[J ]. Psychological Re2 view , 1993 ,100 (1) :68290. [ 14 ]CANAMERO D. A hormonal model of emotions for be2 havior control [C]/ / ECAL ’97. [ S. l. ] , 1997 :28231. [15 ] O GA TA T , SU GANO S. Emotional communication between humans and the autonomous robot which has the emotion model [J ]. IEEE Intl Conf , Robotics and Automation , 1999 , 4 :317723182. [16 ] GADAN HO S C. Reinforcement learning in autonomous robots : an empirical investigation of the role of emotions [D]. Edinburgh :University of Edinburgh ,1999. [17 ]BARTO A ,SU TTON R ,ANDERSON C. Neuronlike a2 daptive elements that can solve difficult learning control problems[J ]. IEEE Trans Systems , Man , and Cyber2 netics ,1983 ,13 :8342846. [18 ]JOU FFE L. Fuzzy inference system learning by rein2 forcement methods[J ]. IEEE Transactions on Systems Man and Cybernetics ,1998 , 28 (3) :3382355. 作者简介 : 徐雄 ,男 ,讲师 ,1983 年生 ,主要研究方向为智能机器人系统与控制. 发表学术论文 7 篇. 2008 International Conference on Intelligent Computation Technology and Automation 2008 年智能计算技术与自动化国际会议 2008 International Conference on Intelligent Comp utation Technology and Automation ( ICICTA 2008) will be held on 20222 October ,2008 in Changsha , China. ICICTA08 aims to provide a high2level in2 ternational forum for scientists , engineers , and educators to present the state of t he art of intelligent com2 p utation and automation research and applications in diverse fields. The conference will feature plenary speeches given by renowned scholars and regular sessions with broad coverage. 会议网站 :http :/ / www.icicta. org 第 2 期徐雄 :基于人工情感的进化控制系统实现 ·139 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

智能系统：人工情感的进化控制系统实现