正在加载图片...
·138· 智能系统学报 第3卷 行表示,二进制串值表示该状态对应的一个情感评 从表1中的数据可以算出10次实验的平均代 价值,情感评价值要归一化到[-1,+1]间的一个 数,结果为12代.从表1还可以看出,本文所提出的 数 情感学习算法有很好的稳定性,对这种稳定性本文 3.2算法步骤 给出的解释是:虽然初始群体的生成是随机的,但由 1)随机生成初始群体 于系统能实时感知行为对环境的影响,并通过内分 2)如果进化代数超过50,则结束运算:否则用 泌系统内部腺体与腺体之间的相互促进与抑制、以 群体中每个个体所包含的信息去控制倒立摆的运 及内分泌系统对神经系统的调节作用,使自主体及 动.在控制过程中,首先将摆的初始角速度、小车的 时地调整行为,因此算法才具有较好的稳定性,对算 速度、摆的角度和小车的位置赋0,然后采用前面所 法稳定性的理论分析,将进一步进行探讨 描述的情感学习算法去控制倒立倒的运动.在本实 本文借鉴生物系统控制的机制,提出的一种新 验中,情感学习算法控制的结束条件是摆倒下或者 的自主体结构,在此结构中行为等于对神经、进化和 摆能保持1000000步不倒.如果后一种情况出现, 内分泌三大子系统的综合控制.本文后半部分重点 则在记录下此次的运行步数后,终止运行,同时输出 探讨了该自主体结构的学习机理,提出了一种基于 E矩阵.对每个个体连续进行100次试探,在这100 内分泌系统的情感学习算法,并进行了倒立摆控制 次试探中取最大的运行步数,作为该个体的适应度, 的仿真实验.实验结果表明了算法的有效性,同时还 同时记录相对应的E矩阵.E矩阵经归一化处理后 与其他一些学习算法进行了对比,如AHC), 转化为一个新的染色体,并用新的染色体替换原来 FACL1]等.下一步的工作是对该算法进行系统分 的个体,这样新一代群体应有更好的适应相同行为 析,对其收敛性从理论上进行研究,得到更完备的理 环境的能力.在此实验中学习率B取值为0.2 论基础 3)选择(使用赌轮法) 表2是本文所采用的情感学习算法和其他学习 4)交叉(使用一点交叉) 算法的一个实验结果对比.表2中AHC的结果是 5)变异(按位bit进行),转向2) 由参考文献[17]提供的,FACL是由文献[18]提供 除步骤2)外,整个算法和遗传算法基本相同.在 的.对比结果表明情感学习算法学习速度明显比其 第2)步中,采用情感学习算法去控制倒立摆的行为. 他的学习算法快。 4 计算机仿真结果 表2几种学习算法对比 本文作了10次独立的实验,这10次实验的结 Table 2 Learning method comparison on 果如表1所示 inverted pendulum control 学习算法 设置的最大的运行步数 进化代数/代 表1仿真实验结果 AHCI7 500000 75 Table 1 Simulational results FACLUS] 500000 12.59 序号 进化代数 最大运行步数 情感学习 1000000 12 1 10 1661653 2 13 1617543 5 结束语 3 10 1645149 人工情感正成为机器人研究中的一个重要方 4 10 1612658 面.在借鉴生物系统控制理论的基础上,设计了一 5 9 4925168 种基于人工情感的控制体系结构,在此结构中包含 6 25 1198978 有进化、神经和人工情感控制系统,并进行了仿真实 > 10 1605106 验.人工情感对控制结构的影响主要体现在机器人 12 1618512 主体对环境及内部状态的评价从而影响机器人的行 9 15 1501387 为决策,加强了机器人在复杂动态环境中的学习和 10 11 1398762 自适应能力 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net行表示 ,二进制串值表示该状态对应的一个情感评 价值 ,情感评价值要归一化到[ - 1 , + 1 ]间的一个 数. 312 算法步骤 1) 随机生成初始群体. 2) 如果进化代数超过 50 ,则结束运算 ;否则用 群体中每个个体所包含的信息去控制倒立摆的运 动. 在控制过程中 ,首先将摆的初始角速度、小车的 速度、摆的角度和小车的位置赋 0 ,然后采用前面所 描述的情感学习算法去控制倒立倒的运动. 在本实 验中 ,情感学习算法控制的结束条件是摆倒下或者 摆能保持 1 000 000 步不倒. 如果后一种情况出现 , 则在记录下此次的运行步数后 ,终止运行 ,同时输出 E 矩阵. 对每个个体连续进行 100 次试探 ,在这 100 次试探中取最大的运行步数 ,作为该个体的适应度 , 同时记录相对应的 E 矩阵. E 矩阵经归一化处理后 转化为一个新的染色体 ,并用新的染色体替换原来 的个体 ,这样新一代群体应有更好的适应相同行为 环境的能力. 在此实验中学习率β取值为 012. 3) 选择(使用赌轮法) . 4) 交叉(使用一点交叉) . 5) 变异(按位 bit 进行) ,转向 2) . 除步骤 2)外 ,整个算法和遗传算法基本相同. 在 第 2)步中 ,采用情感学习算法去控制倒立摆的行为. 4 计算机仿真结果 本文作了 10 次独立的实验 ,这 10 次实验的结 果如表 1 所示. 表 1 仿真实验结果 Table 1 Simulational results 序号 进化代数 最大运行步数 1 10 1 661 653 2 13 1 617 543 3 10 1 645 149 4 10 1 612 658 5 9 4 925 168 6 25 1 198 978 7 10 1 605 106 8 12 1 618 512 9 15 1 501 387 10 11 1 398 762 从表 1 中的数据可以算出 10 次实验的平均代 数 ,结果为 12 代. 从表 1 还可以看出 ,本文所提出的 情感学习算法有很好的稳定性 ,对这种稳定性本文 给出的解释是 :虽然初始群体的生成是随机的 ,但由 于系统能实时感知行为对环境的影响 ,并通过内分 泌系统内部腺体与腺体之间的相互促进与抑制、以 及内分泌系统对神经系统的调节作用 ,使自主体及 时地调整行为 ,因此算法才具有较好的稳定性 ,对算 法稳定性的理论分析 ,将进一步进行探讨. 本文借鉴生物系统控制的机制 ,提出的一种新 的自主体结构 ,在此结构中行为等于对神经、进化和 内分泌三大子系统的综合控制. 本文后半部分重点 探讨了该自主体结构的学习机理 ,提出了一种基于 内分泌系统的情感学习算法 ,并进行了倒立摆控制 的仿真实验. 实验结果表明了算法的有效性 ,同时还 与其他一些学习算法进行了对比 , 如 A HC [17 ] , FACL [ 18 ]等. 下一步的工作是对该算法进行系统分 析 ,对其收敛性从理论上进行研究 ,得到更完备的理 论基础. 表 2 是本文所采用的情感学习算法和其他学习 算法的一个实验结果对比. 表 2 中 A HC 的结果是 由参考文献[ 17 ]提供的 ,FACL 是由文献[ 18 ]提供 的. 对比结果表明情感学习算法学习速度明显比其 他的学习算法快. 表 2 几种学习算法对比 Table 2 Learning method comparison on inverted pendulum control 学习算法 设置的最大的运行步数 进化代数/ 代 A HC [17 ] 500 000 75 FACL [18 ] 500 000 12159 情感学习 1 000 000 12 5 结束语 人工情感正成为机器人研究中的一个重要方 面. 在借鉴生物系统控制理论的基础上 , 设计了一 种基于人工情感的控制体系结构 ,在此结构中包含 有进化、神经和人工情感控制系统 ,并进行了仿真实 验. 人工情感对控制结构的影响主要体现在机器人 主体对环境及内部状态的评价从而影响机器人的行 为决策 ,加强了机器人在复杂动态环境中的学习和 自适应能力. ·138 · 智 能 系 统 学 报 第 3 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有