正在加载图片...
.98 智能系统学报 第10卷 研究表明将来自情感的内在奖励融人到学习和决 感器和一个超声波测距传感器,将6个位置的传感 策中,能提高学习速度和决策能力。2011年, 器分为左右2组,分别测定左侧和右侧的光强度和 Malfaz等4将害怕情感因数与Q学习结合起来,通 障碍物距离,每组3个传感器中测定光强度最大值 过增加Q函数的权重,有效降低了危险的行为决 做为该组传感器测定的光强度值,左侧光强度值为 策。2011年,Sequeira等s)提出了基于情感内发动 01,右侧光强度值为0,。每组3个传感器中测定与 机机制的强化学习模型,将奖赏信号分为内部和外 障碍物距离最小值做为该组传感器测定的与障碍 部2部分,细化为好奇心、动机、价值和控制部分,实 物距离值,与左侧障碍物距离值为山,与右侧障碍物 验证明了智能体可以克服环境的缺点获得更好的 距离值为d,。 决策。2013年,Abdi等[6)利用情感经验获得奖赏信 左 号,利用TDQ学习算法,实现优化多智能体的行为 决策。2003年刘明等)提出一种基于模糊逻辑的 情感模型,将情感对环境和agent自身状态的评估 传感器 的变化作为再励信号,用于引导agent的行为选择 策略的学习。2008年,张惠娣等[]将基于情感和认 知的学习与决策模型引入到基于行为的移动机器 人控制体系中,设计了一种自主导航控制系统,提 方向轮 高了基于行为的移动机器人在未知环境中的自主 导航能力。2010年,胡云斗等9)提出一种基于任务 驱动轮 的机器人情感决策模型,建立从多种感知输入到多 图1机器人结构 种行为输出的映射,以“福娃”机器人为平台验证了 Fig.1 Robot structure 该方法的正确性和实用性。2011年,祝宇虹等[1 对害怕进行了人工情感建模,提出了带情感权重的 情感智能的机器人趋光仿生模型 Q学习加权策略,并将该策略应用于虚拟机器人的 行为决策,取得了较高的成功率。目前,针对机器 2.1感觉运动系统的内发动机机制 人的基于情感的内发动机仿生自主学习问题,很多 根据神经生理学3]】,生物体利用感受器、运 学者做了大量的工作,但对未知环境的自主学习方 动神经系统和效应器,通过自学习和自组织过程, 法,仍需不断探索。 逐渐完善运动技能的学习机制,如图2所示。感受 近年来,机器人的趋光特性作为认知领域的范 器是感觉器官,其功能是感知环境(或客体)状态, 例已经得到广泛重视,通过模拟生物的趋光行为, 运动神经系统是调节特定技能的神经细胞群,根据 研究机器人内发动机机制的渐近过程,并把这些原 环境(或客体)状态产生动作决策,效应器是机体的 理正确运用在机器人制造中,对认知科学的发展和 运动器官,其功能是根据运动神经系统动作决策对 应用起到了重要作用。针对机器人仿生自主学习 环境(或客体)施加操作。 问题,构建了基于情感因素的内发动机学习模型, 内发动机制 包括评价、行为选择和取向环节,通过“感知一行 感知 ·行动 动”的往复学习,使机器人逐渐形成、发展和完善趋 运动 光行为技能,采用模糊推理方法构建情感模型,将 感受器 神经 效应器 情感因素作为内发动机机制的内部奖赏信号,通过 系统 情感智能的作用,增加机器人趋光学习试探成功次 数和减少学习步数。 环境(客体)】 1机器人模型 图2基于感觉运动系统的内发动机机制 Fig.2 Intrinsic motivation mechanism based on senso- 采用三轮式圆盘状移动机器人模型,结构如图 rimotor system 1所示,左右2个驱动轮用来控制速度与方向,后面 生物学领域的研究表明,在生物体感觉运动系 方向轮用来保持机器人平衡。机器人圆盘前端有6 个位置可以安装传感器,每个位置安装一个光敏传 统中存在动机与内在目标和目的相关联的机制) 即内发动机机制,这种机制是一种以感觉运动系统研究表明将来自情感的内在奖励融入到学习和决 策中袁 能提高学习速度和决策能力遥 圆园员员 年袁 酝葬造枣葬扎 等咱源暂将害怕情感因数与 匝 学习结合起来袁通 过增加 匝 函数的权重袁有效降低了危险的行为决 策遥 圆园员员 年袁杂藻择怎藻蚤则葬 等咱缘暂 提出了基于情感内发动 机机制的强化学习模型袁将奖赏信号分为内部和外 部 圆 部分袁细化为好奇心尧动机尧价值和控制部分袁实 验证明了智能体可以克服环境的缺点获得更好的 决策遥 圆园员猿 年袁粤遭凿蚤 等咱远暂利用情感经验获得奖赏信 号袁利用 栽阅 匝 学习算法袁实现优化多智能体的行为 决策遥 圆园园猿 年刘明等咱苑暂 提出一种基于模糊逻辑的 情感模型袁将情感对环境和 葬早藻灶贼 自身状态的评估 的变化作为再励信号袁用于引导 葬早藻灶贼 的行为选择 策略的学习遥 圆园园愿 年袁张惠娣等咱愿暂 将基于情感和认 知的学习与决策模型引入到基于行为的移动机器 人控制体系中袁设计了一种自主导航控制系统袁提 高了基于行为的移动机器人在未知环境中的自主 导航能力遥 圆园员园 年袁胡云斗等咱怨暂提出一种基于任务 的机器人情感决策模型袁建立从多种感知输入到多 种行为输出的映射袁以野福娃冶机器人为平台验证了 该方法的正确性和实用性遥 圆园员员 年袁祝宇虹等咱员园暂 对害怕进行了人工情感建模袁提出了带情感权重的 匝 学习加权策略袁并将该策略应用于虚拟机器人的 行为决策袁取得了较高的成功率遥 目前袁针对机器 人的基于情感的内发动机仿生自主学习问题袁很多 学者做了大量的工作袁但对未知环境的自主学习方 法袁仍需不断探索遥 近年来袁机器人的趋光特性作为认知领域的范 例已经得到广泛重视袁通过模拟生物的趋光行为袁 研究机器人内发动机机制的渐近过程袁并把这些原 理正确运用在机器人制造中袁对认知科学的发展和 应用起到了重要作用遥 针对机器人仿生自主学习 问题袁构建了基于情感因素的内发动机学习模型袁 包括评价尧行为选择和取向环节袁通过野 感知要行 动冶的往复学习袁使机器人逐渐形成尧发展和完善趋 光行为技能袁采用模糊推理方法构建情感模型袁将 情感因素作为内发动机机制的内部奖赏信号袁通过 情感智能的作用袁增加机器人趋光学习试探成功次 数和减少学习步数遥 员摇 机器人模型 采用三轮式圆盘状移动机器人模型袁结构如图 员 所示袁左右 圆 个驱动轮用来控制速度与方向袁后面 方向轮用来保持机器人平衡遥 机器人圆盘前端有 远 个位置可以安装传感器袁每个位置安装一个光敏传 感器和一个超声波测距传感器袁将 远 个位置的传感 器分为左右 圆 组袁分别测定左侧和右侧的光强度和 障碍物距离袁每组 猿 个传感器中测定光强度最大值 做为该组传感器测定的光强度值袁左侧光强度值为 燥造袁右侧光强度值为 燥则遥 每组 猿 个传感器中测定与 障碍物距离最小值做为该组传感器测定的与障碍 物距离值袁与左侧障碍物距离值为 凿造袁与右侧障碍物 距离值为 凿则遥 图 员摇 机器人结构 云蚤早援员摇 砸燥遭燥贼 泽贼则怎糟贼怎则藻 圆摇 情感智能的机器人趋光仿生模型 圆援员摇 感觉运动系统的内发动机机制 根据神经生理学咱员员鄄员猿暂 袁生物体利用感受器尧运 动神经系统和效应器袁通过自学习和自组织过程袁 逐渐完善运动技能的学习机制袁如图 圆 所示遥 感受 器是感觉器官袁其功能是感知环境渊或客体冤状态袁 运动神经系统是调节特定技能的神经细胞群袁根据 环境渊或客体冤状态产生动作决策袁效应器是机体的 运动器官袁其功能是根据运动神经系统动作决策对 环境渊或客体冤施加操作遥 图 圆摇 基于感觉运动系统的内发动机机制 云蚤早援圆摇 陨灶贼则蚤灶泽蚤糟 皂燥贼蚤增葬贼蚤燥灶 皂藻糟澡葬灶蚤泽皂 遭葬泽藻凿 燥灶 泽藻灶泽燥鄄 则蚤皂燥贼燥则 泽赠泽贼藻皂 生物学领域的研究表明袁在生物体感觉运动系 统中存在动机与内在目标和目的相关联的机制咱员暂 袁 即内发动机机制袁这种机制是一种以感觉运动系统 窑怨愿窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有