正在加载图片...
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·759· 动机器人控制中可以执行有障碍物状态下的寻路 样,并进行学习,逐渐提高算法的决策能力。 和动态避障任务。 5.2控制信号解码 由于Turtlebot3与远程主机使用WIFI网络连 5分布式异构多机器人实验 接,实际执行过程中容易受到无线信号影响,因 本节将在先前基础上建立多机器人系统的控 此,需要对两个Turtlebot3的动作信息进行处理以 制流程,搭建用于多机器人导航的虚拟环境并进 保证动作信息在通信延迟较高的环境下仍然可以 行训练,最后使用多台移动机器人平台进行寻路 正常运行。 实验。 为了保证机器人的动作信息能够正常执行导 5.1分布式多机器人控制结构 航算法,将应用在机器人上的策略数值进行了缩 由于训练过程中机器人需要在环境中进行 放,保证机器人能正常执行动作策略,其具体计 初期探索并积累经验池的经验,使用多机器人系 算公式为 统在训练早期可以有效提高经验搜集效率,缩短 2 a=3元arctan(16ms,》 训练模型学习时间,从而提高算法训练效率,因 此本文在前述单机器人导航任务实验的基础上, 式中:à,表示缩放后的策略数值,此后提出了实体 构建了多机器人训练的流程模型,其流程图可见 机器人控制时的策略融合方法,其公式为 图13。 ay=[a,a-1a-2[0.625l,0.25l-10.125L-2J 式中:1,表示时刻的状态补偿参数,用来降低由于 通信阻塞情况导致的策略误差,其定义为 经验信息 1,a0≥0 1201. 其他 虚拟环境 9 执行任务时,为了保证算法能同时开始执行 经验优先 多特征策略 人工势场 回放算法 梯度优化 算法 导航动作,在Liux系统中搭建了一个本地NTP RNay N 服务器用于保证Turtlebot3、远程主机和板载主机 经验池M 4≥m 之间的时间统一,实际执行时,板载主机通过 WIFI连接向远程主机申请进行时间校验,并根据 返回时间对自身信息进行校验,此后两个主机将 图13多机器人训练流程 选择同一时间执行导航任务。 Fig.13 Multi-robot training process 5.3模拟厂区的导航及避障测试及分析 1)算法获取虚拟环境中机器人的信息(激光雷 5.3.1训练环境 达传感器数值,坐标位置信息),并进行预处理; 本节在前述机器人控制架构的基础上构建了 2)将上述预处理后得到的状态信息和动作 模拟厂区环境,其环境如图14所示。 信息和奖励信息一起添加进经验回放池,留待 训练: 3)判断当前经验池的状态,如果没有达到经 验回放池上限,则使用人工势场算法,根据机器 人的状态信息进行判断,并提出决策信息。 4)如果经验回放池达到上限,则开始强化学 习算法的网络训练,神经网络会替代人工势场算 法作为多机器人系统的控制算法,同时搜集新的 经验信息替换已有的经验: 5)重复3)4),直到达到终止条件。 其中为了提高早期经验搜集效率,增加经验 池中优质经验比例,提高算法学习效率,在经验 池达到上限之前,在环境中的各个机器人采用人 工势场法进行导航,当经验池达到上限时,MFPG 图14训练环境 开始根据改进的人工势场算法对经验池进行采 Fig.14 Training environment动机器人控制中可以执行有障碍物状态下的寻路 和动态避障任务。 5 分布式异构多机器人实验 本节将在先前基础上建立多机器人系统的控 制流程,搭建用于多机器人导航的虚拟环境并进 行训练,最后使用多台移动机器人平台进行寻路 实验。 5.1 分布式多机器人控制结构 由于训练过程中机器人需要在环境中进行 初期探索并积累经验池的经验,使用多机器人系 统在训练早期可以有效提高经验搜集效率,缩短 训练模型学习时间,从而提高算法训练效率,因 此本文在前述单机器人导航任务实验的基础上, 构建了多机器人训练的流程模型,其流程图可见 图 13。 虚拟环境 多特征策略 梯度优化 经验优先 回放算法 经验信息 at st st st+1 at 经验池 M R Nav R CA πθ N Y 人工势场 算法 |M|≥m 图 13 多机器人训练流程 Fig. 13 Multi-robot training process 1) 算法获取虚拟环境中机器人的信息(激光雷 达传感器数值,坐标位置信息),并进行预处理; 2) 将上述预处理后得到的状态信息和动作 信息和奖励信息一起添加进经验回放池,留待 训练; 3) 判断当前经验池的状态,如果没有达到经 验回放池上限,则使用人工势场算法,根据机器 人的状态信息进行判断,并提出决策信息。 4) 如果经验回放池达到上限,则开始强化学 习算法的网络训练,神经网络会替代人工势场算 法作为多机器人系统的控制算法,同时搜集新的 经验信息替换已有的经验; 5) 重复 3)~4),直到达到终止条件。 其中为了提高早期经验搜集效率,增加经验 池中优质经验比例,提高算法学习效率,在经验 池达到上限之前,在环境中的各个机器人采用人 工势场法进行导航,当经验池达到上限时,MFPG 开始根据改进的人工势场算法对经验池进行采 样,并进行学习,逐渐提高算法的决策能力。 5.2 控制信号解码 由于 Turtlebot3 与远程主机使用 WIFI 网络连 接,实际执行过程中容易受到无线信号影响,因 此,需要对两个 Turtlebot3 的动作信息进行处理以 保证动作信息在通信延迟较高的环境下仍然可以 正常运行。 为了保证机器人的动作信息能够正常执行导 航算法,将应用在机器人上的策略数值进行了缩 放,保证机器人能正常执行动作策略,其具体计 算公式为 aˆt = 2 3π arctan(16π(st)) 式中:aˆt表示缩放后的策略数值,此后提出了实体 机器人控制时的策略融合方法,其公式为 af = [ˆat aˆt−1 aˆt−2]·[0.625It 0.25It−1 0.125It−2] T It 式中: 表示 t 时刻的状态补偿参数,用来降低由于 通信阻塞情况导致的策略误差,其定义为 It= { 1, at · θ ⩾ 0 0.7, 其他 执行任务时,为了保证算法能同时开始执行 导航动作,在 Linux 系统中搭建了一个本地 NTP 服务器用于保证 Turtlebot3、远程主机和板载主机 之间的时间统一,实际执行时,板载主机通过 WIFI 连接向远程主机申请进行时间校验,并根据 返回时间对自身信息进行校验,此后两个主机将 选择同一时间执行导航任务。 5.3 模拟厂区的导航及避障测试及分析 5.3.1 训练环境 本节在前述机器人控制架构的基础上构建了 模拟厂区环境,其环境如图 14 所示。 1 2 4 3 图 14 训练环境 Fig. 14 Training environment 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·759·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有