动机器人控制中可以执行有障碍物状态下的寻路和动态避障任务。 5 分布式异

正在加载图片...

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·759· 动机器人控制中可以执行有障碍物状态下的寻路样，并进行学习，逐渐提高算法的决策能力。和动态避障任务。 5.2控制信号解码由于Turtlebot3与远程主机使用WIFI网络连 5分布式异构多机器人实验接，实际执行过程中容易受到无线信号影响，因本节将在先前基础上建立多机器人系统的控此，需要对两个Turtlebot3的动作信息进行处理以制流程，搭建用于多机器人导航的虚拟环境并进保证动作信息在通信延迟较高的环境下仍然可以行训练，最后使用多台移动机器人平台进行寻路正常运行。实验。为了保证机器人的动作信息能够正常执行导 5.1分布式多机器人控制结构航算法，将应用在机器人上的策略数值进行了缩由于训练过程中机器人需要在环境中进行放，保证机器人能正常执行动作策略，其具体计初期探索并积累经验池的经验，使用多机器人系算公式为统在训练早期可以有效提高经验搜集效率，缩短 2 a=3元arctan(16ms,》训练模型学习时间，从而提高算法训练效率，因此本文在前述单机器人导航任务实验的基础上，式中：à，表示缩放后的策略数值，此后提出了实体构建了多机器人训练的流程模型，其流程图可见机器人控制时的策略融合方法，其公式为图13。 ay=[a,a-1a-2[0.625l,0.25l-10.125L-2J 式中：1，表示时刻的状态补偿参数，用来降低由于通信阻塞情况导致的策略误差，其定义为经验信息 1,a0≥0 1201. 其他虚拟环境 9 执行任务时，为了保证算法能同时开始执行经验优先多特征策略人工势场回放算法梯度优化算法导航动作，在Liux系统中搭建了一个本地NTP RNay N 服务器用于保证Turtlebot3、远程主机和板载主机经验池M 4≥m 之间的时间统一，实际执行时，板载主机通过 WIFI连接向远程主机申请进行时间校验，并根据返回时间对自身信息进行校验，此后两个主机将图13多机器人训练流程选择同一时间执行导航任务。 Fig.13 Multi-robot training process 5.3模拟厂区的导航及避障测试及分析 1)算法获取虚拟环境中机器人的信息（激光雷 5.3.1训练环境达传感器数值，坐标位置信息)，并进行预处理；本节在前述机器人控制架构的基础上构建了 2)将上述预处理后得到的状态信息和动作模拟厂区环境，其环境如图14所示。信息和奖励信息一起添加进经验回放池，留待训练： 3)判断当前经验池的状态，如果没有达到经验回放池上限，则使用人工势场算法，根据机器人的状态信息进行判断，并提出决策信息。 4)如果经验回放池达到上限，则开始强化学习算法的网络训练，神经网络会替代人工势场算法作为多机器人系统的控制算法，同时搜集新的经验信息替换已有的经验： 5)重复3)4)，直到达到终止条件。其中为了提高早期经验搜集效率，增加经验池中优质经验比例，提高算法学习效率，在经验池达到上限之前，在环境中的各个机器人采用人工势场法进行导航，当经验池达到上限时，MFPG 图14训练环境开始根据改进的人工势场算法对经验池进行采 Fig.14 Training environment动机器人控制中可以执行有障碍物状态下的寻路和动态避障任务。 5 分布式异构多机器人实验本节将在先前基础上建立多机器人系统的控制流程，搭建用于多机器人导航的虚拟环境并进行训练，最后使用多台移动机器人平台进行寻路实验。 5.1 分布式多机器人控制结构由于训练过程中机器人需要在环境中进行初期探索并积累经验池的经验，使用多机器人系统在训练早期可以有效提高经验搜集效率，缩短训练模型学习时间，从而提高算法训练效率，因此本文在前述单机器人导航任务实验的基础上，构建了多机器人训练的流程模型，其流程图可见图 13。虚拟环境多特征策略梯度优化经验优先回放算法经验信息 at st st st+1 at 经验池 M R Nav R CA πθ N Y 人工势场算法 |M|≥m 图 13 多机器人训练流程 Fig. 13 Multi-robot training process 1) 算法获取虚拟环境中机器人的信息（激光雷达传感器数值，坐标位置信息），并进行预处理； 2) 将上述预处理后得到的状态信息和动作信息和奖励信息一起添加进经验回放池，留待训练； 3) 判断当前经验池的状态，如果没有达到经验回放池上限，则使用人工势场算法，根据机器人的状态信息进行判断，并提出决策信息。 4) 如果经验回放池达到上限，则开始强化学习算法的网络训练，神经网络会替代人工势场算法作为多机器人系统的控制算法，同时搜集新的经验信息替换已有的经验； 5) 重复 3)~4)，直到达到终止条件。其中为了提高早期经验搜集效率，增加经验池中优质经验比例，提高算法学习效率，在经验池达到上限之前，在环境中的各个机器人采用人工势场法进行导航，当经验池达到上限时，MFPG 开始根据改进的人工势场算法对经验池进行采样，并进行学习，逐渐提高算法的决策能力。 5.2 控制信号解码由于 Turtlebot3 与远程主机使用 WIFI 网络连接，实际执行过程中容易受到无线信号影响，因此，需要对两个 Turtlebot3 的动作信息进行处理以保证动作信息在通信延迟较高的环境下仍然可以正常运行。为了保证机器人的动作信息能够正常执行导航算法，将应用在机器人上的策略数值进行了缩放，保证机器人能正常执行动作策略，其具体计算公式为 aˆt = 2 3π arctan(16π(st)) 式中：aˆt表示缩放后的策略数值，此后提出了实体机器人控制时的策略融合方法，其公式为 af = [ˆat aˆt−1 aˆt−2]·[0.625It 0.25It−1 0.125It−2] T It 式中：表示 t 时刻的状态补偿参数，用来降低由于通信阻塞情况导致的策略误差，其定义为 It= { 1, at · θ ⩾ 0 0.7, 其他执行任务时，为了保证算法能同时开始执行导航动作，在 Linux 系统中搭建了一个本地 NTP 服务器用于保证 Turtlebot3、远程主机和板载主机之间的时间统一，实际执行时，板载主机通过 WIFI 连接向远程主机申请进行时间校验，并根据返回时间对自身信息进行校验，此后两个主机将选择同一时间执行导航任务。 5.3 模拟厂区的导航及避障测试及分析 5.3.1 训练环境本节在前述机器人控制架构的基础上构建了模拟厂区环境，其环境如图 14 所示。 1 2 4 3 图 14 训练环境 Fig. 14 Training environment 第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·759·

<<向上翻页向下翻页>>

点击下载：【智能系统】动态环境下分布式异构多机器人避障方法研究