正在加载图片...
第5期 于建均,等:基于动态系统的机器人模仿学习方法研究 ·1027· 另一方面,模仿学习赋予机器人获取知识、学习 避免了先前方法稳定性差的问题。同时,从未示 知识的能力,使其更加具备智能性” 教区域开始的再现运动轨迹也可以保证收敛到目 机器人模仿学习一般分为3个步骤完成:示 标点,泛化能力将大大提高。以7bot机械臂为实 教过程、学习过程、再现过程。当前,模仿学习的 验对象,进行仿真实验和机器人实验研究,实验 研究,主要集中在对学习过程的研究,已经出现 结果表明:基于DS的模仿学习方法再现生成的 了多种模仿学习的算法用来实现机器人的学习过 模仿轨迹具有全局渐近收敛的特点,从不同起始 程”。其中基于轨迹匹配的机器人模仿学习算 位置开始的生成轨迹最终都可以到达目标点,学 法主要有高斯混合模型(GMM)I2]和高斯混合回 习得到的运动模型在稳定性和泛化能力两方面表 归GMR(gaussian maxture regression)2-1)、局部加 现较好。 权回归LWR((locally weighted regression))a均、人工 神经网络ANN(artificial neural networks)6.-i切等,这 1基于动态系统的示教运动建模 些算法的特点是将示教运动轨迹数据建模为回归 11示教运动的表示及动态系统模型 过程,以期获得控制策略指导机器人对示教运动 在机器人模仿示教者示教运动的过程中,示 进行再现。虽然基于轨迹匹配的回归算法具有较 教者通过直接或者间接的方式指导机器人手臂完 强的数据表征能力和抗噪能力,但是也存在泛化 成一次或多次的运动,机器人通过其内部的关节 能力差、稳定性差等缺点u。Ijspeert等9提出的 传感器或者位置传感器,或者是外部传感器,如: 一种基于动态运动基元DMP(dynamic morement Kinect视觉传感,来捕获关于示教运动的相关信 primitives)的机器人模仿学习方法。该方法将运 息。其中示教运动的轨迹信息可以表示为如下的 动行为轨迹建模为一组微分方程,并通过线性动 态系统保证了目标的全局稳定性,可以从一个简 集合形式 单的示教中学习较复杂的运动行为,已有广泛的 L6 (1) 使用922。然而,DMP对时间具有依赖性,使其 式中:状态变量(表示机器人手臂末端执行器在 对时间扰动较为敏感,稳定性受到一定影响;而 笛卡尔坐标系下的位置;对于不同的示教任务,N 且泛化能力有限,其背后的物理意义也比较难于 表示在某个模仿任务下的示教次数。而对于每一次 理解。 的示教轨迹数据集可以表示为Xn=[Go,1,2,…,S]。 动态系统(DS)法321是近些年出现的一种 一阶动态系统被用来建模所记录的示教轨迹数 对运动数据建模的机器学习方法。DS可以表征 据,动态系统的一阶自治常微分方程表示为: 更丰富的行为,可以在状态空间的不同部分学习 t=f()+ε (2) 不同的运动。然而,由于DS存在稳定性的问题, 式中:f:R→R是非线性连续可微函数;(表示 常规的基于GMR、GPR(gaussian process regression)P 机器人末端的位置;:对应于速度;ε表示均值为 以及LWR的回归方法与DS结合也没有实现在 0的高斯噪声项,代表了传感器测量的不准确性 目标点上的稳定收敛。其往往是找到关于系统 以及示教过程的不稳定所带来的示教数据的误 的一个局部最优模型,此局部最优模型的约束条 差。且函数f可以由一组参数0来描述。具体 件无法保证系统收敛到稳定的目标点,仍然存在 地,采用相应的方法,建模式(2)为具体表达形 稳定性差和泛化能力不足的问题。 式,进而可以求解0的值。 针对以上问题,本文通过GMM将示教运动 1.2基于统计方法的高斯混合模型建模动态系统 建模为非线性DS,附加约束条件以确保DS的全 为了得到动态系统具体的表达形式,考虑使 局渐近收敛,将动态系统模型的参数学习问题转 用基于统计方法的GMM来建立对于DS的概率 化为求解一个约束优化问题,通过优化问题的求 描述/估计。高斯混合模型是一种有限混合模型, 解得到DS的参数,获得关于示教运动的非线性 其通过有限的高斯函数的混合来建立对示教运动 DS模型,并将其作为控制策略应用于机器人以实 数据的粗略的表示,同时消除数据的噪声。给定 现对示教运动的模仿。通过将动态系统方法引人 模仿学习,并考虑其在目标点处全局渐近收敛的 一组V次示教轨迹数据k,GMM由以 约束条件,相对于基于轨迹匹配的机器人模仿学 下概率密度函数表示 习方法,其除了具有较强的数据编码能力和抗噪 p(s)= oGP(nlμ,) (3) 能力,而且可以保证生成的轨迹收敛到目标点,另一方面,模仿学习赋予机器人获取知识、学习 知识的能力,使其更加具备智能性[7]。 机器人模仿学习一般分为 3 个步骤完成:示 教过程、学习过程、再现过程。当前,模仿学习的 研究,主要集中在对学习过程的研究,已经出现 了多种模仿学习的算法用来实现机器人的学习过 程 [8-11]。其中基于轨迹匹配的机器人模仿学习算 法主要有高斯混合模型 (GMM)[12] 和高斯混合回 归 GMR(gaussian maxture regression)[12-13] 、局部加 权回归 LWR(locally weighted regression)[14-15] 、人工 神经网络 ANN(artificial neural networks)[16-17] 等,这 些算法的特点是将示教运动轨迹数据建模为回归 过程,以期获得控制策略指导机器人对示教运动 进行再现。虽然基于轨迹匹配的回归算法具有较 强的数据表征能力和抗噪能力,但是也存在泛化 能力差、稳定性差等缺点[18]。Ijspeert 等 [19] 提出的 一种基于动态运动基元 DMP(dynamic morement primitives) 的机器人模仿学习方法。该方法将运 动行为轨迹建模为一组微分方程,并通过线性动 态系统保证了目标的全局稳定性,可以从一个简 单的示教中学习较复杂的运动行为,已有广泛的 使用[19-22]。然而,DMP 对时间具有依赖性,使其 对时间扰动较为敏感,稳定性受到一定影响;而 且泛化能力有限,其背后的物理意义也比较难于 理解。 动态系统 (DS) 法 [13, 23] 是近些年出现的一种 对运动数据建模的机器学习方法。DS 可以表征 更丰富的行为,可以在状态空间的不同部分学习 不同的运动。然而,由于 DS 存在稳定性的问题, 常规的基于 GMR、GPR(gaussian process regression)[24] 以及 LWR 的回归方法与 DS 结合也没有实现在 目标点上的稳定收敛[25]。其往往是找到关于系统 的一个局部最优模型,此局部最优模型的约束条 件无法保证系统收敛到稳定的目标点,仍然存在 稳定性差和泛化能力不足的问题。 针对以上问题,本文通过 GMM 将示教运动 建模为非线性 DS,附加约束条件以确保 DS 的全 局渐近收敛,将动态系统模型的参数学习问题转 化为求解一个约束优化问题,通过优化问题的求 解得到 DS 的参数,获得关于示教运动的非线性 DS 模型,并将其作为控制策略应用于机器人以实 现对示教运动的模仿。通过将动态系统方法引入 模仿学习,并考虑其在目标点处全局渐近收敛的 约束条件,相对于基于轨迹匹配的机器人模仿学 习方法,其除了具有较强的数据编码能力和抗噪 能力,而且可以保证生成的轨迹收敛到目标点, 避免了先前方法稳定性差的问题。同时,从未示 教区域开始的再现运动轨迹也可以保证收敛到目 标点,泛化能力将大大提高。以 7bot 机械臂为实 验对象,进行仿真实验和机器人实验研究,实验 结果表明:基于 DS 的模仿学习方法再现生成的 模仿轨迹具有全局渐近收敛的特点,从不同起始 位置开始的生成轨迹最终都可以到达目标点,学 习得到的运动模型在稳定性和泛化能力两方面表 现较好。 1 基于动态系统的示教运动建模 1.1 示教运动的表示及动态系统模型 在机器人模仿示教者示教运动的过程中,示 教者通过直接或者间接的方式指导机器人手臂完 成一次或多次的运动,机器人通过其内部的关节 传感器或者位置传感器,或者是外部传感器,如: Kinect 视觉传感,来捕获关于示教运动的相关信 息。其中示教运动的轨迹信息可以表示为如下的 集合形式 { ζt,n, ζ˙ t,n }Tn,N t=0,n=1 (1) ζ N Xn = [ζ0, ζ1, ζ2,··· , ζTn ] 式中:状态变量 表示机器人手臂末端执行器在 笛卡尔坐标系下的位置;对于不同的示教任务, 表示在某个模仿任务下的示教次数。而对于每一次 的示教轨迹数据集可以表示为 。 一阶动态系统被用来建模所记录的示教轨迹数 据,动态系统的一阶自治常微分方程表示为: ζ˙ = f (ζ)+ε (2) f : R d → R d ζ ζ˙ ε f θ θ 式中: 是非线性连续可微函数; 表示 机器人末端的位置; 对应于速度; 表示均值为 0 的高斯噪声项,代表了传感器测量的不准确性 以及示教过程的不稳定所带来的示教数据的误 差。且函数 可以由一组参数 来描述。具体 地,采用相应的方法,建模式 (2) 为具体表达形 式,进而可以求解 的值。 1.2 基于统计方法的高斯混合模型建模动态系统 N { ζt,n , ζ˙ t,n }Tn ,N t=0,n=1 为了得到动态系统具体的表达形式,考虑使 用基于统计方法的 GMM 来建立对于 DS 的概率 描述/估计。高斯混合模型是一种有限混合模型, 其通过有限的高斯函数的混合来建立对示教运动 数据的粗略的表示,同时消除数据的噪声。给定 一组 次示教轨迹数据 ,GMM 由以 下概率密度函数表示 p(ζn) = ∑K k=1 ωkGP(ζn|µk ,Σk) (3) 第 5 期 于建均,等:基于动态系统的机器人模仿学习方法研究 ·1027·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有