【智能系统】基于动态系统的机器人模仿学习方法研究

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：5.41MB

第14卷第5期智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sep.2019 D0:10.11992/tis.201807018 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190520.1428.010html 基于动态系统的机器人模仿学习方法研究于建均2，姚红柯2，左国玉2，阮晓钢2，安硕2 (1.北京工业大学信息学部，北京100124,2.北京工业大学计算智能与智能系统北京市重点实验室，北京 100124) 摘要：针对当前机器人模仿学习过程中，运动模仿存在无法收敛到目标点以及泛化能力差的问题，引入一种基于动态系统(dynamical system,DS)的模仿学习方法。该方法通过高斯混合模型(gaussian mixture model, GMM①将示教运动数据建模为一非线性动态系统：将DS全局稳定的充分条件作为约束，以保证DS所生成的所有轨迹收敛到目标点：将动态系统模型的参数学习问题转化为求解一个约束优化问题，从而得到模型参数。以7b0t机械臂为实验对象，进行仿真实验和机器人实验，实验结果表明：该方法学习的DS模型从不同起点生成的所有轨迹都收敛到目标点，轨迹平滑，泛化能力好。关键词：机器人：模仿学习；轨迹层面：高斯混合模型：动态系统；参数学习：7bot机械臂；泛化能力中图分类号：TP242.6 文献标志码：A 文章编号：1673-4785(2019)05-1026-09 中文引用格式：于建均，姚红柯，左国玉，等.基于动态系统的机器人模仿学习方法研究J.智能系统学报，2019,14(5)： 1026-1034. 英文引用格式：YUJianjun,.YAO Hongke,.ZUO Guoyu,etal.Research on robot imitation learning method based on dynamical system[J.CAAI transactions on intelligent systems,2019,14(5):1026-1034. Research on robot imitation learning method based on dynamical system YU Jianjun2,YAO Hongke,ZUO Guoyu'2,RUAN Xiaogang2,AN Shuo2 (1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China,2.Beijing Key Laboratory of Com- pu-tational Intelligence and Intelligent System,Beijing University of Technology,Beijing 100124,China) Abstract:In the current robot imitation learning process,the motion imitation cannot converge to the target point,and the generalization ability is poor.To solve this problem,an imitation learning method based on dynamical system(DS) is introduced.First,the demonstration motion data is modeled as a nonlinear DS by Gaussian mixture model(GMM). Second,the sufficient condition of DS global stability is used as a constraint to ensure that all the DS-generated traject- ories converge to the target.Finally,the parameter learning problem of the DS model is transformed into seeking for a solution to a constrained optimization problem to obtain the model parameters.Simulation experiments and robot exper- iments were carried out using the 7bot manipulator.The experimental results show that all the trajectories generated by the DS model from different starting points converged to the target point,and the trajectory was smooth and the general- ization performance was improved. Keywords:robot;imitation learning;trajectory level;Gaussian mixture model;dynamical system;parameter learning; 7bot manipulator,generalization performance 目前，在机器人技术的研究中，如何使机器人而从人类学习中发展而来的模仿学习，作为机器具备类似于人类的智能行为已成为一大研究热点"。人直接获取知识和技能的一种方式，在机器人的智能性的提升方面越来越发挥出巨大的作用，越收稿日期：2018-07-18.网络出版日期：2019-05-21. 基金项目：国家自然科学基金项目(61773027)：北京市自然科来越多地受到学术界的关注和研究。一方面，学基金项目(4182008)：北京市自然科学基金项目/北相对于传统的机器人编程控制，模仿学习将使机京市教育委员会科技计划重点项目(KZ201610005010). 通信作者：左国玉.E-mail:zuoguoyu(@bjut.edu.cn 器人编程更加容易，提高了机器人的作业效率；

DOI: 10.11992/tis.201807018 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190520.1428.010.html 基于动态系统的机器人模仿学习方法研究于建均1,2，姚红柯1,2，左国玉1,2，阮晓钢1,2，安硕1,2 （1. 北京工业大学信息学部，北京 100124; 2. 北京工业大学计算智能与智能系统北京市重点实验室，北京 100124）摘要：针对当前机器人模仿学习过程中，运动模仿存在无法收敛到目标点以及泛化能力差的问题，引入一种基于动态系统 (dynamical system，DS) 的模仿学习方法。该方法通过高斯混合模型 (gaussian mixture model， GMM) 将示教运动数据建模为一非线性动态系统；将 DS 全局稳定的充分条件作为约束，以保证 DS 所生成的所有轨迹收敛到目标点；将动态系统模型的参数学习问题转化为求解一个约束优化问题，从而得到模型参数。以 7bot 机械臂为实验对象，进行仿真实验和机器人实验，实验结果表明：该方法学习的 DS 模型从不同起点生成的所有轨迹都收敛到目标点，轨迹平滑，泛化能力好。关键词：机器人；模仿学习；轨迹层面；高斯混合模型；动态系统；参数学习；7bot 机械臂；泛化能力中图分类号：TP 242.6 文献标志码：A 文章编号：1673−4785(2019)05−1026−09 中文引用格式：于建均, 姚红柯, 左国玉, 等. 基于动态系统的机器人模仿学习方法研究 [J]. 智能系统学报, 2019, 14(5): 1026–1034. 英文引用格式：YU Jianjun, YAO Hongke, ZUO Guoyu, et al. Research on robot imitation learning method based on dynamical system[J]. CAAI transactions on intelligent systems, 2019, 14(5): 1026–1034. Research on robot imitation learning method based on dynamical system YU Jianjun1,2 ，YAO Hongke1,2 ，ZUO Guoyu1,2 ，RUAN Xiaogang1,2 ，AN Shuo1,2 (1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China; 2. Beijing Key Laboratory of Compu-tational Intelligence and Intelligent System, Beijing University of Technology, Beijing 100124, China) Abstract: In the current robot imitation learning process, the motion imitation cannot converge to the target point, and the generalization ability is poor. To solve this problem, an imitation learning method based on dynamical system (DS) is introduced. First, the demonstration motion data is modeled as a nonlinear DS by Gaussian mixture model (GMM). Second, the sufficient condition of DS global stability is used as a constraint to ensure that all the DS-generated trajectories converge to the target. Finally, the parameter learning problem of the DS model is transformed into seeking for a solution to a constrained optimization problem to obtain the model parameters. Simulation experiments and robot experiments were carried out using the 7bot manipulator. The experimental results show that all the trajectories generated by the DS model from different starting points converged to the target point, and the trajectory was smooth and the generalization performance was improved. Keywords: robot; imitation learning; trajectory level; Gaussian mixture model; dynamical system; parameter learning; 7bot manipulator; generalization performance 目前，在机器人技术的研究中，如何使机器人具备类似于人类的智能行为已成为一大研究热点[1]。而从人类学习中发展而来的模仿学习，作为机器人直接获取知识和技能的一种方式，在机器人的智能性的提升方面越来越发挥出巨大的作用，越来越多地受到学术界的关注和研究[2-6]。一方面，相对于传统的机器人编程控制，模仿学习将使机器人编程更加容易，提高了机器人的作业效率；收稿日期：2018−07−18. 网络出版日期：2019−05−21. 基金项目：国家自然科学基金项目 (61773027)；北京市自然科学基金项目 (4182008)；北京市自然科学基金项目/北京市教育委员会科技计划重点项目 (KZ201610005010). 通信作者：左国玉. E-mail：zuoguoyu@bjut.edu.cn. 第 14 卷第 5 期智能系统学报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2019

第5期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1027· 另一方面，模仿学习赋予机器人获取知识、学习避免了先前方法稳定性差的问题。同时，从未示知识的能力，使其更加具备智能性” 教区域开始的再现运动轨迹也可以保证收敛到目机器人模仿学习一般分为3个步骤完成：示标点，泛化能力将大大提高。以7bot机械臂为实教过程、学习过程、再现过程。当前，模仿学习的验对象，进行仿真实验和机器人实验研究，实验研究，主要集中在对学习过程的研究，已经出现结果表明：基于DS的模仿学习方法再现生成的了多种模仿学习的算法用来实现机器人的学习过模仿轨迹具有全局渐近收敛的特点，从不同起始程”。其中基于轨迹匹配的机器人模仿学习算位置开始的生成轨迹最终都可以到达目标点，学法主要有高斯混合模型(GMM)I2]和高斯混合回习得到的运动模型在稳定性和泛化能力两方面表归GMR(gaussian maxture regression)2-1)、局部加现较好。权回归LWR((locally weighted regression))a均、人工神经网络ANN(artificial neural networks)6.-i切等，这 1基于动态系统的示教运动建模些算法的特点是将示教运动轨迹数据建模为回归 11示教运动的表示及动态系统模型过程，以期获得控制策略指导机器人对示教运动在机器人模仿示教者示教运动的过程中，示进行再现。虽然基于轨迹匹配的回归算法具有较教者通过直接或者间接的方式指导机器人手臂完强的数据表征能力和抗噪能力，但是也存在泛化成一次或多次的运动，机器人通过其内部的关节能力差、稳定性差等缺点u。Ijspeert等9提出的传感器或者位置传感器，或者是外部传感器，如：一种基于动态运动基元DMP(dynamic morement Kinect视觉传感，来捕获关于示教运动的相关信 primitives)的机器人模仿学习方法。该方法将运息。其中示教运动的轨迹信息可以表示为如下的动行为轨迹建模为一组微分方程，并通过线性动态系统保证了目标的全局稳定性，可以从一个简集合形式单的示教中学习较复杂的运动行为，已有广泛的 L6 (1) 使用922。然而，DMP对时间具有依赖性，使其式中：状态变量（表示机器人手臂末端执行器在对时间扰动较为敏感，稳定性受到一定影响；而笛卡尔坐标系下的位置；对于不同的示教任务，N 且泛化能力有限，其背后的物理意义也比较难于表示在某个模仿任务下的示教次数。而对于每一次理解。的示教轨迹数据集可以表示为Xn=[Go,1,2,…,S]。动态系统(DS)法321是近些年出现的一种一阶动态系统被用来建模所记录的示教轨迹数对运动数据建模的机器学习方法。DS可以表征据，动态系统的一阶自治常微分方程表示为：更丰富的行为，可以在状态空间的不同部分学习 t=f()+ε (2) 不同的运动。然而，由于DS存在稳定性的问题，式中：f:R→R是非线性连续可微函数；（表示常规的基于GMR、GPR(gaussian process regression)P 机器人末端的位置；：对应于速度；ε表示均值为以及LWR的回归方法与DS结合也没有实现在 0的高斯噪声项，代表了传感器测量的不准确性目标点上的稳定收敛。其往往是找到关于系统以及示教过程的不稳定所带来的示教数据的误的一个局部最优模型，此局部最优模型的约束条差。且函数f可以由一组参数0来描述。具体件无法保证系统收敛到稳定的目标点，仍然存在地，采用相应的方法，建模式(2)为具体表达形稳定性差和泛化能力不足的问题。式，进而可以求解0的值。针对以上问题，本文通过GMM将示教运动 1.2基于统计方法的高斯混合模型建模动态系统建模为非线性DS,附加约束条件以确保DS的全为了得到动态系统具体的表达形式，考虑使局渐近收敛，将动态系统模型的参数学习问题转用基于统计方法的GMM来建立对于DS的概率化为求解一个约束优化问题，通过优化问题的求描述/估计。高斯混合模型是一种有限混合模型，解得到DS的参数，获得关于示教运动的非线性其通过有限的高斯函数的混合来建立对示教运动 DS模型，并将其作为控制策略应用于机器人以实数据的粗略的表示，同时消除数据的噪声。给定现对示教运动的模仿。通过将动态系统方法引人模仿学习，并考虑其在目标点处全局渐近收敛的一组V次示教轨迹数据k,GMM由以约束条件，相对于基于轨迹匹配的机器人模仿学下概率密度函数表示习方法，其除了具有较强的数据编码能力和抗噪 p(s)= oGP(nlμ，) (3) 能力，而且可以保证生成的轨迹收敛到目标点

另一方面，模仿学习赋予机器人获取知识、学习知识的能力，使其更加具备智能性[7]。机器人模仿学习一般分为 3 个步骤完成：示教过程、学习过程、再现过程。当前，模仿学习的研究，主要集中在对学习过程的研究，已经出现了多种模仿学习的算法用来实现机器人的学习过程 [8-11]。其中基于轨迹匹配的机器人模仿学习算法主要有高斯混合模型 (GMM)[12] 和高斯混合回归 GMR(gaussian maxture regression)[12-13] 、局部加权回归 LWR(locally weighted regression)[14-15] 、人工神经网络 ANN(artificial neural networks)[16-17] 等，这些算法的特点是将示教运动轨迹数据建模为回归过程，以期获得控制策略指导机器人对示教运动进行再现。虽然基于轨迹匹配的回归算法具有较强的数据表征能力和抗噪能力，但是也存在泛化能力差、稳定性差等缺点[18]。Ijspeert 等 [19] 提出的一种基于动态运动基元 DMP(dynamic morement primitives) 的机器人模仿学习方法。该方法将运动行为轨迹建模为一组微分方程，并通过线性动态系统保证了目标的全局稳定性，可以从一个简单的示教中学习较复杂的运动行为，已有广泛的使用[19-22]。然而，DMP 对时间具有依赖性，使其对时间扰动较为敏感，稳定性受到一定影响；而且泛化能力有限，其背后的物理意义也比较难于理解。动态系统 (DS) 法 [13, 23] 是近些年出现的一种对运动数据建模的机器学习方法。DS 可以表征更丰富的行为，可以在状态空间的不同部分学习不同的运动。然而，由于 DS 存在稳定性的问题，常规的基于 GMR、GPR(gaussian process regression)[24] 以及 LWR 的回归方法与 DS 结合也没有实现在目标点上的稳定收敛[25]。其往往是找到关于系统的一个局部最优模型，此局部最优模型的约束条件无法保证系统收敛到稳定的目标点，仍然存在稳定性差和泛化能力不足的问题。针对以上问题，本文通过 GMM 将示教运动建模为非线性 DS，附加约束条件以确保 DS 的全局渐近收敛，将动态系统模型的参数学习问题转化为求解一个约束优化问题，通过优化问题的求解得到 DS 的参数，获得关于示教运动的非线性 DS 模型，并将其作为控制策略应用于机器人以实现对示教运动的模仿。通过将动态系统方法引入模仿学习，并考虑其在目标点处全局渐近收敛的约束条件，相对于基于轨迹匹配的机器人模仿学习方法，其除了具有较强的数据编码能力和抗噪能力，而且可以保证生成的轨迹收敛到目标点，避免了先前方法稳定性差的问题。同时，从未示教区域开始的再现运动轨迹也可以保证收敛到目标点，泛化能力将大大提高。以 7bot 机械臂为实验对象，进行仿真实验和机器人实验研究，实验结果表明：基于 DS 的模仿学习方法再现生成的模仿轨迹具有全局渐近收敛的特点，从不同起始位置开始的生成轨迹最终都可以到达目标点，学习得到的运动模型在稳定性和泛化能力两方面表现较好。 1 基于动态系统的示教运动建模 1.1 示教运动的表示及动态系统模型在机器人模仿示教者示教运动的过程中，示教者通过直接或者间接的方式指导机器人手臂完成一次或多次的运动，机器人通过其内部的关节传感器或者位置传感器，或者是外部传感器，如： Kinect 视觉传感，来捕获关于示教运动的相关信息。其中示教运动的轨迹信息可以表示为如下的集合形式 { ζt,n, ζ˙ t,n }Tn,N t=0,n=1 (1) ζ N Xn = [ζ0, ζ1, ζ2,··· , ζTn ] 式中：状态变量表示机器人手臂末端执行器在笛卡尔坐标系下的位置；对于不同的示教任务，表示在某个模仿任务下的示教次数。而对于每一次的示教轨迹数据集可以表示为。一阶动态系统被用来建模所记录的示教轨迹数据，动态系统的一阶自治常微分方程表示为： ζ˙ = f (ζ)+ε (2) f : R d → R d ζ ζ˙ ε f θ θ 式中：是非线性连续可微函数；表示机器人末端的位置；对应于速度；表示均值为 0 的高斯噪声项，代表了传感器测量的不准确性以及示教过程的不稳定所带来的示教数据的误差。且函数可以由一组参数来描述。具体地，采用相应的方法，建模式 (2) 为具体表达形式，进而可以求解的值。 1.2 基于统计方法的高斯混合模型建模动态系统 N { ζt,n , ζ˙ t,n }Tn ,N t=0,n=1 为了得到动态系统具体的表达形式，考虑使用基于统计方法的 GMM 来建立对于 DS 的概率描述/估计。高斯混合模型是一种有限混合模型，其通过有限的高斯函数的混合来建立对示教运动数据的粗略的表示，同时消除数据的噪声。给定一组次示教轨迹数据，GMM 由以下概率密度函数表示 p(ζn) = ∑K k=1 ωkGP(ζn|µk ,Σk) (3) 第 5 期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1027·

GP(ζn|µk ,Σk) = 1 √ (2π) 2d |Σk | exp{ − 1 2 (ζn −µk) T Σ −1 k (ζn −µk) } (4) GP(·) N(·) K ωk k ∑K k=1 ωk = 1 µk Σk θk = {ωk ,µk ,Σk}, k = 1,2,··· ,K θ = {θ1, θ2,··· , θK} 式 (3)、(4) 中：为高斯过程概率密度函数，或可简化表示为；为 GMM 中高斯分布的个数/混合模型的个数；为第个高斯分布的权重，且；为该密度函数的均值向量；为协方差矩阵；相应的 GMM 的待确定参数可以表示为；且全部参数表示为。给定 ζ、ζ˙ 的条件概率分布为 p ( ζ˙|ζ, k ) = N ( ζ˙| ˜ ζ˙ k ,Σ˜ ζ˙ζ˙k ) (5) 其中： ˜ ζ˙ k = µζ˙k +Σζζ˙ kΣ −1 ζζk ( ζ −µζk ) (6) Σ˜ ζ˙ζ˙k = Σζ˙ζ˙k −Σζζ˙ kΣ −1 ζζkΣζζ˙k (7) 由此， ζ˙ 对应于 ζ 的条件概率可以定义为 p ( ζ˙|ζ ) = ∑K k=1 βkN ( ζ˙| ˜ ζ˙ k ,Σ˜ ζ˙ζ˙k ) (8) βk = ωk p(ζ|k) ∑K k=1 ωk p(ζ|k) = ωkN ( ζ|µζk ,Σζζk ) ∑K i=1 ωiN ( ζ|µζi ,Σζζi ) (9) 由条件期望可求得整个高斯混合模型中 ζ˙ 的总的期望为 ζ˙ = ˜f (ζ) = ∑K k=1 Hk (ζ) (Akζ + Bk) (10) 其中：    Ak = Σζζ˙ kΣ −1 ζζk Hk (ζ) = ωk p(ζ|k) ∑K i=1 ωip(ζ|i) Bk = µζ˙k − Akµζk ∀k = 1,2,··· ,K (11) 式 (10)、(11) 得到的动态系统表示为一组线性动态系统的非线性加权的形式，也即得到了关于示教运动的动态系统模型的具体表达形式。 2 动态系统全局稳定的充分条件 ζ˙ = f (ζ) ζ ∗ V (ζ) : R d → R 由以上得到的动态系统模型，为了保证动态系统模型在示教的目标点具有全局收敛的特性以及提高其泛化能力，也即将在不同的初始点开始最终到达同一目标点的模仿学习任务转化为具有全局收敛的学习任务，则需要考虑其稳定性问题。对于由定义的动态系统，根据 Lyapunov 稳定性理论：其在点处全局渐近稳定的充分条件是存在一个连续可微的 Lyapunov 函数满足：    V (ζ) > 0,∀ζ ∈ R d , ζ , ζ ∗ V˙ (ζ) 0 0 < ωk ⩽ 1 ∑K k=1 ωk = 1 ∀k = 1,2,··· ,K (16) T = ∑N n=1 式中 Tn 是训练数据点总的数量，也即示教数据的数量。 θ 对于以上优化问题，可以将其化为非线性规划问题，借助于标准的优化约束技术可以很好地解决，最终得到具有全局渐近稳定的动态系统的最优参数，实现对于动态系统的完整描述。 4 机器人模仿学习系统的设计在以上内容的基础上，设计了基于 DS 的机器人模仿学习系统。所设计的机器人模仿学习系 ·1028· 智能系统学报第 14 卷

第5期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1029· 统工作流程如图1所示。在机器人模仿学习系具体地，实际中的示教数据是由上位机程序统中，本文主要集中在对示教过程和学习过程的处理示教轨迹信息，得到关于机械臂末端执行器研究。在笛卡尔坐标系中的位置x(xeR,d=2/d=3),即为示教数据。对应于算法中的表述，经过计算，机器人系统对于示教数据有(=x、=。关节角度逆向运动学 IO 学习算法动态系统模型DS) 图27bot机械臂 N次运动轨正向运动学 Fig.2 7bot manipulator 迹示教而对于具体的运动轨迹的示教，模仿学习示图1模仿学习系统工作流程教过程如图3所示。示教者通过抓取机械臂末端 Fig.1 Workflow of imitation learning system 进行运动示教，此运动可以是一个拿放物品的运对应于模仿学习的3个基本的步骤，模仿学动。图中的几个关键子过程可以说明整个示教过习系统工作流程，首先，对于某个固定的模仿任程是如何完成的，黑色的圆点代表示教运动的起务（如：绘画或书写、拿放物品、篮球投篮等任始点，黑色的星形点代表示教运动的终点或目标务)，通过手把手地抓取机器人手臂末端执行器进点，实线代表已完成的示教运动过程，虚线代表行多次目标点相对固定的轨迹示教，获得示教轨未完成的示教运动过程。迹数据；然后，将获得的示教轨迹数据预处理后送入学习算法学习关于动态系统模型的参数，得到动态系统模型。最后，将动态系统模型作为机器人的控制策略，设置机器人手臂初始的运动位置，结合机器人的控制系统完成对示教任务的模仿。 5机器人模仿学习实验研究为了验证基于动态系统的机器人模仿学习方法的有效性，在已设计的模仿学习系统的框架下进行仿真实验和机器人实验研究。 (a)过程1 (b)过程2 5.1机器人平台和示教数据的获取实验中的机器人平台是7bot机械臂，如图2 所示。7bot机械臂是一款桌面应用级的机械臂，也是一款6轴的全金属智能机械臂。借助于Pro cessing和Arduino Due实现开发和控制，使用 USB线与计算机之间完成数据通信，能够实现在三维空间的多种运动，使用方便灵活。实际中，对于示教数据的获取，是在机械臂的运动空间内通过抓取7bot机械臂末端进行N次运动轨迹示教。由机器臂自身携带的关节角度传感器记录运动轨迹信息。另外，也可以通过在仿 (c)过程3 (d过程4 真环境中拖动虚拟机械臂，进行示教并获取示教图3模仿学习示教过程示意数据。 Fig.3 Imitation learning demonstration process diagram

统工作流程如图 1 所示。在机器人模仿学习系统中，本文主要集中在对示教过程和学习过程的研究。逆向运动学正向运动学 N 次运动轨迹示教学习算法动态系统模型 (DS) 机器人系统关节角度 {ζ,ζ} . {ζ t,n , ζ t,n} . Tn, N t=0, n=1 ζ θ 图 1 模仿学习系统工作流程 Fig. 1 Workflow of imitation learning system 对应于模仿学习的 3 个基本的步骤，模仿学习系统工作流程，首先，对于某个固定的模仿任务 (如：绘画或书写、拿放物品、篮球投篮等任务)，通过手把手地抓取机器人手臂末端执行器进行多次目标点相对固定的轨迹示教，获得示教轨迹数据；然后，将获得的示教轨迹数据预处理后送入学习算法学习关于动态系统模型的参数，得到动态系统模型。最后，将动态系统模型作为机器人的控制策略，设置机器人手臂初始的运动位置，结合机器人的控制系统完成对示教任务的模仿。 5 机器人模仿学习实验研究为了验证基于动态系统的机器人模仿学习方法的有效性，在已设计的模仿学习系统的框架下进行仿真实验和机器人实验研究。 5.1 机器人平台和示教数据的获取实验中的机器人平台是 7bot 机械臂，如图 2 所示。7bot 机械臂是一款桌面应用级的机械臂，也是一款 6 轴的全金属智能机械臂。借助于 Processing 和 Arduino Due 实现开发和控制，使用 USB 线与计算机之间完成数据通信，能够实现在三维空间的多种运动，使用方便灵活。 N 实际中，对于示教数据的获取，是在机械臂的运动空间内通过抓取 7bot 机械臂末端进行次运动轨迹示教。由机器臂自身携带的关节角度传感器记录运动轨迹信息。另外，也可以通过在仿真环境中拖动虚拟机械臂，进行示教并获取示教数据。 x ( x ∈ R d ,d = 2/d = 3 ) ζ = x ζ˙ = x˙ 具体地，实际中的示教数据是由上位机程序处理示教轨迹信息，得到关于机械臂末端执行器在笛卡尔坐标系中的位置，即为示教数据。对应于算法中的表述，经过计算，对于示教数据有、。图 2 7bot 机械臂 Fig. 2 7bot manipulator 而对于具体的运动轨迹的示教，模仿学习示教过程如图 3 所示。示教者通过抓取机械臂末端进行运动示教，此运动可以是一个拿放物品的运动。图中的几个关键子过程可以说明整个示教过程是如何完成的，黑色的圆点代表示教运动的起始点，黑色的星形点代表示教运动的终点或目标点，实线代表已完成的示教运动过程，虚线代表未完成的示教运动过程。 (a) 过程 1 (b) 过程 2 (c) 过程 3 (d) 过程 4 图 3 模仿学习示教过程示意 Fig. 3 Imitation learning demonstration process diagram 第 5 期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1029·

·1030· 智能系统学报第14卷 5.2实验步骤在实际示教过程中，机器人可能需要多次示本文在MATLAB环境中进行相关仿真实验，教。图5分别为多次示教运动轨迹和经算法学习为了简化实验操作的复杂性，主要在MATLAB环后生成的平滑的轨迹流图，可见生成的轨迹均收境中进行二维平面的模仿学习仿真实验，具体步敛到示教运动的目标点。骤如下： ····。示教轨迹点 -生成轨迹 *目标点 1)将实际采集的或在仿真环境中生成的多次 1.5 1.5 示教运动轨迹信息在MATLAB中进行预处理并 1.0 1.0 可视化，完成模仿学习的示教过程。 0.5 0.5 2)设置算法的相关初始值，将示教运动数据 0 由GMM模型编码为一动态系统模型。 -0.5 00.51.01.5 -0.5 00.51.01.5 x/m x/m 3)通过求解带有全局渐近稳定性约束条件的 (a)单次简单示教运动 (b)单次简单示教运动学习效果动态系统相关参数集合0={ωk,4,,学习得到 1.5 动态系统模型，完成模仿学习的学习过程。 1.0 1.0 4)由学习得到的动态系统模型生成新的模仿 0.5 运动轨迹，并分析生成的运动轨迹的相关结果。 5)最后将学习得到的动态系统模型作为控制 00.51.01.5 0.5 0.0.51.01.5 策略，结合机器人控制系统，完成对模仿学习过 x/m x/m (©)机械臂从不同起点 (@机械臂从不同起点程中示教运动的模仿。模仿的结果1 模仿的结果2 5.3仿真实验图4单次简单示教运动与仿真结果本部分主要针对简单示教运动和较复杂示教 Fig.4 Single simple demonstration motion and simulation results 运动进行实验仿真。通过将示教运动轨迹与提出的方法生成的轨迹相比较来验证方法的有效性； 1.5 1.5 并结合仿真环境中的两连杆机械臂系统，展示最 1.0 1.0 终的学习效果。其中，规定简单示教运动是具有 0.5 05 一定弯曲度的类直线运动。而较复杂示教运动相比于简单示教运动其示教运动体现出更多的示教 00.51.01.5 0.5 00.5 1.01.5 x/m x/m 变化，如二次及以上的曲线形状的运动、自相交 (a)多次简单示教运动 (b)多次简单示教运动学习效果运动或者它们的组合等。图5多次简单示教运动与仿真结果模仿学习性能的量化指标可采用机械臂末端 Fig.5 Multiple simple demonstration motion and simula- 位置与目标点的距离d、示教与再现运动的路径 tion results 积分长度之差dif=ds-ds以及机器人完成由以上可知，学习得到的运动模型一方面具模仿任务的时间与示教时间的差△，以此来衡量。有很强的稳定性，轨迹均收敛到同一个目标点。 5.3.1简单示教运动实验另一方面，由未示教区域开始的再现运动也可以图4给出了单次简单示教的仿真结果。示教在具有一定模仿相似性的前提下到达目标点附运动代表的任务类型可以是绘画任务中的一笔或近，误差较小，体现出模型具有较好的泛化能力。者是拿和放物品的运动等。图4中，(a)为在 5.3.2较复杂示教运动实验 MATLAB环境中简单示教运动轨迹，起点是对于较复杂的示教运动，相应的仿真结果如 [01]T,目标点[10.5]T;(b)为使用文中的学习方图6、7所示。其中图6是对机器人进行单次示教法，模型生成的使机器人到达目标点的平滑轨迹后的实验结果。单次示教的起点为[-0250.5]'，流图，可见所有生成轨迹均收敛到目标点；(c)、目标点为[0.90.4'。通过算法学习后，模型生成 (d)中蓝色虚线为在MATLAB中模拟的一个两连的轨迹均收敛到目标点[0.90.4「。类似地，分别杆机械臂系统，将学习得到的运动模型作为控制从不同的起点[-0.250.75]T和00.5T开始再现模策略，从不同起点执行模仿的结果，起点分别为仿，实验结果如图6(c)、(d)所示。机械臂末端与 [-0.251P、[00.5T。最终，机械臂末端与目标点目标点的距离分别为d=0.0162m、d=0.0146m, 的距离分别为d=0.0113m、d=0.0091m。误差较小

5.2 实验步骤本文在 MATLAB 环境中进行相关仿真实验，为了简化实验操作的复杂性，主要在 MATLAB 环境中进行二维平面的模仿学习仿真实验，具体步骤如下： 1) 将实际采集的或在仿真环境中生成的多次示教运动轨迹信息在 MATLAB 中进行预处理并可视化，完成模仿学习的示教过程。 2) 设置算法的相关初始值，将示教运动数据由 GMM 模型编码为一动态系统模型。 θk = {ωk ,µk ,Σk} 3) 通过求解带有全局渐近稳定性约束条件的动态系统相关参数集合，学习得到动态系统模型，完成模仿学习的学习过程。 4) 由学习得到的动态系统模型生成新的模仿运动轨迹，并分析生成的运动轨迹的相关结果。 5) 最后将学习得到的动态系统模型作为控制策略，结合机器人控制系统，完成对模仿学习过程中示教运动的模仿。 5.3 仿真实验本部分主要针对简单示教运动和较复杂示教运动进行实验仿真。通过将示教运动轨迹与提出的方法生成的轨迹相比较来验证方法的有效性；并结合仿真环境中的两连杆机械臂系统，展示最终的学习效果。其中，规定简单示教运动是具有一定弯曲度的类直线运动。而较复杂示教运动相比于简单示教运动其示教运动体现出更多的示教变化，如二次及以上的曲线形状的运动、自相交运动或者它们的组合等。 d diff = ∫ ζ ds− ∫ ζ˜ ds |∆t| 模仿学习性能的量化指标可采用机械臂末端位置与目标点的距离、示教与再现运动的路径积分长度之差以及机器人完成模仿任务的时间与示教时间的差，以此来衡量。 5.3.1 简单示教运动实验 [0 1]T [1 0.5]T [−0.25 1]T [0 0.5]T d = 0.011 3 m d = 0.009 1 m 图 4 给出了单次简单示教的仿真结果。示教运动代表的任务类型可以是绘画任务中的一笔或者是拿和放物品的运动等。图 4 中， (a ) 为在 MATLAB 环境中简单示教运动轨迹，起点是，目标点；(b) 为使用文中的学习方法，模型生成的使机器人到达目标点的平滑轨迹流图，可见所有生成轨迹均收敛到目标点；(c)、 (d) 中蓝色虚线为在 MATLAB 中模拟的一个两连杆机械臂系统，将学习得到的运动模型作为控制策略，从不同起点执行模仿的结果，起点分别为、。最终，机械臂末端与目标点的距离分别为、。在实际示教过程中，机器人可能需要多次示教。图 5 分别为多次示教运动轨迹和经算法学习后生成的平滑的轨迹流图，可见生成的轨迹均收敛到示教运动的目标点。示教轨迹点生成轨迹目标点 −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m (a) 单次简单示教运动 (b) 单次简单示教运动学习效果 −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m (c) 机械臂从不同起点模仿的结果1 (d) 机械臂从不同起点模仿的结果2 图 4 单次简单示教运动与仿真结果 Fig. 4 Single simple demonstration motion and simulation results −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m (b) 多次简单示教运动学习效果 (a) 多次简单示教运动图 5 多次简单示教运动与仿真结果 Fig. 5 Multiple simple demonstration motion and simulation results 由以上可知，学习得到的运动模型一方面具有很强的稳定性，轨迹均收敛到同一个目标点。另一方面，由未示教区域开始的再现运动也可以在具有一定模仿相似性的前提下到达目标点附近，误差较小，体现出模型具有较好的泛化能力。 5.3.2 较复杂示教运动实验 [−0.25 0.5]T [0.9 0.4]T [0.9 0.4]T [−0.25 0.75]T [0 0.5]T d = 0.016 2 m d = 0.014 6 m 对于较复杂的示教运动，相应的仿真结果如图 6、7 所示。其中图 6 是对机器人进行单次示教后的实验结果。单次示教的起点为，目标点为。通过算法学习后，模型生成的轨迹均收敛到目标点。类似地，分别从不同的起点和开始再现模仿，实验结果如图 6(c)、(d) 所示。机械臂末端与目标点的距离分别为、，误差较小。 ·1030· 智能系统学报第 14 卷

第5期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1031· 同样地，在实际的机器人示教过程中，需要多 ····。·。。示教轨迹点生成轨迹米目标点次示教时，实验结果如图7所示。其中，经过算法 02 02 学习后，学习得到的运动模型生成的轨迹收敛到 0.1 0 同一个目标点。 0 0.2 0 0.2 -0.2 0 0.2 ········示教轨迹点 ,生成轨迹*目标点 m x/m (a)二维示教运动 (b)二维示教运动 1.5 1.5 学习效果 1.0 0.5 0.5 图8二维真实示教运动与学习效果 Fig.8 Two-dimensional real demonstration motion and learning results 0.5 00.51.01.5 0.5 0 0.51.01.5 ······。·示教轨迹点生成轨迹 *目标点 x/m x/m (a)单次较复杂示教运动 (b)单次较复杂示教运动学习效果 0.2 1.5 1.5 0.1 1.0 -0.2 0 0.2 -0.2 0 0.2 x/m x/m (a)自相交运动 (b)自相交运动学习效果 05 00.51.01.5 -0.5 00.51.0 x/m x/m 图9自相交运动与学习效果 (©)机械臂从不同起点 (d)机械臂从不同起点模仿的结果1 模仿的结果2 Fig.9 Self-intersection motion and learning results 图10、11展示了通过7bot机械臂系统对示教图6单次较复杂示教运动与仿真结果 Fig.6 Single more complex demonstration motion and 运动进行模仿的结果。将学习得到的运动模型作 simulation results 为控制策略，设定机器人的初始位置，由机器人系统进行模仿实现。实验结果显示其成功实现了 1.5 1.5 对运动的模仿，到达目标点附近。 1.0 1.0 0.5 0.5 -0.5 00.51.01.5 -0.5 0 0.5 1.01.5 (a)模仿结果1(b)模仿结果2(c)模仿结果3(d模仿结果4 x/m x/m (a)多次较复杂示教运动 (b)多次较复杂示教运动图10机械臂模仿的结果学习效果 Fig.10 Results of the imitation of a manipulator 图7多次较复杂示教运动与仿真结果 Fig.7 Multiple more complex demonstration motion and simulation results 由此可知，学习得到的运动模型对于此类较 (a)模仿结果1(b)模仿结果2 (c)模仿结果3(d模仿结果4 复杂的示教运动也有不错的学习效果，模型的稳图11机械臂对于自相交运动的模仿结果定性较好，未示教空间的泛化能力也较好。 Fig.11 Results of the imitation of a manipulator for self intersection motion 5.4机器人实验同样，图12中分别为在三维空间中的示教及此部分结合实际的7bot机器人系统来验证学学习效果。可以看出从起始点开始的三条生成轨习方法的有效性。迹均收敛到目标点，表明运动模型的稳定性很图8、9分别展示了二维平面中单次示教时，好。图13是7bot机械臂对示教运动进行模仿的机器人真实示教运动轨迹和经算法学习后的学习结果，可见其也很好地完成了对示教运动的模效果。红色虚线为示教轨迹，蓝色实线为生成轨仿，到达目标点附近。迹。由图可知，所有生成轨迹最终都收敛到目标表1给出了机器人实验中机器人模仿性能的点，体现了运动模型具有全局渐进稳定性的特量化结果。可以看出运动模仿结束后，机械臂末点；但对于有交叉点的自相交运动，其在交叉点端距离目标点较近，误差较小；示教时间和模仿的学习效果并不明显，忽略了部分的学习，学习时间相差不大；但是在自相交运动上轨迹长度之效果有待提高。差比较大

同样地，在实际的机器人示教过程中，需要多次示教时，实验结果如图 7 所示。其中，经过算法学习后，学习得到的运动模型生成的轨迹收敛到同一个目标点。示教轨迹点生成轨迹目标点 −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m (a) 单次较复杂示教运动 (b) 单次较复杂示教运动学习效果 −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m (c) 机械臂从不同起点模仿的结果1 (d) 机械臂从不同起点模仿的结果2 图 6 单次较复杂示教运动与仿真结果 Fig. 6 Single more complex demonstration motion and simulation results −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m −0.5 0 0.5 1.0 1.5 x/m 0 0.5 1.0 1.5 y/m (b) 多次较复杂示教运动学习效果 (a) 多次较复杂示教运动图 7 多次较复杂示教运动与仿真结果 Fig. 7 Multiple more complex demonstration motion and simulation results 由此可知，学习得到的运动模型对于此类较复杂的示教运动也有不错的学习效果，模型的稳定性较好，未示教空间的泛化能力也较好。 5.4 机器人实验此部分结合实际的 7bot 机器人系统来验证学习方法的有效性。图 8、9 分别展示了二维平面中单次示教时，机器人真实示教运动轨迹和经算法学习后的学习效果。红色虚线为示教轨迹，蓝色实线为生成轨迹。由图可知，所有生成轨迹最终都收敛到目标点，体现了运动模型具有全局渐进稳定性的特点；但对于有交叉点的自相交运动，其在交叉点的学习效果并不明显，忽略了部分的学习，学习效果有待提高。示教轨迹点生成轨迹目标点 −0.2 0 0.2 x/m 0 0.1 0.2 y/m −0.2 0 0.2 x/m 0 0.1 0.2 y/m (b) 二维示教运动学习效果 (a) 二维示教运动图 8 二维真实示教运动与学习效果 Fig. 8 Two-dimensional real demonstration motion and learning results 示教轨迹点生成轨迹目标点 −0.2 0 0.2 x/m 0 0.1 0.2 y/m −0.2 0 0.2 x/m 0 0.1 0.2 y/m (b) 自相交运动学习效果 (a) 自相交运动图 9 自相交运动与学习效果 Fig. 9 Self-intersection motion and learning results 图 10、11 展示了通过 7bot 机械臂系统对示教运动进行模仿的结果。将学习得到的运动模型作为控制策略，设定机器人的初始位置，由机器人系统进行模仿实现。实验结果显示其成功实现了对运动的模仿，到达目标点附近。 (a) 模仿结果1 (b) 模仿结果2 (c) 模仿结果3 (d) 模仿结果4 图 10 机械臂模仿的结果 Fig. 10 Results of the imitation of a manipulator (a) 模仿结果1 (b) 模仿结果2 (c) 模仿结果3 (d) 模仿结果4 图 11 机械臂对于自相交运动的模仿结果 Fig. 11 Results of the imitation of a manipulator for selfintersection motion 同样，图 12 中分别为在三维空间中的示教及学习效果。可以看出从起始点开始的三条生成轨迹均收敛到目标点，表明运动模型的稳定性很好。图 13 是 7bot 机械臂对示教运动进行模仿的结果，可见其也很好地完成了对示教运动的模仿，到达目标点附近。表 1 给出了机器人实验中机器人模仿性能的量化结果。可以看出运动模仿结束后，机械臂末端距离目标点较近，误差较小；示教时间和模仿时间相差不大；但是在自相交运动上轨迹长度之差比较大。第 5 期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1031·

·1032· 智能系统学报第14卷态系统模型，并作为机器人的控制策略实现对示教运动的模仿。从实验中可以得到以下结论： 1)文中提出的模仿学习方法在简单示教运动 0.20 0.20 和较复杂的示教运动的仿真实验中，学习得到的运动模型从示教起始点生成的轨迹均能够到目标 0.1 i0.15 点，轨迹平滑，稳定性好。 2)将示教运动建模为动态系统，通过附加稳 010 0.10 0.6 0.6 定性约束条件，保证了学习得到的运动模型生成 0.402 002 0.4xm 0.402 0.4x/m y/m m 00.2 的轨迹都收敛到目标点。 (a)三维示教运动 (b)三维示教运动学习 3)文中的方法可以实现从单一到多次示教运效果动的学习，对于未被示教的状态空间其模型也可图12三维真实示教运动与学习效果以生成平滑的轨迹收敛到目标点，具有较强的泛 Fig.12 Three-dimensional real demonstration motion and learning results 化能力。 4)存在的问题是对于复杂的自相交的示教运动，模型忽略了运动的关键信息，运动再现相似度将会稍差。同时，在其他机器人系统上的应用还有待进一步验证。对于非精密要求场合、目的 (a)模拟结果1(b)模拟结果2(c)模拟结果3(d)模拟结果4 为导向的机器人工作场合，此方法的通用性和稳图13机械臂对于三维运动的模拟结果定性具有较大优势。 Fig.13 Results of the imitation of a manipulator for three- dimensional motion 在未来，可以结合具有高精度控制的机器人来实现实时调整再现轨迹提高模仿的相似性；同表1机器人模仿性能的量化结果 Table 1 Quantitative results of robot imitative perform- 时，可以通过提高系统的阶次来学习复杂的自相 ance 交运动；另外，结合快速控制技术可以将其扩展运动 I△Ws d/m diff/m 到快速捕获运动目标的领域。运动1（图10） 3.79 0.027 0.101 参考文献：运动2（图11） 6.57 0.021 0.455 [1]SCHAAL S.Is imitation learning the route to humanoid 运动3（图13） 5.82 0.039 0.375 robots?[J].Trends in cognitive sciences,1999,3(6): 综上实验结果，基于DS的模仿学习方法在 233-242. 简单示教运动、较复杂示教运动以及真实示教运 [2]杨俊友，马乐，白殿春，等.机器人模仿学习的非接触观测控制图模型).机器人，2014,36(3)：309-315. 动的学习上，通过附加稳定性约束条件的方法， YANG Junyou,MA Le,BAI Dianchun,et al.Cybernetic- 再现的生成轨迹均收敛到目标点，一方面使运动 graphic model for robot imitation learning based on non- 模型的稳定性更强；另一方面，使运动模型具有 contact observation[J].Robot,2014,36(3):309-315. 较好的泛化能力。 [3】]曾华琳，黄雨轩，晁飞，等.书写机器人研究综述).智能 6结束语系统学报，2016,11(1)：15-26. ZENG Hualin,HUANG Yuxuan,CHAO Fei,et al.Survey 本文针对当前机器人模仿学习过程中，运动 of robotic calligraphy research[J].CAAI transactions on 模仿稳定性差，泛化能力不足，引入了一种基于 intelligent systems,2016,11(1):15-26. 动态系统的模仿学习方法来解决以上问题。首 [4]UGUR E,NAGAI Y,SAHIN E,et al.Staged develop- ment of robot skills:behavior formation,affordance learn- 先，通过使用高斯混合模型将示教运动建模为一 ing and imitation with motionese[].IEEE transactions on 动态系统；然后，考虑稳定性问题，基于Lyapun- autonomous mental development,2015,7(2):119-139. Oⅴ稳定性理论，给出动态系统全局渐近稳定的充 [5]BOBOC R G.TOMA MI,PANFIR A N,et al.Learning 分条件；最后，建立一个包含多约束的非线性优 new skills by a humanoid robot through imitation[C]//Pro- 化问题，迭代求解以得到最优参数，进而得到动 ceedings of the 2013 IEEE 14th International Symposium

0.6 0.10 x/m 0.15 z/m 0.4 0.20 y/m 0.2 0.4 0 −0.2 (a) 三维示教运动 (b) 三维示教运动学习效果 0.6 0.10 x/m 0.15 z/m 0.4 0.20 y/m 0.2 0.4 0 −0.2 图 12 三维真实示教运动与学习效果 Fig. 12 Three-dimensional real demonstration motion and learning results (a) 模拟结果1 (b) 模拟结果2 (c) 模拟结果3 (d) 模拟结果4 图 13 机械臂对于三维运动的模拟结果 Fig. 13 Results of the imitation of a manipulator for threedimensional motion 表 1 机器人模仿性能的量化结果 Table 1 Quantitative results of robot imitative performance 运动 |Δt|/s d/m diff/m 运动1(图10) 3.79 0.027 0.101 运动2(图11) 6.57 0.021 0.455 运动3(图13) 5.82 0.039 0.375 综上实验结果，基于 DS 的模仿学习方法在简单示教运动、较复杂示教运动以及真实示教运动的学习上，通过附加稳定性约束条件的方法，再现的生成轨迹均收敛到目标点，一方面使运动模型的稳定性更强；另一方面，使运动模型具有较好的泛化能力。 6 结束语本文针对当前机器人模仿学习过程中，运动模仿稳定性差，泛化能力不足，引入了一种基于动态系统的模仿学习方法来解决以上问题。首先，通过使用高斯混合模型将示教运动建模为一动态系统；然后，考虑稳定性问题，基于 Lyapunov 稳定性理论，给出动态系统全局渐近稳定的充分条件；最后，建立一个包含多约束的非线性优化问题，迭代求解以得到最优参数，进而得到动态系统模型，并作为机器人的控制策略实现对示教运动的模仿。从实验中可以得到以下结论： 1) 文中提出的模仿学习方法在简单示教运动和较复杂的示教运动的仿真实验中，学习得到的运动模型从示教起始点生成的轨迹均能够到目标点，轨迹平滑，稳定性好。 2) 将示教运动建模为动态系统，通过附加稳定性约束条件，保证了学习得到的运动模型生成的轨迹都收敛到目标点。 3) 文中的方法可以实现从单一到多次示教运动的学习，对于未被示教的状态空间其模型也可以生成平滑的轨迹收敛到目标点，具有较强的泛化能力。 4) 存在的问题是对于复杂的自相交的示教运动，模型忽略了运动的关键信息，运动再现相似度将会稍差。同时，在其他机器人系统上的应用还有待进一步验证。对于非精密要求场合、目的为导向的机器人工作场合，此方法的通用性和稳定性具有较大优势。在未来，可以结合具有高精度控制的机器人来实现实时调整再现轨迹提高模仿的相似性；同时，可以通过提高系统的阶次来学习复杂的自相交运动；另外，结合快速控制技术可以将其扩展到快速捕获运动目标的领域。参考文献： SCHAAL S. Is imitation learning the route to humanoid robots?[J]. Trends in cognitive sciences, 1999, 3(6): 233–242. [1] 杨俊友, 马乐, 白殿春, 等. 机器人模仿学习的非接触观测控制图模型 [J]. 机器人, 2014, 36(3): 309–315. YANG Junyou, MA Le, BAI Dianchun, et al. Cyberneticgraphic model for robot imitation learning based on noncontact observation[J]. Robot, 2014, 36(3): 309–315. [2] 曾华琳, 黄雨轩, 晁飞, 等. 书写机器人研究综述 [J]. 智能系统学报, 2016, 11(1): 15–26. ZENG Hualin, HUANG Yuxuan, CHAO Fei, et al. Survey of robotic calligraphy research[J]. CAAI transactions on intelligent systems, 2016, 11(1): 15–26. [3] UGUR E, NAGAI Y, SAHIN E, et al. Staged development of robot skills: behavior formation, affordance learning and imitation with motionese[J]. IEEE transactions on autonomous mental development, 2015, 7(2): 119–139. [4] BOBOC R G, TOMA M I, PANFIR A N, et al. Learning new skills by a humanoid robot through imitation[C]//Proceedings of the 2013 IEEE 14th International Symposium [5] ·1032· 智能系统学报第 14 卷

第5期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1033· on Computational Intelligence and Informatics.Budapest, on locally weighted regression[C]//Proceedings of 2016 Hungary,2013:515-519. IEEE/RSJ International Conference on Intelligent Robots [6]于建均，门玉森，阮晓钢，等.基于Kinect的Nao机器人 and Systems.Daejeon.South Korea,2016:3900-3906. 动作模仿系统的研究与实现.智能系统学报，2016， [16]MCCORMICK J,VINCS K,NAHAVANDI S,et al 11(2):180-187 Teaching a digital performing agent:Artificial neural net- YU Jianjun,MEN Yusen,RUAN Xiaogang,et al.CAAI work and hidden markov model for recognising and per- transactions on intelligent systems[J].CAAI transactions forming dance movement[Cl//Proceedings of the 2014 In- on intelligent systems,2016,11(2):180-187. ternational Workshop on Movement and Computing.Par- [7]BILLARD A.CALINON S.DILLMANN R.et al.Robot is,France,2014:70. programming by demonstration[M]//SICILIANO B. [17刀]于建均，吴鹏申，左国玉，等.基于RNN的机械臂任务 KHATIB O.Springer Handbook of Robotics.Berlin, 模仿系统.北京工业大学学报，2018,44(11)：1401- Heidelberg:Springer,2008:1371-1394. 1408 [8]ATKESON C G.SCHAAL S.Learning tasks from a single YU Jianjun,WU Pengshen,ZUO Guoyu,et al.Robot arm demonstration[C]//Proceedings of International Confer- task imitation system based on RNN[].Journal of Beijing ence on Robotics and Automation.Albuquerque,NM. University of Technology,2018,44(11):1401-1408. USA,1997:1706-1712 [18]于建均，门玉森，阮晓钢，等.在书写任务中的基于轨迹 [9]MAAREF M.REZAZADEH A.SHAMAEI K.et al.A gaussian mixture framework for co-operative rehabilita- 匹配的模仿学习[.北京工业大学学报，2016,42(8) 1144-1152 tion therapy in assistive impedance-based tasks[J].IEEE journal of selected topics in signal processing,2016,10(5): YU Jianjun,MEN Yusen,RUAN Xiaogang,et al.Imita- 904-913 tion learning based on trajectory matching in the writing [10]KULIC D,TAKANO W,NAKAMURA Y.Incremental task[J].Journal of Beijing University of Technology, learning,clustering and hierarchy formation of whole 2016,42(8):11441152. body motion patterns using adaptive hidden markov [19]IJSPEERT A J,NAKANISHI J,HOFFMANN H,et al chains[J].The international journal of robotics research, Dynamical movement primitives:learning attractor mod- 2008,27(7):761-784. els for motor behaviors[J].Neural computation,2013, [11]ANTONELO E A,SCHRAUWEN B.Supervised learn- 25(2:328-373. [20]PARASCHOS A.RUECKERT E.PETERS J.et al.Mod- ing of internal models for autonomous goal-oriented ro- el-free probabilistic movement primitives for physical in- bot navigation using reservoir computing[C]//Proceed- teraction[C]//Proceedings of 2015 IEEE/RSJ Internation- ings of 2010 IEEE International Conference on Robotics al Conference on Intelligent Robots and Systems.Ham- and Automation.Anchorage,AK,USA,2010:2959- burg,Germany,2015:2860-2866. 2964。 [21]KOCH K H,CLEVER D,MOMBAUR K,et al.Learn- [12]CALINON S,BILLARD A.Incremental learning of ges- ing movement primitives from optimal and dynamically tures by imitation in a humanoid robot[Cl//Proceedings of feasible trajectories for humanoid walking[C]//Proceed- the ACM/IEEE international conference on Human-robot ings of 2015 IEEE-RAS 15th International Conference on interaction.Arlington,VA,USA,2007:255-262 Humanoid Robots.Seoul,South Korea,2015:866-873. [13]HERSCH M,GUENTER F,CALINON S,et al.Dynam- [22]KOBER J,GIENGER M,STEIL JJ.Learning movement ical system modulation for robot learning via kinesthetic primitives for force interaction tasks[Cl//Proceedings of demonstrations[J].IEEE transactions on robotics,2008. 2015 IEEE International Conference on Robotics and 246):1463-1467 Automation.Seattle,USA.2015:3192-3199. [14]SCHAAL S,ATKESON C,VIJAYAKUMAR S.Scal- [23]WIGGINS S.Introduction to applied nonlinear dynamic- able locally weighted statistical techniques for real time al systems and chaos[M].2nd ed.New York:Springer robot learning[J].Applied intelligence-special issue on Science Business Media,2003. scalable robotic applications of neural networks,2002, [24]SEEGER M.Gaussian processes for machine learning[J]. 17(1):49-60 International journal of neural systems,2004,14(2): [15]PETERNEL L,OZTOP E,BABIC J.A shared control 69-106. method for online human-in-the-loop robot learning based [25]KHANSARI-ZADEH S M.BILLARD A.BM:an iterat-

on Computational Intelligence and Informatics. Budapest, Hungary, 2013: 515–519. 于建均, 门玉森, 阮晓钢, 等. 基于 Kinect 的 Nao 机器人动作模仿系统的研究与实现 [J]. 智能系统学报, 2016, 11(2): 180–187. YU Jianjun, MEN Yusen, RUAN Xiaogang, et al. CAAI transactions on intelligent systems[J]. CAAI transactions on intelligent systems, 2016, 11(2): 180–187. [6] BILLARD A, CALINON S, DILLMANN R, et al. Robot programming by demonstration[M]//SICILIANO B, KHATIB O. Springer Handbook of Robotics. Berlin, Heidelberg: Springer, 2008: 1371−1394. [7] ATKESON C G, SCHAAL S. Learning tasks from a single demonstration[C]//Proceedings of International Conference on Robotics and Automation. Albuquerque, NM, USA, 1997: 1706−1712. [8] MAAREF M, REZAZADEH A, SHAMAEI K, et al. A gaussian mixture framework for co-operative rehabilitation therapy in assistive impedance-based tasks[J]. IEEE journal of selected topics in signal processing, 2016, 10(5): 904–913. [9] KULIĆ D, TAKANO W, NAKAMURA Y. Incremental learning, clustering and hierarchy formation of whole body motion patterns using adaptive hidden markov chains[J]. The international journal of robotics research, 2008, 27(7): 761–784. [10] ANTONELO E A, SCHRAUWEN B. Supervised learning of internal models for autonomous goal-oriented robot navigation using reservoir computing[C]//Proceedings of 2010 IEEE International Conference on Robotics and Automation. Anchorage, AK, USA, 2010: 2959– 2964. [11] CALINON S, BILLARD A. Incremental learning of gestures by imitation in a humanoid robot[C]//Proceedings of the ACM/IEEE international conference on Human-robot interaction. Arlington, VA, USA, 2007: 255–262. [12] HERSCH M, GUENTER F, CALINON S, et al. Dynamical system modulation for robot learning via kinesthetic demonstrations[J]. IEEE transactions on robotics, 2008, 24(6): 1463–1467. [13] SCHAAL S, ATKESON C, VIJAYAKUMAR S. Scalable locally weighted statistical techniques for real time robot learning[J]. Applied intelligence-special issue on scalable robotic applications of neural networks, 2002, 17(1): 49–60. [14] PETERNEL L, OZTOP E, BABIČ J. A shared control method for online human-in-the-loop robot learning based [15] on locally weighted regression[C]//Proceedings of 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, South Korea, 2016: 3900–3906. MCCORMICK J, VINCS K, NAHAVANDI S, et al. Teaching a digital performing agent: Artificial neural network and hidden markov model for recognising and performing dance movement[C]//Proceedings of the 2014 International Workshop on Movement and Computing. Paris, France, 2014: 70. [16] 于建均, 吴鹏申, 左国玉, 等. 基于 RNN 的机械臂任务模仿系统 [J]. 北京工业大学学报, 2018, 44(11): 1401– 1408. YU Jianjun, WU Pengshen, ZUO Guoyu, et al. Robot arm task imitation system based on RNN[J]. Journal of Beijing University of Technology, 2018, 44(11): 1401–1408. [17] 于建均, 门玉森, 阮晓钢, 等. 在书写任务中的基于轨迹匹配的模仿学习 [J]. 北京工业大学学报, 2016, 42(8): 1144–1152. YU Jianjun, MEN Yusen, RUAN Xiaogang, et al. Imitation learning based on trajectory matching in the writing task[J]. Journal of Beijing University of Technology, 2016, 42(8): 1144–1152. [18] IJSPEERT A J, NAKANISHI J, HOFFMANN H, et al. Dynamical movement primitives: learning attractor models for motor behaviors[J]. Neural computation, 2013, 25(2): 328–373. [19] PARASCHOS A, RUECKERT E, PETERS J, et al. Model-free probabilistic movement primitives for physical interaction[C]//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany, 2015: 2860–2866. [20] KOCH K H, CLEVER D, MOMBAUR K, et al. Learning movement primitives from optimal and dynamically feasible trajectories for humanoid walking[C]//Proceedings of 2015 IEEE-RAS 15th International Conference on Humanoid Robots. Seoul, South Korea, 2015: 866–873. [21] KOBER J, GIENGER M, STEIL J J. Learning movement primitives for force interaction tasks[C]//Proceedings of 2015 IEEE International Conference on Robotics and Automation. Seattle, USA, 2015: 3192–3199. [22] WIGGINS S. Introduction to applied nonlinear dynamical systems and chaos[M]. 2nd ed. New York: Springer Science & Business Media, 2003. [23] SEEGER M. Gaussian processes for machine learning[J]. International journal of neural systems, 2004, 14(2): 69–106. [24] [25] KHANSARI-ZADEH S M, BILLARD A. BM: an iterat- 第 5 期于建均，等：基于动态系统的机器人模仿学习方法研究 ·1033·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录