第2卷第4期 智能系统学报 Vol.2 Ng 4 2007年8月 CAAI Transactions on Intelligent Systems Aug.2007 发育机器人研究综述 于化龙,朱长明,刘海波顾国昌,沈晶 (哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001) 摘要:发有机器人是国际上近年兴起的一个研究热点,但在国内相关研究工作尚未全面起步.较为全面地介绍了 发育机器人的基本概念、核心思想和发展历程,重点剖析了几种典型的发育模型和学习方法.针对该领域目前存在 的学术争论,如组成结构,研究目的和性能评价等,做了详细的探讨.本文最后从理论研究和应用两方面展望了发育 机器人的发展趋势,并指出了需要进一步研究解决的问题, 关键词:发育机器人;外成机器人,发育模型;发育学习 中图分类号:TP242.6文献标识码:A文章编号:16734785(2007)04-0034-06 A survey on developmental robotics YU Hua-long,ZHU Chang-ming,LIU Hai-bo,GU Guo-chang,SHEN Jing (College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China) Abstract:Developmental robotics is one of the most popular research interests for many foreign researchers in recent years.However,the related studies haven't been done systematically in China.The paper pres- ented the basic conception,main idea and history of the developmental robotics.Especially several repre- sentative developmental models and learning methods were described in detail.Some controversial topics in this field,such as constitution,research purpose,performance estimation and so on,are discussed de- tailedly.At last,it prospects the developmental trend of the developmental robotics in the future from two aspects:theoretical research and application,and indicates the issues needed to be researched deeply Key words:developmental robotics,epigenetic robotics,developmental model,developmental learning 发育机器人,又称外成机器人(epigenetic ro 展心理学七人知心理学七机器人学七人工智能七种 botics),是目前机器人研究领域的研究热点之一 经生理学七驻物学等多个学科领域,目的在于促进 1996年,J.Weng最早提出了机器人自主心智发育 相关学科的发展,尤其是机器人学与发展心理学的 的思想,并且在机器人上进行了一系列卓有成效 发展」 的实验.2001年,他在Science杂志上详细地阐述了 发育机器人与传统机器人的不同之处在于:首 发育机器人的思想框架与可实现的算法模型,从而 先,发育机器人是任务独立的,因此,不用针对特定 掀开了发育机器人的研究热潮.自主心智发育是建 任务进行编程,只需要为机器人预先编制一套发育 立在一个类似大脑的自然系统或人工嵌入式系统之 程序,便可使它通过后天的自主学习来获得各种能 上的,这种系统在其内在发育程序的控制下通过使 力.其次,人类在机器人发育的过程中不再充当程序 用自己的传感器和执行器与环境(包括自己的内部 员的角色,而是作为环境的一部分出现,作为教师或 环境和组件)进行自主实时的交流来发展心智能 者机器人保姆来影响机器人的学习内容与学习进 力!.基于这种思想的机器人被称为发育机器人,其 程.另外,不同于传统的机器人,发育机器人的学习 主要借鉴发展心理学的思想与研究成果,融合了发 是一个自组织与累积学习的过程,即高级智能的发 展依赖于低层基本技能的获得 收稿日期:2007-01-25. 基金项目:哈尔滨工程大学基础研究基金资助项目(HEUFTO:5021, 目前,发育机器人方面的研究在国外开展的较 HEUFT05068). 好,也产生了一系列卓有成效的研究成果.一年一度 的外成机器人国际研讨会(International Workshop 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 2 卷第 4 期 智 能 系 统 学 报 Vol. 2 №. 4 2007 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2007 发育机器人研究综述 于化龙 ,朱长明 ,刘海波 ,顾国昌 ,沈 晶 (哈尔滨工程大学 计算机科学与技术学院 ,黑龙江 哈尔滨 150001) 摘 要 :发育机器人是国际上近年兴起的一个研究热点 ,但在国内相关研究工作尚未全面起步. 较为全面地介绍了 发育机器人的基本概念、核心思想和发展历程 ,重点剖析了几种典型的发育模型和学习方法. 针对该领域目前存在 的学术争论 , 如组成结构 ,研究目的和性能评价等 ,做了详细的探讨. 本文最后从理论研究和应用两方面展望了发育 机器人的发展趋势 ,并指出了需要进一步研究解决的问题. 关键词 :发育机器人 ; 外成机器人 ; 发育模型 ; 发育学习 中图分类号 : TP242. 6 文献标识码 :A 文章编号 :167324785 (2007) 0420034206 A survey on developmental robotics YU Hua2long , ZHU Chang2ming , L IU Hai2bo , GU Guo2chang , SH EN Jing (College of Computer Science and Technology , Harbin Engineering University , Harbin 150001 , China) Abstract :Developmental robotics is one of t he most pop ular research interests for many foreign researchers in recent years. However , t he related studies haven’t been done systematically in China. The paper pres2 ented t he basic conception , main idea and history of t he developmental robotics. Especially several rep re2 sentative developmental models and learning met hods were described in detail. Some controversial topics in t his field , such as constit ution , research p urpose , performance estimation and so on , are discussed de2 tailedly. At last , it p ro spects t he developmental trend of t he developmental robotics in t he f uture from two aspects: t heoretical research and application , and indicates t he issues needed to be researched deeply. Keywords :developmental robotics , epigenetic robotics , developmental model , developmental learning 收稿日期 :2007201225. 基金项目 :哈尔滨工程大学基础研究基金资助项目( HEU FT05021 , 发育机器人 ,又称外成机器人 ( epigenetic ro2 botics) ,是目前机器人研究领域的研究热点之一. 1996 年 ,J1 Weng 最早提出了机器人自主心智发育 的思想[1 ] ,并且在机器人上进行了一系列卓有成效 的实验. 2001 年 ,他在 Science 杂志上详细地阐述了 发育机器人的思想框架与可实现的算法模型 ,从而 掀开了发育机器人的研究热潮. 自主心智发育是建 立在一个类似大脑的自然系统或人工嵌入式系统之 上的 ,这种系统在其内在发育程序的控制下通过使 用自己的传感器和执行器与环境 (包括自己的内部 环境和组件) 进行自主实时的交流来发展心智能 力[2 ] . 基于这种思想的机器人被称为发育机器人 ,其 主要借鉴发展心理学的思想与研究成果 ,融合了 HEU F T05068) . 发 展心理学 认知心理学 机器人学 人工智能 神 经生理学 生物学等多个学科领域 ,目的在于促进 相关学科的发展 ,尤其是机器人学与发展心理学的 发展[3 ] . 发育机器人与传统机器人的不同之处在于 :首 先 ,发育机器人是任务独立的 ,因此 ,不用针对特定 任务进行编程 ,只需要为机器人预先编制一套发育 程序 ,便可使它通过后天的自主学习来获得各种能 力. 其次 ,人类在机器人发育的过程中不再充当程序 员的角色 ,而是作为环境的一部分出现 ,作为教师或 者机器人保姆来影响机器人的学习内容与学习进 程. 另外 ,不同于传统的机器人 ,发育机器人的学习 是一个自组织与累积学习的过程 ,即高级智能的发 展依赖于低层基本技能的获得. 目前 ,发育机器人方面的研究在国外开展的较 好 ,也产生了一系列卓有成效的研究成果. 一年一度 的外成机器人国际研讨会(International Workshop
第4期 于化龙,等:发育机器人研究综述 ·35 on Epigenetic Robotics)以及IEEE发育与学习国 要是对一系列输入的观察向量进行分析,找出最能 际会议(IEEE International Conference on Devel- 表达这一向量组的少量正交基,实际上起到的就是 opment and Learning)为这一领域的研究人员提供 对高维数据进行降维的作用,这样既可以保证不缺 了成果发布与交流的机会.另外,在2005年美国人 失原始特征,又可以有效降低运算的复杂度,这对实 工智能学会(AAAI)的春季讨论会上,也单独以发 时性要求较高的发育机器人来说尤为重要.但是一 育机器人为题进行了一次研讨会,,由此可见发育 般的PCA方法需要对输入数据进行批处理,难以适 机器人正在逐渐成为机器人领域新的研究热点」 应增量数据的要求,在这样的情况下,J.Weng提出 相比之下,我国在这一领域的研究开展得较晚. 了增量的PCA方法,即CCIPCA方法,它能够对依 目前,只有复旦大学肢体化智能实验室在做相关的 次输入的样本增量地计算主元,通过迭代的方法可 研究,主要在视觉发育方面进行了一定的探索1.另 以逐步收敛到待求的特征向量,其收敛性已从数学 外,复旦大学研制的“复旦一号”发育机器人也填补 上得到了证明 了中国在这一领域的空白. HDR算法则是一种针对高维向量子空间的识 由于发育机器人的思想提出的时间不长,因此别与匹配算法.它采用了双重聚类的方法,可以自动 很多研究还仅仅停留在理论上,并且不是很成熟.在 区分输入样本,并根据其特征进行分类,将输入空间 应用领域,只有为数不多的探索,且也主要是为理论 映射到输出空间,起到感知与动作匹配的作用.这种 研究服务的,如Pierre对Sony机器狗的改进I6, 映射或者匹配对机器人而言,就是它们所学习到的 Duquette与Kozima等人应用开发的发育玩具机器 知识.由于发育机器人实时在环境中进行增量的学 人来促进患有孤独症儿童的交际能力71等等。 习,因此HDR树也是增量地建立的,随着HDR树 规模的壮大,发育机器人也在不断的成长,具备更为 1 发育模型 细致的判别与区分的能力(详见文献[9]). 发育机器人模仿的是人脑及人心理发育的过 CCIPCA+HDR树模型如图1所示,首先将传 程,需要机器人在实际的环境中自主地学习可用于 感器接收到的数据在CCIPCA算法下进行降维,提 完成各种任务的知识,并将这些知识有机地组织于 取的特征数据随后作为HDR算法的输入,或通过 记忆系统当中.因此,发育机器人研究者所面临的主 计算生成新的叶子结点进行存储,或通过识别产生 要问题有:是否需要对环境建立具体的世界模型;能 动作 否对知识进行确定的表示;记忆系统如何组织以使 外部环境 传感数据 CCIPCA 特征提取 HDR 记忆的提取能符合实时性的要求;机器人是否需要 像生物一样,具有一些先天的条件反射机制:低层与 执行动作 高层的知识以何种方式进行组织,高层决策如何进 行;多个传感器的数据如何进行融合(是否用到注意 图1 CCIPCA+HDR树模型 机制)以及采用何种学习方式等等.根据对以上问题 Fig.1 CCIPCA HDR model 回答的不同,研究者们提出了很多不同的发育模型, 由于以上模型是基于判定树结构实现的,因此 其中比较典型的有以下3种J.Weng提出的CCIP- 算法的时间复杂度为对数复杂度,满足了实时性的 CA+HDR树模型I);分层模型io1以及Schema模 要求.同时与传统机器人相比,这一模型还具有较强 型山.下面将详细介绍以上几种模型的特点,并对 的鲁棒性,可以适应有少量噪音的环境.该模型已经 其各自的优缺点进行比较分析 在密歇根州立大学的SAL机器人平台上进行了导 L.1 CCIPCA+HDR树模型 航、避碰、物体识别与语音识别等一系列实验,取得 CCIPCA+HDR树模型是由J.Weng提出 了较好的效果.但是这一模型缺乏高层决策与任务 的,这种发育模型可以很好地用于机器人的实时发 判别的能力,很难完成较为复杂的任务 育与自主增量学习.其主要包括2个基本的算法:即 另外,随着学习复杂程度的提高,存储量与计算 增量的主成分析算法(CCIPCA)与分级回归树算法 量会大大增加,这对机器人的实时性与进一步发育 (HDR),前者的输出作为后者的输入,可以实时对 都会是一个不小的挑战.鉴于以上原因,K C Tan 环境改变做出相应的反应 等人在这一模型的基础上提出了面向任务发育学习 主成份分析法(principle component analysis, (TODL)的模型],该模型针对任务进行学习,可 PCA)作为一种特征提取的方法,已经广泛应用于 以使机器人同时具备处理多个任务的能力,性能大 图像识别、聚类分析、数据挖掘等领域.这种算法主 大提高 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
on Epigenetic Robotics) 以及 IEEE 发育与学习国 际会议 ( IEEE International Conference on Devel2 opment and Learning) 为这一领域的研究人员提供 了成果发布与交流的机会. 另外 ,在 2005 年美国人 工智能学会 (AAAI) 的春季讨论会上 ,也单独以发 育机器人为题进行了一次研讨会[4 ] ,由此可见发育 机器人正在逐渐成为机器人领域新的研究热点. 相比之下 ,我国在这一领域的研究开展得较晚. 目前 ,只有复旦大学肢体化智能实验室在做相关的 研究 ,主要在视觉发育方面进行了一定的探索[ 5 ] . 另 外 ,复旦大学研制的“复旦一号”发育机器人也填补 了中国在这一领域的空白. 由于发育机器人的思想提出的时间不长 ,因此 很多研究还仅仅停留在理论上 ,并且不是很成熟. 在 应用领域 ,只有为数不多的探索 ,且也主要是为理论 研究服务的 ,如 Pierre 对 Sony 机器狗的改进[6 ] , Duquette 与 Kozima 等人应用开发的发育玩具机器 人来促进患有孤独症儿童的交际能力[7 - 8 ]等等. 1 发育模型 发育机器人模仿的是人脑及人心理发育的过 程 ,需要机器人在实际的环境中自主地学习可用于 完成各种任务的知识 ,并将这些知识有机地组织于 记忆系统当中. 因此 ,发育机器人研究者所面临的主 要问题有 :是否需要对环境建立具体的世界模型 ;能 否对知识进行确定的表示 ;记忆系统如何组织以使 记忆的提取能符合实时性的要求 ;机器人是否需要 像生物一样 ,具有一些先天的条件反射机制 ;低层与 高层的知识以何种方式进行组织 ,高层决策如何进 行 ;多个传感器的数据如何进行融合(是否用到注意 机制) 以及采用何种学习方式等等. 根据对以上问题 回答的不同 ,研究者们提出了很多不同的发育模型 , 其中比较典型的有以下 3 种 :J1 Weng 提出的 CCIP2 CA + HDR 树模型[9 ] ;分层模型[10 ] 以及 Schema 模 型[11 ] . 下面将详细介绍以上几种模型的特点 ,并对 其各自的优缺点进行比较分析. 111 CCIPCA + HDR 树模型 CCIPCA + HDR 树模型[ 9 ] 是由 J1 Weng 提出 的 ,这种发育模型可以很好地用于机器人的实时发 育与自主增量学习. 其主要包括 2 个基本的算法 :即 增量的主成分析算法(CCIPCA) 与分级回归树算法 ( HDR) ,前者的输出作为后者的输入 ,可以实时对 环境改变做出相应的反应. 主成份分析法 (principle component analysis , PCA) 作为一种特征提取的方法 ,已经广泛应用于 图像识别、聚类分析、数据挖掘等领域. 这种算法主 要是对一系列输入的观察向量进行分析 ,找出最能 表达这一向量组的少量正交基 ,实际上起到的就是 对高维数据进行降维的作用 ,这样既可以保证不缺 失原始特征 ,又可以有效降低运算的复杂度 ,这对实 时性要求较高的发育机器人来说尤为重要. 但是一 般的 PCA 方法需要对输入数据进行批处理 ,难以适 应增量数据的要求 ,在这样的情况下 ,J1 Weng 提出 了增量的 PCA 方法 ,即 CCIPCA 方法 ,它能够对依 次输入的样本增量地计算主元 ,通过迭代的方法可 以逐步收敛到待求的特征向量 ,其收敛性已从数学 上得到了证明[12 ] . HDR 算法则是一种针对高维向量子空间的识 别与匹配算法. 它采用了双重聚类的方法 ,可以自动 区分输入样本 ,并根据其特征进行分类 ,将输入空间 映射到输出空间 ,起到感知与动作匹配的作用. 这种 映射或者匹配对机器人而言 ,就是它们所学习到的 知识. 由于发育机器人实时在环境中进行增量的学 习 ,因此 HDR 树也是增量地建立的 ,随着 HDR 树 规模的壮大 ,发育机器人也在不断的成长 ,具备更为 细致的判别与区分的能力(详见文献[ 9 ]) . CCIPCA + HDR 树模型如图 1 所示 ,首先将传 感器接收到的数据在 CCIPCA 算法下进行降维 ,提 取的特征数据随后作为 HDR 算法的输入 ,或通过 计算生成新的叶子结点进行存储 ,或通过识别产生 动作. 图 1 CCIPCA + HDR 树模型 Fig. 1 CCIPCA + HDR model 由于以上模型是基于判定树结构实现的 ,因此 算法的时间复杂度为对数复杂度 ,满足了实时性的 要求. 同时与传统机器人相比 ,这一模型还具有较强 的鲁棒性 ,可以适应有少量噪音的环境. 该模型已经 在密歇根州立大学的 SAIL 机器人平台上进行了导 航、避碰、物体识别与语音识别等一系列实验 ,取得 了较好的效果. 但是这一模型缺乏高层决策与任务 判别的能力 ,很难完成较为复杂的任务. 另外 ,随着学习复杂程度的提高 ,存储量与计算 量会大大增加 ,这对机器人的实时性与进一步发育 都会是一个不小的挑战. 鉴于以上原因 , K1C1 Tan 等人在这一模型的基础上提出了面向任务发育学习 ( TODL) 的模型[13 ] ,该模型针对任务进行学习 ,可 以使机器人同时具备处理多个任务的能力 ,性能大 大提高. 第 4 期 于化龙 ,等 :发育机器人研究综述 ·35 ·
·36 智能系统学报 第2卷 1.2分层模型 l.3 Schema模型 分层的发育模型在发育机器人中采用得也比较 Schema模型是由Stojanov提出的一种发育模 普遍,这种模型模仿了人类大脑皮层的工作机理,同 型川,其思想主要来源于20世纪最伟大的发展心 时与Brooks的包容结构也非常相似.它将知识由低 理学家Piaget的发生认识理论.发生认识论将人的 到高,由简单到复杂地组织在一个分层的结构当中, 认知发育划分为以下3个阶段1:1)通过遗传,具 高层的知识建立于低层的知识之上.一些简单的底 备先天的认知反应模式序列;2)通过学习,可以修改 层控制由较低的层次来完成,这正如人类对熟悉的 原有的模式序列,并生成新的可以更好适应环境的 刺激所建立的条件反射一样,而对复杂烦琐的任务 模式序列;3)使自身逐渐适应这些新模式.下面简要 则要由高层的决策来实现, 地介绍一下这种模型的结构与算法 Blank等提出了一种基于提取与预测机制的分 在Schema模型中,首先要定义机器人的基本 层发育模型],其中提取机制由自组织映射网络 动作集A={m,m,am}与基本感知集P={pi, (SOM)来实现,而预测机制则采用简单的回归网络 p四,p},其中a代表机器人所能采取的基本动 (SRN).模型如图2所示,其中图2(a)表示的是一 作,而P,则代表机器人拥有的感知能力.随后要定 个单层结构,从图中可以看出首先要对输入信号提 义schema,schema实质上代表Agent有能力执行 取主要特征,随后根据这些主要特征来进行决策,而 的一个基本的动作序列,如可以表示为3= 预测机制会根据上一步的决策对接下来的输入信号 msm,它根据长度与动作种类的不同而有所 进行预测,预测准确率的高低代表了机器人对环境 区别.初始阶段,会自动生成基本的schema,在学习 与任务的熟悉程度.图2(b)将(a)中独立的结构组 的过程当中,机器人试图执行这些基本的schema, 织在了一个分层的模型当中,上层的提取模块会以 但由于感知到环境的不同,相应的schema会进化 下层模块提取的特征作为输入,每一层都能产生输 为一个新的动作序列以适应环境与任务的需要.如 出信号,这些信号被整合在一个包容结构当中,高层 机器人的基本动作集为A={f,b,1,r},其中f,b 的决策优于低层的输出.这种模型既可以保证机器 1,「分别代表向前运动、向后运动、左转与右转,假 人对实时性的要求,又可以根据机器人的经历动态 设一个初始的schema=fffllffr,那么当机器人在走 地改变其知识结构,体现了行为主义思想与发育思 廊中向前行进时,这一schema会退化为ffff以适 想的融合 应环境的要求 Schema模型将改进的动作序列与相对应的感 知序列相结合,并存储于如下形式的连接当中:Link 预测 第N层 (A1P,A2P,D),其中A,P,代表与感知序列相 输 对应的动作序列,而D=(d,d,d)则代表了与 各种目标的距离.在执行的阶段,机器人会根据其对 提取 第2层 环境的感知自主选择左侧的AP对,然后通过计算 与目标的距离,选出最小的d,并选取与之相匹配 空制 的右侧的AP对执行.其存储结构如图3所示 第1层 传感器和执行器 上下文d (a)分层模型的单层组织结构 (b)完整的分层模型 上下文d 图2基于提取与预测机制的分层模型 Fig.2 Hierarchical model based on abstraction and anticipation 上下文d4 分层模型具有良好的自适应性,从功能与结构 上较好地模拟了人类的认知发育过程.这种模型存 在的主要不足是结构复杂,高层决策的运算量过大, 缺少对特定目标与任务的规划能力等等.Drian- 图3基本的Schema模型 court提出了一种基于分层结构的感知识别与分类 Fig.3 Elementary schema model 算法,,Kozma等人采用分层模型实现了动态记忆 Schema模型已经在Petitage机器人上进行了 以及传感器数据分类等功能5) 导航方面的实验,取得了较好的效果.这个模型的特 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net
112 分层模型 分层的发育模型在发育机器人中采用得也比较 普遍 ,这种模型模仿了人类大脑皮层的工作机理 ,同 时与 Brooks 的包容结构也非常相似. 它将知识由低 到高 ,由简单到复杂地组织在一个分层的结构当中 , 高层的知识建立于低层的知识之上. 一些简单的底 层控制由较低的层次来完成 ,这正如人类对熟悉的 刺激所建立的条件反射一样 ,而对复杂烦琐的任务 则要由高层的决策来实现. Blank 等提出了一种基于提取与预测机制的分 层发育模型[ 10 ] ,其中提取机制由自组织映射网络 (SOM) 来实现 ,而预测机制则采用简单的回归网络 (SRN) . 模型如图 2 所示 ,其中图 2 (a) 表示的是一 个单层结构 ,从图中可以看出首先要对输入信号提 取主要特征 ,随后根据这些主要特征来进行决策 ,而 预测机制会根据上一步的决策对接下来的输入信号 进行预测 ,预测准确率的高低代表了机器人对环境 与任务的熟悉程度. 图 2 ( b) 将 (a) 中独立的结构组 织在了一个分层的模型当中 ,上层的提取模块会以 下层模块提取的特征作为输入 ,每一层都能产生输 出信号 ,这些信号被整合在一个包容结构当中 ,高层 的决策优于低层的输出. 这种模型既可以保证机器 人对实时性的要求 ,又可以根据机器人的经历动态 地改变其知识结构 ,体现了行为主义思想与发育思 想的融合. 图 2 基于提取与预测机制的分层模型 Fig. 2 Hierarchical model based on abstraction and anticipation 分层模型具有良好的自适应性 ,从功能与结构 上较好地模拟了人类的认知发育过程. 这种模型存 在的主要不足是结构复杂 ,高层决策的运算量过大 , 缺少对特定目标与任务的规划能力等等. Drian2 court 提出了一种基于分层结构的感知识别与分类 算法[ 14 ] , Kozma 等人采用分层模型实现了动态记忆 以及传感器数据分类等功能[ 15 ] . 113 Schema 模型 Schema 模型是由 Stojanov 提出的一种发育模 型[11 ] ,其思想主要来源于 20 世纪最伟大的发展心 理学家 Piaget 的发生认识理论. 发生认识论将人的 认知发育划分为以下 3 个阶段[16 ] :1) 通过遗传 ,具 备先天的认知反应模式序列 ;2) 通过学习 ,可以修改 原有的模式序列 ,并生成新的可以更好适应环境的 模式序列 ;3) 使自身逐渐适应这些新模式. 下面简要 地介绍一下这种模型的结构与算法. 在 Schema 模型中 ,首先要定义机器人的基本 动作集 A = { a1 , a2 , …an } 与基本感知集 P = { p1 , p2 , …, pj} ,其中 ai 代表机器人所能采取的基本动 作 ,而 pi 则代表机器人拥有的感知能力. 随后要定 义 schema , schema 实质上代表 Agent 有能力执行 的一 个 基 本 的 动 作 序 列 , 如 可 以 表 示 为 s = a1 a2 a5 a2 a7 a3 ,它根据长度与动作种类的不同而有所 区别. 初始阶段 ,会自动生成基本的 schema ,在学习 的过程当中 ,机器人试图执行这些基本的 schema , 但由于感知到环境的不同 ,相应的 schema 会进化 为一个新的动作序列以适应环境与任务的需要. 如 机器人的基本动作集为 A = {f , b , l , r} ,其中 f , b , l , r 分别代表向前运动、向后运动、左转与右转 ,假 设一个初始的 schema = fffllffr ,那么当机器人在走 廊中向前行进时 ,这一 schema 会退化为 fffff 以适 应环境的要求. Schema 模型将改进的动作序列与相对应的感 知序列相结合 ,并存储于如下形式的连接当中 :Link ( A1 P1 , A2 P2 , D) , 其中 A i Pi 代表与感知序列相 对应的动作序列 ,而 D = ( d1 , d2 , …dn ) 则代表了与 各种目标的距离. 在执行的阶段 ,机器人会根据其对 环境的感知自主选择左侧的 A P 对 ,然后通过计算 与目标的距离 ,选出最小的 di ,并选取与之相匹配 的右侧的 A P 对执行. 其存储结构如图 3 所示. 图 3 基本的 Schema 模型 Fig. 3 Elementary schema model Schema 模型已经在 Petitage 机器人上进行了 导航方面的实验 ,取得了较好的效果. 这个模型的特 ·36 · 智 能 系 统 学 报 第 2 卷
第4期 于化龙,等:发育机器人研究综述 ·37 点是很好地模仿了人类认知的发育过程,具有较强 2.2强化学习 的鲁棒性与自适应性,但是当感知的状态过多时,会 强化学习(reinforcement learning,RL)通过试 极大地增加计算的时间复杂度,并影响到算法收敛 错(trial-and-error)与环境交互获得到策略的改 的速度.文献[17]提出了一种基于Schema的感知 进,其自学习和在线学习的特点使之成为发育算法 系统模型(PSS),可用于感知信号的分类、预测与 的一个重要分支.强化学习在发育算法中的应用主 提取.一种双Schema模型在文献[18]中被提出,其 要体现在文[24-28],其中文[24-25]主要强调了 具有较强的环境适应能力,同时通过这种模型可以 内部的强化信号.虽然强化学习在发育算法中得到 更好地了解机器人的学习进程, 了广泛应用但其本身所带来的“维数灾”(curse of 除了以上3种典型的模型之外,还有一些其他 dimensionality)问题和收敛慢等问题至今仍困扰着 的发育模型,如多模块模型、基于神经网络的发 进一步的研究 育模型20、基于行为的知识模型21等等.各个模型2.3沟通学习 都有其各自的优势与缺陷,不同的发育模型,适用于 发育机器人的一个主要特点就是后天习得,即 不同的环境与任务.到目前为止还没有出现一种可 通过与环境的交互来不断发展,从而使沟通学习成 以像人一样能够很好地完成各种基本任务的通用的 为一种必不可少的学习方法.为了能和环境尤其是 发育结构,这也是本研究领域未来研究的重要课题 人进行沟通和交流,机器人必须具有一些基本的技 之 能如共同注意((joint attention)、模仿和同步等.有 鉴于此,某些学者开始致力于这些基本技能的研究, 2 发育学习方法 为机器人以后的进一步发育打下基础.文献[29]就 需要考虑的另一个问题是:发育与学习有怎样 研究并初步实现了共同注意,文献[30]对模仿学习 的联系与区别.神经生理学家认为发育是一种神经 进行了初步的探讨.在沟通学习中还有一个不可避 的活动行为,学习只是导致了神经活动的改变.而 免的问题就是同步,如果交流双方不能同步则交流 J.Weng则从发展心理学的角度阐述了发育的概 起来会很困难,文献[31]主要研究了交流同步的问 念,他认为发育是通过感受器与执行器在实时的环 题.对沟通学习的研究才刚刚起步,很多技能需要完 境中学习多种任务的过程).相比之下,Nagai等对 善,如语音识别、图像识别等问题 发育的定义更为宽泛,他们将人工神经网络训练过 2.4其他学习方法 程中权值的改变也视为发育2].总的说来,发育的 前面己提到,强化学习通过试错与环境交互来 过程就是通过学习来增加功能或改善系统性能的过 获得策略的改进.然而强化学习的一个致命的缺点 程,学习只是手段,而发育才是目的,现有的发育学 就是可能使机器人处于险境,因为它是通过试错来 习方法主要有监督学习(supervised learning)、强化 取得策略改进的.为了使机器人避免陷入险境,文献 学习(reinforcement learning)和沟通学习(commu- [32]提出了一种新的学习策略即可逆学习.这种策 nicative learning),另外还有可逆学习(reversibility 略主要通过压制那些不可逆的动作来实现可逆的行 learning)和涌现学习(ongoing emergence learning) 为,即可以使机器人回到前一个安全的状态.这一策 等.这几种方法应用最多的是强化学习和沟通学习. 略为发育机器人的安全问题提供了一个新的方法, 2.1监督学习 但其缺点与强化学习是等同的,即收敛速度慢 监督学习(也称有教师学习)是指有明确结果的 另外一种学习方法为涌现学习,这种方法主要 种学习方法.由于在机器人发育的初期没有确定 通过在已学知识的基础上对知识进行类比和归纳」 的评价标准或缺乏先验知识,所以监督学习是一种 即使机器人具有对知识举一反三的能力.文献[33] 必要的手段.另外,监督学习的学习速度快也是其一 就是基于这种思想来研究发育算法的.这种学习方 大优势在使用其他学习方法的同时监督学习可以 法的优点在于能实现快速学习,但会产生大量的冗 起到很好的辅助作用.例如在SAL系统中就用到 余信息,从而增加了发育算法的时空复杂度 了监督学习和强化学习相结合的办法.但是也应该 注意到监督学习缺乏自主性这一缺点,使用这种方 3争论与展望 法可能会限制机器人的继续发育,文献[23]提出了 目前,发育机器人的研究才刚刚起步,因此在这 一种自监督的学习方法,这种方法是监督学习和完 一领域不可避免地存在着很多的争论.从发育机器 全非监督学习的一种折中,其在贝叶斯条件下得到 人的组成结构,研究目的到性能评价等多个方面,研 了应用 究者们都存在着不同的看法 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
点是很好地模仿了人类认知的发育过程 ,具有较强 的鲁棒性与自适应性 ,但是当感知的状态过多时 ,会 极大地增加计算的时间复杂度 ,并影响到算法收敛 的速度. 文献[ 17 ]提出了一种基于 Schema 的感知 系统模型 (PSS) , 可用于感知信号的分类、预测与 提取. 一种双 Schema 模型在文献[ 18 ]中被提出 ,其 具有较强的环境适应能力 ,同时通过这种模型可以 更好地了解机器人的学习进程. 除了以上 3 种典型的模型之外 ,还有一些其他 的发育模型 ,如多模块模型[19 ] 、基于神经网络的发 育模型[20 ] 、基于行为的知识模型[21 ] 等等. 各个模型 都有其各自的优势与缺陷 ,不同的发育模型 ,适用于 不同的环境与任务. 到目前为止还没有出现一种可 以像人一样能够很好地完成各种基本任务的通用的 发育结构 ,这也是本研究领域未来研究的重要课题 之一. 2 发育学习方法 需要考虑的另一个问题是 :发育与学习有怎样 的联系与区别. 神经生理学家认为发育是一种神经 的活动行为 ,学习只是导致了神经活动的改变. 而 J. Weng 则从发展心理学的角度阐述了发育的概 念 ,他认为发育是通过感受器与执行器在实时的环 境中学习多种任务的过程[ 2 ] . 相比之下 ,Nagai 等对 发育的定义更为宽泛 ,他们将人工神经网络训练过 程中权值的改变也视为发育[ 22 ] . 总的说来 ,发育的 过程就是通过学习来增加功能或改善系统性能的过 程 ,学习只是手段 ,而发育才是目的. 现有的发育学 习方法主要有监督学习(supervised learning) 、强化 学习(reinforcement learning) 和沟通学习 (commu2 nicative learning) ,另外还有可逆学习 (reversibility learning) 和涌现学习(ongoing emergence learning) 等. 这几种方法应用最多的是强化学习和沟通学习. 211 监督学习 监督学习(也称有教师学习) 是指有明确结果的 一种学习方法. 由于在机器人发育的初期没有确定 的评价标准或缺乏先验知识 ,所以监督学习是一种 必要的手段. 另外 ,监督学习的学习速度快也是其一 大优势 ,在使用其他学习方法的同时 ,监督学习可以 起到很好的辅助作用. 例如在 SAIL 系统中就用到 了监督学习和强化学习相结合的办法. 但是也应该 注意到监督学习缺乏自主性这一缺点 ,使用这种方 法可能会限制机器人的继续发育 ,文献[ 23 ]提出了 一种自监督的学习方法 ,这种方法是监督学习和完 全非监督学习的一种折中 ,其在贝叶斯条件下得到 了应用. 212 强化学习 强化学习 (reinforcement learning ,RL) 通过试 错(trial —and —error) 与环境交互获得到策略的改 进 ,其自学习和在线学习的特点使之成为发育算法 的一个重要分支. 强化学习在发育算法中的应用主 要体现在文[24 - 28 ] ,其中文[ 24 - 25 ]主要强调了 内部的强化信号. 虽然强化学习在发育算法中得到 了广泛应用但其本身所带来的“维数灾”(curse of dimensionality) 问题和收敛慢等问题至今仍困扰着 进一步的研究. 213 沟通学习 发育机器人的一个主要特点就是后天习得 ,即 通过与环境的交互来不断发展 ,从而使沟通学习成 为一种必不可少的学习方法. 为了能和环境尤其是 人进行沟通和交流 ,机器人必须具有一些基本的技 能如共同注意 (joint attention) 、模仿和同步等. 有 鉴于此 ,某些学者开始致力于这些基本技能的研究 , 为机器人以后的进一步发育打下基础. 文献[ 29 ]就 研究并初步实现了共同注意 ,文献[ 30 ]对模仿学习 进行了初步的探讨. 在沟通学习中还有一个不可避 免的问题就是同步 ,如果交流双方不能同步则交流 起来会很困难 ,文献[ 31 ]主要研究了交流同步的问 题. 对沟通学习的研究才刚刚起步 ,很多技能需要完 善 ,如语音识别、图像识别等问题. 214 其他学习方法 前面已提到 ,强化学习通过试错与环境交互来 获得策略的改进. 然而强化学习的一个致命的缺点 就是可能使机器人处于险境 ,因为它是通过试错来 取得策略改进的. 为了使机器人避免陷入险境 ,文献 [32 ]提出了一种新的学习策略即可逆学习. 这种策 略主要通过压制那些不可逆的动作来实现可逆的行 为 ,即可以使机器人回到前一个安全的状态. 这一策 略为发育机器人的安全问题提供了一个新的方法. 但其缺点与强化学习是等同的 ,即收敛速度慢. 另外一种学习方法为涌现学习 ,这种方法主要 通过在已学知识的基础上对知识进行类比和归纳 , 即使机器人具有对知识举一反三的能力. 文献[ 33 ] 就是基于这种思想来研究发育算法的. 这种学习方 法的优点在于能实现快速学习 ,但会产生大量的冗 余信息 ,从而增加了发育算法的时空复杂度. 3 争论与展望 目前 ,发育机器人的研究才刚刚起步 ,因此在这 一领域不可避免地存在着很多的争论. 从发育机器 人的组成结构 ,研究目的到性能评价等多个方面 ,研 究者们都存在着不同的看法. 第 4 期 于化龙 ,等 :发育机器人研究综述 ·37 ·
·38 智能系统学报 第2卷 首先,发育机器人是否需要理解时空的概念,如 opment [A].Visual Communication and Image Process- 果需要,时间的概念又来自何处呢?目前常用的方 ing[C].New York,1998. 法是利用上下文结构来表达时间的次序,但问题是 [2]WENGJ,MCCL ELLAND J,PENTLAND A,et al. 机器人本身并不能理解时间的含义1.另外,应该 Autonomous mental development by robots and animals 采取一个什么样的标准来评价发育机器人的性能 [J].Science,2001,291:599-600. 呢?是根据知识表示的复杂性,真实性,心理学模仿 [3]ZLATEV J,BAL KENIUS C.Introduction:why "epigenetic robotics"?[A].Proceedings of the First International Work- 的相似性,还是机器人在完成任务时所体现出的能 shop on Epigenetic Robotics [C].Lunden,2001. 力?Marshall认为表示的复杂性并不能体现出发 [4]DAN GAUTHIER P.Developmental robotics[A ]Pro- 育机器人性能的优劣,应像图灵测试那样来测试行 ceedings of the AAAI Spring Symposium Workshop on 为的复杂性2!.不同领域的研究者研究发育机器人 Developmental Robotics[C].Stanford,California,2005. 的目的与评价其性能的标准各不相同,如在工程领 「51高颖,陈东岳,张立明.一种带有实时视觉特征学习 域,希望开发的模型可用来完成更多的任务,而在生 的自主发育机器人探索[」].复旦大学学报(自然科学 命科学领域,则更关心模型对心理学发展的促进作 版),2005,44(6):964.970. 用有多大 GAO Ying,CHEN Dong yue,ZHAN GLi ming.An ex- 众所周知,影响人类个体发展的主要因素除了 ploration of autonomous developing robot with real time 智力以外,还有情感.而人工情感也是目前人工智能 vision learning[J].Journal of Fudan University (Natural 界研究的热点之一,能否将机器人心智发育的思想 Science),2005,44(6):964-970. 应用到机器人情感的发育方面将是未来研究的一个 [6]OUDEYER P Y,KAPLAN F,Hafner V.The play- ground experiment:task-independent development of a 重要课题.另外,社会交流也是发育机器人必备的能 curious robot [A ]Proceedings of the AAAI Spring 力之一,这就提醒人们:能否用多个具备发育能力的 Symposium Workshop on Developmental Robotics [C]. Agent组成多Agent系统,通过交流学习来实现多 Stanford,California,2005. Agent系统的协作与协调,除此之外,目前在实现发 [7]KOZIMA H,NAKA GAWA C,YASUDA Y.Wowing 育算法时使用的各种学习方法都不是很有效,是否 together:what facilitates social interactions in children 可以借鉴新的学习方法或有效地综合己有的学习方 with autistic spectrum disorders[A ]Proceedings of the 法在未来还是值得深入研究的 sixth International Workshop on Epigenetic Robotics 在应用领域,可以预见到,最早的基于发育思想 [C].Paris,2006. 的产品将会是玩具机器人,它们与Soy的机器狗 [8]DUQUETTE A,MERCIER H,MICHAUD F.Investi- 将非常相似,但功能却要强大得多.大型的发育机器 gating the use of a mobile robotic toy as an imitation A- 人在经过严格的培训之后,既可以进入医院去照顾 gent for children with autism [A ]Proceedings of the sixth International Workshop on Epigenetic Robotics 病人,又可以进入家庭打扫卫生,还可以代替人类去 [C].Paris,2006. 做那些危险或者枯燥的工作.另外,“发育软件人”也 [9]WEN G J.Developmental robotics:theory and experi- 许是一个不错的设想,通过在互联网上进行增量的 ments[J.International Journal of Humanoid Robotics, 学习,它可以逐渐完善自身的功能,并为网络用户提 2004,1(2):199.236. 供各种实时的服务.近年来发育机器人研究领域正 [10 ]BLAN K D,KUMAR D,MEEDEN L,et al.Bringing 呈现出如下一些新的特点,:1)更多新的学者加入 up robot:fundamental mechanisms for creating a self- 到这一领域;2)研究者中心理学家、神经生理学家以 motivated,self-organizing architecture [J ]Cybernetics 及生物学专家所占比例不断升高:3)研究方向趋于 and Systems,2005,36(2):125-150. 多样化;4)研究人员所处地理位置的分布更为广泛 [11]STOJANOV G.Petitage:a case study in developmental 可以看出,发育机器人正吸引着越来越多的研 robotics [A ]Proceedings of the First International 究者的目光.其未来的发展不仅需要机器人专家的 Workshop on Epigenetic Robotics [C].Lund,2001. [12]WENGJ,ZHANG Y,HWANG W S.Candid covari- 努力,而且需要神经生理学家与心理学家的协作,新 ance-free incremental principal component analysis [J]. 的心智发育计算原则的出现将成为发育机器人发展 IEEE Trans Pattern Analysis and Machine Intelligence, 的推动力,发育机器人的发展同时也为人类认识自 2003,25(8):1034-1040 己提供了基础. [13]TAN K C,CHEN YJ,TAN KK,et al.Task-oriented 参考文献: developmental learning for humanoid robots [J].IEEE Trans on Industry Electronics,2005,52(3):906-914. [1 ]WEN GJ.Learning in image analysis and beyond:devel- [14 DRIANCOURT R.Learning perceptual organization 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
首先 ,发育机器人是否需要理解时空的概念 ,如 果需要 ,时间的概念又来自何处呢 ? 目前常用的方 法是利用上下文结构来表达时间的次序 ,但问题是 机器人本身并不能理解时间的含义[15 ] . 另外 ,应该 采取一个什么样的标准来评价发育机器人的性能 呢 ? 是根据知识表示的复杂性 ,真实性 ,心理学模仿 的相似性 ,还是机器人在完成任务时所体现出的能 力 ? Marshall 认为表示的复杂性并不能体现出发 育机器人性能的优劣 ,应像图灵测试那样来测试行 为的复杂性[24 ] . 不同领域的研究者研究发育机器人 的目的与评价其性能的标准各不相同 ,如在工程领 域 ,希望开发的模型可用来完成更多的任务 ,而在生 命科学领域 ,则更关心模型对心理学发展的促进作 用有多大. 众所周知 ,影响人类个体发展的主要因素除了 智力以外 ,还有情感. 而人工情感也是目前人工智能 界研究的热点之一 ,能否将机器人心智发育的思想 应用到机器人情感的发育方面将是未来研究的一个 重要课题. 另外 ,社会交流也是发育机器人必备的能 力之一 ,这就提醒人们 :能否用多个具备发育能力的 Agent 组成多 Agent 系统 ,通过交流学习来实现多 Agent 系统的协作与协调. 除此之外 ,目前在实现发 育算法时使用的各种学习方法都不是很有效 ,是否 可以借鉴新的学习方法或有效地综合已有的学习方 法在未来还是值得深入研究的. 在应用领域 ,可以预见到 ,最早的基于发育思想 的产品将会是玩具机器人 ,它们与 Sony 的机器狗 将非常相似 ,但功能却要强大得多. 大型的发育机器 人在经过严格的培训之后 ,既可以进入医院去照顾 病人 ,又可以进入家庭打扫卫生 ,还可以代替人类去 做那些危险或者枯燥的工作. 另外“, 发育软件人”也 许是一个不错的设想 ,通过在互联网上进行增量的 学习 ,它可以逐渐完善自身的功能 ,并为网络用户提 供各种实时的服务. 近年来发育机器人研究领域正 呈现出如下一些新的特点[34 ] :1) 更多新的学者加入 到这一领域 ;2) 研究者中心理学家、神经生理学家以 及生物学专家所占比例不断升高 ;3) 研究方向趋于 多样化 ;4) 研究人员所处地理位置的分布更为广泛. 可以看出 ,发育机器人正吸引着越来越多的研 究者的目光. 其未来的发展不仅需要机器人专家的 努力 ,而且需要神经生理学家与心理学家的协作 ,新 的心智发育计算原则的出现将成为发育机器人发展 的推动力 ,发育机器人的发展同时也为人类认识自 己提供了基础. 参考文献 : [1 ]WEN G J. Learning in image analysis and beyond : devel2 opment [A ]. Visual Communication and Image Process2 ing[C]. New York ,1998. [2 ] WEN G J , MCCL ELLAND J , PEN TLAND A , et al. Autonomous mental development by robots and animals [J ] . Science , 2001 , 291 : 599 - 600. [3]ZLATEV J , BAL KENIUS C. Introduction : why“epigenetic robotics”? [A]. Proceedings of the First International Work2 shop on Epigenetic Robotics [C].Lunden , 2001. [4 ]DAN GAU THIER P. Developmental robotics[ A ]. Pro2 ceedings of the AAAI Spring Symposium Workshop on Developmental Robotics[C]. Stanford , California , 2005. [5 ]高 颖 , 陈东岳 , 张立明. 一种带有实时视觉特征学习 的自主发育机器人探索 [J ]. 复旦大学学报 (自然科学 版) ,2005 , 44 (6) : 964 - 970. GAO Ying , CHEN Dong yue , ZHAN G Li ming. An ex2 ploration of autonomous developing robot with real time vision learning[J ]. Journal of Fudan University (Natural Science) , 2005 , 44 (6) : 964 - 970. [6 ] OUDEYER P Y , KAPLAN F , Hafner V. The play2 ground experiment : task2independent development of a curious robot [ A ]. Proceedings of the AAAI Spring Symposium Workshop on Developmental Robotics [ C ]. Stanford , California , 2005. [7 ] KOZIMA H , NA KA GAWA C , YASUDA Y. Wowing together : what facilitates social interactions in children with autistic spectrum disorders[ A ]. Proceedings of the sixth International Workshop on Epigenetic Robotics [C]. Paris , 2006. [8 ]DUQU ETTE A , MERCIER H , MICHAUD F. Investi2 gating the use of a mobile robotic toy as an imitation A2 gent for children with autism [ A ]. Proceedings of the sixth International Workshop on Epigenetic Robotics [C]. Paris , 2006. [9 ] WEN G J. Developmental robotics: theory and experi2 ments[J ]. International Journal of Humanoid Robotics , 2004 , 1 (2) :199 - 236. [10 ]BLAN K D , KUMAR D , MEEDEN L , et al. Bringing up robot : fundamental mechanisms for creating a self2 motivated , self2organizing architecture [J ]. Cybernetics and Systems , 2005 ,36 (2) : 125 - 150. [ 11 ]STOJ ANOV G. Petitagé: a case study in developmental robotics [ A ]. Proceedings of the First International Workshop on Epigenetic Robotics [C]. Lund , 2001. [12 ]WEN G J , ZHAN G Y , HWAN G W S. Candid covari2 ance2free incremental principal component analysis [J ]. IEEE Trans Pattern Analysis and Machine Intelligence , 2003 , 25 (8) : 1034 - 1040. [13 ] TAN K C , CHEN Y J , TAN K K, et al. Task2oriented developmental learning for humanoid robots [ J ]. IEEE Trans on Industry Electronics , 2005 , 52 (3) : 906 - 914. [ 14 ] DRIANCOURT R. Learning perceptual organization ·38 · 智 能 系 统 学 报 第 2 卷
第4期 于化龙,等:发育机器人研究综述 ·39 with a developmental robot[A].Proceedings of the 2004 multiple heterogeneous modules:a framework for devel- Conference on Computer Vision and Pattern Recognition opmental robot learning[A].Proceedings of the 4th In- Workshop[C].Washington.DC,2004. ternational Conference on Development and Learning [15]KOZMA R,FREEMAN WJ.Encoding and recall of noisy [C].Kobe,Japan,2005. data as chaotic spatiotemporal memory patterns in the style of [28]BARTO A.Intrinsic motivation,cumulative learning, the brains[A].Proceedings of International Joint Conference and computational reinforcement learning[A ]Proceed- on Neural Networks[C].Como,Italy,2000 ings of the Sixth International Workshop on Epigenetic [16]PIA GETJ.The principles of genetic epistemology[M]. [C].Paris,2006. New York:Basic Books.1972. [29]NAGAI Y.Understanding the development of joint at- [17]PEZZULO G,CALVI G.Toward a perceptual symbol tention from a viewpoint of cognitive developmental ro- system A ]Proceedings of the Sixth International botics[D].Osaka University,2004. Workshop on Epigenetic Robotics [C].Paris,2006. [30 ]BLANCHARD A.AMERO L.Developing affect-mod- [18]TANIGUCHI T,SAWARA GI T.Incremental aquisi- ulated behaviors:stability,exploration,exploitation,or tion of compositional schemata based on behavioral learn- imitation?[A ]Proceedings of the Sixth International ing[A].Proceedings of the Sixth International Work- Workshop on Epigenetic[C].Paris,2006. shop on Epigenetic Robotics [C].Paris,2006. [31]ANDRY P,REV EL A.Modeling synchrony for per- [19]PAQUIER W,HUU N D,CHATILA R.A unified ceptiorraction systems coupling[A].Proceedings of the model for developmental Robotics [A ]Proceedings of Sixth International Workshop on Epigenetic [C].Paris, the 3rd International Workshop on Epigenetic Robotics 2006. [C].Boston,2003. [32]KRUUSMAA M.Obstacle avoidance as a consequence [20]OGATA T,HATTORI Y,KOZIMA H,et al.Gener- of suppressing irreversible actions [A].Proceedings of ation of robot motions from environmental sounds using the Sixth International Workshop on Epigenetic [C]. inter-modality mapping by RNNPB[A].Proceedings of Paris,2006. the Sixth International Workshop on Epigenetic Robotics [33]PRINCE C G,HELDER N A,HOLLICH GJ.Ongo- [C].Paris,2006. ing emergence:a core concept in epigenetic robotics[A]. [21]GERSHENSON C.Behaviour-based knowledge sys- Proceedings of the fifth International Workshop on Epi- tems:an epigenetic path from behaviour to knowledge genetic Robotics:Modeling Cognitive Development in [A].Proceedings of the 2nd Workshop on Epigenetic Robotic Systems[C].Nara,Japan.2005. Robotics[C].Edinburgh,2002. [34]KA PLAN F,OUDEYER P Y.Trends in epigenetic ro- [22]NAGAI Y,ASADA M,HOSODA K A developmental botics:atlas[A].Proceedings of the sixth International approach accelerates learning of joint attention[A].Proceed- Workshop on Epigenetic Robotics [C].Paris,2006. ings of the 2nd International Conference on Development and 作者简介: Learning[C].Cambridge,Massachusetts,2002. (23]DAN GAUTHIER P,BESSIERE P,SPALANZANI A.Auto-supervised learning in the Bayesian program- 于化龙,男,1982年生,博士研究生 ming framework[A].Proc of the IEEE Int Conf on Ro- 主要研究方向为智能机器人,发表学术论 botics and Automation[C].Barcelona (ES),2005. 文1篇。 [24]MARSHALL J,BLANK D,MEEDEN L.An emer- E mial yuhualong @hrbeu.edu.cn. gent framework for self-motivation in developmental ro- botics[A].Proceedings of the Third International Con- ference on Development and Learning (ICDL 2004)[C]. 朱长明,男,1980年生,博士研究 La Jolla,California 2004. 生,主要研究方向为智能机器人,发表学 [25]STOUT A,KONIDARIS G,BARTO A.Intrinsically 术论文1篇 motivated reinforcement learning:a promising frame- work for developmental robot learning[A ]Proceedings of the AAAI Spring Symposium on Developmental Ro- botics[C].Stanford,CA,2005. 刘海波,男,1976年生,博士,副教 [26]MA HADEVAN S.Proto-value functions:developmen- 授,EEE计算机学会专业会员,中国计 tal reinforcement learning[A].Proceedings of the Inter- 算机学会会员,黑龙江省计算机学会智 national Conference on Machine Learning [C].Bonn, 能人机交互专委会委员,主要研究方向 Germany,2005. 为智能机器人体系结构,发表学术论文 [27]UCHIBE E,DOYA,K.Reinforcement learning with 50余篇,出版编著3部,译著2部. 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net
with a developmental robot[A ]. Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition Workshop [C]. Washington. DC , 2004. [15] KOZMA R , FREEMAN W J. Encoding and recall of noisy data as chaotic spatio2temporal memory patterns in the style of the brains[A]. Proceedings of International Joint Conference on Neural Networks[C]. Como , Italy , 2000. [ 16 ] PIA GET J. The principles of genetic epistemology[ M]. New York : Basic Books , 1972. [17 ] PEZZULO G, CALVI G. Toward a perceptual symbol system [ A ]. Proceedings of the Sixth International Workshop on Epigenetic Robotics [C]. Paris , 2006. [18 ] TANIGUCHI T , SAWARA GI T. Incremental aquisi2 tion of compositional schemata based on behavioral learn2 ing [ A ]. Proceedings of the Sixth International Work2 shop on Epigenetic Robotics [C]. Paris , 2006. [19 ] PAQU IER W , HUU N D , CHA TILA R. A unified model for developmental Robotics [ A ]. Proceedings of the 3rd International Workshop on Epigenetic Robotics [C]. Boston , 2003. [20 ]O GA TA T , HA TTORI Y , KOZIMA H , et al. Gener2 ation of robot motions from environmental sounds using inter2modality mapping by RNNPB[ A ]. Proceedings of the Sixth International Workshop on Epigenetic Robotics [C]. Paris , 2006. [21 ] GERSHENSON C. Behaviour2based knowledge sys2 tems: an epigenetic path from behaviour to knowledge [ A ]. Proceedings of the 2nd Workshop on Epigenetic Robotics[C]. Edinburgh , 2002. [22 ] NAGAI Y, ASADA M , HOSODA K. A developmental approach accelerates learning of joint attention[A]. Proceed2 ings of the 2nd International Conference on Development and Learning[C]. Cambridge , Massachusetts , 2002. [ 23 ] DAN GAU THIER P , BESSI‘ERE P , SPALANZANI A. Auto2supervised learning in the Bayesian program2 ming framework[ A ]. Proc of the IEEE Int Conf on Ro2 botics and Automation[C]. Barcelona ( ES) , 2005. [24 ] MARSHALL J , BLAN K D , MEEDEN L. An emer2 gent framework for self2motivation in developmental ro2 botics[ A ]. Proceedings of the Third International Con2 ference on Development and Learning (ICDL 2004) [C]. La Jolla , California 2004. [25 ]STOU T A , KONIDARIS G, BARTO A. Intrinsically motivated reinforcement learning : a promising frame2 work for developmental robot learning [ A ]. Proceedings of the AAAI Spring Symposium on Developmental Ro2 botics[C]. Stanford , CA , 2005. [26 ]MA HADEVAN S. Proto2value functions: developmen2 tal reinforcement learning[ A ]. Proceedings of the Inter2 national Conference on Machine Learning [ C ]. Bonn , Germany , 2005. [27 ]UCHIBE E , DO YA , K. Reinforcement learning with multiple heterogeneous modules: a framework for devel2 opmental robot learning[ A ]. Proceedings of the 4th In2 ternational Conference on Development and Learning [C]. Kobe , Japan ,2005. [28 ]BARTO A. Intrinsic motivation , cumulative learning , and computational reinforcement learning [ A ]. Proceed2 ings of the Sixth International Workshop on Epigenetic [C]. Paris , 2006. [29 ]NA GAI Y. Understanding the development of joint at2 tention from a viewpoint of cognitive developmental ro2 botics[D]. Osaka University , 2004. [30 ]BLANCHARD A. AMERO L. Developing affect2mod2 ulated behaviors: stability , exploration , exploitation , or imitation ? [ A ]. Proceedings of the Sixth International Workshop on Epigenetic[C]. Paris , 2006. [31 ] ANDR Y P , REV EL A. Modeling synchrony for per2 ception2action systems coupling [ A ]. Proceedings of the Sixth International Workshop on Epigenetic [ C]. Paris , 2006. [32 ] KRUUSMAA M. Obstacle avoidance as a consequence of suppressing irreversible actions [ A ]. Proceedings of the Sixth International Workshop on Epigenetic [ C ]. Paris , 2006. [33 ]PRINCE C G, HELDER N A , HOLL ICH G J. Ongo2 ing emergence : a core concept in epigenetic robotics[A ]. Proceedings of the fifth International Workshop on Epi2 genetic Robotics: Modeling Cognitive Development in Robotic Systems[C]. Nara , J apan. 2005. [ 34 ] KAPLAN F , OUDEYER P Y. Trends in epigenetic ro2 botics: atlas[ A ]. Proceedings of the sixth International Workshop on Epigenetic Robotics [C]. Paris , 2006. 作者简介 : 于化龙 ,男 ,1982 年生 ,博士研究生 , 主要研究方向为智能机器人 ,发表学术论 文 1 篇. E2mial :yuhualong @hrbeu. edu. cn. 朱长明 ,男 , 1980 年生 ,博士研究 生 ,主要研究方向为智能机器人 ,发表学 术论文 1 篇. 刘海波 ,男 ,1976 年生 ,博士 ,副教 授 ,IEEE 计算机学会专业会员 ,中国计 算机学会会员 ,黑龙江省计算机学会智 能人机交互专委会委员 ,主要研究方向 为智能机器人体系结构 ,发表学术论文 50 余篇 ,出版编著 3 部 ,译著 2 部. 第 4 期 于化龙 ,等 :发育机器人研究综述 ·39 ·