第12卷第2期 智能系统学报 Vol.12 No.2 2017年4月 CAAI Transactions on Intelligent Systems Apr.2017 D0I:10.11992/6is.201701006 网络出版地址:http://kns.cnki.net/kcms/detail/23.1538.TP.20170419.1448.002.html 智能交互的物体识别增量学习技术综述 李雪12,蒋树强2 (1.山东科技大学计算机科学与工程学院,山东青岛266590:2.中国科学院计算技术研究所智能信息处理重点实 验室,北京100190) 摘要:智能交互系统是研究人与计算机之间进行交流与通信,使计算机能够在最大程度上完成交互者的某个指令 的一个领域。其发展的目标是实现人机交互的自主性、安全性和友好性。增量学习是实现这个发展目标的一个途 径。本文对智能交互系统的任务、背景和获取信息来源进行简要介绍,主要对增量学习领域的已有工作进行综述。 增量学习是指一个学习系统能不断地从新样本中学习新的知识,非常类似于人类自身的学习模式。它使智能交互 系统拥有自我学习,提高交互体验的能力。文中对主要的增量学习算法的基本原理和特点进行了闸述,分析各自的 优点和不足,并对进一步的研究方向进行展望。 关键词:人工智能:人机交互;计算机视觉:物体识别:机器学习;多模态;机器人;交互学习 中图分类号:TP391文献标志码:A文章编号:1673-4785(2017)02-0140-10 中文引用格式:李雪,蒋树强.智能交互的物体识别增量学习技术综述[J].智能系统学报,2017,12(2):140-149, 英文引用格式:LI Xue,JIANG Shuqiang..Incremental learning and object recognition system based on intelligent HCI:a survey [J].CAAI transactions on intelligent systems,2017,12(2):140-149. Incremental learning and object recognition system based on intelligent HCI:a survey LI Xue JIANG Shuqiang2 (1.College of Information Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China;2.Key Laboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190. China) Abstract:Intelligent HCI systems focus on the interaction between computers and humans and study whether com- puters are able to apprehend human instructions.Moreover,this study aims to make the interaction more independ- ent and interactive.To some extent,incremental learning is a way to realize this goal.This study briefly introduces the tasks,background,and information source of intelligent HCI systems;in addition,it focuses on the summary of incremental learning.Similar to the learning mechanism of humans,incremental learning involves acquiring new knowledge on a continuous basis.This allows for the intelligent HCI systems to have the ability of self-growth.This study surveys the works that focus on incremental learning,including the mechanisms and their respective advanta- ges and disadvantages,and highlights the future research directions. Keywords:artificial intelligence;human-computer interaction;computer vision;object recognition;machine learning;multimodality;robotics;interactive learning 智能交互系统最为重要的一项任务就是捕获和 理解外界环境信息,从而完成交互方任务。近年来, 由于人工智能和机器人学等相关领域技术的进步, 收稿日期:2017-01-09.网络出版日期:2017-04-19. 智能交互系统得到了广泛的关注,高性能智能交互 基金项目:国家“973”计划项目(2012CB316400). 通信作者:蒋树强E-mail::sqjiang@(ict.ac.cn. 系统的实现也更加现实。智能交互系统感知外界环
第 12 卷第 2 期 智 能 系 统 学 报 Vol.12 №.2 2017 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2017 DOI:10.11992 / tis.201701006 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170419.1448.002.html 智能交互的物体识别增量学习技术综述 李雪1 ,2 ,蒋树强2 (1.山东科技大学 计算机科学与工程学院,山东 青岛 266590; 2. 中国科学院计算技术研究所 智能信息处理重点实 验室,北京 100190) 摘 要:智能交互系统是研究人与计算机之间进行交流与通信,使计算机能够在最大程度上完成交互者的某个指令 的一个领域。 其发展的目标是实现人机交互的自主性、安全性和友好性。 增量学习是实现这个发展目标的一个途 径。 本文对智能交互系统的任务、背景和获取信息来源进行简要介绍,主要对增量学习领域的已有工作进行综述。 增量学习是指一个学习系统能不断地从新样本中学习新的知识,非常类似于人类自身的学习模式。 它使智能交互 系统拥有自我学习,提高交互体验的能力。 文中对主要的增量学习算法的基本原理和特点进行了阐述,分析各自的 优点和不足,并对进一步的研究方向进行展望。 关键词:人工智能;人机交互;计算机视觉;物体识别;机器学习;多模态;机器人;交互学习 中图分类号: TP391 文献标志码:A 文章编号:1673-4785(2017)02-0140-10 中文引用格式:李雪,蒋树强. 智能交互的物体识别增量学习技术综述[J]. 智能系统学报, 2017, 12(2): 140-149. 英文引用格式:LI Xue, JIANG Shuqiang. Incremental learning and object recognition system based on intelligent HCI: a survey [J]. CAAI transactions on intelligent systems, 2017, 12(2): 140-149. Incremental learning and object recognition system based on intelligent HCI: a survey LI Xue 1 , JIANG Shuqiang 2 (1. College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China; 2. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China) Abstract:Intelligent HCI systems focus on the interaction between computers and humans and study whether com⁃ puters are able to apprehend human instructions. Moreover, this study aims to make the interaction more independ⁃ ent and interactive. To some extent, incremental learning is a way to realize this goal. This study briefly introduces the tasks, background, and information source of intelligent HCI systems; in addition, it focuses on the summary of incremental learning. Similar to the learning mechanism of humans, incremental learning involves acquiring new knowledge on a continuous basis. This allows for the intelligent HCI systems to have the ability of self-growth. This study surveys the works that focus on incremental learning, including the mechanisms and their respective advanta⁃ ges and disadvantages, and highlights the future research directions. Keywords: artificial intelligence; human⁃computer interaction; computer vision; object recognition; machine learning; multimodality; robotics; interactive learning 收稿日期:2017-01-09. 网络出版日期:2017-04-19. 基金项目:国家“973”计划项目(2012CB316400). 通信作者:蒋树强.E-mail: :sqjiang@ ict.ac.cn. 智能交互系统最为重要的一项任务就是捕获和 理解外界环境信息,从而完成交互方任务。 近年来, 由于人工智能和机器人学等相关领域技术的进步, 智能交互系统得到了广泛的关注,高性能智能交互 系统的实现也更加现实。 智能交互系统感知外界环
第2期 李雪,等:智能交互的物体识别增量学习技术综述 .141 境比人类困难得多,而准确感知外界环境可以提高 交互者的语言进行分析,从而获取到对方的指令。 智能交互系统的交互性能,因此许多智能交互系统 自然语言处理是计算机科学领域与人工智能领域中 相关的工作探索了提高对外界环境感知性能的问 的一个重要方向。它研究能实现人与计算机之间用 题,主要的思想策略包括多模态信息融合和增量学 自然语言进行有效通信的各种理论和方法。自然语 习两个方面。多模态的信息融合可以使智能系统增 言处理是一门融语言学、计算机科学、数学于一体的 加对外界环境的确定性,同时,不断变化的外界环境 科学。其常用的方法有:1)关键词匹配:2)使用有 要求智能系统拥有不断自我学习的能力。通过交互 标注的语料库:3)语义分析。在文献[4]中,该系统 不断学习外界信息也使智能系统的性能得以不断提 使用关键词匹配技术实现自然语言理解,并假设相 升。在计算机视觉、智能交互系统等领域,增量学习 应的单词有某种特定的序列。文献[5]和文献[6] 都已引起了广泛的关注。本文基于智能交互系统的 使用语义分析技术实现对自然语言的理解和分析。 物体识别,对增量学习的进展进行综述。首先,对智 文献[5]的语言模型从现有的语料库[]中训练得 能交互系统的研究背景和现状进行简要介绍,在此 到,而文献[6]通过系统与交互者对话的过程不断 基础上,对增量学习主要算法进行综合对比与分析。 获得语料,并逐步学习,不断改进其语言模型。 最后讨论了增量学习可扩展和待解决的问题,以及 2.2计算机视觉 进一步的研究方向。 由于获取外界信息的另一个主要渠道是视觉, 所以计算机视觉是当前人机交互中一个非常活跃的 1智能交互系统对环境的感知 领域。这一学科的基本假设是:可以通过计算的方 对于人类来说,我们可以精确地感知周围环境 式来模拟人类的视觉机制。如图1所示,智能系统 变化并作出相应的反应,但对于计算机来说,获取并 模拟人类视觉机制的过程主要包括两个方面:1)智 分析周围环境信息,同时通过模仿人类行为来实现 能系统要有能力将外部视觉信息转化为智能系统的 与人的交互,这是一个极具挑战性的任务。它包括 内部表示:2)从外部环境获取到的视觉信息到语义 场景理解、活动分类、运动分析、物体识别、自然语言 方面的文字需要一个可用的映射。 理解、语音合成等方面。每个方面都可作为一个独 立研究的任务。 准确感知外部环境可以使智能交互系统提高任 面 务的完成度、完成的准确度和交互者对交互体验的 满意度。多模态的外部信息,信息中较多的干扰和 (a (b】 噪声,外界环境的复杂多变,都对智能系统建立对外 图1计算机模拟人类视觉机制 部环境的准确感知提出了挑战。 Fig.I Computer simulation of human visual mechanism 为了增强交互系统对外部环境的感知性能,两 第1个方面主要要求智能系统可以从图像中提 个方面的相关工作被广泛研究:1)多模态信息融 合:2)通过交互增量学习,自我改进。 取出有判别能力的特征。图像特征基本包括两种: 手工设计的浅层特征和使用深度模型提取的深度特 2多模态输入与信息融合 征。SIFT8劉、FPFH(fast point features histogram)[oy 人类为了精确感知周围环境,往往会结合多 和ensembles of shape features(io]等都属于手工设计 的浅层特征。这种特征对图像变化如图像旋转、尺 种感知信息,如视觉、听觉、触觉等。认知科学的 度变化等具有不变性。但是浅层特征只能捕捉到一 研究表明通过结合感官信息,人类可以增强对环 境的感知。因此在多模态信息输入的智能交互 部分图像信息[山。与此相反的是,由于近年来深度 学习模型(如卷积神经网络[])方面的进步,由深 系统中,互补的输入模式给系统提供了冗余的信 度学习模型提取的深度特征可以捕获图像语义等更 息,而冗余输入模式增加了系统融合信息的准确 高层面的信息,具有更强的区分能力。因此,在计算 性,降低系统对外界环境的不确定性,增加对环 机视觉方面,深度特征被广泛使用。 境感知的可靠性,从嘈杂的信息中产生一个单一 智能系统模拟人类视觉机制的另一个要求是可 的整体状态[1-3]。 以对图像特征进行分类识别。在图像识别方面存在 2.1自然语言理解 一系列的分类、聚类算法,如决策树、SVM、混合高斯 智能交互系统常常需要通过理解自然语言来对 模型等
境比人类困难得多,而准确感知外界环境可以提高 智能交互系统的交互性能,因此许多智能交互系统 相关的工作探索了提高对外界环境感知性能的问 题,主要的思想策略包括多模态信息融合和增量学 习两个方面。 多模态的信息融合可以使智能系统增 加对外界环境的确定性,同时,不断变化的外界环境 要求智能系统拥有不断自我学习的能力。 通过交互 不断学习外界信息也使智能系统的性能得以不断提 升。 在计算机视觉、智能交互系统等领域,增量学习 都已引起了广泛的关注。 本文基于智能交互系统的 物体识别,对增量学习的进展进行综述。 首先,对智 能交互系统的研究背景和现状进行简要介绍,在此 基础上,对增量学习主要算法进行综合对比与分析。 最后讨论了增量学习可扩展和待解决的问题,以及 进一步的研究方向。 1 智能交互系统对环境的感知 对于人类来说,我们可以精确地感知周围环境 变化并作出相应的反应,但对于计算机来说,获取并 分析周围环境信息,同时通过模仿人类行为来实现 与人的交互,这是一个极具挑战性的任务。 它包括 场景理解、活动分类、运动分析、物体识别、自然语言 理解、语音合成等方面。 每个方面都可作为一个独 立研究的任务。 准确感知外部环境可以使智能交互系统提高任 务的完成度、完成的准确度和交互者对交互体验的 满意度。 多模态的外部信息,信息中较多的干扰和 噪声,外界环境的复杂多变,都对智能系统建立对外 部环境的准确感知提出了挑战。 为了增强交互系统对外部环境的感知性能,两 个方面的相关工作被广泛研究:1) 多模态信息融 合;2)通过交互增量学习,自我改进。 2 多模态输入与信息融合 人类为了精确感知周围环境,往往会结合多 种感知信息,如视觉、听觉、触觉等。 认知科学的 研究表明通过结合感官信息,人类可以增强对环 境的感知。 因此在多模态信息输入的智能交互 系统中,互补的输入模式给系统提供了冗余的信 息,而冗余输入模式增加了系统融合信息的准确 性,降低系统对外界环境的不确定性,增加对环 境感知的可靠性,从嘈杂的信息中产生一个单一 的整体状态[ 1-3] 。 2.1 自然语言理解 智能交互系统常常需要通过理解自然语言来对 交互者的语言进行分析,从而获取到对方的指令。 自然语言处理是计算机科学领域与人工智能领域中 的一个重要方向。 它研究能实现人与计算机之间用 自然语言进行有效通信的各种理论和方法。 自然语 言处理是一门融语言学、计算机科学、数学于一体的 科学。 其常用的方法有:1)关键词匹配;2) 使用有 标注的语料库;3)语义分析。 在文献[4]中,该系统 使用关键词匹配技术实现自然语言理解,并假设相 应的单词有某种特定的序列。 文献[5]和文献[6] 使用语义分析技术实现对自然语言的理解和分析。 文献[5] 的语言模型从现有的语料库[7] 中训练得 到, 而文献[6]通过系统与交互者对话的过程不断 获得语料,并逐步学习,不断改进其语言模型。 2.2 计算机视觉 由于获取外界信息的另一个主要渠道是视觉, 所以计算机视觉是当前人机交互中一个非常活跃的 领域。 这一学科的基本假设是:可以通过计算的方 式来模拟人类的视觉机制。 如图 1 所示,智能系统 模拟人类视觉机制的过程主要包括两个方面:1)智 能系统要有能力将外部视觉信息转化为智能系统的 内部表示;2)从外部环境获取到的视觉信息到语义 方面的文字需要一个可用的映射。 图 1 计算机模拟人类视觉机制 Fig.1 Computer simulation of human visual mechanism 第 1 个方面主要要求智能系统可以从图像中提 取出有判别能力的特征。 图像特征基本包括两种: 手工设计的浅层特征和使用深度模型提取的深度特 征。 SIFT [8] 、FPFH ( fast point features histogram) [9] 和 ensembles of shape features [10] 等都属于手工设计 的浅层特征。 这种特征对图像变化如图像旋转、尺 度变化等具有不变性。 但是浅层特征只能捕捉到一 部分图像信息[11] 。 与此相反的是,由于近年来深度 学习模型(如卷积神经网络[12] ) 方面的进步,由深 度学习模型提取的深度特征可以捕获图像语义等更 高层面的信息,具有更强的区分能力。 因此,在计算 机视觉方面,深度特征被广泛使用。 智能系统模拟人类视觉机制的另一个要求是可 以对图像特征进行分类识别。 在图像识别方面存在 一系列的分类、聚类算法,如决策树、SVM、混合高斯 模型等。 第 2 期 李雪,等:智能交互的物体识别增量学习技术综述 ·141·
142 智能系统学报 第12卷 2.3多模态信息融合 新的信息,学习到新的知识。 自然语言理解和计算机视觉是智能交互系统获 训练环境 应用环境 取外界信息的两个主要途径。单一模态信息使智能 系统难以对外界环境产成一个准确的认识,多模态 信息融合可以增加系统对环境信息的确认度,通过 多模态信息融合,智能系统摆脱了单一模态的限制, 使人机交互更加智能。当前已经有很多工作关注于 多模态融合这一方面的研究[13-0」 2.4多模态信息融合与增量学习 多模态信息融合帮助智能交互系统最大程度上 图2实际环境的复杂多变和非增量方法的局限性 地利用了可获取的外部信息,消除了单一模态中噪 Fig.2 The complex of environment and the limitation 声带来的不一致性,从而可以准确地感知和理解外 of constant model 部环境。 多模态的交互引导多模态的学习,反过来多模 对外部环境信息的准确感知使得智能交互系统 态的学习又会改善多模态的交互。这是一个相互促 在交互的过程中产生合情合理的语言或行为,这有助 进,共同提高的过程。 于提升系统的交互性能,得到更加良好的用户体验, 3.1从交互中学习新知识的机器人 如表1所示。 当前已经有许多相关工作展开了关于智能系统 表1智能交互系统主要交互方式 Table 1 Major interaction of intelligent HCI systems 通过交互进行增量学习的研究[21-2) 多方社交智能机器人在酒吧中使用自然语言与客 交互方式 面向任务 主要算法 人对话,根据客人的需要为他们提供相应的饮品凶。 通过交互者从自 它的学习任务在于引导一个多方互动对话,其目标为: 然语言中获取到 自然语言理解、 当机器人的视野中同时出现多位客人时,以社会可接 自然语言 相应的指令:将任 语音合成 受的行为来尽可能为客人提供正确的饮品。 务结果转化为自然 室内路线说明机器人[)基于预定义的室内地 语言回馈给交互者 图通过语音和手势向交互者提供方向引导他们到达 通过对图像或视频 场景理解、活 相应的位置。它的学习任务是通过交互不断学习进 计算机视觉 进行分析“看到” 动分类、运动 入,维持和解除与它面前的人进行交互的恰当时机。 周围环境 分析,物体识别 移动机器人[28]被用来获取物体和相关属性的 新知识。它的任务包括发现未知的物品,询问物品 通过结合视觉、 特征层面的 的外形并获取相关的新知识。其学习任务为通过交 听觉等多方面信 多模态融合 信息融合、语义 息,获得一个对周 互者获得新物品的物理外形描述,以此来扩充其知 层面的信息融合 围环境更加准确的判断 识库。 3.2智能交互系统自我学习的策略 优秀的交互性能和良好的用户体验使得智能系统可 智能交互系统自我学习的能力需要通过某种探 以从交互者处得到正确并且及时的反馈,这为智能系 索和学习新知识的策略来实现。 统在交互中进行增量学习打下了坚实的基础。 增量学习是近年来备受关注的一种学习新知识 3通过交互学习 的策略,旨在利用新数据来不断更新原有模型,使学 习具有延续性,从而实现增量式的学习。 由于外界环境复杂多变,智能交互系统无法在 增量学习使智能交互系统可以进行持续性的学 训练前获取到所有可能情形的全部有效信息作为训 习,外部环境和交互者充当“老师”的角色,而系统 练数据(如图2所示,应用环境中的“书籍”在训练 则通过多模态的交互不断获得并学习新信息。 环境中出现过,属于旧类别的新实例,而“香蕉”则 未曾在训练环境中出现,属于新类别。智能系统无 4增量学习 法识别这两种未经学习的物体)。这就要求智能系 4.1增量学习的背景 统拥有自我学习的能力,可以在交互的过程中获得 由于真实的交互环境是开放并且复杂多变
2.3 多模态信息融合 自然语言理解和计算机视觉是智能交互系统获 取外界信息的两个主要途径。 单一模态信息使智能 系统难以对外界环境产成一个准确的认识,多模态 信息融合可以增加系统对环境信息的确认度,通过 多模态信息融合,智能系统摆脱了单一模态的限制, 使人机交互更加智能。 当前已经有很多工作关注于 多模态融合这一方面的研究[13-20] 。 2.4 多模态信息融合与增量学习 多模态信息融合帮助智能交互系统最大程度上 地利用了可获取的外部信息,消除了单一模态中噪 声带来的不一致性,从而可以准确地感知和理解外 部环境。 对外部环境信息的准确感知使得智能交互系统 在交互的过程中产生合情合理的语言或行为,这有助 于提升系统的交互性能,得到更加良好的用户体验, 如表 1 所示。 表 1 智能交互系统主要交互方式 Table 1 Major interaction of intelligent HCI systems 交互方式 面向任务 主要算法 自然语言 通过交互者从自 然语言中获取到 相应的指令;将任 务结果转化为自然 语言回馈给交互者 自然语言理解、 语音合成 计算机视觉 通过对图像或视频 进行分析“看到” 周围环境 场景理解、活 动分类、运动 分析、物体识别 多模态融合 通过结合视觉、 听觉等多方面信 息,获得一个对周 围环境更加准确的判断 特征层面的 信息融合、语义 层面的信息融合 优秀的交互性能和良好的用户体验使得智能系统可 以从交互者处得到正确并且及时的反馈,这为智能系 统在交互中进行增量学习打下了坚实的基础。 3 通过交互学习 由于外界环境复杂多变,智能交互系统无法在 训练前获取到所有可能情形的全部有效信息作为训 练数据(如图 2 所示,应用环境中的“书籍”在训练 环境中出现过,属于旧类别的新实例,而“香蕉” 则 未曾在训练环境中出现,属于新类别。 智能系统无 法识别这两种未经学习的物体)。 这就要求智能系 统拥有自我学习的能力,可以在交互的过程中获得 新的信息,学习到新的知识。 图 2 实际环境的复杂多变和非增量方法的局限性 Fig.2 The complex of environment and the limitation of constant model 多模态的交互引导多模态的学习,反过来多模 态的学习又会改善多模态的交互。 这是一个相互促 进,共同提高的过程。 3.1 从交互中学习新知识的机器人 当前已经有许多相关工作展开了关于智能系统 通过交互进行增量学习的研究[21-25] 。 多方社交智能机器人在酒吧中使用自然语言与客 人对话,根据客人的需要为他们提供相应的饮品[26] 。 它的学习任务在于引导一个多方互动对话,其目标为: 当机器人的视野中同时出现多位客人时,以社会可接 受的行为来尽可能为客人提供正确的饮品。 室内路线说明机器人[27] 基于预定义的室内地 图通过语音和手势向交互者提供方向引导他们到达 相应的位置。 它的学习任务是通过交互不断学习进 入,维持和解除与它面前的人进行交互的恰当时机。 移动机器人[28] 被用来获取物体和相关属性的 新知识。 它的任务包括发现未知的物品,询问物品 的外形并获取相关的新知识。 其学习任务为通过交 互者获得新物品的物理外形描述,以此来扩充其知 识库。 3.2 智能交互系统自我学习的策略 智能交互系统自我学习的能力需要通过某种探 索和学习新知识的策略来实现。 增量学习是近年来备受关注的一种学习新知识 的策略,旨在利用新数据来不断更新原有模型,使学 习具有延续性,从而实现增量式的学习。 增量学习使智能交互系统可以进行持续性的学 习,外部环境和交互者充当“老师” 的角色,而系统 则通过多模态的交互不断获得并学习新信息。 4 增量学习 4.1 增量学习的背景 由于真实的交互环境是开放并且复杂多变 ·142· 智 能 系 统 学 报 第 12 卷
第2期 李雪,等:智能交互的物体识别增量学习技术综述 .143. 的[9],在训练模型之前无法获取到所有可能情形的 训练环境已经出现过,应用环境中的“书籍”是旧类 有效信息作为训练数据。除此之外,数据标签的获 别的新实例 取也需要耗费大量人力、物力、财力和时间。最为重 2)可以学习新类别。“香蕉”概念在训练环境 要的一点是,新的物体类别不断产生,已有物体类别 未出现过,应用环境中的“香蕉”属于新类别。 的新实例不断出现,甚至有的物体类别的意义不断 3)在学习新知识时,旧的训练数据不是必须 迁移变化,这都在数据方面要求智能系统需要具有 的。增量学习时只使用应用环境中的新数据(“书 不断学习的能力。另一方面,自我学习的能力可以 籍”)和新类别(“香蕉”)作为训练数据,而不需要 使智能系统在获得新数据时随时学习,不需要重新 已经学过的“罐”、“苹果”和“杯子”数据。 训练全部数据[0]。这又在模型方面要求智能系统 4)学习新知识后,不会忘记已经学到的旧知 需要具有不断学习的能力。 识。在应用环境中仍能识别以前在训练环境中学到 4.2增量学习的现状 的旧概念:“罐”、“苹果”、“杯子”和“书籍”概念的 学习新数据基本可以分为两种策略:一种是抛 旧实例。 弃原有模型,在现有数据上学习新知识:另一种是基 当前有许多增量学习方面的工作并不严格满足 于原有模型,在此基础上继续学习新知识。这两种 以上4个条件。 策略可以引出著名的稳定性-可塑性定理(stability- 4.3抛弃原有模型 plasticity dilemma)[] 对于学习新数据的第1种策略:抛弃原有模型, 这个定理指出,一个完全稳定的模型可以保存已 在现有数据上学习新知识。这种完全可塑的策略面 经学到的知识不忘记,但无法学习到新的知识;而一 临的最大问题是灾难性的遗忘(catastrophic forget- 个完全可塑的模型可以学习新知识,但无法保存以前 ing)。它在现有新数据上学习知识,可以学到新的 学到的知识(如图3所示)。而优秀的增量学习方法 数据和类别,并且可以不需要原来的训练数据,满足 就是在可塑性和稳定性之间寻找一个合理的权衡。 增量学习的前3个条件。但它抛弃原有模型,则会 训练环境 应用环境 导致旧知识的遗忘,不能满足第4个条件。神经网 络常常使用这种策略的模型,例如多层感知机、径向 数据 基函数网络,小波网络和Kohonen网络。 4.4 基于原有模型继续学习 量学习 对于学习新数据的第2种策略:基于原有模型, 在此基础上继续学习新知识。这种策略也常因关注 于不同的方面而不能完全满足增量学习的4个条件。 根据增量学习算法学习的内容来看,新数据主 图3稳定性-可塑性定理 要来源于两个方面:1)数据来源于已经学习过的类 Fig.3 Stability-plasticity dilemma 别,是旧类别的新实例:2)数据来源于没有学习过 文献[32]提出真正的增量学习应该满足4个 的类别,是新类别的数据。 条件,如图4。 4.4.1学习旧类别的新实例 稳定性 学习旧类别的新实例这一任务在某种程度上与迁 不能学习新知识 移学习有些相似之处但又有不同,如表2。 表2增量学习与迁移学习的比较 稳定性和可塑性 Table 2 Comparison between transfer learning and incre- 之间的合理平衡 mental learning 类别 相同点 不同点 训练集领域与测试集 不能保存旧知识 迁移学习 领域不同:新领域的数 可塑性 将已学习的 据未经过学习 知识转移到 图4增量学习的条件 Fig.4 The conditions of incremental learning 新的任务 训练集领域与测试集 增量学习 领域相同:新数据经 1)可以学习旧类别的新数据。“书籍”概念在 过学习
的[29] ,在训练模型之前无法获取到所有可能情形的 有效信息作为训练数据。 除此之外,数据标签的获 取也需要耗费大量人力、物力、财力和时间。 最为重 要的一点是,新的物体类别不断产生,已有物体类别 的新实例不断出现,甚至有的物体类别的意义不断 迁移变化,这都在数据方面要求智能系统需要具有 不断学习的能力。 另一方面,自我学习的能力可以 使智能系统在获得新数据时随时学习,不需要重新 训练全部数据[30] 。 这又在模型方面要求智能系统 需要具有不断学习的能力。 4.2 增量学习的现状 学习新数据基本可以分为两种策略:一种是抛 弃原有模型,在现有数据上学习新知识;另一种是基 于原有模型,在此基础上继续学习新知识。 这两种 策略可以引出著名的稳定性-可塑性定理( stability⁃ plasticity dilemma) [31] 。 这个定理指出,一个完全稳定的模型可以保存已 经学到的知识不忘记,但无法学习到新的知识;而一 个完全可塑的模型可以学习新知识,但无法保存以前 学到的知识(如图 3 所示)。 而优秀的增量学习方法 就是在可塑性和稳定性之间寻找一个合理的权衡。 图 3 稳定性-可塑性定理 Fig.3 Stability⁃plasticity dilemma 文献[32]提出真正的增量学习应该满足 4 个 条件,如图 4。 图 4 增量学习的条件 Fig.4 The conditions of incremental learning 1)可以学习旧类别的新数据。 “书籍”概念在 训练环境已经出现过,应用环境中的“书籍”是旧类 别的新实例。 2)可以学习新类别。 “香蕉”概念在训练环境 未出现过,应用环境中的“香蕉”属于新类别。 3)在学习新知识时,旧的训练数据不是必须 的。 增量学习时只使用应用环境中的新数据(“书 籍”)和新类别(“香蕉”) 作为训练数据,而不需要 已经学过的“罐”、“苹果”和“杯子”数据。 4)学习新知识后,不会忘记已经学到的旧知 识。 在应用环境中仍能识别以前在训练环境中学到 的旧概念:“罐”、“苹果”、“杯子” 和“书籍” 概念的 旧实例。 当前有许多增量学习方面的工作并不严格满足 以上 4 个条件。 4.3 抛弃原有模型 对于学习新数据的第 1 种策略:抛弃原有模型, 在现有数据上学习新知识。 这种完全可塑的策略面 临的最大问题是灾难性的遗忘( catastrophic forget⁃ ting)。 它在现有新数据上学习知识,可以学到新的 数据和类别,并且可以不需要原来的训练数据,满足 增量学习的前 3 个条件。 但它抛弃原有模型,则会 导致旧知识的遗忘,不能满足第 4 个条件。 神经网 络常常使用这种策略的模型,例如多层感知机、径向 基函数网络,小波网络和 Kohonen 网络。 4.4 基于原有模型继续学习 对于学习新数据的第 2 种策略:基于原有模型, 在此基础上继续学习新知识。 这种策略也常因关注 于不同的方面而不能完全满足增量学习的 4 个条件。 根据增量学习算法学习的内容来看,新数据主 要来源于两个方面:1)数据来源于已经学习过的类 别,是旧类别的新实例;2) 数据来源于没有学习过 的类别,是新类别的数据。 4.4.1 学习旧类别的新实例 学习旧类别的新实例这一任务在某种程度上与迁 移学习有些相似之处但又有不同,如表 2。 表 2 增量学习与迁移学习的比较 Table 2 Comparison between transfer learning and incre⁃ mental learning 类别 相同点 不同点 迁移学习 增量学习 将已学习的 知识转移到 新的任务 训练集领域与测试集 领域不同;新领域的数 据未经过学习 训练集领域与测试集 领域相同;新数据经 过学习 第 2 期 李雪,等:智能交互的物体识别增量学习技术综述 ·143·
.144 智能系统学报 第12卷 迁移学习的任务是将某一领域学到的特征或信 学习方法可以依靠已经学习的类别使用少量新数据 息应用到另一个不同但相似的领域上,如文献 来有效的学习新类别。通过求解一个凸优化问题, [33]。增量学习旧类别新实例的目标是利用现有 该方法自动选择利用哪一部分旧知识传递多少信息 的特征在相同任务(需要识别的类别不变)但规模 最为有效并确保在可用训练集上达到最小误差。文 扩大的数据集上学习新的知识。 献[42]通过使用属性分类器来实现zero-shot learn- 文献[34]修改了原SVM目标函数中的损失 ing的目标。 项,使修改后的SVM可以在原模型的基础上修改分 文献[43]指出,在其之前的大多数增量学习的 类面,实现增量学习旧类别新实例:文献[35]提出 工作都专注于二分类问题,这篇文章提出了一个多类 了一个基于SVM框架增量学习的精确解,即每增加 分类的方法,在保存已学到的知识的基础上把当前的 一个训练样本或减少一个样本都会对Lagrange系 N类分类器转化为一个N+1类分类器;文献[44]提 数和支持向量产生影响,以此来调整分界面:文献 出了一种具有层级关系的增量学习模型NCMF(nea- [36]介绍了HME(hierarchical mixture of experts)框 rest class mean forest classifier)。这种方法以层级关 架,这种框架在特征空间的不同区域训练了多个分 系来组织概念,使得学习新类别时可以更新局部节点 类器,将各个分类器的输出通过一个网络进行加权 来达到增量的目的。文献[45]结合SVM算法最大分 得到最终结果,它利用线性最小二乘法(linear least 类间隔的策略和半监督学习算法低密度分隔符技术, squares)和加权线性最小二乘法(weighted linear 来增加新的分界面以此识别新类别。 least squares)通过递归来增量的更新每个数据,点的 这些增量学习方法更加关注于学习新类别,它 参数,从而实现增量式的在线学习;文献[37]每次 们对旧类别的新实例的学习效果尚未得到验证,同 从候选训练数据集中选取一部分新的信息,并把选 时有些方法在学习新数据的同时必须使用部分或全 取出的新数据添加到当前数据集中:文献[38]扩展 部原始数据,无法完全满足增量学习的4个条件。 了文献[37]的增量学习方法,通过对候选训练数据 表3增量学习算法对比分析 集进行无监督的聚类,每次选出最有信息量的一部 Table 3 Comparative analysis of incremental learning al- 分数据加入当前训练数据中:文献[39]提出了一种 gorithms 结构学习算法,它使用数据集中的一小部分作为训 旧类别 不需要 算法 新类别 实现技术 练数据来建立一个具有最优隐藏层节点数目的前馈 新实例 原始数据 网络,该方法以训练数据集中较少的一部分数据作 文献[32] D 多模型组合 为初始的训练数据,通过有效的选择训练数据,最终 文献[34] V V 调整模型参数 产生一个最少但对所有数据有效的训练集。 文献[35] V L 调整模型参数 这些增量学习方法更加关注于学习旧类别的新实 文献[36] V 多模型组合 例,它们都无法完全满足增量学习的4个条件。首先,这 文献[38] v 选取有效数据 些方法无法学习新类别的数据。其次,有些方法在增量 文献「39] V 选取有效数据 学习的同时必须使用部分或全部原始数据。 文献[40] 调整模型参数 4.4.2学习新类别的数据 文献[41] 多模型组合 与学习旧类别的新实例相比,学习新类别明显 文献[42]V 多模型组合 更加具有挑战性。 文献[431V 调整模型参数 这个任务的目标是利用现有的特征在更加复杂 文献[44] V 调整模型参数 的任务(需要识别的类别增加)并且规模扩大的数 文献[45] 调整模型参数 据集上学习新的知识。 文献[46]V 多模型组合 对迁移学习的关注使得更多的研究工作注重于 使用更少的数据来学得泛化性能更好的模型。由此 文献[471V 调整模型参数 转化到学习新类别方面的两个较为典型的研究领域 文献[48] V 调整模型参数 为:one-shot learning和zero-shot learning。文献[40] 文献[49] V 调整模型参数 提出了一种贝叶斯迁移学习方法,这种增量学习方 文献[50] 调整模型参数 法可以使用少量新数据学习到新类别。文献[41] 文献[51]V 调整模型参数 提出了一种基于多模型的知识迁移算法,这种增量
迁移学习的任务是将某一领域学到的特征或信 息应用 到 另 一 个 不 同 但 相 似 的 领 域 上, 如 文 献 [33]。 增量学习旧类别新实例的目标是利用现有 的特征在相同任务(需要识别的类别不变) 但规模 扩大的数据集上学习新的知识。 文献[34] 修改了原 SVM 目标函数中的损失 项,使修改后的 SVM 可以在原模型的基础上修改分 类面,实现增量学习旧类别新实例;文献[35] 提出 了一个基于 SVM 框架增量学习的精确解,即每增加 一个训练样本或减少一个样本都会对 Lagrange 系 数和支持向量产生影响,以此来调整分界面;文献 [36]介绍了 HME(hierarchical mixture of experts)框 架, 这种框架在特征空间的不同区域训练了多个分 类器,将各个分类器的输出通过一个网络进行加权 得到最终结果,它利用线性最小二乘法(linear least squares) 和加权线性最小二乘法 ( weighted linear least squares)通过递归来增量的更新每个数据点的 参数,从而实现增量式的在线学习;文献[37] 每次 从候选训练数据集中选取一部分新的信息,并把选 取出的新数据添加到当前数据集中;文献[38]扩展 了文献[37]的增量学习方法,通过对候选训练数据 集进行无监督的聚类,每次选出最有信息量的一部 分数据加入当前训练数据中;文献[39]提出了一种 结构学习算法,它使用数据集中的一小部分作为训 练数据来建立一个具有最优隐藏层节点数目的前馈 网络,该方法以训练数据集中较少的一部分数据作 为初始的训练数据,通过有效的选择训练数据,最终 产生一个最少但对所有数据有效的训练集。 这些增量学习方法更加关注于学习旧类别的新实 例,它们都无法完全满足增量学习的4 个条件。 首先,这 些方法无法学习新类别的数据。 其次,有些方法在增量 学习的同时必须使用部分或全部原始数据。 4.4.2 学习新类别的数据 与学习旧类别的新实例相比,学习新类别明显 更加具有挑战性。 这个任务的目标是利用现有的特征在更加复杂 的任务(需要识别的类别增加)并且规模扩大的数 据集上学习新的知识。 对迁移学习的关注使得更多的研究工作注重于 使用更少的数据来学得泛化性能更好的模型。 由此 转化到学习新类别方面的两个较为典型的研究领域 为:one⁃shot learning 和 zero⁃shot learning。 文献[40] 提出了一种贝叶斯迁移学习方法,这种增量学习方 法可以使用少量新数据学习到新类别。 文献[41] 提出了一种基于多模型的知识迁移算法,这种增量 学习方法可以依靠已经学习的类别使用少量新数据 来有效的学习新类别。 通过求解一个凸优化问题, 该方法自动选择利用哪一部分旧知识传递多少信息 最为有效并确保在可用训练集上达到最小误差。 文 献[42]通过使用属性分类器来实现 zero⁃shot learn⁃ ing 的目标。 文献[43]指出,在其之前的大多数增量学习的 工作都专注于二分类问题,这篇文章提出了一个多类 分类的方法,在保存已学到的知识的基础上把当前的 N 类分类器转化为一个 N + 1 类分类器;文献[44]提 出了一种具有层级关系的增量学习模型 NCMF(nea⁃ rest class mean forest classifier)。 这种方法以层级关 系来组织概念,使得学习新类别时可以更新局部节点 来达到增量的目的。 文献[45]结合 SVM 算法最大分 类间隔的策略和半监督学习算法低密度分隔符技术, 来增加新的分界面以此识别新类别。 这些增量学习方法更加关注于学习新类别,它 们对旧类别的新实例的学习效果尚未得到验证,同 时有些方法在学习新数据的同时必须使用部分或全 部原始数据,无法完全满足增量学习的 4 个条件。 表 3 增量学习算法对比分析 Table 3 Comparative analysis of incremental learning al⁃ gorithms 算法 新类别 旧类别 新实例 不需要 原始数据 实现技术 文献[32] √ √ √ 多模型组合 文献[34] √ √ 调整模型参数 文献[35] √ √ 调整模型参数 文献[36] √ √ 多模型组合 文献[38] √ 选取有效数据 文献[39] √ 选取有效数据 文献[40] √ √ 调整模型参数 文献[41] √ √ 多模型组合 文献[42] √ √ 多模型组合 文献[43] √ 调整模型参数 文献[44] √ √ 调整模型参数 文献[45] √ 调整模型参数 文献[46] √ √ √ 多模型组合 文献[47] √ √ √ 调整模型参数 文献[48] √ √ 调整模型参数 文献[49] √ √ 调整模型参数 文献[50] √ √ 调整模型参数 文献[51] √ 调整模型参数 ·144· 智 能 系 统 学 报 第 12 卷
第2期 李雪,等:智能交互的物体识别增量学习技术综述 .145. 4.4.3实现增量学习的3种技术 进行,不断增加的基模型也是一个未解决的问题。 总体来说增量学习算法使用的技术可以总结为 4.4.4通过改变模型参数实现增量学习 3类2(图5): 因此我们更为关注第3种方法:通过调整模型 1)选择最有信息量的数据: 参数实现增量学习的单一模型。 2)使用多模型集合实现模型的加强: 文献[34]修改了原SVM目标函数中的损失 3)改变模型的参数或结构。 项,使修改后的SVM可以修改原模型的分类面, 并且在不需要原始数据的前提下,近似实现全局 数据(新数据和已经学习过的旧数据)上的损失 新数据 最小化。SVM使用支撑向量来描述分界面,并将 2 支撑向量作为参数存储在模型中。该方法利用 支撑向量来代替原始数据,同时通过权重使支撑 向量可以更好的模拟原始数据。文献[35]提出 新数据 的C&P算法实现了SVM框架下增量学习的一个 精确解。训练SVM相当于求解一个二次规划, 二次规划的系数个数与训练数据个数相同。增 量学习时,每增加一个训练数据,可以迭代求解 一个新的系数。C&P算法的关键在于,每增加一 个实例,都要求学习过的所有数据全部满足KKT 新数据 条件,来求解一个确定的增量模型。此后,许多 研究基于C&P算法,逐渐展开了两方面的工作: 一方面的工作专注于算法本身,文献[48]提出了 该算法的扩展版本,每次迭代更新参数时可以同 时处理多个数据:另一方面的工作使用C&P算 图5增量学习的3种技术 法解决其他问题。文献[49]和文献[50]使用该 Fig.5 Three techniques of incremental learning 其中第1类方法往往用于实现旧类别新实例的 算法实现了单类SVM的增量学习问题。 增量,并且需要使用部分或全部原始数据。其目的 与文献[51]中修改损失项的方法相似的是,文 是在一段信息流中选取最有效的数据,使用最少的 献[43]修改了SVM目标函数的正则项,在增加新 数据完成学习任务。这种方法无法实现真正的增量 的分界面的同时,控制已有分界面的变化。该方法 学习。而第2类方法可以实现完全的增量学习。文 通过建立新的分界面学习到新类别,同时通过控制 献[46]提出了一种基于分类器集合的算法,该算法 已学到的分界面的变化,确保学到的知识不会受新 为与学习过的实例差别较大的新数据建立新的决策 类别的影响而丢失。文献[45]借鉴SVM中最大分 集群,每个集群以无监督的方式在特征空间中学习 类间隔和半监督学习中低密度分隔符的思想,在所 一个不同的超矩形部分,这个部分与要学习的目标 有低密度分隔符中选取一个分界面使得模型的经验 类别相对应。但是这个方法对阈值的选取,训练数 损失,结构损失和增广损失(新类别的损失)整体最 据中的噪声和训练数据学习的顺序都十分敏感:文 小。文献[51]将卷积神经网络组织成层级树形结 献[47]提出了一种基于再生希尔伯特空间的增量 构,每个节点由一些相似类别的聚类构成,该方法通 学习算法。但是它需要数据分布的一个先验知识, 过树形结构使得模型更新时只需要调整模型局部, 这对于增量学习任务本身来说并不容易获得:文献 并可以严格控制模型调整范围,增添新节点时此方 [32]受Adaboost的启发,提出了一个由分类器集合 法通过克隆原有节点进行调整,使得已学到的知识 构成的增量模型。这个算法的核心在于维护一个训 不会被遗忘。 练数据的分布,使得分类错误的数据更容易被采样, 这些通过修改原模型参数而实现增量学习的算 以此学习一个新的分类器加入集合中,而在增量学 法也没有完全满足增量学习的4个条件,它们都解 习的过程中,错误率较高的数据则恰恰是尚未见过 决了灾难性遗忘的问题,但都更加侧重于学习旧类 或学习过的数据。但第3类方法需要训练多个模型 别新实例或者新类别中的某一方面,有些方法也没 进行组合,计算代价大大增加,而且随着增量学习的 有解决需要原始数据的问题
4.4.3 实现增量学习的 3 种技术 总体来说增量学习算法使用的技术可以总结为 3 类[32] (图 5): 1)选择最有信息量的数据; 2)使用多模型集合实现模型的加强; 3)改变模型的参数或结构。 图 5 增量学习的 3 种技术 Fig.5 Three techniques of incremental learning 其中第 1 类方法往往用于实现旧类别新实例的 增量,并且需要使用部分或全部原始数据。 其目的 是在一段信息流中选取最有效的数据,使用最少的 数据完成学习任务。 这种方法无法实现真正的增量 学习。 而第 2 类方法可以实现完全的增量学习。 文 献[46]提出了一种基于分类器集合的算法,该算法 为与学习过的实例差别较大的新数据建立新的决策 集群,每个集群以无监督的方式在特征空间中学习 一个不同的超矩形部分,这个部分与要学习的目标 类别相对应。 但是这个方法对阈值的选取,训练数 据中的噪声和训练数据学习的顺序都十分敏感;文 献[47]提出了一种基于再生希尔伯特空间的增量 学习算法。 但是它需要数据分布的一个先验知识, 这对于增量学习任务本身来说并不容易获得;文献 [32]受 Adaboost 的启发,提出了一个由分类器集合 构成的增量模型。 这个算法的核心在于维护一个训 练数据的分布,使得分类错误的数据更容易被采样, 以此学习一个新的分类器加入集合中,而在增量学 习的过程中,错误率较高的数据则恰恰是尚未见过 或学习过的数据。 但第 3 类方法需要训练多个模型 进行组合,计算代价大大增加,而且随着增量学习的 进行,不断增加的基模型也是一个未解决的问题。 4.4.4 通过改变模型参数实现增量学习 因此我们更为关注第 3 种方法:通过调整模型 参数实现增量学习的单一模型。 文献[ 34]修改了原 SVM 目标函数中的损失 项,使修改后的 SVM 可以修改原模型的分类面, 并且在不需要原始数据的前提下,近似实现全局 数据(新数据和已经学习过的旧数据) 上的损失 最小化。 SVM 使用支撑向量来描述分界面,并将 支撑向量作为参数存储在模型中。 该方法利用 支撑向量来代替原始数据,同时通过权重使支撑 向量可以更好的模拟原始数据。 文献[ 35] 提出 的 C&P 算法实现了 SVM 框架下增量学习的一个 精确解。 训练 SVM 相当于求解一个二次规划, 二次规划的系数个数与训练数据个数相同。 增 量学习时,每增加一个训练数据,可以迭代求解 一个新的系数。 C&P 算法的关键在于,每增加一 个实例, 都要求学习过的所有数据全部满足 KKT 条件,来求解一个确定的增量模型。 此后,许多 研究基于 C&P 算法,逐渐展开了两方面的工作: 一方面的工作专注于算法本身,文献[ 48] 提出了 该算法的扩展版本,每次迭代更新参数时可以同 时处理多个数据;另一方面的工作使用 C&P 算 法解决其他问题。 文献[ 49] 和文献[ 50] 使用该 算法实现了单类 SVM 的增量学习问题。 与文献[51]中修改损失项的方法相似的是,文 献[43] 修改了 SVM 目标函数的正则项,在增加新 的分界面的同时,控制已有分界面的变化。 该方法 通过建立新的分界面学习到新类别,同时通过控制 已学到的分界面的变化,确保学到的知识不会受新 类别的影响而丢失。 文献[45]借鉴 SVM 中最大分 类间隔和半监督学习中低密度分隔符的思想,在所 有低密度分隔符中选取一个分界面使得模型的经验 损失,结构损失和增广损失(新类别的损失)整体最 小。 文献[51]将卷积神经网络组织成层级树形结 构,每个节点由一些相似类别的聚类构成,该方法通 过树形结构使得模型更新时只需要调整模型局部, 并可以严格控制模型调整范围,增添新节点时此方 法通过克隆原有节点进行调整,使得已学到的知识 不会被遗忘。 这些通过修改原模型参数而实现增量学习的算 法也没有完全满足增量学习的 4 个条件,它们都解 决了灾难性遗忘的问题,但都更加侧重于学习旧类 别新实例或者新类别中的某一方面,有些方法也没 有解决需要原始数据的问题。 第 2 期 李雪,等:智能交互的物体识别增量学习技术综述 ·145·
.146 智能系统学报 第12卷 5 增量学习未来研究方向展望 进行增量学习。由此看来,增量学习的内容也应当 是多模态的。 目前,增量学习在智能交互、物体识别等许多方 智能系统通过多模态交互进行增量学习,反过 面都得到了广泛的研究,但由于应用环境远比训练 来,增量学习的结果也会提升多模态交互的性能。 环境更加复杂多变,离智能交互系统真正走出实验 听觉、视觉和文字是智能交互系统感知外界环 室,进入真实应用场景还有一段距离。本文将对增 境信息最主要的3种形式。通过声图文融合的增量 量学习未来的研究方向进行展望。 学习方式,可以使智能交互系统逐步全面地适应不 5.1面向大规模数据集的增量学习 断变化的外界环境。 近年来,随着信息技术的发展,数据呈现爆炸式 5.4知识条目和识别能力的增量学习 增长的趋势,这使得模型的训练和更新都变得更加 现在的大部分研究工作更加关注于独立的视觉 困难并且耗时。 概念的识别或是单纯知识条目的增加构建。但实际 在面向大规模数据集时,增量学习的优点尤为 生活中不同的概念之间具有或隐性或显性的关系, 突出。一方面,在训练数据规模扩大的同时,训练需 物体也拥有不同的属性。这些概念和属性可以构成 要的时间和计算能力都随之增加。当新数据或新类 关于交互物体、交互者和外界环境的知识条目。人 别出现时,非增量的离线方法需要重新训练已经学 类可以基于这些额外的关系或属性信息学习到更多 习过的数据,这会导致资源的浪费。而增量学习方 的知识。智能交互系统也应该利用这些信息进行更 法则可以在原始模型的基础上继续学习,不需要重 全面的学习,对周围环境或任务目标得到一个更加 新训练所有数据。另一方面,非增量方法重新训练 全面的认识。 全部数据,这也就意味着全部的或绝大部分的数据 另一个值得关注的方面是,智能交互系统应该 或都必须保留,当数据量非常庞大时,数据的存储也 能够系统并有效地组织已学习到的知识。文献 是一个问题。而增量学习不需要原始数据,所以不 [55]指出,将小规模的信息加入到已经组织好的大 需要考虑数据存储的问题。 规模信息中是人类感知,学习,和组织信息等过程中 5.2面向深度学习的增量学习 十分重要的部分。因此,智能交互系统应该拥有一 深度学习技术被大量应用到图像、视频、文本等 个合理的学习机制,并可以自动在学习到的知识间 多媒体相关的任务上。一方面,深度网络可以直接 建立合理有效的联系。 完成图像分类,物体识别等任务。另一方面,这些任 6结束语 务所产生的标签又可以应用到图像检索相关的任务 中。深度网络又可以间接地扩展到其他任务中去。 目前,增量学习在智能交互、物体识别等许多方 所有这些任务的真实场景中,数据及其标记的总是 面都得到了广泛的研究,由于应用环境远比训练环 境更加复杂多变,它更加注重于解决自动学习,改善 以增量的方式进行收集的。因此在数据方面来说, 应用效果的问题。这说明智能交互系统从实验环境 面向深度学习的增量学习是合理的。 逐渐开始走向真实的应用场景。 深度学习技术在图像分类任务中的应用取得了 由于不同任务关注方面各不相同,大多数研究 快速的进步,它的性能迅速提升。当前限制深度神经 工作都无法完全满足增量学习的定义。但真实场景 网络性能进一步提升的一个可能性是网络容量。因 的复杂多变是单一任务目标无法模拟的,若要智能 此,一个可能的解决方案是增加网络容量[5)。但是 交互系统真正走向现实,需要综合解决增量学习4 这个方案面临着两个困难:一方面,大网络的训练难 个方面的问题,这是增量学习算法本身的发展趋势。 度可能成倍增长:另一方面,如何增加网络容量还不 同时也应该结合不同的任务,实现适用于不同 明确。因此,应该更加谨慎地增加网络容量,提升网 场景、不同侧重点的智能增量学习系统。根据任务 络能力。而增量学习则为逐步的、增量的改善网络提 本身设计不同的策略实现个性化的应用。这是从应 供了一种可能性,当前已经有一些相关的工作对这种 用场景来看的增量学习发展趋势。 可能性展开了一定的研究9,2-刘]。因此在模型方面 当这些发展趋势真正变为现实的时候,智能交 来说,面向深度学习的增量学习也是合理的。 互系统有望真正走进人类社会,为我们的日常生活 5.3声图文融合的多模态增量学习 带来更多帮助,安全、便捷和高效地辅助我们完成更 基于智能交互的增量学习系统通过多模态交互 多任务
5 增量学习未来研究方向展望 目前,增量学习在智能交互、物体识别等许多方 面都得到了广泛的研究,但由于应用环境远比训练 环境更加复杂多变,离智能交互系统真正走出实验 室,进入真实应用场景还有一段距离。 本文将对增 量学习未来的研究方向进行展望。 5.1 面向大规模数据集的增量学习 近年来,随着信息技术的发展,数据呈现爆炸式 增长的趋势,这使得模型的训练和更新都变得更加 困难并且耗时。 在面向大规模数据集时,增量学习的优点尤为 突出。 一方面,在训练数据规模扩大的同时,训练需 要的时间和计算能力都随之增加。 当新数据或新类 别出现时,非增量的离线方法需要重新训练已经学 习过的数据,这会导致资源的浪费。 而增量学习方 法则可以在原始模型的基础上继续学习,不需要重 新训练所有数据。 另一方面,非增量方法重新训练 全部数据,这也就意味着全部的或绝大部分的数据 或都必须保留,当数据量非常庞大时,数据的存储也 是一个问题。 而增量学习不需要原始数据,所以不 需要考虑数据存储的问题。 5.2 面向深度学习的增量学习 深度学习技术被大量应用到图像、视频、文本等 多媒体相关的任务上。 一方面,深度网络可以直接 完成图像分类,物体识别等任务。 另一方面,这些任 务所产生的标签又可以应用到图像检索相关的任务 中。 深度网络又可以间接地扩展到其他任务中去。 所有这些任务的真实场景中,数据及其标记的总是 以增量的方式进行收集的。 因此在数据方面来说, 面向深度学习的增量学习是合理的。 深度学习技术在图像分类任务中的应用取得了 快速的进步,它的性能迅速提升。 当前限制深度神经 网络性能进一步提升的一个可能性是网络容量。 因 此,一个可能的解决方案是增加网络容量[51] 。 但是 这个方案面临着两个困难:一方面,大网络的训练难 度可能成倍增长;另一方面,如何增加网络容量还不 明确。 因此,应该更加谨慎地增加网络容量,提升网 络能力。 而增量学习则为逐步的、增量的改善网络提 供了一种可能性,当前已经有一些相关的工作对这种 可能性展开了一定的研究[39,52-54] 。 因此在模型方面 来说,面向深度学习的增量学习也是合理的。 5.3 声图文融合的多模态增量学习 基于智能交互的增量学习系统通过多模态交互 进行增量学习。 由此看来,增量学习的内容也应当 是多模态的。 智能系统通过多模态交互进行增量学习,反过 来,增量学习的结果也会提升多模态交互的性能。 听觉、视觉和文字是智能交互系统感知外界环 境信息最主要的 3 种形式。 通过声图文融合的增量 学习方式,可以使智能交互系统逐步全面地适应不 断变化的外界环境。 5.4 知识条目和识别能力的增量学习 现在的大部分研究工作更加关注于独立的视觉 概念的识别或是单纯知识条目的增加构建。 但实际 生活中不同的概念之间具有或隐性或显性的关系, 物体也拥有不同的属性。 这些概念和属性可以构成 关于交互物体、交互者和外界环境的知识条目。 人 类可以基于这些额外的关系或属性信息学习到更多 的知识。 智能交互系统也应该利用这些信息进行更 全面的学习,对周围环境或任务目标得到一个更加 全面的认识。 另一个值得关注的方面是,智能交互系统应该 能够系统并有效地组织已学习到的知识。 文献 [55]指出,将小规模的信息加入到已经组织好的大 规模信息中是人类感知,学习,和组织信息等过程中 十分重要的部分。 因此,智能交互系统应该拥有一 个合理的学习机制,并可以自动在学习到的知识间 建立合理有效的联系。 6 结束语 目前,增量学习在智能交互、物体识别等许多方 面都得到了广泛的研究,由于应用环境远比训练环 境更加复杂多变,它更加注重于解决自动学习,改善 应用效果的问题。 这说明智能交互系统从实验环境 逐渐开始走向真实的应用场景。 由于不同任务关注方面各不相同,大多数研究 工作都无法完全满足增量学习的定义。 但真实场景 的复杂多变是单一任务目标无法模拟的,若要智能 交互系统真正走向现实,需要综合解决增量学习 4 个方面的问题,这是增量学习算法本身的发展趋势。 同时也应该结合不同的任务,实现适用于不同 场景、不同侧重点的智能增量学习系统。 根据任务 本身设计不同的策略实现个性化的应用。 这是从应 用场景来看的增量学习发展趋势。 当这些发展趋势真正变为现实的时候,智能交 互系统有望真正走进人类社会,为我们的日常生活 带来更多帮助,安全、便捷和高效地辅助我们完成更 多任务。 ·146· 智 能 系 统 学 报 第 12 卷
第2期 李雪,等:智能交互的物体识别增量学习技术综述 .147. tion applied to handwritten zip code recognition[.Neural 参考文献: computation,1989,1(4):541-551. [1]ERNST M O,BULTHOFF HH.Merging the senses into a [13]THOMASON J,SINAPOV J,SVETLIK M,et al.Learing robust percept[].Trends in cognitive sciences,2004,8 multi-modal grounded linguistic semantics by playing I spy (4):162-169 [C]//Proceedings of the 25th International Joint Confer- [2]CORRADINI A,MEHTA M,BERNSEN N O,et al.Multi- ence on Artificial Intelligence.New York,2016. modal input fusion in human-computer interaction [J]. [14]LIU C S,CHAI J Y.Learning to mediate perceptual differ- NATO Science Series Sub Series III Computer and Systems ences in situated human-robot dialogue C]//Proceedings Sciences,2005,198:223. of the Twenty-Ninth American Association Conference on [3]NODA K,ARIE H,SUGA Y,et al.Multimodal integration Artificial Intelligence.Austin,Texas:AAAI Press,2015: learning of robot behavior using deep neural networks[J]. 2288-2294. Robotics and autonomous systems,2014,62(6):721-736. [15]PARDE N,HAIR A,PAPAKOSTAS M,et al.Grounding [4]MERICLI C,KLEE S D,PAPARIAN J,et al.An interac- the meaning of words through vision and interactive game- tive approach for situated task specification through verbal play[]].Proceedings of the 24th International Conference instructions[C]//Proceedings of the 2014 international con- on Artificial Intelligence.Buenos Aires,Argentina:AAAl ference on Autonomous agents and multi-agent systems.Par- Press,2015. is,France:International Foundation for Autonomous Agents [16]MATUSZEK C,FITZGERALD N,ZETTLEMOYER L,et and Multiagent Systems,2014:1069-1076. al.A joint model of language and perception for grounded [5]CANTRELL R,BENTON J,TALAMADUPULA K,et al. attribute learning [C]//Proceedings of the 29th Interna- Tell me when and why to do it!Run-time planner model up- tional Conference on Machine Learning.Edinburgh,Scot- dates via natural language instruction[C]//Proceedings of land,2012. the 2012 IEEE International Conference on Human-Robot [17]赵鹏,陈浩,刘慧婷,等.一种基于图的多模态随机游 Interaction.Boston,MA:IEEE,2012:471-478. 走重排序算法[J].哈尔滨工程大学学报,2016,37 [6]THOMASON J,ZHANG S Q,MOONEY R,et al.Learning (10):1387-1393. to interpret natural language commands through human-robot ZHAO Peng,CHEN Hao,LIU Huiting,et al.A multimo- dialog[C]//Proceedings of the 24th international confer- dal graph-based re-ranking through random walk algrithm ence on Artificial Intelligence.Buenos Aires,Argentina: [J].Journal of Harbin Engineering University,2016,37 AAAI Press,2015. (10):1387-1393. [7]EBERHARD K M,NICHOLSON H,SANDRA K,et al. [18]段喜萍,刘家锋,王建华,等.多模态特征联合稀疏表 The Indiana "Cooperative Remote Search Task"(CReST) 示的视频目标跟踪[J].哈尔滨工程大学学报,2015, corpus[C]//Proceedings of the 2010 International Confer- 36(12):1609-1613. ence on Language Resources and Evaluation.Valletta,Mal- DUAN Xiping,LIU Jiafeng,WANG Jianhua,et al.Visual ta:LREC,2010. target tracking via multi-cue joint sparse representation[. [8]LOWE D G.Distinctive image features from scale-invariant Journal of Harbin Engineering University,2015,36(12): keypoints[J].International journal of computer vision, 1609-1613. 2004.60(2):91-110. [19]FISHER J W,DARRELL T.Signal level fusion for multi- [9]MORISSET B,RUSU R B,SUNDARESAN A,et al.Leav- modal perceptual user interface[C]//Proceedings of the ing flatland:toward real-time 3D navigation[C]//Proceed- 2001 Workshop on Perceptive User Interfaces.New York, ings of the 2009 IEEE International Conference on Robotics NY,USA:ACM.2001:1-7. and Automation.Kobe:IEEE,2009:3786-3793. [20]JOHNSTON M,BANGALORE S.Finite-state multimodal [10]HINTERSTOISSER S,HOLZER S,CAGNIART C,et al. parsing and understanding[C]//Proceedings of the 18th Multimodal templates for real-time detection of texture-less conference on Computational linguistics.Saarbrucken, objects in heavily cluttered scenes[C]//Proceedings of the Germany::ACM,2000:369-375. 2011 IEEE International Conference on Computer Vision. [21]BETTERIDGE J,CARLSON A,HONG S A,et al.Toward Barcelona:IEEE,2011:858-865. never ending language learning[C//Proceedings of the A- [11]WANG Anran,LU Jiwen,CAl Jianfei,et al.Large-margin merican Association for Artificial Intelligence.2009:1-2. multi-modal deep learning for RGB-D object recognition [22]CHERNOVA S,THOMAZ A L.Robot learning from hu- [J].IEEE transactions on multimedia,2015,17(11): man teachers[M].San Rafael,CA,USA:IEEE,2014. 1887-1898. [23]MATUSZEK C,BO L F,ZETTLEMOYER L,et al.Learn [12]LECUN Y,BOSER B,DENKER J S,et al.Backpropaga- ing from unscripted deictic gesture and language for hu-
参考文献: [1]ERNST M O, BÜLTHOFF H H. Merging the senses into a robust percept[ J]. Trends in cognitive sciences, 2004, 8 (4): 162-169. [2]CORRADINI A, MEHTA M, BERNSEN N O, et al. Multi⁃ modal input fusion in human⁃computer interaction [ J ]. NATO Science Series Sub Series III Computer and Systems Sciences, 2005, 198: 223. [3]NODA K, ARIE H, SUGA Y, et al. Multimodal integration learning of robot behavior using deep neural networks[ J]. Robotics and autonomous systems, 2014, 62(6): 721-736. [4]MERIÇLI C, KLEE S D, PAPARIAN J, et al. An interac⁃ tive approach for situated task specification through verbal instructions[C] / / Proceedings of the 2014 international con⁃ ference on Autonomous agents and multi⁃agent systems. Par⁃ is, France: International Foundation for Autonomous Agents and Multiagent Systems, 2014: 1069-1076. [5] CANTRELL R, BENTON J, TALAMADUPULA K, et al. Tell me when and why to do it! Run⁃time planner model up⁃ dates via natural language instruction[ C] / / Proceedings of the 2012 IEEE International Conference on Human⁃Robot Interaction. Boston, MA: IEEE, 2012: 471-478. [6]THOMASON J, ZHANG S Q, MOONEY R, et al. Learning to interpret natural language commands through human⁃robot dialog[ C] / / Proceedings of the 24th international confer⁃ ence on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015. [7] EBERHARD K M, NICHOLSON H, SANDRA K, et al. The Indiana “Cooperative Remote Search Task” ( CReST) corpus[C] / / Proceedings of the 2010 International Confer⁃ ence on Language Resources and Evaluation. Valletta, Mal⁃ ta: LREC, 2010. [8]LOWE D G. Distinctive image features from scale⁃invariant keypoints [ J ]. International journal of computer vision, 2004, 60(2): 91-110. [9]MORISSET B, RUSU R B, SUNDARESAN A, et al. Leav⁃ ing flatland: toward real⁃time 3D navigation[C] / / Proceed⁃ ings of the 2009 IEEE International Conference on Robotics and Automation. Kobe: IEEE, 2009: 3786-3793. [10]HINTERSTOISSER S, HOLZER S, CAGNIART C, et al. Multimodal templates for real⁃time detection of texture⁃less objects in heavily cluttered scenes[C] / / Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 858-865. [11]WANG Anran, LU Jiwen, CAI Jianfei, et al. Large⁃margin multi⁃modal deep learning for RGB⁃D object recognition [J]. IEEE transactions on multimedia, 2015, 17 ( 11): 1887-1898. [12]LECUN Y, BOSER B, DENKER J S, et al. Backpropaga⁃ tion applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551. [13]THOMASON J, SINAPOV J, SVETLIK M, et al. Learning multi⁃modal grounded linguistic semantics by playing I spy [C] / / Proceedings of the 25th International Joint Confer⁃ ence on Artificial Intelligence. New York, 2016. [14]LIU C S, CHAI J Y. Learning to mediate perceptual differ⁃ ences in situated human⁃robot dialogue[ C] / / Proceedings of the Twenty⁃Ninth American Association Conference on Artificial Intelligence. Austin, Texas: AAAI Press, 2015: 2288-2294. [15]PARDE N, HAIR A, PAPAKOSTAS M, et al. Grounding the meaning of words through vision and interactive game⁃ play[J]. Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015. [16]MATUSZEK C, FITZGERALD N, ZETTLEMOYER L, et al. A joint model of language and perception for grounded attribute learning [ C] / / Proceedings of the 29th Interna⁃ tional Conference on Machine Learning. Edinburgh, Scot⁃ land, 2012. [17]赵鹏, 陈浩, 刘慧婷, 等. 一种基于图的多模态随机游 走重排序算法[ J]. 哈尔滨工程大学学报, 2016, 37 (10): 1387-1393. ZHAO Peng, CHEN Hao, LIU Huiting, et al. A multimo⁃ dal graph⁃based re⁃ranking through random walk algrithm [J]. Journal of Harbin Engineering University, 2016, 37 (10): 1387-1393. [18]段喜萍, 刘家锋, 王建华, 等. 多模态特征联合稀疏表 示的视频目标跟踪[ J]. 哈尔滨工程大学学报, 2015, 36(12): 1609-1613. DUAN Xiping, LIU Jiafeng, WANG Jianhua, et al. Visual target tracking via multi⁃cue joint sparse representation[J]. Journal of Harbin Engineering University, 2015, 36(12): 1609-1613. [19]FISHER J W, DARRELL T. Signal level fusion for multi⁃ modal perceptual user interface [ C] / / Proceedings of the 2001 Workshop on Perceptive User Interfaces. New York, NY, USA: ACM, 2001: 1-7. [20] JOHNSTON M, BANGALORE S. Finite⁃state multimodal parsing and understanding [ C] / / Proceedings of the 18th conference on Computational linguistics. Saarbrücken, Germany: ACM, 2000: 369-375. [21]BETTERIDGE J, CARLSON A, HONG S A, et al. Toward never ending language learning[C] / / Proceedings of the A⁃ merican Association for Artificial Intelligence. 2009: 1-2. [22] CHERNOVA S, THOMAZ A L. Robot learning from hu⁃ man teachers[M]. San Rafael, CA, USA: IEEE, 2014. [23]MATUSZEK C, BO L F, ZETTLEMOYER L, et al. Learn⁃ ing from unscripted deictic gesture and language for hu⁃ 第 2 期 李雪,等:智能交互的物体识别增量学习技术综述 ·147·
.148 智能系统学报 第12卷 man-robot interactions [C]//Proceedings of the 28th A- 497-508 merican Association Conference on Artificial Intelligence. [33]贾刚,王宗义.混合迁移学习方法在医学图像检索中的 Quebec City,Quebec,Canada:AAAI Press,2014:2556 应用[J刀.哈尔滨工程大学学报,2015,36(7)938- -2563 942. [24]CUAYAHUITL H,DETHLEFS N.Dialogue systems using JIA Gang,WANG Zongyi.The application of mixed migra- online learning:beyond empirical methods[C]//Proceed- tion learning in medical image retrieval[J].Journal of Har- ings of the NAACL-HLT Workshop on Future Directions bin Engineering University,2015,36(7):938-942. and Needs in the Spoken Dialog Community:Tools and [34]ROPING S.Incremental learning with support vector ma- Data.Montreal,Canada:Association for Computational chines[C]//Proceedings of the 2011 IEEE International Linguistics,2012:7-8. Conference on Data Mining.Washington,DC,USA: 「25]顾海巍,樊绍巍,金明河,等.基于灵巧手触觉信息的 EEE,2001:641. 未知物体类人探索策略[J].哈尔滨工程大学学报, [35]CAUWENBERGHS G,POGGIO T.Incremental and decre- 2016,37(10):1400-1407. mental support vector machine learning[C]//Proceedings GU Haiwei,FAN Shaowei,JIN Minghe,et al.An anthro- of the 13th International Conference on Advances in neural pomorphic exploration strategy of unknown object based on information processing systems.Cambridge,MA,USA: haptic information of dexterous robot hand[J].Journal of MIT Press,2000,13:409. Harbin Engineering University,2016,37(10):1400- [36]JORDAN M I.JACOBS R A.Hierarchical mixtures of ex- 1407. perts and the EM algorithm [J].Neural computation, [26]KEIZER S,FOSTER M E,WANG Z R,et al.Machine 1994,6(2):181-214. learning for social multiparty human-robot interaction[]. [37]WANG E H C,KUH A.A smart algorithm for incremental ACM transactions on interactive intelligent systems (TI- learning[C]//Proceedings of the 1992 IEEE International IS),2014,4(3):14. Joint Conference on Neural Networks.Baltimore:IEEE, [27]BOHUS D,SAW C W,HORVITZ E.Directions robot:In- 1992.3:121-126. the-wild experiences and lessons learned[C]//Proceedings [38]ENGELBRECHT A P,CLOETE I.Incremental learning u- of the 2014 International Conference on Autonomous A- sing sensitivity analysis[C]//Proceedings of the 1999 In- gents and Multi-agent Systems.Richland,SC,2014:637- ternational Joint Conference on Neural Networks.Washing. 644. ton DC:IEEE,1999. [28]KRAUSE E A.ZILLICH M,WILLIAMS T E,et al. [39]ZHANG B T.An incremental learning algorithm that opti- Learning to recognize novel objects in one shot through hu- mizes network size and sample size in one trial[C]//Pro- man-robot interactions in natural language dialogues[C]// ceedings of the 1994 IEEE World Congress on Computa- Proceedings of the 28th American Association Conference tional Intelligence.Orlando,FL,USA:IEEE,1994,1: on Artificial Intelligence.Quebec City,Quebec,Canada: 215-220. AAAI Press,2014:2796-2802. [40]LI FF,FERGUS R,PERONA P.One-shot learning of ob- [29]MENSINK T,VERBEEK J J,PERRONNIN F,et al.Dis- ject categories[]].IEEE transactions on pattern analysis tance-based image classification:generalizing to new clas- and machine intelligence,2006,28(4):594-611. ses at near-zero cost[J].IEEE transactions on pattern a- [41]TOMMASI T,ORABONA F,CAPUTO B.Learning cate- nalysis and machine intelligence,2013,35(11):2624- gories from few examples with multi model knowledge 2637. transfer[J].IEEE transactions on pattern analysis and ma- [30]IBA W,WOGULIS J,LANGLEY P A T.Trading off sim- chine intelligence,2014,36(5):928-941. plicity and coverage in incremental concept learning[C]/ [42]LAMPERT C H,NICKISCH H,HARMELING S.Learning Proceedings of the Fifth International Conference on Ma- to detect unseen object classes by between-class attribute chine Learning.Ann Arbor:University of Michigan,1988: transfer[C]//Proceedings of the 2009 IEEE Conference on 73. Computer Vision and Pattern Recognition.Miami,FL: [31]GROSSBERG S.Nonlinear neural networks:Principles, IEEE,2009:951-958. mechanisms,and architectures[J].Neural networks, [43]KUZBORSKIJ 1,ORABONA F,CAPUTO B.From N to N 1988,1(1):17-61. 1:Multiclass transfer incremental learning C//Pro- [32]POLIKAR R,UPDA L,UPDA SS,et al.Learn++:An ceedings of the 2013 IEEE Conference on Computer Vision incremental learning algorithm for supervised neural net- and Pattern Recognition.Portland,OR:IEEE,2013: works[J].IEEE transactions on systems,man,and cyber- 3358-3365 netics,part C Applications and reviews),2001,31(4): [44]RISTIN M,GUILLAUMIN M,GALL J,et al.Incremental
man⁃robot interactions [ C] / / Proceedings of the 28th A⁃ merican Association Conference on Artificial Intelligence. Québec City, Québec, Canada: AAAI Press, 2014: 2556 -2563. [24]CUAYÁHUITL H, DETHLEFS N. Dialogue systems using online learning: beyond empirical methods[C] / / Proceed⁃ ings of the NAACL⁃HLT Workshop on Future Directions and Needs in the Spoken Dialog Community: Tools and Data. Montreal, Canada: Association for Computational Linguistics, 2012: 7-8. [25]顾海巍, 樊绍巍, 金明河, 等. 基于灵巧手触觉信息的 未知物体类人探索策略[ J]. 哈尔滨工程大学学报, 2016, 37(10): 1400-1407. GU Haiwei, FAN Shaowei, JIN Minghe, et al. An anthro⁃ pomorphic exploration strategy of unknown object based on haptic information of dexterous robot hand[ J]. Journal of Harbin Engineering University, 2016, 37 ( 10): 1400 - 1407. [26]KEIZER S, FOSTER M E, WANG Z R, et al. Machine learning for social multiparty human⁃robot interaction[ J]. ACM transactions on interactive intelligent systems ( TI⁃ IS), 2014, 4(3): 14. [27]BOHUS D, SAW C W, HORVITZ E. Directions robot: In⁃ the⁃wild experiences and lessons learned[C] / / Proceedings of the 2014 International Conference on Autonomous A⁃ gents and Multi⁃agent Systems. Richland, SC, 2014: 637- 644. [28] KRAUSE E A, ZILLICH M, WILLIAMS T E, et al. Learning to recognize novel objects in one shot through hu⁃ man⁃robot interactions in natural language dialogues[C] / / Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec City, Québec, Canada: AAAI Press, 2014: 2796-2802. [29]MENSINK T, VERBEEK J J, PERRONNIN F, et al. Dis⁃ tance⁃based image classification: generalizing to new clas⁃ ses at near⁃zero cost[ J]. IEEE transactions on pattern a⁃ nalysis and machine intelligence, 2013, 35( 11): 2624- 2637. [30]IBA W, WOGULIS J, LANGLEY P A T. Trading off sim⁃ plicity and coverage in incremental concept learning[C] / / Proceedings of the Fifth International Conference on Ma⁃ chine Learning. Ann Arbor: University of Michigan, 1988: 73. [ 31] GROSSBERG S. Nonlinear neural networks: Principles, mechanisms, and architectures [ J ]. Neural networks, 1988, 1(1): 17-61. [32]POLIKAR R, UPDA L, UPDA S S, et al. Learn++: An incremental learning algorithm for supervised neural net⁃ works[J]. IEEE transactions on systems, man, and cyber⁃ netics, part C (Applications and reviews), 2001, 31(4): 497-508. [33]贾刚, 王宗义. 混合迁移学习方法在医学图像检索中的 应用[J]. 哈尔滨工程大学学报, 2015, 36( 7): 938- 942. JIA Gang, WANG Zongyi. The application of mixed migra⁃ tion learning in medical image retrieval[J]. Journal of Har⁃ bin Engineering University, 2015, 36(7): 938-942. [34] RÜPING S. Incremental learning with support vector ma⁃ chines[ C] / / Proceedings of the 2011 IEEE International Conference on Data Mining. Washington, DC, USA: IEEE, 2001: 641. [ 35]CAUWENBERGHS G, POGGIO T. Incremental and decre⁃ mental support vector machine learning[C] / / Proceedings of the 13th International Conference on Advances in neural information processing systems. Cambridge, MA, USA: MIT Press, 2000, 13: 409. [36]JORDAN M I, JACOBS R A. Hierarchical mixtures of ex⁃ perts and the EM algorithm [ J ]. Neural computation, 1994, 6(2): 181-214. [37]WANG E H C, KUH A. A smart algorithm for incremental learning[C] / / Proceedings of the 1992 IEEE International Joint Conference on Neural Networks. Baltimore: IEEE, 1992, 3: 121-126. [38]ENGELBRECHT A P, CLOETE I. Incremental learning u⁃ sing sensitivity analysis[C] / / Proceedings of the 1999 In⁃ ternational Joint Conference on Neural Networks. Washing⁃ ton DC: IEEE, 1999. [39]ZHANG B T. An incremental learning algorithm that opti⁃ mizes network size and sample size in one trial[C] / / Pro⁃ ceedings of the 1994 IEEE World Congress on Computa⁃ tional Intelligence. Orlando, FL, USA: IEEE, 1994, 1: 215-220. [ 40]LI F F, FERGUS R, PERONA P. One⁃shot learning of ob⁃ ject categories [ J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(4): 594-611. [41]TOMMASI T, ORABONA F, CAPUTO B. Learning cate⁃ gories from few examples with multi model knowledge transfer[J]. IEEE transactions on pattern analysis and ma⁃ chine intelligence, 2014, 36(5): 928-941. [42]LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between⁃class attribute transfer[C] / / Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 951-958. [43]KUZBORSKIJ I, ORABONA F, CAPUTO B. From N to N + 1: Multiclass transfer incremental learning [ C] / / Pro⁃ ceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 3358-3365. [44]RISTIN M, GUILLAUMIN M, GALL J, et al. Incremental ·148· 智 能 系 统 学 报 第 12 卷
第2期 李雪,等:智能交互的物体识别增量学习技术综述 .149. learning of NCM forests for large-scale image classification [52]LOMONACO V,MALTONI D.Comparing incremental [C]//Proceedings of the 2014 IEEE Conference on Com- learning strategies for convolutional neural networks puter Vision and Pattern Recognition.Columbus,OH: [M]//SCHWENKER F,ABBAS H,EL GAYAR N,et EEE.2014:3654-3661. al,eds.Artificial Neural Networks in Pattern Recognition. [45]DA Qing,YU Yang,ZHOU Zhihua.Learning with aug- ANNPR 2016.Lecture Notes in Computer Science. mented class by exploiting unlabeled data[C]//Proceed- Cham:Springer,2016. ings of the 28th American Association Conference on Artifi- [53]GRIPPO L.Convergent on-line algorithms for supervised cial Intelligence.Quebec,Canada:AAAI Press,2014: learning in neural networks[J].IEEE transactions on neu- 1760-1766. ral networks,2000,11(6):1284-1299. [46]CARPENTER G A,GROSSBERG S,REYNOLDS J H. [54]FU Limin,HSU HH,PRINCIPE J C.Incremental back- ARTMAP:Supervised real-time learning and classification propagation learning networks[J].IEEE transactions on of nonstationary data by a self-organizing neural network neural networks,1996,7(3):757-761. [J].Neural networks,1991,.4(5):565-588. [55]GOBET F,LANE P C R.CROKER S,et al.Chunking [47]VIJAYAKUMAR S,OGAWA H.RKHS-based functional mechanisms in human learning[J].Trends in cognitive analysis for exact incremental learning[J].Neurocomput- 8 ciences,2001,5(6):236-243. ing,1999,29(1/2/3):85-113. 作者简介: [48]KARASUYAMA M,TAKEUCHI I.Multiple incremental 李雪,女,1992年生,硕士研究生, decremental learning of support vector machines[J].IEEE 主要研究方向为智能信息处理与机器 transactions on neural networks archive,2010,21(7): 学习。 1048-1059. [49]GRETTON A,DESOBRY F.On-line one-class support vector machines.an application to signal segmentation [C]//Proceedings of the 2003 IEEE International Confer- 蒋树强,男,1977年生,博士生导 ence on Acoustics,Speech,and Signal Processing.Hong 师,主要研究方向为图像/视频等多媒 Kong,China:IEEE,2003. 体信息的分析、理解与检索技术。EEE [50]LASKOV P,GEHL C,KRUGER et al.Incremental 和CCF高级会员,发表学术论文100余 support vector learning:Analysis,implementation and ap- 篇,授权专利10项。 plications[J].The Journal of machine learning research archive,2006,7:1909-1936. [51]XIAO Tianjun,ZHANG Jiaxing,YANG Kuiyuan,et al. Error-driven incremental learning in deep convolutional neural network for large-scale image classification [C]// Proceedings of the 22nd ACM international conference on Multimedia.New York,NY:ACM,2014:177-186
和 CCF 高级会员,发表学术论文 100 余 learning of NCM forests for large⁃scale image classification [C] / / Proceedings of the 2014 IEEE Conference on Com⁃ puter Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 3654-3661. [45] DA Qing, YU Yang, ZHOU Zhihua. Learning with aug⁃ mented class by exploiting unlabeled data[C] / / Proceed⁃ ings of the 28th American Association Conference on Artifi⁃ cial Intelligence. Québec, Canada: AAAI Press, 2014: 1760-1766. [46] CARPENTER G A, GROSSBERG S, REYNOLDS J H. ARTMAP: Supervised real⁃time learning and classification of nonstationary data by a self⁃organizing neural network [J]. Neural networks, 1991, 4(5): 565-588. [47] VIJAYAKUMAR S, OGAWA H. RKHS⁃based functional analysis for exact incremental learning[ J]. Neurocomput⁃ ing, 1999, 29(1 / 2 / 3): 85-113. [48] KARASUYAMA M, TAKEUCHI I. Multiple incremental decremental learning of support vector machines[J]. IEEE transactions on neural networks archive, 2010, 21 ( 7): 1048-1059. [49] GRETTON A, DESOBRY F. On⁃line one⁃class support vector machines. an application to signal segmentation [C] / / Proceedings of the 2003 IEEE International Confer⁃ ence on Acoustics, Speech, and Signal Processing. Hong Kong, China: IEEE, 2003. [50] LASKOV P, GEHL C, KRÜGER S, et al. Incremental support vector learning: Analysis, implementation and ap⁃ plications[ J]. The Journal of machine learning research archive, 2006, 7: 1909-1936. [51] XIAO Tianjun, ZHANG Jiaxing, YANG Kuiyuan, et al. Error⁃driven incremental learning in deep convolutional neural network for large⁃scale image classification [ C] / / Proceedings of the 22nd ACM international conference on Multimedia. New York, NY: ACM, 2014: 177-186. [ 52 ] LOMONACO V, MALTONI D. Comparing incremental learning strategies for convolutional neural networks [M] / / SCHWENKER F, ABBAS H, EL GAYAR N, et al, eds. Artificial Neural Networks in Pattern Recognition. ANNPR 2016. Lecture Notes in Computer Science. Cham: Springer, 2016. [53] GRIPPO L. Convergent on⁃line algorithms for supervised learning in neural networks[J]. IEEE transactions on neu⁃ ral networks, 2000, 11(6): 1284-1299. [54]FU Limin, HSU H H, PRINCIPE J C. Incremental back⁃ propagation learning networks [ J]. IEEE transactions on neural networks, 1996, 7(3): 757-761. [55] GOBET F, LANE P C R, CROKER S, et al. Chunking mechanisms in human learning [ J]. Trends in cognitive sciences, 2001, 5(6): 236-243. 作者简介: 李雪,女,1992 年生,硕士研究生, 主要研究方向为智能信息处理与机器 学习。 蒋树强,男,1977 年生,博士生导 师,主要研究方向为图像/ 视频等多媒 体信息的分析、理解与检索技术。 IEEE 第 2 期 李雪,等:智能交互的物体识别增量学习技术综述 ·149· 篇,授权专利 10 项