【综述】智能交互的物体识别增量学习技术综述

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：1.47MB

第12卷第2期智能系统学报 Vol.12 No.2 2017年4月 CAAI Transactions on Intelligent Systems Apr.2017 D0I:10.11992/6is.201701006 网络出版地址：http://kns.cnki.net/kcms/detail/23.1538.TP.20170419.1448.002.html 智能交互的物体识别增量学习技术综述李雪12，蒋树强2 (1.山东科技大学计算机科学与工程学院，山东青岛266590：2.中国科学院计算技术研究所智能信息处理重点实验室，北京100190) 摘要：智能交互系统是研究人与计算机之间进行交流与通信，使计算机能够在最大程度上完成交互者的某个指令的一个领域。其发展的目标是实现人机交互的自主性、安全性和友好性。增量学习是实现这个发展目标的一个途径。本文对智能交互系统的任务、背景和获取信息来源进行简要介绍，主要对增量学习领域的已有工作进行综述。增量学习是指一个学习系统能不断地从新样本中学习新的知识，非常类似于人类自身的学习模式。它使智能交互系统拥有自我学习，提高交互体验的能力。文中对主要的增量学习算法的基本原理和特点进行了闸述，分析各自的优点和不足，并对进一步的研究方向进行展望。关键词：人工智能：人机交互；计算机视觉：物体识别：机器学习；多模态；机器人；交互学习中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)02-0140-10 中文引用格式：李雪，蒋树强.智能交互的物体识别增量学习技术综述[J].智能系统学报，2017,12(2)：140-149，英文引用格式：LI Xue,JIANG Shuqiang..Incremental learning and object recognition system based on intelligent HCI:a survey [J].CAAI transactions on intelligent systems,2017,12(2):140-149. Incremental learning and object recognition system based on intelligent HCI:a survey LI Xue JIANG Shuqiang2 (1.College of Information Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China;2.Key Laboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190. China) Abstract:Intelligent HCI systems focus on the interaction between computers and humans and study whether com- puters are able to apprehend human instructions.Moreover,this study aims to make the interaction more independ- ent and interactive.To some extent,incremental learning is a way to realize this goal.This study briefly introduces the tasks,background,and information source of intelligent HCI systems;in addition,it focuses on the summary of incremental learning.Similar to the learning mechanism of humans,incremental learning involves acquiring new knowledge on a continuous basis.This allows for the intelligent HCI systems to have the ability of self-growth.This study surveys the works that focus on incremental learning,including the mechanisms and their respective advanta- ges and disadvantages,and highlights the future research directions. Keywords:artificial intelligence;human-computer interaction;computer vision;object recognition;machine learning;multimodality;robotics;interactive learning 智能交互系统最为重要的一项任务就是捕获和理解外界环境信息，从而完成交互方任务。近年来，由于人工智能和机器人学等相关领域技术的进步，收稿日期：2017-01-09.网络出版日期：2017-04-19. 智能交互系统得到了广泛的关注，高性能智能交互基金项目：国家“973”计划项目(2012CB316400). 通信作者：蒋树强E-mail::sqjiang@(ict.ac.cn. 系统的实现也更加现实。智能交互系统感知外界环

第１２卷第２期智能系统学报Ｖｏｌ．１２ №．２２０１７年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０１００６网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０４１９．１４４８．００２．ｈｔｍｌ智能交互的物体识别增量学习技术综述李雪１，２，蒋树强２（１．山东科技大学计算机科学与工程学院，山东青岛２６６５９０；２．中国科学院计算技术研究所智能信息处理重点实验室，北京１００１９０）摘要：智能交互系统是研究人与计算机之间进行交流与通信，使计算机能够在最大程度上完成交互者的某个指令的一个领域。其发展的目标是实现人机交互的自主性、安全性和友好性。增量学习是实现这个发展目标的一个途径。本文对智能交互系统的任务、背景和获取信息来源进行简要介绍，主要对增量学习领域的已有工作进行综述。增量学习是指一个学习系统能不断地从新样本中学习新的知识，非常类似于人类自身的学习模式。它使智能交互系统拥有自我学习，提高交互体验的能力。文中对主要的增量学习算法的基本原理和特点进行了阐述，分析各自的优点和不足，并对进一步的研究方向进行展望。关键词：人工智能；人机交互；计算机视觉；物体识别；机器学习；多模态；机器人；交互学习中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０２－０１４０－１０中文引用格式：李雪，蒋树强．智能交互的物体识别增量学习技术综述［Ｊ］．智能系统学报，２０１７，１２（２）：１４０－１４９．英文引用格式：ＬＩＸｕｅ，ＪＩＡＮＧＳｈｕｑｉａｎｇ．ＩｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｉｎｔｅｌｌｉｇｅｎｔＨＣＩ：ａｓｕｒｖｅｙ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（２）：１４０－１４９．ＩｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｉｎｔｅｌｌｉｇｅｎｔＨＣＩ：ａｓｕｒｖｅｙＬＩＸｕｅ１，ＪＩＡＮＧＳｈｕｑｉａｎｇ２（１．ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＳｈａｎｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｑｉｎｇｄａｏ２６６５９０，Ｃｈｉｎａ；２．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，ＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＩｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓｆｏｃｕｓｏｎｔｈｅｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎｃｏｍｐｕｔｅｒｓａｎｄｈｕｍａｎｓａｎｄｓｔｕｄｙｗｈｅｔｈｅｒｃｏｍ⁃ ｐｕｔｅｒｓａｒｅａｂｌｅｔｏａｐｐｒｅｈｅｎｄｈｕｍａｎｉｎｓｔｒｕｃｔｉｏｎｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｉｓｓｔｕｄｙａｉｍｓｔｏｍａｋｅｔｈｅｉｎｔｅｒａｃｔｉｏｎｍｏｒｅｉｎｄｅｐｅｎｄ⁃ ｅｎｔａｎｄｉｎｔｅｒａｃｔｉｖｅ．Ｔｏｓｏｍｅｅｘｔｅｎｔ，ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｉｓａｗａｙｔｏｒｅａｌｉｚｅｔｈｉｓｇｏａｌ．Ｔｈｉｓｓｔｕｄｙｂｒｉｅｆｌｙｉｎｔｒｏｄｕｃｅｓｔｈｅｔａｓｋｓ，ｂａｃｋｇｒｏｕｎｄ，ａｎｄｉｎｆｏｒｍａｔｉｏｎｓｏｕｒｃｅｏｆｉｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓ；ｉｎａｄｄｉｔｉｏｎ，ｉｔｆｏｃｕｓｅｓｏｎｔｈｅｓｕｍｍａｒｙｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ．Ｓｉｍｉｌａｒｔｏｔｈｅｌｅａｒｎｉｎｇｍｅｃｈａｎｉｓｍｏｆｈｕｍａｎｓ，ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｉｎｖｏｌｖｅｓａｃｑｕｉｒｉｎｇｎｅｗｋｎｏｗｌｅｄｇｅｏｎａｃｏｎｔｉｎｕｏｕｓｂａｓｉｓ．ＴｈｉｓａｌｌｏｗｓｆｏｒｔｈｅｉｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓｔｏｈａｖｅｔｈｅａｂｉｌｉｔｙｏｆｓｅｌｆ－ｇｒｏｗｔｈ．Ｔｈｉｓｓｔｕｄｙｓｕｒｖｅｙｓｔｈｅｗｏｒｋｓｔｈａｔｆｏｃｕｓｏｎｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ，ｉｎｃｌｕｄｉｎｇｔｈｅｍｅｃｈａｎｉｓｍｓａｎｄｔｈｅｉｒｒｅｓｐｅｃｔｉｖｅａｄｖａｎｔａ⁃ ｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓ，ａｎｄｈｉｇｈｌｉｇｈｔｓｔｈｅｆｕｔｕｒｅｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；ｈｕｍａｎ⁃ｃｏｍｐｕｔｅｒｉｎｔｅｒａｃｔｉｏｎ；ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ；ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ；ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；ｍｕｌｔｉｍｏｄａｌｉｔｙ；ｒｏｂｏｔｉｃｓ；ｉｎｔｅｒａｃｔｉｖｅｌｅａｒｎｉｎｇ收稿日期：２０１７－０１－０９．网络出版日期：２０１７－０４－１９．基金项目：国家“９７３”计划项目（２０１２ＣＢ３１６４００）．通信作者：蒋树强．Ｅ－ｍａｉｌ：：ｓｑｊｉａｎｇ＠ｉｃｔ．ａｃ．ｃｎ．智能交互系统最为重要的一项任务就是捕获和理解外界环境信息，从而完成交互方任务。近年来，由于人工智能和机器人学等相关领域技术的进步，智能交互系统得到了广泛的关注，高性能智能交互系统的实现也更加现实。智能交互系统感知外界环

第2期李雪，等：智能交互的物体识别增量学习技术综述 .141 境比人类困难得多，而准确感知外界环境可以提高交互者的语言进行分析，从而获取到对方的指令。智能交互系统的交互性能，因此许多智能交互系统自然语言处理是计算机科学领域与人工智能领域中相关的工作探索了提高对外界环境感知性能的问的一个重要方向。它研究能实现人与计算机之间用题，主要的思想策略包括多模态信息融合和增量学自然语言进行有效通信的各种理论和方法。自然语习两个方面。多模态的信息融合可以使智能系统增言处理是一门融语言学、计算机科学、数学于一体的加对外界环境的确定性，同时，不断变化的外界环境科学。其常用的方法有：1)关键词匹配：2)使用有要求智能系统拥有不断自我学习的能力。通过交互标注的语料库：3)语义分析。在文献[4]中，该系统不断学习外界信息也使智能系统的性能得以不断提使用关键词匹配技术实现自然语言理解，并假设相升。在计算机视觉、智能交互系统等领域，增量学习应的单词有某种特定的序列。文献[5]和文献[6] 都已引起了广泛的关注。本文基于智能交互系统的使用语义分析技术实现对自然语言的理解和分析。物体识别，对增量学习的进展进行综述。首先，对智文献[5]的语言模型从现有的语料库[]中训练得能交互系统的研究背景和现状进行简要介绍，在此到，而文献[6]通过系统与交互者对话的过程不断基础上，对增量学习主要算法进行综合对比与分析。获得语料，并逐步学习，不断改进其语言模型。最后讨论了增量学习可扩展和待解决的问题，以及 2.2计算机视觉进一步的研究方向。由于获取外界信息的另一个主要渠道是视觉，所以计算机视觉是当前人机交互中一个非常活跃的 1智能交互系统对环境的感知领域。这一学科的基本假设是：可以通过计算的方对于人类来说，我们可以精确地感知周围环境式来模拟人类的视觉机制。如图1所示，智能系统变化并作出相应的反应，但对于计算机来说，获取并模拟人类视觉机制的过程主要包括两个方面：1)智分析周围环境信息，同时通过模仿人类行为来实现能系统要有能力将外部视觉信息转化为智能系统的与人的交互，这是一个极具挑战性的任务。它包括内部表示：2)从外部环境获取到的视觉信息到语义场景理解、活动分类、运动分析、物体识别、自然语言方面的文字需要一个可用的映射。理解、语音合成等方面。每个方面都可作为一个独立研究的任务。准确感知外部环境可以使智能交互系统提高任面务的完成度、完成的准确度和交互者对交互体验的满意度。多模态的外部信息，信息中较多的干扰和 (a (b】噪声，外界环境的复杂多变，都对智能系统建立对外图1计算机模拟人类视觉机制部环境的准确感知提出了挑战。 Fig.I Computer simulation of human visual mechanism 为了增强交互系统对外部环境的感知性能，两第1个方面主要要求智能系统可以从图像中提个方面的相关工作被广泛研究：1)多模态信息融合：2)通过交互增量学习，自我改进。取出有判别能力的特征。图像特征基本包括两种：手工设计的浅层特征和使用深度模型提取的深度特 2多模态输入与信息融合征。SIFT8劉、FPFH(fast point features histogram)[oy 人类为了精确感知周围环境，往往会结合多和ensembles of shape features(io]等都属于手工设计的浅层特征。这种特征对图像变化如图像旋转、尺种感知信息，如视觉、听觉、触觉等。认知科学的度变化等具有不变性。但是浅层特征只能捕捉到一研究表明通过结合感官信息，人类可以增强对环境的感知。因此在多模态信息输入的智能交互部分图像信息[山。与此相反的是，由于近年来深度学习模型（如卷积神经网络[]）方面的进步，由深系统中，互补的输入模式给系统提供了冗余的信度学习模型提取的深度特征可以捕获图像语义等更息，而冗余输入模式增加了系统融合信息的准确高层面的信息，具有更强的区分能力。因此，在计算性，降低系统对外界环境的不确定性，增加对环机视觉方面，深度特征被广泛使用。境感知的可靠性，从嘈杂的信息中产生一个单一智能系统模拟人类视觉机制的另一个要求是可的整体状态[1-3]。以对图像特征进行分类识别。在图像识别方面存在 2.1自然语言理解一系列的分类、聚类算法，如决策树、SVM、混合高斯智能交互系统常常需要通过理解自然语言来对模型等

境比人类困难得多，而准确感知外界环境可以提高智能交互系统的交互性能，因此许多智能交互系统相关的工作探索了提高对外界环境感知性能的问题，主要的思想策略包括多模态信息融合和增量学习两个方面。多模态的信息融合可以使智能系统增加对外界环境的确定性，同时，不断变化的外界环境要求智能系统拥有不断自我学习的能力。通过交互不断学习外界信息也使智能系统的性能得以不断提升。在计算机视觉、智能交互系统等领域，增量学习都已引起了广泛的关注。本文基于智能交互系统的物体识别，对增量学习的进展进行综述。首先，对智能交互系统的研究背景和现状进行简要介绍，在此基础上，对增量学习主要算法进行综合对比与分析。最后讨论了增量学习可扩展和待解决的问题，以及进一步的研究方向。１智能交互系统对环境的感知对于人类来说，我们可以精确地感知周围环境变化并作出相应的反应，但对于计算机来说，获取并分析周围环境信息，同时通过模仿人类行为来实现与人的交互，这是一个极具挑战性的任务。它包括场景理解、活动分类、运动分析、物体识别、自然语言理解、语音合成等方面。每个方面都可作为一个独立研究的任务。准确感知外部环境可以使智能交互系统提高任务的完成度、完成的准确度和交互者对交互体验的满意度。多模态的外部信息，信息中较多的干扰和噪声，外界环境的复杂多变，都对智能系统建立对外部环境的准确感知提出了挑战。为了增强交互系统对外部环境的感知性能，两个方面的相关工作被广泛研究：１）多模态信息融合；２）通过交互增量学习，自我改进。２多模态输入与信息融合人类为了精确感知周围环境，往往会结合多种感知信息，如视觉、听觉、触觉等。认知科学的研究表明通过结合感官信息，人类可以增强对环境的感知。因此在多模态信息输入的智能交互系统中，互补的输入模式给系统提供了冗余的信息，而冗余输入模式增加了系统融合信息的准确性，降低系统对外界环境的不确定性，增加对环境感知的可靠性，从嘈杂的信息中产生一个单一的整体状态［１－３］。２．１自然语言理解智能交互系统常常需要通过理解自然语言来对交互者的语言进行分析，从而获取到对方的指令。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。其常用的方法有：１）关键词匹配；２）使用有标注的语料库；３）语义分析。在文献［４］中，该系统使用关键词匹配技术实现自然语言理解，并假设相应的单词有某种特定的序列。文献［５］和文献［６］使用语义分析技术实现对自然语言的理解和分析。文献［５］的语言模型从现有的语料库［７］中训练得到，而文献［６］通过系统与交互者对话的过程不断获得语料，并逐步学习，不断改进其语言模型。２．２计算机视觉由于获取外界信息的另一个主要渠道是视觉，所以计算机视觉是当前人机交互中一个非常活跃的领域。这一学科的基本假设是：可以通过计算的方式来模拟人类的视觉机制。如图１所示，智能系统模拟人类视觉机制的过程主要包括两个方面：１）智能系统要有能力将外部视觉信息转化为智能系统的内部表示；２）从外部环境获取到的视觉信息到语义方面的文字需要一个可用的映射。图１计算机模拟人类视觉机制Ｆｉｇ．１Ｃｏｍｐｕｔｅｒｓｉｍｕｌａｔｉｏｎｏｆｈｕｍａｎｖｉｓｕａｌｍｅｃｈａｎｉｓｍ第１个方面主要要求智能系统可以从图像中提取出有判别能力的特征。图像特征基本包括两种：手工设计的浅层特征和使用深度模型提取的深度特征。ＳＩＦＴ［８］、ＦＰＦＨ（ｆａｓｔｐｏｉｎｔｆｅａｔｕｒｅｓｈｉｓｔｏｇｒａｍ）［９］和ｅｎｓｅｍｂｌｅｓｏｆｓｈａｐｅｆｅａｔｕｒｅｓ［１０］等都属于手工设计的浅层特征。这种特征对图像变化如图像旋转、尺度变化等具有不变性。但是浅层特征只能捕捉到一部分图像信息［１１］。与此相反的是，由于近年来深度学习模型（如卷积神经网络［１２］）方面的进步，由深度学习模型提取的深度特征可以捕获图像语义等更高层面的信息，具有更强的区分能力。因此，在计算机视觉方面，深度特征被广泛使用。智能系统模拟人类视觉机制的另一个要求是可以对图像特征进行分类识别。在图像识别方面存在一系列的分类、聚类算法，如决策树、ＳＶＭ、混合高斯模型等。第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４１·

142 智能系统学报第12卷 2.3多模态信息融合新的信息，学习到新的知识。自然语言理解和计算机视觉是智能交互系统获训练环境应用环境取外界信息的两个主要途径。单一模态信息使智能系统难以对外界环境产成一个准确的认识，多模态信息融合可以增加系统对环境信息的确认度，通过多模态信息融合，智能系统摆脱了单一模态的限制，使人机交互更加智能。当前已经有很多工作关注于多模态融合这一方面的研究[13-0」 2.4多模态信息融合与增量学习多模态信息融合帮助智能交互系统最大程度上图2实际环境的复杂多变和非增量方法的局限性地利用了可获取的外部信息，消除了单一模态中噪 Fig.2 The complex of environment and the limitation 声带来的不一致性，从而可以准确地感知和理解外 of constant model 部环境。多模态的交互引导多模态的学习，反过来多模对外部环境信息的准确感知使得智能交互系统态的学习又会改善多模态的交互。这是一个相互促在交互的过程中产生合情合理的语言或行为，这有助进，共同提高的过程。于提升系统的交互性能，得到更加良好的用户体验， 3.1从交互中学习新知识的机器人如表1所示。当前已经有许多相关工作展开了关于智能系统表1智能交互系统主要交互方式 Table 1 Major interaction of intelligent HCI systems 通过交互进行增量学习的研究[21-2) 多方社交智能机器人在酒吧中使用自然语言与客交互方式面向任务主要算法人对话，根据客人的需要为他们提供相应的饮品凶。通过交互者从自它的学习任务在于引导一个多方互动对话，其目标为：然语言中获取到自然语言理解、当机器人的视野中同时出现多位客人时，以社会可接自然语言相应的指令：将任语音合成受的行为来尽可能为客人提供正确的饮品。务结果转化为自然室内路线说明机器人[)基于预定义的室内地语言回馈给交互者图通过语音和手势向交互者提供方向引导他们到达通过对图像或视频场景理解、活相应的位置。它的学习任务是通过交互不断学习进计算机视觉进行分析“看到” 动分类、运动入，维持和解除与它面前的人进行交互的恰当时机。周围环境分析，物体识别移动机器人[28]被用来获取物体和相关属性的新知识。它的任务包括发现未知的物品，询问物品通过结合视觉、特征层面的的外形并获取相关的新知识。其学习任务为通过交听觉等多方面信多模态融合信息融合、语义息，获得一个对周互者获得新物品的物理外形描述，以此来扩充其知层面的信息融合围环境更加准确的判断识库。 3.2智能交互系统自我学习的策略优秀的交互性能和良好的用户体验使得智能系统可智能交互系统自我学习的能力需要通过某种探以从交互者处得到正确并且及时的反馈，这为智能系索和学习新知识的策略来实现。统在交互中进行增量学习打下了坚实的基础。增量学习是近年来备受关注的一种学习新知识 3通过交互学习的策略，旨在利用新数据来不断更新原有模型，使学习具有延续性，从而实现增量式的学习。由于外界环境复杂多变，智能交互系统无法在增量学习使智能交互系统可以进行持续性的学训练前获取到所有可能情形的全部有效信息作为训习，外部环境和交互者充当“老师”的角色，而系统练数据（如图2所示，应用环境中的“书籍”在训练则通过多模态的交互不断获得并学习新信息。环境中出现过，属于旧类别的新实例，而“香蕉”则未曾在训练环境中出现，属于新类别。智能系统无 4增量学习法识别这两种未经学习的物体)。这就要求智能系 4.1增量学习的背景统拥有自我学习的能力，可以在交互的过程中获得由于真实的交互环境是开放并且复杂多变

２．３多模态信息融合自然语言理解和计算机视觉是智能交互系统获取外界信息的两个主要途径。单一模态信息使智能系统难以对外界环境产成一个准确的认识，多模态信息融合可以增加系统对环境信息的确认度，通过多模态信息融合，智能系统摆脱了单一模态的限制，使人机交互更加智能。当前已经有很多工作关注于多模态融合这一方面的研究［１３－２０］。２．４多模态信息融合与增量学习多模态信息融合帮助智能交互系统最大程度上地利用了可获取的外部信息，消除了单一模态中噪声带来的不一致性，从而可以准确地感知和理解外部环境。对外部环境信息的准确感知使得智能交互系统在交互的过程中产生合情合理的语言或行为，这有助于提升系统的交互性能，得到更加良好的用户体验，如表１所示。表１智能交互系统主要交互方式Ｔａｂｌｅ１ＭａｊｏｒｉｎｔｅｒａｃｔｉｏｎｏｆｉｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓ交互方式面向任务主要算法自然语言通过交互者从自然语言中获取到相应的指令；将任务结果转化为自然语言回馈给交互者自然语言理解、语音合成计算机视觉通过对图像或视频进行分析“看到” 周围环境场景理解、活动分类、运动分析、物体识别多模态融合通过结合视觉、听觉等多方面信息，获得一个对周围环境更加准确的判断特征层面的信息融合、语义层面的信息融合优秀的交互性能和良好的用户体验使得智能系统可以从交互者处得到正确并且及时的反馈，这为智能系统在交互中进行增量学习打下了坚实的基础。３通过交互学习由于外界环境复杂多变，智能交互系统无法在训练前获取到所有可能情形的全部有效信息作为训练数据（如图２所示，应用环境中的“书籍”在训练环境中出现过，属于旧类别的新实例，而“香蕉” 则未曾在训练环境中出现，属于新类别。智能系统无法识别这两种未经学习的物体）。这就要求智能系统拥有自我学习的能力，可以在交互的过程中获得新的信息，学习到新的知识。图２实际环境的复杂多变和非增量方法的局限性Ｆｉｇ．２Ｔｈｅｃｏｍｐｌｅｘｏｆｅｎｖｉｒｏｎｍｅｎｔａｎｄｔｈｅｌｉｍｉｔａｔｉｏｎｏｆｃｏｎｓｔａｎｔｍｏｄｅｌ多模态的交互引导多模态的学习，反过来多模态的学习又会改善多模态的交互。这是一个相互促进，共同提高的过程。３．１从交互中学习新知识的机器人当前已经有许多相关工作展开了关于智能系统通过交互进行增量学习的研究［２１－２５］。多方社交智能机器人在酒吧中使用自然语言与客人对话，根据客人的需要为他们提供相应的饮品［２６］。它的学习任务在于引导一个多方互动对话，其目标为：当机器人的视野中同时出现多位客人时，以社会可接受的行为来尽可能为客人提供正确的饮品。室内路线说明机器人［２７］基于预定义的室内地图通过语音和手势向交互者提供方向引导他们到达相应的位置。它的学习任务是通过交互不断学习进入，维持和解除与它面前的人进行交互的恰当时机。移动机器人［２８］被用来获取物体和相关属性的新知识。它的任务包括发现未知的物品，询问物品的外形并获取相关的新知识。其学习任务为通过交互者获得新物品的物理外形描述，以此来扩充其知识库。３．２智能交互系统自我学习的策略智能交互系统自我学习的能力需要通过某种探索和学习新知识的策略来实现。增量学习是近年来备受关注的一种学习新知识的策略，旨在利用新数据来不断更新原有模型，使学习具有延续性，从而实现增量式的学习。增量学习使智能交互系统可以进行持续性的学习，外部环境和交互者充当“老师” 的角色，而系统则通过多模态的交互不断获得并学习新信息。４增量学习４．１增量学习的背景由于真实的交互环境是开放并且复杂多变 ·１４２· 智能系统学报第１２卷

第2期李雪，等：智能交互的物体识别增量学习技术综述 .143. 的[9]，在训练模型之前无法获取到所有可能情形的训练环境已经出现过，应用环境中的“书籍”是旧类有效信息作为训练数据。除此之外，数据标签的获别的新实例取也需要耗费大量人力、物力、财力和时间。最为重 2)可以学习新类别。“香蕉”概念在训练环境要的一点是，新的物体类别不断产生，已有物体类别未出现过，应用环境中的“香蕉”属于新类别。的新实例不断出现，甚至有的物体类别的意义不断 3)在学习新知识时，旧的训练数据不是必须迁移变化，这都在数据方面要求智能系统需要具有的。增量学习时只使用应用环境中的新数据(“书不断学习的能力。另一方面，自我学习的能力可以籍”)和新类别(“香蕉”)作为训练数据，而不需要使智能系统在获得新数据时随时学习，不需要重新已经学过的“罐”、“苹果”和“杯子”数据。训练全部数据[0]。这又在模型方面要求智能系统 4)学习新知识后，不会忘记已经学到的旧知需要具有不断学习的能力。识。在应用环境中仍能识别以前在训练环境中学到 4.2增量学习的现状的旧概念：“罐”、“苹果”、“杯子”和“书籍”概念的学习新数据基本可以分为两种策略：一种是抛旧实例。弃原有模型，在现有数据上学习新知识：另一种是基当前有许多增量学习方面的工作并不严格满足于原有模型，在此基础上继续学习新知识。这两种以上4个条件。策略可以引出著名的稳定性-可塑性定理(stability- 4.3抛弃原有模型 plasticity dilemma)[] 对于学习新数据的第1种策略：抛弃原有模型，这个定理指出，一个完全稳定的模型可以保存已在现有数据上学习新知识。这种完全可塑的策略面经学到的知识不忘记，但无法学习到新的知识；而一临的最大问题是灾难性的遗忘(catastrophic forget- 个完全可塑的模型可以学习新知识，但无法保存以前 ing)。它在现有新数据上学习知识，可以学到新的学到的知识（如图3所示）。而优秀的增量学习方法数据和类别，并且可以不需要原来的训练数据，满足就是在可塑性和稳定性之间寻找一个合理的权衡。增量学习的前3个条件。但它抛弃原有模型，则会训练环境应用环境导致旧知识的遗忘，不能满足第4个条件。神经网络常常使用这种策略的模型，例如多层感知机、径向数据基函数网络，小波网络和Kohonen网络。 4.4 基于原有模型继续学习量学习对于学习新数据的第2种策略：基于原有模型，在此基础上继续学习新知识。这种策略也常因关注于不同的方面而不能完全满足增量学习的4个条件。根据增量学习算法学习的内容来看，新数据主图3稳定性-可塑性定理要来源于两个方面：1)数据来源于已经学习过的类 Fig.3 Stability-plasticity dilemma 别，是旧类别的新实例：2)数据来源于没有学习过文献[32]提出真正的增量学习应该满足4个的类别，是新类别的数据。条件，如图4。 4.4.1学习旧类别的新实例稳定性学习旧类别的新实例这一任务在某种程度上与迁不能学习新知识移学习有些相似之处但又有不同，如表2。表2增量学习与迁移学习的比较稳定性和可塑性 Table 2 Comparison between transfer learning and incre- 之间的合理平衡 mental learning 类别相同点不同点训练集领域与测试集不能保存旧知识迁移学习领域不同：新领域的数可塑性将已学习的据未经过学习知识转移到图4增量学习的条件 Fig.4 The conditions of incremental learning 新的任务训练集领域与测试集增量学习领域相同：新数据经 1)可以学习旧类别的新数据。“书籍”概念在过学习

的［２９］，在训练模型之前无法获取到所有可能情形的有效信息作为训练数据。除此之外，数据标签的获取也需要耗费大量人力、物力、财力和时间。最为重要的一点是，新的物体类别不断产生，已有物体类别的新实例不断出现，甚至有的物体类别的意义不断迁移变化，这都在数据方面要求智能系统需要具有不断学习的能力。另一方面，自我学习的能力可以使智能系统在获得新数据时随时学习，不需要重新训练全部数据［３０］。这又在模型方面要求智能系统需要具有不断学习的能力。４．２增量学习的现状学习新数据基本可以分为两种策略：一种是抛弃原有模型，在现有数据上学习新知识；另一种是基于原有模型，在此基础上继续学习新知识。这两种策略可以引出著名的稳定性－可塑性定理（ｓｔａｂｉｌｉｔｙ⁃ ｐｌａｓｔｉｃｉｔｙｄｉｌｅｍｍａ）［３１］。这个定理指出，一个完全稳定的模型可以保存已经学到的知识不忘记，但无法学习到新的知识；而一个完全可塑的模型可以学习新知识，但无法保存以前学到的知识（如图３所示）。而优秀的增量学习方法就是在可塑性和稳定性之间寻找一个合理的权衡。图３稳定性－可塑性定理Ｆｉｇ．３Ｓｔａｂｉｌｉｔｙ⁃ｐｌａｓｔｉｃｉｔｙｄｉｌｅｍｍａ文献［３２］提出真正的增量学习应该满足４个条件，如图４。图４增量学习的条件Ｆｉｇ．４Ｔｈｅｃｏｎｄｉｔｉｏｎｓｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ１）可以学习旧类别的新数据。 “书籍”概念在训练环境已经出现过，应用环境中的“书籍”是旧类别的新实例。２）可以学习新类别。 “香蕉”概念在训练环境未出现过，应用环境中的“香蕉”属于新类别。３）在学习新知识时，旧的训练数据不是必须的。增量学习时只使用应用环境中的新数据（“书籍”）和新类别（“香蕉”）作为训练数据，而不需要已经学过的“罐”、“苹果”和“杯子”数据。４）学习新知识后，不会忘记已经学到的旧知识。在应用环境中仍能识别以前在训练环境中学到的旧概念：“罐”、“苹果”、“杯子” 和“书籍” 概念的旧实例。当前有许多增量学习方面的工作并不严格满足以上４个条件。４．３抛弃原有模型对于学习新数据的第１种策略：抛弃原有模型，在现有数据上学习新知识。这种完全可塑的策略面临的最大问题是灾难性的遗忘（ｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔ⁃ ｔｉｎｇ）。它在现有新数据上学习知识，可以学到新的数据和类别，并且可以不需要原来的训练数据，满足增量学习的前３个条件。但它抛弃原有模型，则会导致旧知识的遗忘，不能满足第４个条件。神经网络常常使用这种策略的模型，例如多层感知机、径向基函数网络，小波网络和Ｋｏｈｏｎｅｎ网络。４．４基于原有模型继续学习对于学习新数据的第２种策略：基于原有模型，在此基础上继续学习新知识。这种策略也常因关注于不同的方面而不能完全满足增量学习的４个条件。根据增量学习算法学习的内容来看，新数据主要来源于两个方面：１）数据来源于已经学习过的类别，是旧类别的新实例；２）数据来源于没有学习过的类别，是新类别的数据。４．４．１学习旧类别的新实例学习旧类别的新实例这一任务在某种程度上与迁移学习有些相似之处但又有不同，如表２。表２增量学习与迁移学习的比较Ｔａｂｌｅ２Ｃｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇａｎｄｉｎｃｒｅ⁃ ｍｅｎｔａｌｌｅａｒｎｉｎｇ类别相同点不同点迁移学习增量学习将已学习的知识转移到新的任务训练集领域与测试集领域不同；新领域的数据未经过学习训练集领域与测试集领域相同；新数据经过学习第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４３·

.144 智能系统学报第12卷迁移学习的任务是将某一领域学到的特征或信学习方法可以依靠已经学习的类别使用少量新数据息应用到另一个不同但相似的领域上，如文献来有效的学习新类别。通过求解一个凸优化问题， [33]。增量学习旧类别新实例的目标是利用现有该方法自动选择利用哪一部分旧知识传递多少信息的特征在相同任务（需要识别的类别不变）但规模最为有效并确保在可用训练集上达到最小误差。文扩大的数据集上学习新的知识。献[42]通过使用属性分类器来实现zero-shot learn- 文献[34]修改了原SVM目标函数中的损失 ing的目标。项，使修改后的SVM可以在原模型的基础上修改分文献[43]指出，在其之前的大多数增量学习的类面，实现增量学习旧类别新实例：文献[35]提出工作都专注于二分类问题，这篇文章提出了一个多类了一个基于SVM框架增量学习的精确解，即每增加分类的方法，在保存已学到的知识的基础上把当前的一个训练样本或减少一个样本都会对Lagrange系 N类分类器转化为一个N+1类分类器；文献[44]提数和支持向量产生影响，以此来调整分界面：文献出了一种具有层级关系的增量学习模型NCMF(nea- [36]介绍了HME(hierarchical mixture of experts)框 rest class mean forest classifier)。这种方法以层级关架，这种框架在特征空间的不同区域训练了多个分系来组织概念，使得学习新类别时可以更新局部节点类器，将各个分类器的输出通过一个网络进行加权来达到增量的目的。文献[45]结合SVM算法最大分得到最终结果，它利用线性最小二乘法(linear least 类间隔的策略和半监督学习算法低密度分隔符技术， squares)和加权线性最小二乘法(weighted linear 来增加新的分界面以此识别新类别。 least squares)通过递归来增量的更新每个数据，点的这些增量学习方法更加关注于学习新类别，它参数，从而实现增量式的在线学习；文献[37]每次们对旧类别的新实例的学习效果尚未得到验证，同从候选训练数据集中选取一部分新的信息，并把选时有些方法在学习新数据的同时必须使用部分或全取出的新数据添加到当前数据集中：文献[38]扩展部原始数据，无法完全满足增量学习的4个条件。了文献[37]的增量学习方法，通过对候选训练数据表3增量学习算法对比分析集进行无监督的聚类，每次选出最有信息量的一部 Table 3 Comparative analysis of incremental learning al- 分数据加入当前训练数据中：文献[39]提出了一种 gorithms 结构学习算法，它使用数据集中的一小部分作为训旧类别不需要算法新类别实现技术练数据来建立一个具有最优隐藏层节点数目的前馈新实例原始数据网络，该方法以训练数据集中较少的一部分数据作文献[32] D 多模型组合为初始的训练数据，通过有效的选择训练数据，最终文献[34] V V 调整模型参数产生一个最少但对所有数据有效的训练集。文献[35] V L 调整模型参数这些增量学习方法更加关注于学习旧类别的新实文献[36] V 多模型组合例，它们都无法完全满足增量学习的4个条件。首先，这文献[38] v 选取有效数据些方法无法学习新类别的数据。其次，有些方法在增量文献「39] V 选取有效数据学习的同时必须使用部分或全部原始数据。文献[40] 调整模型参数 4.4.2学习新类别的数据文献[41] 多模型组合与学习旧类别的新实例相比，学习新类别明显文献[42]V 多模型组合更加具有挑战性。文献[431V 调整模型参数这个任务的目标是利用现有的特征在更加复杂文献[44] V 调整模型参数的任务（需要识别的类别增加）并且规模扩大的数文献[45] 调整模型参数据集上学习新的知识。文献[46]V 多模型组合对迁移学习的关注使得更多的研究工作注重于使用更少的数据来学得泛化性能更好的模型。由此文献[471V 调整模型参数转化到学习新类别方面的两个较为典型的研究领域文献[48] V 调整模型参数为：one-shot learning和zero-shot learning。文献[40] 文献[49] V 调整模型参数提出了一种贝叶斯迁移学习方法，这种增量学习方文献[50] 调整模型参数法可以使用少量新数据学习到新类别。文献[41] 文献[51]V 调整模型参数提出了一种基于多模型的知识迁移算法，这种增量

迁移学习的任务是将某一领域学到的特征或信息应用到另一个不同但相似的领域上，如文献［３３］。增量学习旧类别新实例的目标是利用现有的特征在相同任务（需要识别的类别不变）但规模扩大的数据集上学习新的知识。文献［３４］修改了原ＳＶＭ目标函数中的损失项，使修改后的ＳＶＭ可以在原模型的基础上修改分类面，实现增量学习旧类别新实例；文献［３５］提出了一个基于ＳＶＭ框架增量学习的精确解，即每增加一个训练样本或减少一个样本都会对Ｌａｇｒａｎｇｅ系数和支持向量产生影响，以此来调整分界面；文献［３６］介绍了ＨＭＥ（ｈｉｅｒａｒｃｈｉｃａｌｍｉｘｔｕｒｅｏｆｅｘｐｅｒｔｓ）框架，这种框架在特征空间的不同区域训练了多个分类器，将各个分类器的输出通过一个网络进行加权得到最终结果，它利用线性最小二乘法（ｌｉｎｅａｒｌｅａｓｔｓｑｕａｒｅｓ）和加权线性最小二乘法（ｗｅｉｇｈｔｅｄｌｉｎｅａｒｌｅａｓｔｓｑｕａｒｅｓ）通过递归来增量的更新每个数据点的参数，从而实现增量式的在线学习；文献［３７］每次从候选训练数据集中选取一部分新的信息，并把选取出的新数据添加到当前数据集中；文献［３８］扩展了文献［３７］的增量学习方法，通过对候选训练数据集进行无监督的聚类，每次选出最有信息量的一部分数据加入当前训练数据中；文献［３９］提出了一种结构学习算法，它使用数据集中的一小部分作为训练数据来建立一个具有最优隐藏层节点数目的前馈网络，该方法以训练数据集中较少的一部分数据作为初始的训练数据，通过有效的选择训练数据，最终产生一个最少但对所有数据有效的训练集。这些增量学习方法更加关注于学习旧类别的新实例，它们都无法完全满足增量学习的４个条件。首先，这些方法无法学习新类别的数据。其次，有些方法在增量学习的同时必须使用部分或全部原始数据。４．４．２学习新类别的数据与学习旧类别的新实例相比，学习新类别明显更加具有挑战性。这个任务的目标是利用现有的特征在更加复杂的任务（需要识别的类别增加）并且规模扩大的数据集上学习新的知识。对迁移学习的关注使得更多的研究工作注重于使用更少的数据来学得泛化性能更好的模型。由此转化到学习新类别方面的两个较为典型的研究领域为：ｏｎｅ⁃ｓｈｏｔｌｅａｒｎｉｎｇ和ｚｅｒｏ⁃ｓｈｏｔｌｅａｒｎｉｎｇ。文献［４０］提出了一种贝叶斯迁移学习方法，这种增量学习方法可以使用少量新数据学习到新类别。文献［４１］提出了一种基于多模型的知识迁移算法，这种增量学习方法可以依靠已经学习的类别使用少量新数据来有效的学习新类别。通过求解一个凸优化问题，该方法自动选择利用哪一部分旧知识传递多少信息最为有效并确保在可用训练集上达到最小误差。文献［４２］通过使用属性分类器来实现ｚｅｒｏ⁃ｓｈｏｔｌｅａｒｎ⁃ ｉｎｇ的目标。文献［４３］指出，在其之前的大多数增量学习的工作都专注于二分类问题，这篇文章提出了一个多类分类的方法，在保存已学到的知识的基础上把当前的Ｎ类分类器转化为一个Ｎ＋１类分类器；文献［４４］提出了一种具有层级关系的增量学习模型ＮＣＭＦ（ｎｅａ⁃ ｒｅｓｔｃｌａｓｓｍｅａｎｆｏｒｅｓｔｃｌａｓｓｉｆｉｅｒ）。这种方法以层级关系来组织概念，使得学习新类别时可以更新局部节点来达到增量的目的。文献［４５］结合ＳＶＭ算法最大分类间隔的策略和半监督学习算法低密度分隔符技术，来增加新的分界面以此识别新类别。这些增量学习方法更加关注于学习新类别，它们对旧类别的新实例的学习效果尚未得到验证，同时有些方法在学习新数据的同时必须使用部分或全部原始数据，无法完全满足增量学习的４个条件。表３增量学习算法对比分析Ｔａｂｌｅ３Ｃｏｍｐａｒａｔｉｖｅａｎａｌｙｓｉｓｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｌ⁃ ｇｏｒｉｔｈｍｓ算法新类别旧类别新实例不需要原始数据实现技术文献［３２］ √ √ √ 多模型组合文献［３４］ √ √ 调整模型参数文献［３５］ √ √ 调整模型参数文献［３６］ √ √ 多模型组合文献［３８］ √ 选取有效数据文献［３９］ √ 选取有效数据文献［４０］ √ √ 调整模型参数文献［４１］ √ √ 多模型组合文献［４２］ √ √ 多模型组合文献［４３］ √ 调整模型参数文献［４４］ √ √ 调整模型参数文献［４５］ √ 调整模型参数文献［４６］ √ √ √ 多模型组合文献［４７］ √ √ √ 调整模型参数文献［４８］ √ √ 调整模型参数文献［４９］ √ √ 调整模型参数文献［５０］ √ √ 调整模型参数文献［５１］ √ 调整模型参数 ·１４４· 智能系统学报第１２卷

第2期李雪，等：智能交互的物体识别增量学习技术综述 .145. 4.4.3实现增量学习的3种技术进行，不断增加的基模型也是一个未解决的问题。总体来说增量学习算法使用的技术可以总结为 4.4.4通过改变模型参数实现增量学习 3类2（图5）：因此我们更为关注第3种方法：通过调整模型 1)选择最有信息量的数据：参数实现增量学习的单一模型。 2)使用多模型集合实现模型的加强：文献[34]修改了原SVM目标函数中的损失 3)改变模型的参数或结构。项，使修改后的SVM可以修改原模型的分类面，并且在不需要原始数据的前提下，近似实现全局数据（新数据和已经学习过的旧数据）上的损失新数据最小化。SVM使用支撑向量来描述分界面，并将 2 支撑向量作为参数存储在模型中。该方法利用支撑向量来代替原始数据，同时通过权重使支撑向量可以更好的模拟原始数据。文献[35]提出新数据的C&P算法实现了SVM框架下增量学习的一个精确解。训练SVM相当于求解一个二次规划，二次规划的系数个数与训练数据个数相同。增量学习时，每增加一个训练数据，可以迭代求解一个新的系数。C&P算法的关键在于，每增加一个实例，都要求学习过的所有数据全部满足KKT 新数据条件，来求解一个确定的增量模型。此后，许多研究基于C&P算法，逐渐展开了两方面的工作：一方面的工作专注于算法本身，文献[48]提出了该算法的扩展版本，每次迭代更新参数时可以同时处理多个数据：另一方面的工作使用C&P算图5增量学习的3种技术法解决其他问题。文献[49]和文献[50]使用该 Fig.5 Three techniques of incremental learning 其中第1类方法往往用于实现旧类别新实例的算法实现了单类SVM的增量学习问题。增量，并且需要使用部分或全部原始数据。其目的与文献[51]中修改损失项的方法相似的是，文是在一段信息流中选取最有效的数据，使用最少的献[43]修改了SVM目标函数的正则项，在增加新数据完成学习任务。这种方法无法实现真正的增量的分界面的同时，控制已有分界面的变化。该方法学习。而第2类方法可以实现完全的增量学习。文通过建立新的分界面学习到新类别，同时通过控制献[46]提出了一种基于分类器集合的算法，该算法已学到的分界面的变化，确保学到的知识不会受新为与学习过的实例差别较大的新数据建立新的决策类别的影响而丢失。文献[45]借鉴SVM中最大分集群，每个集群以无监督的方式在特征空间中学习类间隔和半监督学习中低密度分隔符的思想，在所一个不同的超矩形部分，这个部分与要学习的目标有低密度分隔符中选取一个分界面使得模型的经验类别相对应。但是这个方法对阈值的选取，训练数损失，结构损失和增广损失（新类别的损失）整体最据中的噪声和训练数据学习的顺序都十分敏感：文小。文献[51]将卷积神经网络组织成层级树形结献[47]提出了一种基于再生希尔伯特空间的增量构，每个节点由一些相似类别的聚类构成，该方法通学习算法。但是它需要数据分布的一个先验知识，过树形结构使得模型更新时只需要调整模型局部，这对于增量学习任务本身来说并不容易获得：文献并可以严格控制模型调整范围，增添新节点时此方 [32]受Adaboost的启发，提出了一个由分类器集合法通过克隆原有节点进行调整，使得已学到的知识构成的增量模型。这个算法的核心在于维护一个训不会被遗忘。练数据的分布，使得分类错误的数据更容易被采样，这些通过修改原模型参数而实现增量学习的算以此学习一个新的分类器加入集合中，而在增量学法也没有完全满足增量学习的4个条件，它们都解习的过程中，错误率较高的数据则恰恰是尚未见过决了灾难性遗忘的问题，但都更加侧重于学习旧类或学习过的数据。但第3类方法需要训练多个模型别新实例或者新类别中的某一方面，有些方法也没进行组合，计算代价大大增加，而且随着增量学习的有解决需要原始数据的问题

４．４．３实现增量学习的３种技术总体来说增量学习算法使用的技术可以总结为３类［３２］（图５）：１）选择最有信息量的数据；２）使用多模型集合实现模型的加强；３）改变模型的参数或结构。图５增量学习的３种技术Ｆｉｇ．５Ｔｈｒｅｅｔｅｃｈｎｉｑｕｅｓｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ其中第１类方法往往用于实现旧类别新实例的增量，并且需要使用部分或全部原始数据。其目的是在一段信息流中选取最有效的数据，使用最少的数据完成学习任务。这种方法无法实现真正的增量学习。而第２类方法可以实现完全的增量学习。文献［４６］提出了一种基于分类器集合的算法，该算法为与学习过的实例差别较大的新数据建立新的决策集群，每个集群以无监督的方式在特征空间中学习一个不同的超矩形部分，这个部分与要学习的目标类别相对应。但是这个方法对阈值的选取，训练数据中的噪声和训练数据学习的顺序都十分敏感；文献［４７］提出了一种基于再生希尔伯特空间的增量学习算法。但是它需要数据分布的一个先验知识，这对于增量学习任务本身来说并不容易获得；文献［３２］受Ａｄａｂｏｏｓｔ的启发，提出了一个由分类器集合构成的增量模型。这个算法的核心在于维护一个训练数据的分布，使得分类错误的数据更容易被采样，以此学习一个新的分类器加入集合中，而在增量学习的过程中，错误率较高的数据则恰恰是尚未见过或学习过的数据。但第３类方法需要训练多个模型进行组合，计算代价大大增加，而且随着增量学习的进行，不断增加的基模型也是一个未解决的问题。４．４．４通过改变模型参数实现增量学习因此我们更为关注第３种方法：通过调整模型参数实现增量学习的单一模型。文献［３４］修改了原ＳＶＭ目标函数中的损失项，使修改后的ＳＶＭ可以修改原模型的分类面，并且在不需要原始数据的前提下，近似实现全局数据（新数据和已经学习过的旧数据）上的损失最小化。ＳＶＭ使用支撑向量来描述分界面，并将支撑向量作为参数存储在模型中。该方法利用支撑向量来代替原始数据，同时通过权重使支撑向量可以更好的模拟原始数据。文献［３５］提出的Ｃ＆Ｐ算法实现了ＳＶＭ框架下增量学习的一个精确解。训练ＳＶＭ相当于求解一个二次规划，二次规划的系数个数与训练数据个数相同。增量学习时，每增加一个训练数据，可以迭代求解一个新的系数。Ｃ＆Ｐ算法的关键在于，每增加一个实例，都要求学习过的所有数据全部满足ＫＫＴ条件，来求解一个确定的增量模型。此后，许多研究基于Ｃ＆Ｐ算法，逐渐展开了两方面的工作：一方面的工作专注于算法本身，文献［４８］提出了该算法的扩展版本，每次迭代更新参数时可以同时处理多个数据；另一方面的工作使用Ｃ＆Ｐ算法解决其他问题。文献［４９］和文献［５０］使用该算法实现了单类ＳＶＭ的增量学习问题。与文献［５１］中修改损失项的方法相似的是，文献［４３］修改了ＳＶＭ目标函数的正则项，在增加新的分界面的同时，控制已有分界面的变化。该方法通过建立新的分界面学习到新类别，同时通过控制已学到的分界面的变化，确保学到的知识不会受新类别的影响而丢失。文献［４５］借鉴ＳＶＭ中最大分类间隔和半监督学习中低密度分隔符的思想，在所有低密度分隔符中选取一个分界面使得模型的经验损失，结构损失和增广损失（新类别的损失）整体最小。文献［５１］将卷积神经网络组织成层级树形结构，每个节点由一些相似类别的聚类构成，该方法通过树形结构使得模型更新时只需要调整模型局部，并可以严格控制模型调整范围，增添新节点时此方法通过克隆原有节点进行调整，使得已学到的知识不会被遗忘。这些通过修改原模型参数而实现增量学习的算法也没有完全满足增量学习的４个条件，它们都解决了灾难性遗忘的问题，但都更加侧重于学习旧类别新实例或者新类别中的某一方面，有些方法也没有解决需要原始数据的问题。第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４５·

.146 智能系统学报第12卷 5 增量学习未来研究方向展望进行增量学习。由此看来，增量学习的内容也应当是多模态的。目前，增量学习在智能交互、物体识别等许多方智能系统通过多模态交互进行增量学习，反过面都得到了广泛的研究，但由于应用环境远比训练来，增量学习的结果也会提升多模态交互的性能。环境更加复杂多变，离智能交互系统真正走出实验听觉、视觉和文字是智能交互系统感知外界环室，进入真实应用场景还有一段距离。本文将对增境信息最主要的3种形式。通过声图文融合的增量量学习未来的研究方向进行展望。学习方式，可以使智能交互系统逐步全面地适应不 5.1面向大规模数据集的增量学习断变化的外界环境。近年来，随着信息技术的发展，数据呈现爆炸式 5.4知识条目和识别能力的增量学习增长的趋势，这使得模型的训练和更新都变得更加现在的大部分研究工作更加关注于独立的视觉困难并且耗时。概念的识别或是单纯知识条目的增加构建。但实际在面向大规模数据集时，增量学习的优点尤为生活中不同的概念之间具有或隐性或显性的关系，突出。一方面，在训练数据规模扩大的同时，训练需物体也拥有不同的属性。这些概念和属性可以构成要的时间和计算能力都随之增加。当新数据或新类关于交互物体、交互者和外界环境的知识条目。人别出现时，非增量的离线方法需要重新训练已经学类可以基于这些额外的关系或属性信息学习到更多习过的数据，这会导致资源的浪费。而增量学习方的知识。智能交互系统也应该利用这些信息进行更法则可以在原始模型的基础上继续学习，不需要重全面的学习，对周围环境或任务目标得到一个更加新训练所有数据。另一方面，非增量方法重新训练全面的认识。全部数据，这也就意味着全部的或绝大部分的数据另一个值得关注的方面是，智能交互系统应该或都必须保留，当数据量非常庞大时，数据的存储也能够系统并有效地组织已学习到的知识。文献是一个问题。而增量学习不需要原始数据，所以不 [55]指出，将小规模的信息加入到已经组织好的大需要考虑数据存储的问题。规模信息中是人类感知，学习，和组织信息等过程中 5.2面向深度学习的增量学习十分重要的部分。因此，智能交互系统应该拥有一深度学习技术被大量应用到图像、视频、文本等个合理的学习机制，并可以自动在学习到的知识间多媒体相关的任务上。一方面，深度网络可以直接建立合理有效的联系。完成图像分类，物体识别等任务。另一方面，这些任 6结束语务所产生的标签又可以应用到图像检索相关的任务中。深度网络又可以间接地扩展到其他任务中去。目前，增量学习在智能交互、物体识别等许多方所有这些任务的真实场景中，数据及其标记的总是面都得到了广泛的研究，由于应用环境远比训练环境更加复杂多变，它更加注重于解决自动学习，改善以增量的方式进行收集的。因此在数据方面来说，应用效果的问题。这说明智能交互系统从实验环境面向深度学习的增量学习是合理的。逐渐开始走向真实的应用场景。深度学习技术在图像分类任务中的应用取得了由于不同任务关注方面各不相同，大多数研究快速的进步，它的性能迅速提升。当前限制深度神经工作都无法完全满足增量学习的定义。但真实场景网络性能进一步提升的一个可能性是网络容量。因的复杂多变是单一任务目标无法模拟的，若要智能此，一个可能的解决方案是增加网络容量[5)。但是交互系统真正走向现实，需要综合解决增量学习4 这个方案面临着两个困难：一方面，大网络的训练难个方面的问题，这是增量学习算法本身的发展趋势。度可能成倍增长：另一方面，如何增加网络容量还不同时也应该结合不同的任务，实现适用于不同明确。因此，应该更加谨慎地增加网络容量，提升网场景、不同侧重点的智能增量学习系统。根据任务络能力。而增量学习则为逐步的、增量的改善网络提本身设计不同的策略实现个性化的应用。这是从应供了一种可能性，当前已经有一些相关的工作对这种用场景来看的增量学习发展趋势。可能性展开了一定的研究9,2-刘]。因此在模型方面当这些发展趋势真正变为现实的时候，智能交来说，面向深度学习的增量学习也是合理的。互系统有望真正走进人类社会，为我们的日常生活 5.3声图文融合的多模态增量学习带来更多帮助，安全、便捷和高效地辅助我们完成更基于智能交互的增量学习系统通过多模态交互多任务

５增量学习未来研究方向展望目前，增量学习在智能交互、物体识别等许多方面都得到了广泛的研究，但由于应用环境远比训练环境更加复杂多变，离智能交互系统真正走出实验室，进入真实应用场景还有一段距离。本文将对增量学习未来的研究方向进行展望。５．１面向大规模数据集的增量学习近年来，随着信息技术的发展，数据呈现爆炸式增长的趋势，这使得模型的训练和更新都变得更加困难并且耗时。在面向大规模数据集时，增量学习的优点尤为突出。一方面，在训练数据规模扩大的同时，训练需要的时间和计算能力都随之增加。当新数据或新类别出现时，非增量的离线方法需要重新训练已经学习过的数据，这会导致资源的浪费。而增量学习方法则可以在原始模型的基础上继续学习，不需要重新训练所有数据。另一方面，非增量方法重新训练全部数据，这也就意味着全部的或绝大部分的数据或都必须保留，当数据量非常庞大时，数据的存储也是一个问题。而增量学习不需要原始数据，所以不需要考虑数据存储的问题。５．２面向深度学习的增量学习深度学习技术被大量应用到图像、视频、文本等多媒体相关的任务上。一方面，深度网络可以直接完成图像分类，物体识别等任务。另一方面，这些任务所产生的标签又可以应用到图像检索相关的任务中。深度网络又可以间接地扩展到其他任务中去。所有这些任务的真实场景中，数据及其标记的总是以增量的方式进行收集的。因此在数据方面来说，面向深度学习的增量学习是合理的。深度学习技术在图像分类任务中的应用取得了快速的进步，它的性能迅速提升。当前限制深度神经网络性能进一步提升的一个可能性是网络容量。因此，一个可能的解决方案是增加网络容量［５１］。但是这个方案面临着两个困难：一方面，大网络的训练难度可能成倍增长；另一方面，如何增加网络容量还不明确。因此，应该更加谨慎地增加网络容量，提升网络能力。而增量学习则为逐步的、增量的改善网络提供了一种可能性，当前已经有一些相关的工作对这种可能性展开了一定的研究［３９，５２－５４］。因此在模型方面来说，面向深度学习的增量学习也是合理的。５．３声图文融合的多模态增量学习基于智能交互的增量学习系统通过多模态交互进行增量学习。由此看来，增量学习的内容也应当是多模态的。智能系统通过多模态交互进行增量学习，反过来，增量学习的结果也会提升多模态交互的性能。听觉、视觉和文字是智能交互系统感知外界环境信息最主要的３种形式。通过声图文融合的增量学习方式，可以使智能交互系统逐步全面地适应不断变化的外界环境。５．４知识条目和识别能力的增量学习现在的大部分研究工作更加关注于独立的视觉概念的识别或是单纯知识条目的增加构建。但实际生活中不同的概念之间具有或隐性或显性的关系，物体也拥有不同的属性。这些概念和属性可以构成关于交互物体、交互者和外界环境的知识条目。人类可以基于这些额外的关系或属性信息学习到更多的知识。智能交互系统也应该利用这些信息进行更全面的学习，对周围环境或任务目标得到一个更加全面的认识。另一个值得关注的方面是，智能交互系统应该能够系统并有效地组织已学习到的知识。文献［５５］指出，将小规模的信息加入到已经组织好的大规模信息中是人类感知，学习，和组织信息等过程中十分重要的部分。因此，智能交互系统应该拥有一个合理的学习机制，并可以自动在学习到的知识间建立合理有效的联系。６结束语目前，增量学习在智能交互、物体识别等许多方面都得到了广泛的研究，由于应用环境远比训练环境更加复杂多变，它更加注重于解决自动学习，改善应用效果的问题。这说明智能交互系统从实验环境逐渐开始走向真实的应用场景。由于不同任务关注方面各不相同，大多数研究工作都无法完全满足增量学习的定义。但真实场景的复杂多变是单一任务目标无法模拟的，若要智能交互系统真正走向现实，需要综合解决增量学习４个方面的问题，这是增量学习算法本身的发展趋势。同时也应该结合不同的任务，实现适用于不同场景、不同侧重点的智能增量学习系统。根据任务本身设计不同的策略实现个性化的应用。这是从应用场景来看的增量学习发展趋势。当这些发展趋势真正变为现实的时候，智能交互系统有望真正走进人类社会，为我们的日常生活带来更多帮助，安全、便捷和高效地辅助我们完成更多任务。 ·１４６· 智能系统学报第１２卷

第2期李雪，等：智能交互的物体识别增量学习技术综述 .147. tion applied to handwritten zip code recognition[.Neural 参考文献： computation,1989,1(4):541-551. [1]ERNST M O,BULTHOFF HH.Merging the senses into a [13]THOMASON J,SINAPOV J,SVETLIK M,et al.Learing robust percept[].Trends in cognitive sciences,2004,8 multi-modal grounded linguistic semantics by playing I spy (4):162-169 [C]//Proceedings of the 25th International Joint Confer- [2]CORRADINI A,MEHTA M,BERNSEN N O,et al.Multi- ence on Artificial Intelligence.New York,2016. modal input fusion in human-computer interaction [J]. [14]LIU C S,CHAI J Y.Learning to mediate perceptual differ- NATO Science Series Sub Series III Computer and Systems ences in situated human-robot dialogue C]//Proceedings Sciences,2005,198:223. of the Twenty-Ninth American Association Conference on [3]NODA K,ARIE H,SUGA Y,et al.Multimodal integration Artificial Intelligence.Austin,Texas:AAAI Press,2015: learning of robot behavior using deep neural networks[J]. 2288-2294. Robotics and autonomous systems,2014,62(6):721-736. [15]PARDE N,HAIR A,PAPAKOSTAS M,et al.Grounding [4]MERICLI C,KLEE S D,PAPARIAN J,et al.An interac- the meaning of words through vision and interactive game- tive approach for situated task specification through verbal play[]].Proceedings of the 24th International Conference instructions[C]//Proceedings of the 2014 international con- on Artificial Intelligence.Buenos Aires,Argentina:AAAl ference on Autonomous agents and multi-agent systems.Par- Press,2015. is,France:International Foundation for Autonomous Agents [16]MATUSZEK C,FITZGERALD N,ZETTLEMOYER L,et and Multiagent Systems,2014:1069-1076. al.A joint model of language and perception for grounded [5]CANTRELL R,BENTON J,TALAMADUPULA K,et al. attribute learning [C]//Proceedings of the 29th Interna- Tell me when and why to do it!Run-time planner model up- tional Conference on Machine Learning.Edinburgh,Scot- dates via natural language instruction[C]//Proceedings of land,2012. the 2012 IEEE International Conference on Human-Robot [17]赵鹏，陈浩，刘慧婷，等.一种基于图的多模态随机游 Interaction.Boston,MA:IEEE,2012:471-478. 走重排序算法[J].哈尔滨工程大学学报，2016,37 [6]THOMASON J,ZHANG S Q,MOONEY R,et al.Learning (10):1387-1393. to interpret natural language commands through human-robot ZHAO Peng,CHEN Hao,LIU Huiting,et al.A multimo- dialog[C]//Proceedings of the 24th international confer- dal graph-based re-ranking through random walk algrithm ence on Artificial Intelligence.Buenos Aires,Argentina: [J].Journal of Harbin Engineering University,2016,37 AAAI Press,2015. (10):1387-1393. [7]EBERHARD K M,NICHOLSON H,SANDRA K,et al. [18]段喜萍，刘家锋，王建华，等.多模态特征联合稀疏表 The Indiana "Cooperative Remote Search Task"(CReST) 示的视频目标跟踪[J].哈尔滨工程大学学报，2015， corpus[C]//Proceedings of the 2010 International Confer- 36(12):1609-1613. ence on Language Resources and Evaluation.Valletta,Mal- DUAN Xiping,LIU Jiafeng,WANG Jianhua,et al.Visual ta:LREC,2010. target tracking via multi-cue joint sparse representation[. [8]LOWE D G.Distinctive image features from scale-invariant Journal of Harbin Engineering University,2015,36(12): keypoints[J].International journal of computer vision, 1609-1613. 2004.60(2):91-110. [19]FISHER J W,DARRELL T.Signal level fusion for multi- [9]MORISSET B,RUSU R B,SUNDARESAN A,et al.Leav- modal perceptual user interface[C]//Proceedings of the ing flatland:toward real-time 3D navigation[C]//Proceed- 2001 Workshop on Perceptive User Interfaces.New York, ings of the 2009 IEEE International Conference on Robotics NY,USA:ACM.2001:1-7. and Automation.Kobe:IEEE,2009:3786-3793. [20]JOHNSTON M,BANGALORE S.Finite-state multimodal [10]HINTERSTOISSER S,HOLZER S,CAGNIART C,et al. parsing and understanding[C]//Proceedings of the 18th Multimodal templates for real-time detection of texture-less conference on Computational linguistics.Saarbrucken, objects in heavily cluttered scenes[C]//Proceedings of the Germany::ACM,2000:369-375. 2011 IEEE International Conference on Computer Vision. [21]BETTERIDGE J,CARLSON A,HONG S A,et al.Toward Barcelona:IEEE,2011:858-865. never ending language learning[C//Proceedings of the A- [11]WANG Anran,LU Jiwen,CAl Jianfei,et al.Large-margin merican Association for Artificial Intelligence.2009:1-2. multi-modal deep learning for RGB-D object recognition [22]CHERNOVA S,THOMAZ A L.Robot learning from hu- [J].IEEE transactions on multimedia,2015,17(11): man teachers[M].San Rafael,CA,USA:IEEE,2014. 1887-1898. [23]MATUSZEK C,BO L F,ZETTLEMOYER L,et al.Learn [12]LECUN Y,BOSER B,DENKER J S,et al.Backpropaga- ing from unscripted deictic gesture and language for hu-

参考文献：［１］ＥＲＮＳＴＭＯ，ＢÜＬＴＨＯＦＦＨＨ．Ｍｅｒｇｉｎｇｔｈｅｓｅｎｓｅｓｉｎｔｏａｒｏｂｕｓｔｐｅｒｃｅｐｔ［Ｊ］．Ｔｒｅｎｄｓｉｎｃｏｇｎｉｔｉｖｅｓｃｉｅｎｃｅｓ，２００４，８（４）：１６２－１６９．［２］ＣＯＲＲＡＤＩＮＩＡ，ＭＥＨＴＡＭ，ＢＥＲＮＳＥＮＮＯ，ｅｔａｌ．Ｍｕｌｔｉ⁃ ｍｏｄａｌｉｎｐｕｔｆｕｓｉｏｎｉｎｈｕｍａｎ⁃ｃｏｍｐｕｔｅｒｉｎｔｅｒａｃｔｉｏｎ［Ｊ］．ＮＡＴＯＳｃｉｅｎｃｅＳｅｒｉｅｓＳｕｂＳｅｒｉｅｓＩＩＩＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍｓＳｃｉｅｎｃｅｓ，２００５，１９８：２２３．［３］ＮＯＤＡＫ，ＡＲＩＥＨ，ＳＵＧＡＹ，ｅｔａｌ．Ｍｕｌｔｉｍｏｄａｌｉｎｔｅｇｒａｔｉｏｎｌｅａｒｎｉｎｇｏｆｒｏｂｏｔｂｅｈａｖｉｏｒｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｒｏｂｏｔｉｃｓａｎｄａｕｔｏｎｏｍｏｕｓｓｙｓｔｅｍｓ，２０１４，６２（６）：７２１－７３６．［４］ＭＥＲＩÇＬＩＣ，ＫＬＥＥＳＤ，ＰＡＰＡＲＩＡＮＪ，ｅｔａｌ．Ａｎｉｎｔｅｒａｃ⁃ ｔｉｖｅａｐｐｒｏａｃｈｆｏｒｓｉｔｕａｔｅｄｔａｓｋｓｐｅｃｉｆｉｃａｔｉｏｎｔｈｒｏｕｇｈｖｅｒｂａｌｉｎｓｔｒｕｃｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎ⁃ ｆｅｒｅｎｃｅｏｎＡｕｔｏｎｏｍｏｕｓａｇｅｎｔｓａｎｄｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓ．Ｐａｒ⁃ ｉｓ，Ｆｒａｎｃｅ：ＩｎｔｅｒｎａｔｉｏｎａｌＦｏｕｎｄａｔｉｏｎｆｏｒＡｕｔｏｎｏｍｏｕｓＡｇｅｎｔｓａｎｄＭｕｌｔｉａｇｅｎｔＳｙｓｔｅｍｓ，２０１４：１０６９－１０７６．［５］ＣＡＮＴＲＥＬＬＲ，ＢＥＮＴＯＮＪ，ＴＡＬＡＭＡＤＵＰＵＬＡＫ，ｅｔａｌ．Ｔｅｌｌｍｅｗｈｅｎａｎｄｗｈｙｔｏｄｏｉｔ！Ｒｕｎ⁃ｔｉｍｅｐｌａｎｎｅｒｍｏｄｅｌｕｐ⁃ ｄａｔｅｓｖｉａｎａｔｕｒａｌｌａｎｇｕａｇｅｉｎｓｔｒｕｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎ⁃ＲｏｂｏｔＩｎｔｅｒａｃｔｉｏｎ．Ｂｏｓｔｏｎ，ＭＡ：ＩＥＥＥ，２０１２：４７１－４７８．［６］ＴＨＯＭＡＳＯＮＪ，ＺＨＡＮＧＳＱ，ＭＯＯＮＥＹＲ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｔｏｉｎｔｅｒｐｒｅｔｎａｔｕｒａｌｌａｎｇｕａｇｅｃｏｍｍａｎｄｓｔｈｒｏｕｇｈｈｕｍａｎ⁃ｒｏｂｏｔｄｉａｌｏｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒ⁃ ｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＢｕｅｎｏｓＡｉｒｅｓ，Ａｒｇｅｎｔｉｎａ：ＡＡＡＩＰｒｅｓｓ，２０１５．［７］ＥＢＥＲＨＡＲＤＫＭ，ＮＩＣＨＯＬＳＯＮＨ，ＳＡＮＤＲＡＫ，ｅｔａｌ．ＴｈｅＩｎｄｉａｎａ “ＣｏｏｐｅｒａｔｉｖｅＲｅｍｏｔｅＳｅａｒｃｈＴａｓｋ” （ＣＲｅＳＴ）ｃｏｒｐｕｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１０ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＬａｎｇｕａｇｅＲｅｓｏｕｒｃｅｓａｎｄＥｖａｌｕａｔｉｏｎ．Ｖａｌｌｅｔｔａ，Ｍａｌ⁃ ｔａ：ＬＲＥＣ，２０１０．［８］ＬＯＷＥＤＧ．Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ⁃ｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，２００４，６０（２）：９１－１１０．［９］ＭＯＲＩＳＳＥＴＢ，ＲＵＳＵＲＢ，ＳＵＮＤＡＲＥＳＡＮＡ，ｅｔａｌ．Ｌｅａｖ⁃ ｉｎｇｆｌａｔｌａｎｄ：ｔｏｗａｒｄｒｅａｌ⁃ｔｉｍｅ３Ｄｎａｖｉｇａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ２００９ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ．Ｋｏｂｅ：ＩＥＥＥ，２００９：３７８６－３７９３．［１０］ＨＩＮＴＥＲＳＴＯＩＳＳＥＲＳ，ＨＯＬＺＥＲＳ，ＣＡＧＮＩＡＲＴＣ，ｅｔａｌ．Ｍｕｌｔｉｍｏｄａｌｔｅｍｐｌａｔｅｓｆｏｒｒｅａｌ⁃ｔｉｍｅｄｅｔｅｃｔｉｏｎｏｆｔｅｘｔｕｒｅ⁃ｌｅｓｓｏｂｊｅｃｔｓｉｎｈｅａｖｉｌｙｃｌｕｔｔｅｒｅｄｓｃｅｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｂａｒｃｅｌｏｎａ：ＩＥＥＥ，２０１１：８５８－８６５．［１１］ＷＡＮＧＡｎｒａｎ，ＬＵＪｉｗｅｎ，ＣＡＩＪｉａｎｆｅｉ，ｅｔａｌ．Ｌａｒｇｅ⁃ｍａｒｇｉｎｍｕｌｔｉ⁃ｍｏｄａｌｄｅｅｐｌｅａｒｎｉｎｇｆｏｒＲＧＢ⁃Ｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｍｕｌｔｉｍｅｄｉａ，２０１５，１７（１１）：１８８７－１８９８．［１２］ＬＥＣＵＮＹ，ＢＯＳＥＲＢ，ＤＥＮＫＥＲＪＳ，ｅｔａｌ．Ｂａｃｋｐｒｏｐａｇａ⁃ ｔｉｏｎａｐｐｌｉｅｄｔｏｈａｎｄｗｒｉｔｔｅｎｚｉｐｃｏｄｅｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，１９８９，１（４）：５４１－５５１．［１３］ＴＨＯＭＡＳＯＮＪ，ＳＩＮＡＰＯＶＪ，ＳＶＥＴＬＩＫＭ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｍｕｌｔｉ⁃ｍｏｄａｌｇｒｏｕｎｄｅｄｌｉｎｇｕｉｓｔｉｃｓｅｍａｎｔｉｃｓｂｙｐｌａｙｉｎｇＩｓｐｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＮｅｗＹｏｒｋ，２０１６．［１４］ＬＩＵＣＳ，ＣＨＡＩＪＹ．Ｌｅａｒｎｉｎｇｔｏｍｅｄｉａｔｅｐｅｒｃｅｐｔｕａｌｄｉｆｆｅｒ⁃ ｅｎｃｅｓｉｎｓｉｔｕａｔｅｄｈｕｍａｎ⁃ｒｏｂｏｔｄｉａｌｏｇｕｅ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｗｅｎｔｙ⁃ＮｉｎｔｈＡｍｅｒｉｃａｎＡｓｓｏｃｉａｔｉｏｎＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ａｕｓｔｉｎ，Ｔｅｘａｓ：ＡＡＡＩＰｒｅｓｓ，２０１５：２２８８－２２９４．［１５］ＰＡＲＤＥＮ，ＨＡＩＲＡ，ＰＡＰＡＫＯＳＴＡＳＭ，ｅｔａｌ．Ｇｒｏｕｎｄｉｎｇｔｈｅｍｅａｎｉｎｇｏｆｗｏｒｄｓｔｈｒｏｕｇｈｖｉｓｉｏｎａｎｄｉｎｔｅｒａｃｔｉｖｅｇａｍｅ⁃ ｐｌａｙ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＢｕｅｎｏｓＡｉｒｅｓ，Ａｒｇｅｎｔｉｎａ：ＡＡＡＩＰｒｅｓｓ，２０１５．［１６］ＭＡＴＵＳＺＥＫＣ，ＦＩＴＺＧＥＲＡＬＤＮ，ＺＥＴＴＬＥＭＯＹＥＲＬ，ｅｔａｌ．Ａｊｏｉｎｔｍｏｄｅｌｏｆｌａｎｇｕａｇｅａｎｄｐｅｒｃｅｐｔｉｏｎｆｏｒｇｒｏｕｎｄｅｄａｔｔｒｉｂｕｔｅｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｅｄｉｎｂｕｒｇｈ，Ｓｃｏｔ⁃ ｌａｎｄ，２０１２．［１７］赵鹏，陈浩，刘慧婷，等．一种基于图的多模态随机游走重排序算法［Ｊ］．哈尔滨工程大学学报，２０１６，３７（１０）：１３８７－１３９３．ＺＨＡＯＰｅｎｇ，ＣＨＥＮＨａｏ，ＬＩＵＨｕｉｔｉｎｇ，ｅｔａｌ．Ａｍｕｌｔｉｍｏ⁃ ｄａｌｇｒａｐｈ⁃ｂａｓｅｄｒｅ⁃ｒａｎｋｉｎｇｔｈｒｏｕｇｈｒａｎｄｏｍｗａｌｋａｌｇｒｉｔｈｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１６，３７（１０）：１３８７－１３９３．［１８］段喜萍，刘家锋，王建华，等．多模态特征联合稀疏表示的视频目标跟踪［Ｊ］．哈尔滨工程大学学报，２０１５，３６（１２）：１６０９－１６１３．ＤＵＡＮＸｉｐｉｎｇ，ＬＩＵＪｉａｆｅｎｇ，ＷＡＮＧＪｉａｎｈｕａ，ｅｔａｌ．Ｖｉｓｕａｌｔａｒｇｅｔｔｒａｃｋｉｎｇｖｉａｍｕｌｔｉ⁃ｃｕｅｊｏｉｎｔｓｐａｒｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１５，３６（１２）：１６０９－１６１３．［１９］ＦＩＳＨＥＲＪＷ，ＤＡＲＲＥＬＬＴ．Ｓｉｇｎａｌｌｅｖｅｌｆｕｓｉｏｎｆｏｒｍｕｌｔｉ⁃ ｍｏｄａｌｐｅｒｃｅｐｔｕａｌｕｓｅｒｉｎｔｅｒｆａｃｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００１ＷｏｒｋｓｈｏｐｏｎＰｅｒｃｅｐｔｉｖｅＵｓｅｒＩｎｔｅｒｆａｃｅｓ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００１：１－７．［２０］ＪＯＨＮＳＴＯＮＭ，ＢＡＮＧＡＬＯＲＥＳ．Ｆｉｎｉｔｅ⁃ｓｔａｔｅｍｕｌｔｉｍｏｄａｌｐａｒｓｉｎｇａｎｄｕｎｄｅｒｓｔａｎｄｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈｃｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ．Ｓａａｒｂｒüｃｋｅｎ，Ｇｅｒｍａｎｙ：ＡＣＭ，２０００：３６９－３７５．［２１］ＢＥＴＴＥＲＩＤＧＥＪ，ＣＡＲＬＳＯＮＡ，ＨＯＮＧＳＡ，ｅｔａｌ．Ｔｏｗａｒｄｎｅｖｅｒｅｎｄｉｎｇｌａｎｇｕａｇｅｌｅａｒｎｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡ⁃ ｍｅｒｉｃａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２００９：１－２．［２２］ＣＨＥＲＮＯＶＡＳ，ＴＨＯＭＡＺＡＬ．Ｒｏｂｏｔｌｅａｒｎｉｎｇｆｒｏｍｈｕ⁃ ｍａｎｔｅａｃｈｅｒｓ［Ｍ］．ＳａｎＲａｆａｅｌ，ＣＡ，ＵＳＡ：ＩＥＥＥ，２０１４．［２３］ＭＡＴＵＳＺＥＫＣ，ＢＯＬＦ，ＺＥＴＴＬＥＭＯＹＥＲＬ，ｅｔａｌ．Ｌｅａｒｎ⁃ ｉｎｇｆｒｏｍｕｎｓｃｒｉｐｔｅｄｄｅｉｃｔｉｃｇｅｓｔｕｒｅａｎｄｌａｎｇｕａｇｅｆｏｒｈｕ⁃ 第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４７·

.148 智能系统学报第12卷 man-robot interactions [C]//Proceedings of the 28th A- 497-508 merican Association Conference on Artificial Intelligence. [33]贾刚，王宗义.混合迁移学习方法在医学图像检索中的 Quebec City,Quebec,Canada:AAAI Press,2014:2556 应用[J刀.哈尔滨工程大学学报，2015,36(7)938- -2563 942. [24]CUAYAHUITL H,DETHLEFS N.Dialogue systems using JIA Gang,WANG Zongyi.The application of mixed migra- online learning:beyond empirical methods[C]//Proceed- tion learning in medical image retrieval[J].Journal of Har- ings of the NAACL-HLT Workshop on Future Directions bin Engineering University,2015,36(7):938-942. and Needs in the Spoken Dialog Community:Tools and [34]ROPING S.Incremental learning with support vector ma- Data.Montreal,Canada:Association for Computational chines[C]//Proceedings of the 2011 IEEE International Linguistics,2012:7-8. Conference on Data Mining.Washington,DC,USA: 「25]顾海巍，樊绍巍，金明河，等.基于灵巧手触觉信息的 EEE,2001:641. 未知物体类人探索策略[J].哈尔滨工程大学学报， [35]CAUWENBERGHS G,POGGIO T.Incremental and decre- 2016,37(10):1400-1407. mental support vector machine learning[C]//Proceedings GU Haiwei,FAN Shaowei,JIN Minghe,et al.An anthro- of the 13th International Conference on Advances in neural pomorphic exploration strategy of unknown object based on information processing systems.Cambridge,MA,USA: haptic information of dexterous robot hand[J].Journal of MIT Press,2000,13:409. Harbin Engineering University,2016,37(10):1400- [36]JORDAN M I.JACOBS R A.Hierarchical mixtures of ex- 1407. perts and the EM algorithm [J].Neural computation, [26]KEIZER S,FOSTER M E,WANG Z R,et al.Machine 1994,6(2):181-214. learning for social multiparty human-robot interaction[]. [37]WANG E H C,KUH A.A smart algorithm for incremental ACM transactions on interactive intelligent systems (TI- learning[C]//Proceedings of the 1992 IEEE International IS),2014,4(3):14. Joint Conference on Neural Networks.Baltimore:IEEE, [27]BOHUS D,SAW C W,HORVITZ E.Directions robot:In- 1992.3:121-126. the-wild experiences and lessons learned[C]//Proceedings [38]ENGELBRECHT A P,CLOETE I.Incremental learning u- of the 2014 International Conference on Autonomous A- sing sensitivity analysis[C]//Proceedings of the 1999 In- gents and Multi-agent Systems.Richland,SC,2014:637- ternational Joint Conference on Neural Networks.Washing. 644. ton DC:IEEE,1999. [28]KRAUSE E A.ZILLICH M,WILLIAMS T E,et al. [39]ZHANG B T.An incremental learning algorithm that opti- Learning to recognize novel objects in one shot through hu- mizes network size and sample size in one trial[C]//Pro- man-robot interactions in natural language dialogues[C]// ceedings of the 1994 IEEE World Congress on Computa- Proceedings of the 28th American Association Conference tional Intelligence.Orlando,FL,USA:IEEE,1994,1: on Artificial Intelligence.Quebec City,Quebec,Canada: 215-220. AAAI Press,2014:2796-2802. [40]LI FF,FERGUS R,PERONA P.One-shot learning of ob- [29]MENSINK T,VERBEEK J J,PERRONNIN F,et al.Dis- ject categories[]].IEEE transactions on pattern analysis tance-based image classification:generalizing to new clas- and machine intelligence,2006,28(4):594-611. ses at near-zero cost[J].IEEE transactions on pattern a- [41]TOMMASI T,ORABONA F,CAPUTO B.Learning cate- nalysis and machine intelligence,2013,35(11):2624- gories from few examples with multi model knowledge 2637. transfer[J].IEEE transactions on pattern analysis and ma- [30]IBA W,WOGULIS J,LANGLEY P A T.Trading off sim- chine intelligence,2014,36(5):928-941. plicity and coverage in incremental concept learning[C]/ [42]LAMPERT C H,NICKISCH H,HARMELING S.Learning Proceedings of the Fifth International Conference on Ma- to detect unseen object classes by between-class attribute chine Learning.Ann Arbor:University of Michigan,1988: transfer[C]//Proceedings of the 2009 IEEE Conference on 73. Computer Vision and Pattern Recognition.Miami,FL: [31]GROSSBERG S.Nonlinear neural networks:Principles, IEEE,2009:951-958. mechanisms,and architectures[J].Neural networks, [43]KUZBORSKIJ 1,ORABONA F,CAPUTO B.From N to N 1988,1(1):17-61. 1:Multiclass transfer incremental learning C//Pro- [32]POLIKAR R,UPDA L,UPDA SS,et al.Learn++:An ceedings of the 2013 IEEE Conference on Computer Vision incremental learning algorithm for supervised neural net- and Pattern Recognition.Portland,OR:IEEE,2013: works[J].IEEE transactions on systems,man,and cyber- 3358-3365 netics,part C Applications and reviews),2001,31(4): [44]RISTIN M,GUILLAUMIN M,GALL J,et al.Incremental

ｍａｎ⁃ｒｏｂｏｔｉｎｔｅｒａｃｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡ⁃ ｍｅｒｉｃａｎＡｓｓｏｃｉａｔｉｏｎＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＱｕéｂｅｃＣｉｔｙ，Ｑｕéｂｅｃ，Ｃａｎａｄａ：ＡＡＡＩＰｒｅｓｓ，２０１４：２５５６－２５６３．［２４］ＣＵＡＹÁＨＵＩＴＬＨ，ＤＥＴＨＬＥＦＳＮ．Ｄｉａｌｏｇｕｅｓｙｓｔｅｍｓｕｓｉｎｇｏｎｌｉｎｅｌｅａｒｎｉｎｇ：ｂｅｙｏｎｄｅｍｐｉｒｉｃａｌｍｅｔｈｏｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅＮＡＡＣＬ⁃ＨＬＴＷｏｒｋｓｈｏｐｏｎＦｕｔｕｒｅＤｉｒｅｃｔｉｏｎｓａｎｄＮｅｅｄｓｉｎｔｈｅＳｐｏｋｅｎＤｉａｌｏｇＣｏｍｍｕｎｉｔｙ：ＴｏｏｌｓａｎｄＤａｔａ．Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２０１２：７－８．［２５］顾海巍，樊绍巍，金明河，等．基于灵巧手触觉信息的未知物体类人探索策略［Ｊ］．哈尔滨工程大学学报，２０１６，３７（１０）：１４００－１４０７．ＧＵＨａｉｗｅｉ，ＦＡＮＳｈａｏｗｅｉ，ＪＩＮＭｉｎｇｈｅ，ｅｔａｌ．Ａｎａｎｔｈｒｏ⁃ ｐｏｍｏｒｐｈｉｃｅｘｐｌｏｒａｔｉｏｎｓｔｒａｔｅｇｙｏｆｕｎｋｎｏｗｎｏｂｊｅｃｔｂａｓｅｄｏｎｈａｐｔｉｃｉｎｆｏｒｍａｔｉｏｎｏｆｄｅｘｔｅｒｏｕｓｒｏｂｏｔｈａｎｄ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１６，３７（１０）：１４００－１４０７．［２６］ＫＥＩＺＥＲＳ，ＦＯＳＴＥＲＭＥ，ＷＡＮＧＺＲ，ｅｔａｌ．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｓｏｃｉａｌｍｕｌｔｉｐａｒｔｙｈｕｍａｎ⁃ｒｏｂｏｔｉｎｔｅｒａｃｔｉｏｎ［Ｊ］．ＡＣＭｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｒａｃｔｉｖｅｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ（ＴＩ⁃ ＩＳ），２０１４，４（３）：１４．［２７］ＢＯＨＵＳＤ，ＳＡＷＣＷ，ＨＯＲＶＩＴＺＥ．Ｄｉｒｅｃｔｉｏｎｓｒｏｂｏｔ：Ｉｎ⁃ ｔｈｅ⁃ｗｉｌｄｅｘｐｅｒｉｅｎｃｅｓａｎｄｌｅｓｓｏｎｓｌｅａｒｎｅｄ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｎｏｍｏｕｓＡ⁃ ｇｅｎｔｓａｎｄＭｕｌｔｉ⁃ａｇｅｎｔＳｙｓｔｅｍｓ．Ｒｉｃｈｌａｎｄ，ＳＣ，２０１４：６３７－６４４．［２８］ＫＲＡＵＳＥＥＡ，ＺＩＬＬＩＣＨＭ，ＷＩＬＬＩＡＭＳＴＥ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｔｏｒｅｃｏｇｎｉｚｅｎｏｖｅｌｏｂｊｅｃｔｓｉｎｏｎｅｓｈｏｔｔｈｒｏｕｇｈｈｕ⁃ ｍａｎ⁃ｒｏｂｏｔｉｎｔｅｒａｃｔｉｏｎｓｉｎｎａｔｕｒａｌｌａｎｇｕａｇｅｄｉａｌｏｇｕｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＡｍｅｒｉｃａｎＡｓｓｏｃｉａｔｉｏｎＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＱｕéｂｅｃＣｉｔｙ，Ｑｕéｂｅｃ，Ｃａｎａｄａ：ＡＡＡＩＰｒｅｓｓ，２０１４：２７９６－２８０２．［２９］ＭＥＮＳＩＮＫＴ，ＶＥＲＢＥＥＫＪＪ，ＰＥＲＲＯＮＮＩＮＦ，ｅｔａｌ．Ｄｉｓ⁃ ｔａｎｃｅ⁃ｂａｓｅｄｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ：ｇｅｎｅｒａｌｉｚｉｎｇｔｏｎｅｗｃｌａｓ⁃ ｓｅｓａｔｎｅａｒ⁃ｚｅｒｏｃｏｓｔ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａ⁃ ｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１３，３５（１１）：２６２４－２６３７．［３０］ＩＢＡＷ，ＷＯＧＵＬＩＳＪ，ＬＡＮＧＬＥＹＰＡＴ．Ｔｒａｄｉｎｇｏｆｆｓｉｍ⁃ ｐｌｉｃｉｔｙａｎｄｃｏｖｅｒａｇｅｉｎｉｎｃｒｅｍｅｎｔａｌｃｏｎｃｅｐｔｌｅａｒｎｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｆｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａ⁃ ｃｈｉｎｅＬｅａｒｎｉｎｇ．ＡｎｎＡｒｂｏｒ：ＵｎｉｖｅｒｓｉｔｙｏｆＭｉｃｈｉｇａｎ，１９８８：７３．［３１］ＧＲＯＳＳＢＥＲＧＳ．Ｎｏｎｌｉｎｅａｒｎｅｕｒａｌｎｅｔｗｏｒｋｓ：Ｐｒｉｎｃｉｐｌｅｓ，ｍｅｃｈａｎｉｓｍｓ，ａｎｄａｒｃｈｉｔｅｃｔｕｒｅｓ［Ｊ］．Ｎｅｕｒａｌｎｅｔｗｏｒｋｓ，１９８８，１（１）：１７－６１．［３２］ＰＯＬＩＫＡＲＲ，ＵＰＤＡＬ，ＵＰＤＡＳＳ，ｅｔａｌ．Ｌｅａｒｎ＋＋：Ａｎｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｓｕｐｅｒｖｉｓｅｄｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｓｙｓｔｅｍｓ，ｍａｎ，ａｎｄｃｙｂｅｒ⁃ ｎｅｔｉｃｓ，ｐａｒｔＣ（Ａｐｐｌｉｃａｔｉｏｎｓａｎｄｒｅｖｉｅｗｓ），２００１，３１（４）：４９７－５０８．［３３］贾刚，王宗义．混合迁移学习方法在医学图像检索中的应用［Ｊ］．哈尔滨工程大学学报，２０１５，３６（７）：９３８－９４２．ＪＩＡＧａｎｇ，ＷＡＮＧＺｏｎｇｙｉ．Ｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｍｉｘｅｄｍｉｇｒａ⁃ ｔｉｏｎｌｅａｒｎｉｎｇｉｎｍｅｄｉｃａｌｉｍａｇｅｒｅｔｒｉｅｖａｌ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒ⁃ ｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１５，３６（７）：９３８－９４２．［３４］ＲÜＰＩＮＧＳ．Ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａ⁃ ｃｈｉｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ：ＩＥＥＥ，２００１：６４１．［３５］ＣＡＵＷＥＮＢＥＲＧＨＳＧ，ＰＯＧＧＩＯＴ．Ｉｎｃｒｅｍｅｎｔａｌａｎｄｄｅｃｒｅ⁃ ｍｅｎｔａｌｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ．Ｃａｍｂｒｉｄｇｅ，ＭＡ，ＵＳＡ：ＭＩＴＰｒｅｓｓ，２０００，１３：４０９．［３６］ＪＯＲＤＡＮＭＩ，ＪＡＣＯＢＳＲＡ．Ｈｉｅｒａｒｃｈｉｃａｌｍｉｘｔｕｒｅｓｏｆｅｘ⁃ ｐｅｒｔｓａｎｄｔｈｅＥＭａｌｇｏｒｉｔｈｍ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，１９９４，６（２）：１８１－２１４．［３７］ＷＡＮＧＥＨＣ，ＫＵＨＡ．Ａｓｍａｒｔａｌｇｏｒｉｔｈｍｆｏｒｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９２ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｂａｌｔｉｍｏｒｅ：ＩＥＥＥ，１９９２，３：１２１－１２６．［３８］ＥＮＧＥＬＢＲＥＣＨＴＡＰ，ＣＬＯＥＴＥＩ．Ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｕ⁃ ｓｉｎｇｓｅｎｓｉｔｉｖｉｔｙａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９９Ｉｎ⁃ ｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｗａｓｈｉｎｇ⁃ ｔｏｎＤＣ：ＩＥＥＥ，１９９９．［３９］ＺＨＡＮＧＢＴ．Ａｎｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｔｈａｔｏｐｔｉ⁃ ｍｉｚｅｓｎｅｔｗｏｒｋｓｉｚｅａｎｄｓａｍｐｌｅｓｉｚｅｉｎｏｎｅｔｒｉａｌ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９４ＩＥＥＥＷｏｒｌｄＣｏｎｇｒｅｓｓｏｎＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｏｒｌａｎｄｏ，ＦＬ，ＵＳＡ：ＩＥＥＥ，１９９４，１：２１５－２２０．［４０］ＬＩＦＦ，ＦＥＲＧＵＳＲ，ＰＥＲＯＮＡＰ．Ｏｎｅ⁃ｓｈｏｔｌｅａｒｎｉｎｇｏｆｏｂ⁃ ｊｅｃｔｃａｔｅｇｏｒｉｅｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００６，２８（４）：５９４－６１１．［４１］ＴＯＭＭＡＳＩＴ，ＯＲＡＢＯＮＡＦ，ＣＡＰＵＴＯＢ．Ｌｅａｒｎｉｎｇｃａｔｅ⁃ ｇｏｒｉｅｓｆｒｏｍｆｅｗｅｘａｍｐｌｅｓｗｉｔｈｍｕｌｔｉｍｏｄｅｌｋｎｏｗｌｅｄｇｅｔｒａｎｓｆｅｒ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａ⁃ ｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１４，３６（５）：９２８－９４１．［４２］ＬＡＭＰＥＲＴＣＨ，ＮＩＣＫＩＳＣＨＨ，ＨＡＲＭＥＬＩＮＧＳ．Ｌｅａｒｎｉｎｇｔｏｄｅｔｅｃｔｕｎｓｅｅｎｏｂｊｅｃｔｃｌａｓｓｅｓｂｙｂｅｔｗｅｅｎ⁃ｃｌａｓｓａｔｔｒｉｂｕｔｅｔｒａｎｓｆｅｒ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００９ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｍｉａｍｉ，ＦＬ：ＩＥＥＥ，２００９：９５１－９５８．［４３］ＫＵＺＢＯＲＳＫＩＪＩ，ＯＲＡＢＯＮＡＦ，ＣＡＰＵＴＯＢ．ＦｒｏｍＮｔｏＮ＋１：Ｍｕｌｔｉｃｌａｓｓｔｒａｎｓｆｅｒｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｏｒｔｌａｎｄ，ＯＲ：ＩＥＥＥ，２０１３：３３５８－３３６５．［４４］ＲＩＳＴＩＮＭ，ＧＵＩＬＬＡＵＭＩＮＭ，ＧＡＬＬＪ，ｅｔａｌ．Ｉｎｃｒｅｍｅｎｔａｌ ·１４８· 智能系统学报第１２卷

第2期李雪，等：智能交互的物体识别增量学习技术综述 .149. learning of NCM forests for large-scale image classification [52]LOMONACO V,MALTONI D.Comparing incremental [C]//Proceedings of the 2014 IEEE Conference on Com- learning strategies for convolutional neural networks puter Vision and Pattern Recognition.Columbus,OH: [M]//SCHWENKER F,ABBAS H,EL GAYAR N,et EEE.2014:3654-3661. al,eds.Artificial Neural Networks in Pattern Recognition. [45]DA Qing,YU Yang,ZHOU Zhihua.Learning with aug- ANNPR 2016.Lecture Notes in Computer Science. mented class by exploiting unlabeled data[C]//Proceed- Cham:Springer,2016. ings of the 28th American Association Conference on Artifi- [53]GRIPPO L.Convergent on-line algorithms for supervised cial Intelligence.Quebec,Canada:AAAI Press,2014: learning in neural networks[J].IEEE transactions on neu- 1760-1766. ral networks,2000,11(6):1284-1299. [46]CARPENTER G A,GROSSBERG S,REYNOLDS J H. [54]FU Limin,HSU HH,PRINCIPE J C.Incremental back- ARTMAP:Supervised real-time learning and classification propagation learning networks[J].IEEE transactions on of nonstationary data by a self-organizing neural network neural networks,1996,7(3):757-761. [J].Neural networks,1991,.4(5):565-588. [55]GOBET F,LANE P C R.CROKER S,et al.Chunking [47]VIJAYAKUMAR S,OGAWA H.RKHS-based functional mechanisms in human learning[J].Trends in cognitive analysis for exact incremental learning[J].Neurocomput- 8 ciences,2001,5(6):236-243. ing,1999,29(1/2/3):85-113. 作者简介： [48]KARASUYAMA M,TAKEUCHI I.Multiple incremental 李雪，女，1992年生，硕士研究生， decremental learning of support vector machines[J].IEEE 主要研究方向为智能信息处理与机器 transactions on neural networks archive,2010,21(7): 学习。 1048-1059. [49]GRETTON A,DESOBRY F.On-line one-class support vector machines.an application to signal segmentation [C]//Proceedings of the 2003 IEEE International Confer- 蒋树强，男，1977年生，博士生导 ence on Acoustics,Speech,and Signal Processing.Hong 师，主要研究方向为图像/视频等多媒 Kong,China:IEEE,2003. 体信息的分析、理解与检索技术。EEE [50]LASKOV P,GEHL C,KRUGER et al.Incremental 和CCF高级会员，发表学术论文100余 support vector learning:Analysis,implementation and ap- 篇，授权专利10项。 plications[J].The Journal of machine learning research archive,2006,7:1909-1936. [51]XIAO Tianjun,ZHANG Jiaxing,YANG Kuiyuan,et al. Error-driven incremental learning in deep convolutional neural network for large-scale image classification [C]// Proceedings of the 22nd ACM international conference on Multimedia.New York,NY:ACM,2014:177-186

和ＣＣＦ高级会员，发表学术论文１００余ｌｅａｒｎｉｎｇｏｆＮＣＭｆｏｒｅｓｔｓｆｏｒｌａｒｇｅ⁃ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍ⁃ ｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｃｏｌｕｍｂｕｓ，ＯＨ：ＩＥＥＥ，２０１４：３６５４－３６６１．［４５］ＤＡＱｉｎｇ，ＹＵＹａｎｇ，ＺＨＯＵＺｈｉｈｕａ．Ｌｅａｒｎｉｎｇｗｉｔｈａｕｇ⁃ ｍｅｎｔｅｄｃｌａｓｓｂｙｅｘｐｌｏｉｔｉｎｇｕｎｌａｂｅｌｅｄｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ２８ｔｈＡｍｅｒｉｃａｎＡｓｓｏｃｉａｔｉｏｎＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉ⁃ ｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｑｕéｂｅｃ，Ｃａｎａｄａ：ＡＡＡＩＰｒｅｓｓ，２０１４：１７６０－１７６６．［４６］ＣＡＲＰＥＮＴＥＲＧＡ，ＧＲＯＳＳＢＥＲＧＳ，ＲＥＹＮＯＬＤＳＪＨ．ＡＲＴＭＡＰ：Ｓｕｐｅｒｖｉｓｅｄｒｅａｌ⁃ｔｉｍｅｌｅａｒｎｉｎｇａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｎｏｎｓｔａｔｉｏｎａｒｙｄａｔａｂｙａｓｅｌｆ⁃ｏｒｇａｎｉｚｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｊ］．Ｎｅｕｒａｌｎｅｔｗｏｒｋｓ，１９９１，４（５）：５６５－５８８．［４７］ＶＩＪＡＹＡＫＵＭＡＲＳ，ＯＧＡＷＡＨ．ＲＫＨＳ⁃ｂａｓｅｄｆｕｎｃｔｉｏｎａｌａｎａｌｙｓｉｓｆｏｒｅｘａｃｔｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔ⁃ ｉｎｇ，１９９９，２９（１／２／３）：８５－１１３．［４８］ＫＡＲＡＳＵＹＡＭＡＭ，ＴＡＫＥＵＣＨＩＩ．Ｍｕｌｔｉｐｌｅｉｎｃｒｅｍｅｎｔａｌｄｅｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｏｆｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒｃｈｉｖｅ，２０１０，２１（７）：１０４８－１０５９．［４９］ＧＲＥＴＴＯＮＡ，ＤＥＳＯＢＲＹＦ．Ｏｎ⁃ｌｉｎｅｏｎｅ⁃ｃｌａｓｓｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ．ａｎａｐｐｌｉｃａｔｉｏｎｔｏｓｉｇｎａｌｓｅｇｍｅｎｔａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ：ＩＥＥＥ，２００３．［５０］ＬＡＳＫＯＶＰ，ＧＥＨＬＣ，ＫＲÜＧＥＲＳ，ｅｔａｌ．Ｉｎｃｒｅｍｅｎｔａｌｓｕｐｐｏｒｔｖｅｃｔｏｒｌｅａｒｎｉｎｇ：Ａｎａｌｙｓｉｓ，ｉｍｐｌｅｍｅｎｔａｔｉｏｎａｎｄａｐ⁃ ｐｌｉｃａｔｉｏｎｓ［Ｊ］．ＴｈｅＪｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈａｒｃｈｉｖｅ，２００６，７：１９０９－１９３６．［５１］ＸＩＡＯＴｉａｎｊｕｎ，ＺＨＡＮＧＪｉａｘｉｎｇ，ＹＡＮＧＫｕｉｙｕａｎ，ｅｔａｌ．Ｅｒｒｏｒ⁃ｄｒｉｖｅｎｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｉｎｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｌａｒｇｅ⁃ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄＡＣＭｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ，ＮＹ：ＡＣＭ，２０１４：１７７－１８６．［５２］ＬＯＭＯＮＡＣＯＶ，ＭＡＬＴＯＮＩＤ．Ｃｏｍｐａｒｉｎｇｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｓｔｒａｔｅｇｉｅｓｆｏｒｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｍ］／／ＳＣＨＷＥＮＫＥＲＦ，ＡＢＢＡＳＨ，ＥＬＧＡＹＡＲＮ，ｅｔａｌ，ｅｄｓ．ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｉｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＡＮＮＰＲ２０１６．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ．Ｃｈａｍ：Ｓｐｒｉｎｇｅｒ，２０１６．［５３］ＧＲＩＰＰＯＬ．Ｃｏｎｖｅｒｇｅｎｔｏｎ⁃ｌｉｎｅａｌｇｏｒｉｔｈｍｓｆｏｒｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕ⁃ ｒａｌｎｅｔｗｏｒｋｓ，２０００，１１（６）：１２８４－１２９９．［５４］ＦＵＬｉｍｉｎ，ＨＳＵＨＨ，ＰＲＩＮＣＩＰＥＪＣ．Ｉｎｃｒｅｍｅｎｔａｌｂａｃｋ⁃ ｐｒｏｐａｇａｔｉｏｎｌｅａｒｎｉｎｇｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ，１９９６，７（３）：７５７－７６１．［５５］ＧＯＢＥＴＦ，ＬＡＮＥＰＣＲ，ＣＲＯＫＥＲＳ，ｅｔａｌ．Ｃｈｕｎｋｉｎｇｍｅｃｈａｎｉｓｍｓｉｎｈｕｍａｎｌｅａｒｎｉｎｇ［Ｊ］．Ｔｒｅｎｄｓｉｎｃｏｇｎｉｔｉｖｅｓｃｉｅｎｃｅｓ，２００１，５（６）：２３６－２４３．作者简介：李雪，女，１９９２年生，硕士研究生，主要研究方向为智能信息处理与机器学习。蒋树强，男，１９７７年生，博士生导师，主要研究方向为图像／视频等多媒体信息的分析、理解与检索技术。ＩＥＥＥ第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４９· 篇，授权专利１０项

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录