第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992/tis.201911007 大数据智能:从数据拟合最优解到博弈对抗均衡解 蒋胤傑2,况琨2,吴飞2 (1.浙江大学计算机科学与技术学院,浙江杭州310027,2.浙江大学人工智能研究所,浙江杭州310027) 摘要:数据驱动的机器学习(特别是深度学习)在自然语言处理、计算机视觉分析和语音识别等领域取得了 巨大进展,是人工智能研究的热点。但是传统机器学习是通过各种优化算法拟合训练数据集上的最优模型,即 在模型上的平均损失最小,而在现实生活的很多问题(如商业竞拍、资源分配等)中,人工智能算法学习的目标 应该是是均衡解,即在动态情况下也有较好效果。这就需要将博弈的思想应用于大数据智能。通过蒙特卡洛 树搜索和强化学习等方法,可以将博弈与人工智能相结合,寻求博弈对抗模型的均衡解。从数据拟合的最优解 到博弈对抗的均衡解能让大数据智能有更广阔的应用空间。 关键词:人工智能:大数据:最优拟合;神经网络结构搜索;博弈论;纳什均衡 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)01-0175-08 中文引用格式:蒋胤傑,况琨,吴飞.大数据智能:从数据拟合最优解到博奔对抗均衡解.智能系统学报,2020,15(1)归 175-182. 英文引用格式:JIANG Yinjie,KUANGKun,WU Fei.Big data intelligence:from the optimal solution of data fitting to the equilib- rium solution of game theory[JI.CAAI transactions on intelligent systems,2020,15(1):175-182. Big data intelligence:from the optimal solution of data fitting to the equilibrium solution of game theory JIANG Yinjie2,KUANG Kun'2,WU Fei2 (1.College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China;2.Institute of Artificial Intelli- gence,Zhejiang University,Hangzhou 310027,China) Abstract:Data-driven machine learning (especially deep learning),which is a hot topic in artificial intelligence re- search,has made great progress in the fields of natural language processing,computer vision analysis and speech recog- nition,etc.The optimization of parameters in traditional machine learning can be regarded as the process of data fitting, the optimal model on the training data set is fitted by various optimization algorithms.However,in real applications such as commodity bidding and resource allocation,the target of artificial intelligence algorithm is not an optimal solu- tion,but an equilibrium solution,which requires the application of the game theory to big data intelligence.Combining game theory with artificial intelligence can expand the application space of big data intelligence. Keywords:artificial intelligence,big data;optimal fitting,neural network architecture search;game theory;Nash equilibrium 自从AlexNet!在2012年的ImageNet Large 深度学习是一种有标注的大数据驱动下,拟合给 Scale Visual Recognition Challenge(ILSVRC) 定数据最优模型的学习方法。这种数据拟合的思 中大放异彩之后,深度学习成为了大数据智能领 想在解决单一任务中取得了较好性能,但是在不 域的一个研究热点。此后,神经网络的结构不断 同数据集上应用相同模型时,或多或少的会对模 地更新,其规模也越来越大,但是从总体上来说, 型的超参数进行一定的改变。如何自动化地针对 问题对模型进行适应性的改进仍是一个难题。 收稿日期:2019-11-11 将深度学习模型应用于实际场景中,当采集 基金项目:国家自然科学基金人工智能基础研究应急管理项 到的数据与数据集的数据有较大的差别时,这种 目(61751209). 通信作者:蒋胤傑.E-mail:jiangyinjic(@zju.edu.cn. 基于数据拟合的最优解方法可能会失效。针对
DOI: 10.11992/tis.201911007 大数据智能:从数据拟合最优解到博弈对抗均衡解 蒋胤傑1,2,况琨1,2,吴飞1,2 (1. 浙江大学 计算机科学与技术学院,浙江 杭州 310027; 2. 浙江大学 人工智能研究所,浙江 杭州 310027) 摘 要:数据驱动的机器学习(特别是深度学习)在自然语言处理、计算机视觉分析和语音识别等领域取得了 巨大进展,是人工智能研究的热点。但是传统机器学习是通过各种优化算法拟合训练数据集上的最优模型,即 在模型上的平均损失最小,而在现实生活的很多问题(如商业竞拍、资源分配等)中,人工智能算法学习的目标 应该是是均衡解,即在动态情况下也有较好效果。这就需要将博弈的思想应用于大数据智能。通过蒙特卡洛 树搜索和强化学习等方法,可以将博弈与人工智能相结合,寻求博弈对抗模型的均衡解。从数据拟合的最优解 到博弈对抗的均衡解能让大数据智能有更广阔的应用空间。 关键词:人工智能;大数据;最优拟合;神经网络结构搜索;博弈论;纳什均衡 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)01−0175−08 中文引用格式:蒋胤傑, 况琨, 吴飞. 大数据智能:从数据拟合最优解到博弈对抗均衡解 [J]. 智能系统学报, 2020, 15(1): 175–182. 英文引用格式:JIANG Yinjie, KUANG Kun, WU Fei. Big data intelligence: from the optimal solution of data fitting to the equilibrium solution of game theory[J]. CAAI transactions on intelligent systems, 2020, 15(1): 175–182. Big data intelligence: from the optimal solution of data fitting to the equilibrium solution of game theory JIANG Yinjie1,2 ,KUANG Kun1,2 ,WU Fei1,2 (1. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China; 2. Institute of Artificial Intelligence, Zhejiang University, Hangzhou 310027, China) Abstract: Data-driven machine learning (especially deep learning), which is a hot topic in artificial intelligence research, has made great progress in the fields of natural language processing, computer vision analysis and speech recognition, etc. The optimization of parameters in traditional machine learning can be regarded as the process of data fitting, the optimal model on the training data set is fitted by various optimization algorithms. However, in real applications such as commodity bidding and resource allocation, the target of artificial intelligence algorithm is not an optimal solution, but an equilibrium solution, which requires the application of the game theory to big data intelligence. Combining game theory with artificial intelligence can expand the application space of big data intelligence. Keywords: artificial intelligence; big data; optimal fitting; neural network architecture search; game theory; Nash equilibrium 自从 AlexNet[1] 在 2012 年的 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)[2] 比赛 中大放异彩之后,深度学习成为了大数据智能领 域的一个研究热点。此后,神经网络的结构不断 地更新,其规模也越来越大,但是从总体上来说, 深度学习是一种有标注的大数据驱动下,拟合给 定数据最优模型的学习方法。这种数据拟合的思 想在解决单一任务中取得了较好性能,但是在不 同数据集上应用相同模型时,或多或少的会对模 型的超参数进行一定的改变。如何自动化地针对 问题对模型进行适应性的改进仍是一个难题。 将深度学习模型应用于实际场景中,当采集 到的数据与数据集的数据有较大的差别时,这种 基于数据拟合的最优解方法可能会失效[3]。针对 收稿日期:2019−11−11. 基金项目:国家自然科学基金人工智能基础研究应急管理项 目 (61751209). 通信作者:蒋胤傑. E-mail:jiangyinjie@zju.edu.cn. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·176· 智能系统学报 第15卷 模型的对抗样本攻击也证明了这一点。另一方 经元之间的连接方式可以是简单的链式堆叠,也 面,真实世界的数据反映了复杂的社会现象,数 可以是有分支的有向无环图结构。 据拟合的单纯方法难以刻画真实世界中商品竞拍 1.1.2深度学习的参数优化 和博弈对抗等行为。这样,盲目增加模型复杂度 深度学习中优化的参数主要是每个神经元链 只会对数据集“过拟合”,而不会真正提升模型在 接权重大小。在深度学习的模型中,通过不同神 现实世界中的表现。产生这种现象的一个重要原 经元的线性组合以及非线性激活函数输出预测结 因是训练好的模型很难在实际使用中根据现实情 果,并计算预测结果与真实标签的误差,再将误 况的差异做出调整。在这种情况下,对于复杂问 差利用反向传播算法,对参数进行优化。此外, 题,机器学习不应只关注于求解数据拟合的最优 为了防止过拟合,在优化参数时常常会在误差项 解,而应该从博弈的角度出发,通过寻找问题的 后对参数施以一定约束(如参数稀疏等)。记深度 均衡解,找到不同场合下适用的求解方法。博弈 学习的神经网络模型为F,则第i个训练数据x:对 论虽然是经济学的一个分支,但是自现代博弈论 应的预测输出结果为F(x),若这个数据对应的真 创立之初,其就与计算机科学产生了千丝万缕的 实标签为y,则对这个训练数据的误差记作 联系,近年来更是与人工智能相结合,在围棋、德 Loss(F(x),y),对于不同的问题可以采用不同的损 州扑克、星际争霸等游戏中战胜人类选手6。 失函数来计算误差,最终优化的目标就是在数据 1深度学习中的最优解拟合 全集上最小化损失函数。假设训练数据集中共 有N个训练样本,优化目标可以表示为 1.1深度学习的数据拟合 1.1.1从浅层学习到深度学习 min(∑Los(F(x),)) 神经网络最初的研究可以追潮到20世纪 在进行参数优化的过程中,由于训练数据的 50年代所提出的“感知机”模型四,这是一种根据 规模通常较大,所以需要将训练数据分批计算损 生物神经细胞信号传导过程而设计的学习模型。 失函数,再将每一批数据的误差反向传播,应用 神经网络被普遍应用于机器学习等领域是在误差 梯度下降法6对参数进行优化。对于神经网络 反向传播算法01被提出后,这一算法使得具有 模型中的待优化参数,在梯度下降的每一步中 拟合非线性函数能力的“多层感知机“模型的参数 参数都会如下优化更新: 可以通过反向传播算法进行优化。此后类似多层 oloss 感知机的一系列浅层学习的机器学习算法被提 waew=w-刀X 出,包括支持向量机1]和Boosting!等方法。浅 式中:1oss表示由一批训练数据计算所得误差; 层学习往往需要人工定义和构造特征,难以完成 ”表示学习率,是一个模型训练的超参数,表示根 端到端的训练过程。 据每批训练数据进行优化的步长。 2006年,Hinton等首次提出了深度学习的 可以看出,即使利用梯度下降法,在模型参数 概念。深度学习是一种端到端学习(end-to-end 较多和训练数据规模较大的情况下,深度学习的 learning)的机制,在给定输人数据后,可以自动提 数据拟合是一个非常缓慢的过程,尤其是近年来 取其最具区别力的特征,挖掘数据内部的隐含关 神经网络的规模越来越大,例如在自然语言领域 系。此后,深度学习在许多大规模数据上进行的 表现优秀的模型BERT,就有1.1×103.4×108个 实验都表现出了远超过浅层学习的效果,深度学 训练参数7。 习逐步成为当下人工智能的研究热点。 1.2深度学习中的超参数 深度学习的基础仍然是人工神经网络,一个 1.2.1深度学习模型的人工设计 深度学习的模型由多个神经元叠加构成。对于单 随着深度学习在各个领域大放异彩,人们提 个神经元,其输入向量记为a=[a,a2,…,anJ,神 出了大量不同的深度学习模型。但是归根结底, 经元的参数记为w=[w1,w2,…,wJ,神经元内使 深度学习模型可以优化的主要参数为神经元之间 用的非线性激活函数为g,则这个神经元的输 链接权重向量,除此之外神经元之间的连接方式 出为 均通过人工设计完成。目前最广泛使用的两种基 f(a)=g(w.a)=>g(w,×a,) 本神经元网络结构有常用于计算机视觉的卷积神 经网络和常用于自然语言处理的递归神经网络。 一个深度学习模型包含若干基本神经元,神 在这基础之上的各种不同结构的模型都是针对某
模型的对抗样本攻击也证明了这一点[4]。另一方 面,真实世界的数据反映了复杂的社会现象,数 据拟合的单纯方法难以刻画真实世界中商品竞拍 和博弈对抗等行为。这样,盲目增加模型复杂度 只会对数据集“过拟合”,而不会真正提升模型在 现实世界中的表现。产生这种现象的一个重要原 因是训练好的模型很难在实际使用中根据现实情 况的差异做出调整。在这种情况下,对于复杂问 题,机器学习不应只关注于求解数据拟合的最优 解,而应该从博弈的角度出发,通过寻找问题的 均衡解,找到不同场合下适用的求解方法。博弈 论虽然是经济学的一个分支,但是自现代博弈论 创立之初,其就与计算机科学产生了千丝万缕的 联系,近年来更是与人工智能相结合,在围棋、德 州扑克、星际争霸等游戏中战胜人类选手[5-8]。 1 深度学习中的最优解拟合 1.1 深度学习的数据拟合 1.1.1 从浅层学习到深度学习 神经网络最初的研究可以追溯到 20 世纪 50 年代所提出的“感知机”模型[9] ,这是一种根据 生物神经细胞信号传导过程而设计的学习模型。 神经网络被普遍应用于机器学习等领域是在误差 反向传播算法[10-12] 被提出后,这一算法使得具有 拟合非线性函数能力的“多层感知机”模型的参数 可以通过反向传播算法进行优化。此后类似多层 感知机的一系列浅层学习的机器学习算法被提 出,包括支持向量机[13] 和 Boosting[14] 等方法。浅 层学习往往需要人工定义和构造特征,难以完成 端到端的训练过程。 2006 年,Hinton 等 [15] 首次提出了深度学习的 概念。深度学习是一种端到端学习 (end-to-end learning) 的机制,在给定输入数据后,可以自动提 取其最具区别力的特征,挖掘数据内部的隐含关 系。此后,深度学习在许多大规模数据上进行的 实验都表现出了远超过浅层学习的效果,深度学 习逐步成为当下人工智能的研究热点。 a = [a1,a2,··· ,an] T w = [w1,w2,··· ,wn] T 深度学习的基础仍然是人工神经网络,一个 深度学习的模型由多个神经元叠加构成。对于单 个神经元,其输入向量记为 ,神 经元的参数记为 ,神经元内使 用的非线性激活函数为 g,则这个神经元的输 出为 f (a) = g(w T · a) = ∑n i=1 g(wi ×ai) 一个深度学习模型包含若干基本神经元,神 经元之间的连接方式可以是简单的链式堆叠,也 可以是有分支的有向无环图结构。 1.1.2 深度学习的参数优化 F (xi) Loss(F (xi), yi) 深度学习中优化的参数主要是每个神经元链 接权重大小。在深度学习的模型中,通过不同神 经元的线性组合以及非线性激活函数输出预测结 果,并计算预测结果与真实标签的误差,再将误 差利用反向传播算法,对参数进行优化。此外, 为了防止过拟合,在优化参数时常常会在误差项 后对参数施以一定约束 (如参数稀疏等)。记深度 学习的神经网络模型为 F,则第 i 个训练数据 xi 对 应的预测输出结果为 ,若这个数据对应的真 实标签 为 y i ,则对这个训练数据的误差记作 ,对于不同的问题可以采用不同的损 失函数来计算误差,最终优化的目标就是在数据 全集上最小化损失函数。假设训练数据集中共 有 N 个训练样本,优化目标可以表示为 min(∑N i=1 Loss(F (xi), yi) 在进行参数优化的过程中,由于训练数据的 规模通常较大,所以需要将训练数据分批计算损 失函数,再将每一批数据的误差反向传播,应用 梯度下降法[16] 对参数进行优化。对于神经网络 模型中的待优化参数 w,在梯度下降的每一步中 参数都会如下优化更新: w new = w−η× ∂loss ∂w 式中:loss 表示由一批训练数据计算所得误差; η 表示学习率,是一个模型训练的超参数,表示根 据每批训练数据进行优化的步长。 可以看出,即使利用梯度下降法,在模型参数 较多和训练数据规模较大的情况下,深度学习的 数据拟合是一个非常缓慢的过程,尤其是近年来 神经网络的规模越来越大,例如在自然语言领域 表现优秀的模型 BERT,就有 1.1×108 ~3.4×108 个 训练参数[17]。 1.2 深度学习中的超参数 1.2.1 深度学习模型的人工设计 随着深度学习在各个领域大放异彩,人们提 出了大量不同的深度学习模型。但是归根结底, 深度学习模型可以优化的主要参数为神经元之间 链接权重向量,除此之外神经元之间的连接方式 均通过人工设计完成。目前最广泛使用的两种基 本神经元网络结构有常用于计算机视觉的卷积神 经网络和常用于自然语言处理的递归神经网络。 在这基础之上的各种不同结构的模型都是针对某 ·176· 智 能 系 统 学 报 第 15 卷
第1期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·177· 一种或某一类问题提出的,相比于最简单的多层 设计的模型。此外,面对越来越复杂的模型设计 感知机模型,这些模型能够减少可训练参数的数 工作,人们也亟需一些超出惯常设计思路的模型 量,提升模型的效果。 来突破当前的瓶颈。 除了模型结构的设计,模型大小也是需要人 事实上从组合学的观点来看,在一幅图像中, 为调整的超参数,对单个神经元来说,就是神经 稍微改变物体的方向、方位、遮挡情况所构成的 元的可训练参数数量的多少,即w=[w,w2,…, 场景数量其实是呈指数增长的。在训练时,数据 w]T中n的大小。在单个神经元中,并不是参数 的最优拟合的目标其实是平均情况,而现实情况 越多越好,过多的参数可能造成训练和推理的效 更专注于模型的最坏情况)。例如在自动驾驶领 率下降,甚至可能由于过拟合导致模型的表现也 域,为了保证汽车行驶的安全,就要保证车在最 有所下降,当然过少的参数可能使模型的表达能 坏情况下仍然不会识别失败,否则将会导致严重 力太低,从而不足以拟合训练数据。 的后果。博弈论的思想可以让模型更加注重最坏 对于神经网络来说,神经元中激活函数的选 情况发生的情况,而不是“最优”的平均结果。 择也可以认为是一个超参数。当然目前使用较为 1.3神经网络结构搜索 广泛的激活函数是线性整流函数(ReLU),其数学 1.3.1神经网络结构搜索思想 表达式为 随着深度学习的普及,模型设计的工作量和 ReLU(x)=max(0,x) 难度都有明显的增加,面对越来越复杂的任务, 在多数情况下,使用这一激活函数都能取得 尤其是面对不同的任务需要使用类似模型结构的 不错的效果。 情况下,人们对自动化的模型设计和参数优化有 此外还有一些特定模型中也包含一些针对自 了非常迫切的需求。这样的需求催生了自动化机 身结构特性而设定的超参数,例如卷积神经网络 器学习(auto machine learning,AutoML)领域的发 中卷积核的大小、卷积的步长等,模型的设计者 展。自动化机器学习包括神经网络结构的搜索 通过增加这些与自身特性相关的超参数可以提高 (neural network architecture search,.NAS)、超参数优 所设计模型的泛化能力,使其不止局限于单个问 化(hyperparameter optimization)以及元学习(meta- 题的解决,对不同的问题通过调整超参数都能有 learning)3个主要方面。其中超参数优化主要是 较好的表现。就卷积网络来说,不同的卷积核大 选择机器学习模型中效果最好的超参数,元学习 小可以提取粒度大小不一的局部特征。 主要是找到针对特定问题最合适的机器学习模型 以上这些超参数的人工选择除了需要根据经 或算法,神经网络结构搜索主要是针对特定的任 验进行设定外,往往还需要通过调整不同的超参 务找到最合适的深度学习模型结构,在深度学习 数进行训练、验证的反复实验,根据实验结果选 领域神经网络结构搜索其实包含了超参数优化以 择效果最好的超参数作为最终的网络结构超参 及元学习的任务。 数。这是一个及其耗费时间和人力的过程。 神经网络结构搜索的一般搜索过程如图1 最后,深度学习的模型在训练过程中也需要 所示8。图1利用搜索策略从搜索空间中选取一 提供一些训练相关的参数,包括随机梯度下降法 种神经网络结构,通过模型评价策略获得这个网 中每批数据的大小、训练数据全集遍历的次数以 络结构的效果,通过反馈这个结构效果的好坏, 及学习率的大小。这些训练相关的超参数往往根 搜索策略可以继续搜索其他结构。最终得到效果 据经验和硬件条件来选择。 较好的神经网络结构。对神经网络结构搜索的研 1.2.2深度学习超参调优的弊端 究也主要集中于搜索空间、搜索策略和模型评价 深度学习中可以人为改变的超参数其实是非 策略这3个领域。 常多,在超参数调优的过程中,其实是在拟合训 神经网络结构AcA 练数据集的基准数据,换用不同的数据集可能需 要对超参数进行调整。如果每更新一批数据就要 对超参数进行一次人为改变,那么深度学习模型 搜索空间A 搜索策略 模型评价策略 的应用范围将会受到极大的限制,因为每次超参 数调优都需要有一定的计算资源进行多次实验。 神经网络结构4的效果 一种简单的方法是不改变超参数直接在新的数据 图1神经网络结构搜索流程 集上进行迁移学习,但是这样的效果要差于重新 Fig.1 Process of neural network architecture search
一种或某一类问题提出的,相比于最简单的多层 感知机模型,这些模型能够减少可训练参数的数 量,提升模型的效果。 w = [w1,w2,··· , wn] T 除了模型结构的设计,模型大小也是需要人 为调整的超参数,对单个神经元来说,就是神经 元的可训练参数数量的多少,即 中 n 的大小。在单个神经元中,并不是参数 越多越好,过多的参数可能造成训练和推理的效 率下降,甚至可能由于过拟合导致模型的表现也 有所下降,当然过少的参数可能使模型的表达能 力太低,从而不足以拟合训练数据。 对于神经网络来说,神经元中激活函数的选 择也可以认为是一个超参数。当然目前使用较为 广泛的激活函数是线性整流函数 (ReLU),其数学 表达式为 ReLU(x) = max(0, x) 在多数情况下,使用这一激活函数都能取得 不错的效果。 此外还有一些特定模型中也包含一些针对自 身结构特性而设定的超参数,例如卷积神经网络 中卷积核的大小、卷积的步长等,模型的设计者 通过增加这些与自身特性相关的超参数可以提高 所设计模型的泛化能力,使其不止局限于单个问 题的解决,对不同的问题通过调整超参数都能有 较好的表现。就卷积网络来说,不同的卷积核大 小可以提取粒度大小不一的局部特征。 以上这些超参数的人工选择除了需要根据经 验进行设定外,往往还需要通过调整不同的超参 数进行训练、验证的反复实验,根据实验结果选 择效果最好的超参数作为最终的网络结构超参 数。这是一个及其耗费时间和人力的过程。 最后,深度学习的模型在训练过程中也需要 提供一些训练相关的参数,包括随机梯度下降法 中每批数据的大小、训练数据全集遍历的次数以 及学习率的大小。这些训练相关的超参数往往根 据经验和硬件条件来选择。 1.2.2 深度学习超参调优的弊端 深度学习中可以人为改变的超参数其实是非 常多,在超参数调优的过程中,其实是在拟合训 练数据集的基准数据,换用不同的数据集可能需 要对超参数进行调整。如果每更新一批数据就要 对超参数进行一次人为改变,那么深度学习模型 的应用范围将会受到极大的限制,因为每次超参 数调优都需要有一定的计算资源进行多次实验。 一种简单的方法是不改变超参数直接在新的数据 集上进行迁移学习,但是这样的效果要差于重新 设计的模型。此外,面对越来越复杂的模型设计 工作,人们也亟需一些超出惯常设计思路的模型 来突破当前的瓶颈。 事实上从组合学的观点来看,在一幅图像中, 稍微改变物体的方向、方位、遮挡情况所构成的 场景数量其实是呈指数增长的。在训练时,数据 的最优拟合的目标其实是平均情况,而现实情况 更专注于模型的最坏情况[3]。例如在自动驾驶领 域,为了保证汽车行驶的安全,就要保证车在最 坏情况下仍然不会识别失败,否则将会导致严重 的后果。博弈论的思想可以让模型更加注重最坏 情况发生的情况,而不是“最优”的平均结果。 1.3 神经网络结构搜索 1.3.1 神经网络结构搜索思想 随着深度学习的普及,模型设计的工作量和 难度都有明显的增加,面对越来越复杂的任务, 尤其是面对不同的任务需要使用类似模型结构的 情况下,人们对自动化的模型设计和参数优化有 了非常迫切的需求。这样的需求催生了自动化机 器学习 (auto machine learning, AutoML) 领域的发 展。自动化机器学习包括神经网络结构的搜索 (neural network architecture search, NAS)、超参数优 化 (hyperparameter optimization) 以及元学习 (metalearning)3 个主要方面。其中超参数优化主要是 选择机器学习模型中效果最好的超参数,元学习 主要是找到针对特定问题最合适的机器学习模型 或算法,神经网络结构搜索主要是针对特定的任 务找到最合适的深度学习模型结构,在深度学习 领域神经网络结构搜索其实包含了超参数优化以 及元学习的任务。 神经网络结构搜索的一般搜索过程如图 1 所示[18]。图 1 利用搜索策略从搜索空间中选取一 种神经网络结构,通过模型评价策略获得这个网 络结构的效果,通过反馈这个结构效果的好坏, 搜索策略可以继续搜索其他结构。最终得到效果 较好的神经网络结构。对神经网络结构搜索的研 究也主要集中于搜索空间、搜索策略和模型评价 策略这 3 个领域[18]。 搜索空间A 搜索策略 模型评价策略 神经网络结构A ϵ A 神经网络结构A的效果 图 1 神经网络结构搜索流程 Fig. 1 Process of neural network architecture search 第 1 期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·177·
·178· 智能系统学 报 第15卷 1.3.2神经网络结构搜索的常用方法 距离真正的完全自动化还有一定的距离。 神经网络结构搜索中搜索空间指在搜索过程 中所有可成为搜索对象的神经网络结构。可以想 2博弈论与深度学习 象,在对神经网络的连接方式不做任何限制的情 2.1博弈的基本概念 况下,搜索空间的大小随着规模的增长是呈指数 1944年冯诺伊曼与奥斯卡·摩根斯特恩合著 增长的。在有限的计算资源下进行搜索时,可能 的《博弈论与经济行为》2阿出版,标志着现代博 导致无法搜索较大规模的神经网络。同时,过于 弈论思想登上了历史舞台。博弈论主要研究的是 限制搜索空间的大小,可能并不能搜索出对效果 为博弈的参与者谋取最大利益,也就是“两害相权 有较大提升的神经网络模型。较为简单的神经网 取其轻,两利相权取其重”。 络搜索的搜索空间使用的是链式模型92,即网 博弈中,参与博弈的决策主体被称为玩家或 络的每一层级依次链接,另一种较为复杂的搜索 参与者,这些参与者总能或多或少的获得一些与 空间使用的是分支模型,即允许网络中存在跨层 博弈相关的知识,这些知识被称为信息,如果并 的跳跃链接,整个网络结构是一个有向无环图22。 非所有的参与者都了解其他参与者所有可选的行 使用分支模型的效果明显优于使用链式模型,但 动、每种局势下的收益等信息,这种博弈被称为 是从搜索速度来说,链式模型的搜索空间更小, 不完全信息博弈,反之被称为完全信息博弈。博 搜索时间更短。 弈的参与者还需要遵守一定的规则,符合规则的 搜索策略是根据模型评价反馈的结果不断遍 行动方案被称为策略。 历搜索空间的策略,搜索的过程面临着探索和利 参与者采取了各自的行动之后的博弈状态被 用的权衡,在利用的过程中,要快速找到效果较 称为局势,而在不同的局势下,各个参与者所得 好的神经网络结构,在探索的过程中,要积极遍 到的利益或回报被称为博弈的收益。 历搜索空间中更多的结构避免陷入局部最优解。 博弈的稳定局势即为纳什均衡(Nash equilib 常用的搜索策略主要有随机搜索、进化算法2] rium)P,其指参与者做出了这样一种策略组合, 强化学习19等。 在该策略组合上,任何参与者单独改变策略,其 模型评估是对搜索得到的神经网络结构做一 收益都不会增加。 次性能评价,评价的结果可以指导搜索策略选择 2.2纳什均衡与纳什定理 下一次的神经网络结构,当然如果性能评价是通 2.2.1纳什定理 过在训练集上做训练后,验证集上的表现来评 约翰纳什(John Forbes Nash Jr..)在提出纳什均 估,这样一次完整的搜索过程可能需要几千个 衡的同时,还提出了纳什定理27。纳什定理指出: GPU日(GPUdays)I&2州。如何在保证模型评价准 若参与者有限,每位参与者采取策略的集合有 确性的情况下,提升模型评估的效率是这一问题 限,收益函数为实值函数,则博弈对抗必存在混 的研究重点。 合策略意义下的纳什均衡。所谓混合策略(miⅸed 13.3神经网络结构搜索的优劣 strategy)指参与者可以按照一定的概率来随机选 总体上神经网络结构搜索还处于起步阶段, 择若干不同的行动,相应地,如果参与者能够确 距离真正的应用还有一段距离。但是这种自动化 定地选择行为,这种策略被称为纯策略(pure 的模型结构设计能够极大程度的减少人力物力, strategy). 让深度学习更广泛地应用于更多领域,而且相比 纳什定理仅仅是一个存在性定理,但是这一 人为设计,自动化的搜索能够显著提升网络的效 定理为许多博弈论相关研究提供了理论基础。 果,甚至能够删除网络中的冗余部分,提升网络 2.2.2均衡解与最优解 推理速度,使其更容易应用于前端芯片。 在博弈论的观点中,所有博弈的参与者都是 当然,神经网络结构搜索还存在一些问题,目 足够理性的,也就是他们都会采取使自己收益最 前普遍的搜索方法都需要耗费大量的计算资源, 大化的行动,这样做的最终结果就是导致博弈最 这是导致神经网络结构搜索难以真正投入应用的 终的局势总是稳定的,也就是最终总会达成纳什 关键问题。此外,从超参数优化的角度来讲,即 均衡的局势。但是,值得注意的是,均衡解并不 使神经网络结构搜索能够自动化的选择最合理的 是最优解,最优解关注的是平均利益的最大化, 超参数,但是本身搜索过程也是需要人为控制超 而均衡解是最有利于参与者的局势。 参数的,这就会造成“高维”的超参数调优问题, 在博弈论的经典案例囚徒困境(prisoner's
1.3.2 神经网络结构搜索的常用方法 神经网络结构搜索中搜索空间指在搜索过程 中所有可成为搜索对象的神经网络结构。可以想 象,在对神经网络的连接方式不做任何限制的情 况下,搜索空间的大小随着规模的增长是呈指数 增长的。在有限的计算资源下进行搜索时,可能 导致无法搜索较大规模的神经网络。同时,过于 限制搜索空间的大小,可能并不能搜索出对效果 有较大提升的神经网络模型。较为简单的神经网 络搜索的搜索空间使用的是链式模型[19-21] ,即网 络的每一层级依次链接,另一种较为复杂的搜索 空间使用的是分支模型,即允许网络中存在跨层 的跳跃链接,整个网络结构是一个有向无环图[22-24]。 使用分支模型的效果明显优于使用链式模型,但 是从搜索速度来说,链式模型的搜索空间更小, 搜索时间更短。 搜索策略是根据模型评价反馈的结果不断遍 历搜索空间的策略,搜索的过程面临着探索和利 用的权衡,在利用的过程中,要快速找到效果较 好的神经网络结构,在探索的过程中,要积极遍 历搜索空间中更多的结构避免陷入局部最优解。 常用的搜索策略主要有随机搜索、进化算法[25] 、 强化学习[18-19] 等。 模型评估是对搜索得到的神经网络结构做一 次性能评价,评价的结果可以指导搜索策略选择 下一次的神经网络结构,当然如果性能评价是通 过在训练集上做训练后,验证集上的表现来评 估,这样一次完整的搜索过程可能需要几千个 GPU 日 (GPU days)[18, 24]。如何在保证模型评价准 确性的情况下,提升模型评估的效率是这一问题 的研究重点。 1.3.3 神经网络结构搜索的优劣 总体上神经网络结构搜索还处于起步阶段, 距离真正的应用还有一段距离。但是这种自动化 的模型结构设计能够极大程度的减少人力物力, 让深度学习更广泛地应用于更多领域,而且相比 人为设计,自动化的搜索能够显著提升网络的效 果,甚至能够删除网络中的冗余部分,提升网络 推理速度,使其更容易应用于前端芯片。 当然,神经网络结构搜索还存在一些问题,目 前普遍的搜索方法都需要耗费大量的计算资源, 这是导致神经网络结构搜索难以真正投入应用的 关键问题。此外,从超参数优化的角度来讲,即 使神经网络结构搜索能够自动化的选择最合理的 超参数,但是本身搜索过程也是需要人为控制超 参数的,这就会造成“高维”的超参数调优问题, 距离真正的完全自动化还有一定的距离。 2 博弈论与深度学习 2.1 博弈的基本概念 1944 年冯·诺伊曼与奥斯卡·摩根斯特恩合著 的《博弈论与经济行为》[26] 出版,标志着现代博 弈论思想登上了历史舞台。博弈论主要研究的是 为博弈的参与者谋取最大利益,也就是“两害相权 取其轻,两利相权取其重”。 博弈中,参与博弈的决策主体被称为玩家或 参与者,这些参与者总能或多或少的获得一些与 博弈相关的知识,这些知识被称为信息,如果并 非所有的参与者都了解其他参与者所有可选的行 动、每种局势下的收益等信息,这种博弈被称为 不完全信息博弈,反之被称为完全信息博弈。博 弈的参与者还需要遵守一定的规则,符合规则的 行动方案被称为策略。 参与者采取了各自的行动之后的博弈状态被 称为局势,而在不同的局势下,各个参与者所得 到的利益或回报被称为博弈的收益。 博弈的稳定局势即为纳什均衡 (Nash equilibrium)[27] ,其指参与者做出了这样一种策略组合, 在该策略组合上,任何参与者单独改变策略,其 收益都不会增加。 2.2 纳什均衡与纳什定理 2.2.1 纳什定理 约翰纳什 (John Forbes Nash Jr.) 在提出纳什均 衡的同时,还提出了纳什定理[27]。纳什定理指出: 若参与者有限,每位参与者采取策略的集合有 限,收益函数为实值函数,则博弈对抗必存在混 合策略意义下的纳什均衡。所谓混合策略 (mixed strategy) 指参与者可以按照一定的概率来随机选 择若干不同的行动,相应地,如果参与者能够确 定地选择行为,这种策略被称为纯策略 (pure strategy)。 纳什定理仅仅是一个存在性定理,但是这一 定理为许多博弈论相关研究提供了理论基础。 2.2.2 均衡解与最优解 在博弈论的观点中,所有博弈的参与者都是 足够理性的,也就是他们都会采取使自己收益最 大化的行动,这样做的最终结果就是导致博弈最 终的局势总是稳定的,也就是最终总会达成纳什 均衡的局势。但是,值得注意的是,均衡解并不 是最优解,最优解关注的是平均利益的最大化, 而均衡解是最有利于参与者的局势。 在博弈论的经典案例囚徒困境 (prisoner’s ·178· 智 能 系 统 学 报 第 15 卷
第1期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·179· dilemma)中,两名嫌犯都有认罪和沉默两种行为 网络是一种生成模型,它由生成器和判别器两个 可以选择,对二人来说,最优解应当是两人同时 部分组成,生成器将随机生成的噪声数据转变为 保持沉默,导致警方仅能依靠已有的犯罪事实 真实样本空间中的“真实”数据,而判别器用来判 (缺乏口供)对两人轻判,但是对于两个嫌犯来说, 断生成器生成的数据是否真的符合真实数据的 认罪才是对自己最有利的行动,最终的结果就是 分布。在训练时,生成器能够根据判别器的判别 两人同时认罪而得到应有的惩罚。 结果提升自己生成的数据的“真实性”,而随着生 在大数据智能的视角下,假设训练数据是一 成数据越来越接近真实样本,判别器也变得更加 批围棋的对弈棋谱,按照最优解的角度去拟合走 敏锐,识别的能力也会提升,最终的均衡局势是 子策略,拟合的结果必然是在这一批棋谱中胜率 生成器完全模拟了真实样本数据的分布,判别器 最高的位置优先落子而胜率较低的位置避免落 也就再也无法判定生成的数据是真是假了,此时 子,但是棋局是变化的,当博弈对手的策略发生 的生成器就是一个训练好的生成模型。类似的 改变,这样的“最优解”没有任何意义,而此时真 思想还体现在基于策略的深度强化学习中,在基 正需要找到的是达成均衡解的策略。 于行动者评论家的强化学习中有根据环境做 2.3博弈视角下的大数据智能 出决策的“行动者”和根据决策结果做出评估的 2.3.1博弈与人工智能 “评论家”,两者协同决策的过程也是一个博弈的 人工智能起源于1956年的达特茅斯会议。 过程。 在人工智能的发展历程中,与博弈论碰撞出了许 3大数据智能下的均衡解 多火花,一方面许多人工智能领域的问题,例如 多智能体系统、广告推荐等,背后都蕴含着博弈 3.1完全信息下的博弈 的思想;另一方面,人工智能的许多算法提供了 311完全信息博弈的特点 许多博弈策略的近似求解方法,例如在许多经典 完全信息博弈实际上是可以获得博弈中的所 的博弈游戏中,利用计算机模拟采样可以求出近 有信息,在博弈的步骤比较少的情况下,比如井 似的均衡解。人工智能与博弈论的交叉领域主要 字棋等,很容易通过搜索算法获得博弈的最优策 分为博弈策略求解和博弈规则设计两个方面。 略,求出纳什均衡解。 首先,博弈论提供了一种实际问题的建模方 但是往往我们面临的完全信息博弈是非常大 法,同时纳什定理证明了博弈论解的存在性,那 规模的,所以在博弈的过程中,博弈者难以及时 么为了求得博弈问题的均衡局势或者参与者的 得知自己当前决策的利弊。如果可以估计当前行 最优策略就可以采用人工智能的一些算法,最 动对最终局势的影响,那么决策就是非常简单的 主要的是利用人工智能算法高效地搜索最优的 过程了,即在完全信息博弈的过程中只需要根据 策略。 经验判断或者模拟对手行为来计算每一步收益。 其次,在博弈中往往参与者会从自身利益最 在模拟的过程中,由于不需要猜测对手的行为, 大化的角度出发去做出决策,这时很可能造成类 所以“完全信息”能够减少建模的难度。 似囚徒困境的两败俱伤的结果。如何设计博弈的 3.12围棋走子策略求解 规则来使得最终的均衡局势尽可能达到整体利益 围棋是一种古老的棋类游戏,它起源于中 的最大化也是人工智能思想在博弈中的应用例, 国。围棋被认为是当前世界上最复杂的棋盘游戏 这些规则设计往往计算量大,复杂度高,常见的 之一,在博弈时,黑白双方轮流落子在棋盘上,最 利用人工智能算法来设计博弈规则的场景包括广 终通过所围的区域的大小决定胜负。围棋是一种 告竞价、拍卖、供需匹配、名额分配等。 完全信息博弈。由于简单的通过搜索算法不能在 2.3.2博弈与深度学习 有限的时间内搜索出最优的走子策略,所以需要 人工智能被提出时,神经网络就是人工智能 使用人工智能的方法来进行策略求解。AlphaGo 的重要研究方向之一,而深度学习又是以神经网 Zero就是一个基于深度神经网络的人工智能围棋 络为基础的,所以神经网络可以作为一种人工智 程序,它可以通过自博弈自我提升,近似拟合出 能算法进行博弈的策略求解。 一个较好的围棋走子策略II。最终AlphaGo 随着深度学习的发展,深度学习的算法背后 Zero不但在棋力上超过人类选手,还在博弈过程 也体现出了一些博弈的思想。比如生成对抗网络四 中发现了许多人类围棋玩家常采用的经验策略。 的训练过程就像是一个博弈的过程。生成对抗 围棋的博弈过程可以看作是一个马尔可夫决
dilemma) 中,两名嫌犯都有认罪和沉默两种行为 可以选择,对二人来说,最优解应当是两人同时 保持沉默,导致警方仅能依靠已有的犯罪事实 (缺乏口供) 对两人轻判,但是对于两个嫌犯来说, 认罪才是对自己最有利的行动,最终的结果就是 两人同时认罪而得到应有的惩罚。 在大数据智能的视角下,假设训练数据是一 批围棋的对弈棋谱,按照最优解的角度去拟合走 子策略,拟合的结果必然是在这一批棋谱中胜率 最高的位置优先落子而胜率较低的位置避免落 子,但是棋局是变化的,当博弈对手的策略发生 改变,这样的“最优解”没有任何意义,而此时真 正需要找到的是达成均衡解的策略。 2.3 博弈视角下的大数据智能 2.3.1 博弈与人工智能 人工智能起源于 1956 年的达特茅斯会议。 在人工智能的发展历程中,与博弈论碰撞出了许 多火花,一方面许多人工智能领域的问题,例如 多智能体系统、广告推荐等,背后都蕴含着博弈 的思想;另一方面,人工智能的许多算法提供了 许多博弈策略的近似求解方法,例如在许多经典 的博弈游戏中,利用计算机模拟采样可以求出近 似的均衡解。人工智能与博弈论的交叉领域主要 分为博弈策略求解和博弈规则设计两个方面。 首先,博弈论提供了一种实际问题的建模方 法,同时纳什定理证明了博弈论解的存在性,那 么为了求得博弈问题的均衡局势或者参与者的 最优策略就可以采用人工智能的一些算法,最 主要的是利用人工智能算法高效地搜索最优的 策略[5-8]。 其次,在博弈中往往参与者会从自身利益最 大化的角度出发去做出决策,这时很可能造成类 似囚徒困境的两败俱伤的结果。如何设计博弈的 规则来使得最终的均衡局势尽可能达到整体利益 的最大化也是人工智能思想在博弈中的应用[28-29] , 这些规则设计往往计算量大,复杂度高,常见的 利用人工智能算法来设计博弈规则的场景包括广 告竞价、拍卖、供需匹配、名额分配等。 2.3.2 博弈与深度学习 人工智能被提出时,神经网络就是人工智能 的重要研究方向之一,而深度学习又是以神经网 络为基础的,所以神经网络可以作为一种人工智 能算法进行博弈的策略求解。 随着深度学习的发展,深度学习的算法背后 也体现出了一些博弈的思想。比如生成对抗网络[30] 的训练过程就像是一个博弈的过程。生成对抗 网络是一种生成模型,它由生成器和判别器两个 部分组成,生成器将随机生成的噪声数据转变为 真实样本空间中的“真实”数据,而判别器用来判 断生成器生成的数据是否真的符合真实数据的 分布。在训练时,生成器能够根据判别器的判别 结果提升自己生成的数据的“真实性”,而随着生 成数据越来越接近真实样本,判别器也变得更加 敏锐,识别的能力也会提升,最终的均衡局势是 生成器完全模拟了真实样本数据的分布,判别器 也就再也无法判定生成的数据是真是假了,此时 的生成器就是一个训练好的生成模型。类似的 思想还体现在基于策略的深度强化学习中,在基 于行动者评论家的强化学习[31] 中有根据环境做 出决策的“行动者”和根据决策结果做出评估的 “评论家”,两者协同决策的过程也是一个博弈的 过程。 3 大数据智能下的均衡解 3.1 完全信息下的博弈 3.1.1 完全信息博弈的特点 完全信息博弈实际上是可以获得博弈中的所 有信息,在博弈的步骤比较少的情况下,比如井 字棋等,很容易通过搜索算法获得博弈的最优策 略,求出纳什均衡解。 但是往往我们面临的完全信息博弈是非常大 规模的,所以在博弈的过程中,博弈者难以及时 得知自己当前决策的利弊。如果可以估计当前行 动对最终局势的影响,那么决策就是非常简单的 过程了,即在完全信息博弈的过程中只需要根据 经验判断或者模拟对手行为来计算每一步收益。 在模拟的过程中,由于不需要猜测对手的行为, 所以“完全信息”能够减少建模的难度。 3.1.2 围棋走子策略求解 围棋是一种古老的棋类游戏,它起源于中 国。围棋被认为是当前世界上最复杂的棋盘游戏 之一,在博弈时,黑白双方轮流落子在棋盘上,最 终通过所围的区域的大小决定胜负。围棋是一种 完全信息博弈。由于简单的通过搜索算法不能在 有限的时间内搜索出最优的走子策略,所以需要 使用人工智能的方法来进行策略求解。AlphaGo Zero 就是一个基于深度神经网络的人工智能围棋 程序,它可以通过自博弈自我提升,近似拟合出 一个较好的围棋走子策略[ 5 ]。 最终 AlphaGo Zero 不但在棋力上超过人类选手,还在博弈过程 中发现了许多人类围棋玩家常采用的经验策略。 围棋的博弈过程可以看作是一个马尔可夫决 第 1 期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·179·
·180· 智能系统学报 第15卷 策过程,博弈时棋面可以认为是状态空间。给定 果映射回原问题当中,于是得到原问题的纳什均 一个棋面,可以继续走子的位置有限,因此选择 衡解,如图2所示1。此外,强化学习越来越多地 可走子的位置就是当前状态下可以采取的动作集 应用于非完全信息博弈的策略求解,在连续动态 合。一旦走子之后,棋面发生改变,即以转移概 的环境中做出合理的决策正是强化学习的模型所 率p=1的概率转换到下一状态,因为围棋总是在 擅长的内容。 下棋的过程中逐步建立优势并最终取得胜利,所 原游戏博弈树 抽象所得游戏 以回报的大小可以由当前的双方局势的优劣来决 博弈树 定。这样就将围棋博弈转换成了马尔科夫决策过 抽象算法 程,而所求解的策略就是使得这个马尔科夫决策 过程总回报的期望最大的策略。AlphaGo Zero就 是在求取这样的策略。 AlphaGo Zero之所以能在自博弈的过程中提 反向映射 升自己的策略,是因为它使用了深度强化学习模 原游戏 抽象所得 纳什均衡解 纳什均衡解 型进行策略估计和策略提升。在深度强化学习 中,有两个深度神经网络,一个是策略网络,一个 图2非完全信息博弈的策略求解 是价值网络,这两个网络是同一个网络的两个分 Fig.2 Process of solving an incomplete information game 支,将棋面作为图像输入网络,经过卷积等操作, 3.2.2无限注多人德州扑克策略求解 最后输出当前状态的收益以及在当前状态下应当 与棋类游戏在完全信息条件下进行不同,扑 采取的策略。 克游戏是一种非完全信息博弈。在扑克游戏中, 这里的策略网络并不是直接输出当前局势下 每个玩家无法知道对手的手牌,这也使得求解博 的走子位置,而是输出几个预测位置,并按照策 弈策略变得极为困难。比如在这种博弈过程中无 略网络的预测进行蒙特卡洛树搜索,将蒙特卡洛 法计算局势的收益,这导致了不能按照完全信息 树搜索所得策略作为最终的落子策略。蒙特 博弈方法来解决非完全信息博弈问题。2018年, 卡洛树搜索是一种结合随机模拟和采样的最优决 智能体Libratus首次在双人德州扑克中击败人类 策方法,依靠快速的搜索效率和可靠的搜索结 选手向,2019年,使用类似算法的Pluribus在多人 果,它被广泛应用于完全信息博弈中。蒙特卡洛 德州扑克中也获得胜利。 树搜索的过程包括路径选择(selection)、节点扩展 在德州扑克游戏中,先要对庞大的博弈树进 (expansion)、模拟实验(simulation)和反向传播 行剪枝,形成一个抽象游戏。具体来说,需要将 (backpropagation)4个步骤,通过这4个步骤的不 相近的状态节点进行合并,压缩博弈树的大小, 断重复,确定不同行动的回报,并做出决策。在 此外还需要将每次下注的金额限制在几个固定数 AlphaGo Zero中,蒙特卡洛最终模拟的结果还被 额上,从而减小行为空间的大小。 反馈到了深度神经网络中,用于训练价值网络的 Pluribus和Libratus的训练不断通过自博弈过 参数。 程来完成。这个自博弈过程中使用了虚拟遗憾值 3.2非完全信息下的博弈 最小化算法。所谓遗憾值指在过去几轮模拟博 3.2.1非完全信息博弈的特点 弈中,某一局势下采取其他策略与当前的策略带 相对于完全信息的博弈,不完全信息下的博 来的收益之差的累加。利用遗憾值就可以更新策 弈更加符合现实场景,能够指导人们对现实问题 略,使得智能体对所采取的新策略“遗憾”较少, 的科学决策。在非完全信息的纳什均衡求解中, 也就收益更高。虽然扑克游戏的博弈过程比围棋 对手采取的行动不一定是可见的,仅能根据部分 所用时间短,但也无法立刻得知每一步博弈后的 已知的信息进行决策。非完全信息博弈树通常规 收益,所以需要通过“虚拟”方法来计算每一步行 模非常大,因为在中间状态下可能采取的行动一 为的期望收益。一旦计算得到期望收益,就可以 般有无穷多种,为了削减搜索空间,人们需要使 比较当前策略与其他策略的虚拟遗憾值,并根据 用一些抽象算法对原有博弈问题进行压缩,即合 遗憾值的大小来更新策略。 并博弈树中的相似状态、压缩搜索层数以及剪枝 在实际游戏时,由于局势是不断动态变化的, 等,最终得到一个相对简单的抽象问题,然后求 仅仅依靠预训练所得策略难以完成决策,因此在 解这个抽象问题的纳什均衡解,最后将所求解结 博弈的过程中还需要不断根据局势来缩小博弈搜
策过程,博弈时棋面可以认为是状态空间。给定 一个棋面,可以继续走子的位置有限,因此选择 可走子的位置就是当前状态下可以采取的动作集 合。一旦走子之后,棋面发生改变,即以转移概 率 p=1 的概率转换到下一状态,因为围棋总是在 下棋的过程中逐步建立优势并最终取得胜利,所 以回报的大小可以由当前的双方局势的优劣来决 定。这样就将围棋博弈转换成了马尔科夫决策过 程,而所求解的策略就是使得这个马尔科夫决策 过程总回报的期望最大的策略。AlphaGo Zero 就 是在求取这样的策略。 AlphaGo Zero 之所以能在自博弈的过程中提 升自己的策略,是因为它使用了深度强化学习模 型进行策略估计和策略提升。在深度强化学习 中,有两个深度神经网络,一个是策略网络,一个 是价值网络,这两个网络是同一个网络的两个分 支,将棋面作为图像输入网络,经过卷积等操作, 最后输出当前状态的收益以及在当前状态下应当 采取的策略。 这里的策略网络并不是直接输出当前局势下 的走子位置,而是输出几个预测位置,并按照策 略网络的预测进行蒙特卡洛树搜索,将蒙特卡洛 树搜索[32] 所得策略作为最终的落子策略。蒙特 卡洛树搜索是一种结合随机模拟和采样的最优决 策方法,依靠快速的搜索效率和可靠的搜索结 果,它被广泛应用于完全信息博弈中。蒙特卡洛 树搜索的过程包括路径选择 (selection)、节点扩展 (expansion)、模拟实验 (simulation) 和反向传播 (backpropagation) 4 个步骤,通过这 4 个步骤的不 断重复,确定不同行动的回报,并做出决策。在 AlphaGo Zero 中,蒙特卡洛最终模拟的结果还被 反馈到了深度神经网络中,用于训练价值网络的 参数。 3.2 非完全信息下的博弈 3.2.1 非完全信息博弈的特点 相对于完全信息的博弈,不完全信息下的博 弈更加符合现实场景,能够指导人们对现实问题 的科学决策。在非完全信息的纳什均衡求解中, 对手采取的行动不一定是可见的,仅能根据部分 已知的信息进行决策。非完全信息博弈树通常规 模非常大,因为在中间状态下可能采取的行动一 般有无穷多种,为了削减搜索空间,人们需要使 用一些抽象算法对原有博弈问题进行压缩,即合 并博弈树中的相似状态、压缩搜索层数以及剪枝 等,最终得到一个相对简单的抽象问题,然后求 解这个抽象问题的纳什均衡解,最后将所求解结 果映射回原问题当中,于是得到原问题的纳什均 衡解,如图 2 所示[33]。此外,强化学习越来越多地 应用于非完全信息博弈的策略求解,在连续动态 的环境中做出合理的决策正是强化学习的模型所 擅长的内容[34]。 原游戏博弈树 抽象算法 反向映射 抽象所得游戏 博弈树 原游戏 纳什均衡解 抽象所得 纳什均衡解 图 2 非完全信息博弈的策略求解 Fig. 2 Process of solving an incomplete information game 3.2.2 无限注多人德州扑克策略求解 与棋类游戏在完全信息条件下进行不同,扑 克游戏是一种非完全信息博弈。在扑克游戏中, 每个玩家无法知道对手的手牌,这也使得求解博 弈策略变得极为困难。比如在这种博弈过程中无 法计算局势的收益,这导致了不能按照完全信息 博弈方法来解决非完全信息博弈问题。2018 年, 智能体 Libratus 首次在双人德州扑克中击败人类 选手[6] ,2019 年,使用类似算法的 Pluribus 在多人 德州扑克中也获得胜利[7]。 在德州扑克游戏中,先要对庞大的博弈树进 行剪枝,形成一个抽象游戏。具体来说,需要将 相近的状态节点进行合并,压缩博弈树的大小, 此外还需要将每次下注的金额限制在几个固定数 额上,从而减小行为空间的大小。 Pluribus 和 Libratus 的训练不断通过自博弈过 程来完成。这个自博弈过程中使用了虚拟遗憾值 最小化算法[35]。所谓遗憾值指在过去几轮模拟博 弈中,某一局势下采取其他策略与当前的策略带 来的收益之差的累加。利用遗憾值就可以更新策 略,使得智能体对所采取的新策略“遗憾”较少, 也就收益更高。虽然扑克游戏的博弈过程比围棋 所用时间短,但也无法立刻得知每一步博弈后的 收益,所以需要通过“虚拟”方法来计算每一步行 为的期望收益。一旦计算得到期望收益,就可以 比较当前策略与其他策略的虚拟遗憾值,并根据 遗憾值的大小来更新策略。 在实际游戏时,由于局势是不断动态变化的, 仅仅依靠预训练所得策略难以完成决策,因此在 博弈的过程中还需要不断根据局势来缩小博弈搜 ·180· 智 能 系 统 学 报 第 15 卷
第1期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·181· 索空间,找到尽可能小的安全子博弈,进行细粒 [4]MOOSAVI-DEZFOOLI S M,FAWZI A,FAWZI O,et al 度的遍历搜索。 Universal adversarial perturbations[C]//Proceedings of 3.2.3星际争霸的多智能体博弈求解 2017 IEEE Conference on Computer Vision and Pattern 星际争霸是一款即时战略游戏,游戏玩家需 Recognition.Honolulu,USA,2017:86-94. [5]SILVER D.HUANG A,MADDISON C J,et al.Master- 要在有限的地图视野下进行相互对抗。相比于棋 ing the game of Go with deep neural networks and tree 牌游戏,星际争霸的操作更加复杂,对抗性更 search[J].Nature,2016,529(7587):484-489 强。此外,由于对手行为的不确定性,星际争霸 [6]BROWN N,SANDHOLM T.Superhuman AI for heads-up 游戏并不存在理论上的最优解。2019年1月,星 no-limit poker:libratus beats top professionals[J].Science, 际争霸的人工智能模型AlphaStar首次战胜人类 2018,359(6374):418-424. 玩家,实现了智能体游戏博弈领域的重大突破。 [7]BLAIR A,SAFFIDINE A.AI surpasses humans at six- 考虑到星际争霸游戏的强对抗性,AlphaStar player poker[J].Science,2019,365(6456):864-865. 采取了从整体到个体的多智能体联合训练模 [8]ARULKUMARAN K,CULLY A,TOGELIUS J.AI- 式。所谓“联合训练”是指在训练智能体的游戏过 phastar:an evolutionary computation perspective[].arXiv: 程中同时训练多个不同智能体游戏玩家。在群体 1902.01724,2019 训练过程中,智能体之间相互进行游戏对抗,在 [9]ROSENBLATT F.Principles of neurodynamics:per- ceptrons and the theory of brain mechanisms[R].Washing- 相互游戏的过程中不断提升。在这一过程中,一 ton:Spartan,1961. 些表现突出的智能体被选中,作为种子选手,基 [10]WERBOS P.New tools for prediction and analysis in the 于人类已有的对战数据,通过监督学习进一步的 behavioral sciences[D].Cambridge:Harvard University, 学习游戏经验。 1974 在群体训练过程中,每一个个体都是单独进 [11]WERBOS P J.Backpropagation through time:what it 行优化的,针对个体的优化算法采用了深度强化 does and how to do it[J].Proceedings of the IEEE,1990, 学习,不断学习从多智能体联合训练以及人类对 78(10):1550-1560. 战数据中获得的经验,最终达到战胜人类玩家的 [12]RUMELHART D E,HINTON G E,WILLIAMS R J. 目的。 Learning representations by back-propagating errors[J]. Nare,1986,323(6088):533-536. 4结束语 [13]CORTES C,VAPNIK V.Support-vector networks[J]. Machine learning,1995,20(3):273-297. 人工智能正在从感知智能向决策智能转变, [14]FREUND Y,SCHAPIRE R E.Experiments with a new 从集中式结构向多智能体分布式结构演进。这些 boosting algorithm[C]//Proceedings of the 13th Interna- 转变使得传统以数据拟合为核心的最优化方法正 tional Conference on Machine Learning.Bari,Italy,1996: 在走向以博弈对抗为核心的均衡解。本文从经典 148-156. 的深度学习模型出发,结合时下热门的神经网络 [15]HINTON G E,SALAKHUTDINOV RR.Reducing the dimensionality of data with neural networks[J].Science, 结构搜索,简述了基于数据拟合的方法在解决一 2006,313(5786):504-507. 些人工智能问题时的缺陷,并进一步提出人工智 [16]ROBBINS H,MONRO S.A stochastic approximation 能与博弈论结合,将是未来一个重要的研究方向。 method[J].The annals of mathematical statistics,1951, 参考文献 22(3):400-407. [17]DEVLIN J.CHANG Mingwei,LEE K,et al.BERT:pre- [1]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- training of deep bidirectional transformers for language ageNet classification with deep convolutional neural net- understanding[J].ar Xiv:1810.04805.2018. works[C]//Proceedings of the 25th International Confer- [18]ZOPH B,LE Q V.Neural architecture search with rein- ence on Neural Information Processing Systems.Red forcement learning[C]//Proceedings of 5th International Hook.USA.2012:1097-1105. Conference on Learning Representations.Toulon,France [2]DENG Jia,DONG Wei,SOCHER R,et al.ImageNet:a 2017. large-scale hierarchical image database[Cl//Proceedings of [19]BAKER B.GUPTA O,NAIK N,et al.Designing neural 2009 IEEE Conference on Computer Vision and Pattern network architectures using reinforcement learning[C]// Recognition.Miami,USA,2009:248-255 Proceedings of International Conference on Learning [3]YUILLE A L,LIU Chenxi.Deep nets:what have they ever Representations.Toulon,France,2017. done for vision?[J].arXiv:1805.04025.2018. [20]CAI Han,CHEN Tianyao,ZHANG Weinan,et al.Effi-
索空间,找到尽可能小的安全子博弈[36] ,进行细粒 度的遍历搜索。 3.2.3 星际争霸的多智能体博弈求解 星际争霸是一款即时战略游戏,游戏玩家需 要在有限的地图视野下进行相互对抗。相比于棋 牌游戏,星际争霸的操作更加复杂,对抗性更 强。此外,由于对手行为的不确定性,星际争霸 游戏并不存在理论上的最优解。2019 年 1 月,星 际争霸的人工智能模型 AlphaStar 首次战胜人类 玩家,实现了智能体游戏博弈领域的重大突破。 考虑到星际争霸游戏的强对抗性,AlphaStar 采取了从整体到个体的多智能体联合训练[37] 模 式。所谓“联合训练”是指在训练智能体的游戏过 程中同时训练多个不同智能体游戏玩家。在群体 训练过程中,智能体之间相互进行游戏对抗,在 相互游戏的过程中不断提升。在这一过程中,一 些表现突出的智能体被选中,作为种子选手,基 于人类已有的对战数据,通过监督学习进一步的 学习游戏经验。 在群体训练过程中,每一个个体都是单独进 行优化的,针对个体的优化算法采用了深度强化 学习,不断学习从多智能体联合训练以及人类对 战数据中获得的经验,最终达到战胜人类玩家的 目的。 4 结束语 人工智能正在从感知智能向决策智能转变, 从集中式结构向多智能体分布式结构演进。这些 转变使得传统以数据拟合为核心的最优化方法正 在走向以博弈对抗为核心的均衡解。本文从经典 的深度学习模型出发,结合时下热门的神经网络 结构搜索,简述了基于数据拟合的方法在解决一 些人工智能问题时的缺陷,并进一步提出人工智 能与博弈论结合,将是未来一个重要的研究方向。 参考文献: KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, USA, 2012: 1097–1105. [1] DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 248–255. [2] YUILLE A L, LIU Chenxi. Deep nets: what have they ever done for vision?[J]. arXiv: 1805.04025, 2018. [3] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 86–94. [4] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [5] BROWN N, SANDHOLM T. Superhuman AI for heads-up no-limit poker: libratus beats top professionals[J]. Science, 2018, 359(6374): 418–424. [6] BLAIR A, SAFFIDINE A. AI surpasses humans at sixplayer poker[J]. Science, 2019, 365(6456): 864–865. [7] ARULKUMARAN K, CULLY A, TOGELIUS J. Alphastar: an evolutionary computation perspective[J]. arXiv: 1902.01724, 2019. [8] ROSENBLATT F. Principles of neurodynamics: perceptrons and the theory of brain mechanisms[R]. Washington: Spartan, 1961. [9] WERBOS P. New tools for prediction and analysis in the behavioral sciences[D]. Cambridge: Harvard University, 1974. [10] WERBOS P J. Backpropagation through time: what it does and how to do it[J]. Proceedings of the IEEE, 1990, 78(10): 1550–1560. [11] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533–536. [12] CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273–297. [13] FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm[C]//Proceedings of the 13th International Conference on Machine Learning. Bari, Italy, 1996: 148–156. [14] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [15] ROBBINS H, MONRO S. A stochastic approximation method[J]. The annals of mathematical statistics, 1951, 22(3): 400–407. [16] DEVLIN J, CHANG Mingwei, LEE K, et al. BERT: pretraining of deep bidirectional transformers for language understanding[J]. arXiv: 1810.04805, 2018. [17] ZOPH B, LE Q V. Neural architecture search with reinforcement learning[C]//Proceedings of 5th International Conference on Learning Representations. Toulon, France, 2017. [18] BAKER B, GUPTA O, NAIK N, et al. Designing neural network architectures using reinforcement learning[C]// Proceedings of International Conference on Learning Representations. Toulon, France, 2017. [19] [20] CAI Han, CHEN Tianyao, ZHANG Weinan, et al. Effi- 第 1 期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·181·
·182· 智能系统学报 第15卷 cient architecture search by network transformation[C]// [32]KOCSIS L,SZEPESVARI C.Bandit based monte-carlo Proceedings of the 32nd AAAI Conference on Artificial planning[C]//Proceedings of the 17th European Confer- Intelligence.New Orleans,USA,2018. ence on Machine Learning.Berlin,Germany,2006: [21]SUGANUMA M,SHIRAKAWA S,NAGAO T.A genet- 282-293. ic programming approach to designing convolutional [33]SANDHOLM T.Solving imperfect-information games[J] neural network architectures[C]//Proceedings of Genetic Science,2015,347(6218):122-123 and Evolutionary Computation Conference.Berlin,Ger- [34]RACANIERE S,WEBER T,REICHERT D P,et al.Ima- many,2017:497-504. gination-augmented agents for deep reinforcement learn- [22]CAI Han,YANG Jiacheng,ZHANG Weinan,et al.Path- ing[C]//Proceedings of the 31st Conference on Neural In- level network transformation for efficient architecture formation Processing Systems.Long Beach,USA,2017: search[Cl//Proceedings of the 35th International Confer- 5690-5701 ence on Machine Learning.Stockholmsmassan,Stock- [35]ZINKEVICH M.JOHANSON M.BOWLING M,et al. holm,Sweden.2018:677-686. Regret minimization in games with incomplete informa- [23]ELSKEN T,METZEN J H,HUTTER F.Efficient multi- tion[C]//Proceedings of the 20th International Conference objective neural architecture search via lamarckian evolu- on Neural Information Processing Systems.Red Hook, tion[Cl//Proceedings of 2019 International Conference on USA,2007:1729-1736. Learning Representations.New Orleans,USA,2019. [36]BROWN N.SANDHOLM T.Safe and nested subgame [24]ZOPH B,VASUDEVAN V,SHLENS J,et al.Learning solving for imperfect-information games[C]//Proceedings transferable architectures for scalable image recognition[C/ of the 31st Conference on Neural Information Processing Proceedings of 2018 IEEE/CVF Conference on Com- Systems.Long Beach,USA,2017:689-699. puter Vision and Pattern Recognition.Salt Lake City, [37]VINYALS O,BABUSCHKIN I,CZARNECKI W M,et USA.2018:8697-8710. al.Grandmaster level in StarCraft II using multi-agent re- [25]REAL E,AGGARWAL A,HUANG Yanping,et al.Reg- inforcement learning[J].Nature,2019,575(7782): ularized evolution for image classifier architecture 350-354. search[J].AAAI technical track:machine learning,2019, 作者简介: 33(1):4780-4789 蒋胤傑,博士研究生,主要研究方 [26]VON NEUMANN J,MORGENSTERN O,KUHN H W. 向为人工智能、神经网结构搜索。 et al.Theory of games and economic behavior[M].Prin- ceton:Princeton University Press.2007. [27]NASH JR J F.Equilibrium points in n-person games[]. Proceedings of the national academy of sciences of the United States of America,1950,36(1):48-49. [28]TANG Pingzhong.Reinforcement mechanism 况琨,助理教授,主要研究方向为 design[C]//Proceedings of the 26th International Joint 因果推理、稳定学习、可解释性机器学 Conference on Artificial Intelligence.Melbourne,Aus- 习以及AI在医学和法学的相关应 tralia.2017:5146-5150. 用。曾担任NIPS、AAAI、CIKM [29]PEROLAT J.LEIBO J Z,ZAMBALDI V,et al.A multi- ICDM等国际学术会议程序委员会委 agent reinforcement learning model of common-pool re- 员。发表10余篇顶级会议和期刊文 source appropriation[C]//Proceedings of the 31st Confer- 章,包括KDD、ICML、MM、AAAI ence on Neural Information Processing Systems.Long TKDD等。 Beach.USA.2017:3643-3652 [30]GOODFELLOW I J.POUGET-ABADIE J.MIRZA M. 吴飞,教授,博士生导师,浙江大 学人工智能研究所所长,担任中国图 et al.Generative adversarial nets[C]//Proceedings of the 象图形学学会第七届理事会理事、中 27th International Conference on Neural Information Pro- 国图象图形学学会动画与数字娱乐专 cessing Systems.Cambridge,USA,2014:2672-2680. 委会副主任、中国计算机学会多媒体 [31]SUTTON R S,MCALLESTER D,SINGH S,et al.Policy 技术专业委员会常务委员。主要研究 gradient methods for reinforcement learning with func- 方向为人工智能、跨媒体计算、多媒体 tion approximation[Cl//Proceedings of the 12th Interna- 分析与检索和统计学习理论。曾获宝钢优秀教师奖,“高校 tional Conference on Neural Information Processing Sys- 计算机专业优秀教师奖励计划”,教育部人工智能科技创新 ems.Cambridge,USA,1999:1057-1063. 专家组工作组组长。发表学术论文70余篇
cient architecture search by network transformation[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018. SUGANUMA M, SHIRAKAWA S, NAGAO T. A genetic programming approach to designing convolutional neural network architectures[C]//Proceedings of Genetic and Evolutionary Computation Conference. Berlin, Germany, 2017: 497–504. [21] CAI Han, YANG Jiacheng, ZHANG Weinan, et al. Pathlevel network transformation for efficient architecture search[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholmsmässan, Stockholm, Sweden, 2018: 677–686. [22] ELSKEN T, METZEN J H, HUTTER F. Efficient multiobjective neural architecture search via lamarckian evolution[C]//Proceedings of 2019 International Conference on Learning Representations. New Orleans, USA, 2019. [23] ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8697–8710. [24] REAL E, AGGARWAL A, HUANG Yanping, et al. Regularized evolution for image classifier architecture search[J]. AAAI technical track: machine learning, 2019, 33(1): 4780–4789. [25] VON NEUMANN J, MORGENSTERN O, KUHN H W, et al. Theory of games and economic behavior[M]. Princeton: Princeton University Press, 2007. [26] NASH JR J F. Equilibrium points in n-person games[J]. Proceedings of the national academy of sciences of the United States of America, 1950, 36(1): 48–49. [27] TANG Pingzhong. Reinforcement mechanism design[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia, 2017: 5146–5150. [28] PÉROLAT J, LEIBO J Z, ZAMBALDI V, et al. A multiagent reinforcement learning model of common-pool resource appropriation[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 3643–3652. [29] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA, 2014: 2672–2680. [30] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[C]//Proceedings of the 12th International Conference on Neural Information Processing Systems. Cambridge, USA, 1999: 1057–1063. [31] KOCSIS L, SZEPESVÁRI C. Bandit based monte-carlo planning[C]//Proceedings of the 17th European Conference on Machine Learning. Berlin, Germany, 2006: 282–293. [32] SANDHOLM T. Solving imperfect-information games[J]. Science, 2015, 347(6218): 122–123. [33] RACANIÈRE S, WEBER T, REICHERT D P, et al. Imagination-augmented agents for deep reinforcement learning[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5690–5701. [34] ZINKEVICH M, JOHANSON M, BOWLING M, et al. Regret minimization in games with incomplete information[C]//Proceedings of the 20th International Conference on Neural Information Processing Systems. Red Hook, USA, 2007: 1729–1736. [35] BROWN N, SANDHOLM T. Safe and nested subgame solving for imperfect-information games[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 689–699. [36] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350–354. [37] 作者简介: 蒋胤傑,博士研究生,主要研究方 向为人工智能、神经网络结构搜索。 况琨,助理教授,主要研究方向为 因果推理、稳定学习、可解释性机器学 习以及 AI 在医学和法学的相关应 用。曾担任 NIPS、AAAI、CIKM、 ICDM 等国际学术会议程序委员会委 员。发表 10 余篇顶级会议和期刊文 章,包括 KDD、ICML、MM、AAAI、 TKDD 等。 吴飞,教授,博士生导师,浙江大 学人工智能研究所所长,担任中国图 象图形学学会第七届理事会理事、中 国图象图形学学会动画与数字娱乐专 委会副主任、中国计算机学会多媒体 技术专业委员会常务委员。主要研究 方向为人工智能、跨媒体计算、多媒体 分析与检索和统计学习理论。曾获宝钢优秀教师奖,“高校 计算机专业优秀教师奖励计划”,教育部人工智能科技创新 专家组工作组组长。发表学术论文 70 余篇。 ·182· 智 能 系 统 学 报 第 15 卷