正在加载图片...
·176· 智能系统学报 第15卷 模型的对抗样本攻击也证明了这一点。另一方 经元之间的连接方式可以是简单的链式堆叠,也 面,真实世界的数据反映了复杂的社会现象,数 可以是有分支的有向无环图结构。 据拟合的单纯方法难以刻画真实世界中商品竞拍 1.1.2深度学习的参数优化 和博弈对抗等行为。这样,盲目增加模型复杂度 深度学习中优化的参数主要是每个神经元链 只会对数据集“过拟合”,而不会真正提升模型在 接权重大小。在深度学习的模型中,通过不同神 现实世界中的表现。产生这种现象的一个重要原 经元的线性组合以及非线性激活函数输出预测结 因是训练好的模型很难在实际使用中根据现实情 果,并计算预测结果与真实标签的误差,再将误 况的差异做出调整。在这种情况下,对于复杂问 差利用反向传播算法,对参数进行优化。此外, 题,机器学习不应只关注于求解数据拟合的最优 为了防止过拟合,在优化参数时常常会在误差项 解,而应该从博弈的角度出发,通过寻找问题的 后对参数施以一定约束(如参数稀疏等)。记深度 均衡解,找到不同场合下适用的求解方法。博弈 学习的神经网络模型为F,则第i个训练数据x:对 论虽然是经济学的一个分支,但是自现代博弈论 应的预测输出结果为F(x),若这个数据对应的真 创立之初,其就与计算机科学产生了千丝万缕的 实标签为y,则对这个训练数据的误差记作 联系,近年来更是与人工智能相结合,在围棋、德 Loss(F(x),y),对于不同的问题可以采用不同的损 州扑克、星际争霸等游戏中战胜人类选手6。 失函数来计算误差,最终优化的目标就是在数据 1深度学习中的最优解拟合 全集上最小化损失函数。假设训练数据集中共 有N个训练样本,优化目标可以表示为 1.1深度学习的数据拟合 1.1.1从浅层学习到深度学习 min(∑Los(F(x),)) 神经网络最初的研究可以追潮到20世纪 在进行参数优化的过程中,由于训练数据的 50年代所提出的“感知机”模型四,这是一种根据 规模通常较大,所以需要将训练数据分批计算损 生物神经细胞信号传导过程而设计的学习模型。 失函数,再将每一批数据的误差反向传播,应用 神经网络被普遍应用于机器学习等领域是在误差 梯度下降法6对参数进行优化。对于神经网络 反向传播算法01被提出后,这一算法使得具有 模型中的待优化参数,在梯度下降的每一步中 拟合非线性函数能力的“多层感知机“模型的参数 参数都会如下优化更新: 可以通过反向传播算法进行优化。此后类似多层 oloss 感知机的一系列浅层学习的机器学习算法被提 waew=w-刀X 出,包括支持向量机1]和Boosting!等方法。浅 式中:1oss表示由一批训练数据计算所得误差; 层学习往往需要人工定义和构造特征,难以完成 ”表示学习率,是一个模型训练的超参数,表示根 端到端的训练过程。 据每批训练数据进行优化的步长。 2006年,Hinton等首次提出了深度学习的 可以看出,即使利用梯度下降法,在模型参数 概念。深度学习是一种端到端学习(end-to-end 较多和训练数据规模较大的情况下,深度学习的 learning)的机制,在给定输人数据后,可以自动提 数据拟合是一个非常缓慢的过程,尤其是近年来 取其最具区别力的特征,挖掘数据内部的隐含关 神经网络的规模越来越大,例如在自然语言领域 系。此后,深度学习在许多大规模数据上进行的 表现优秀的模型BERT,就有1.1×103.4×108个 实验都表现出了远超过浅层学习的效果,深度学 训练参数7。 习逐步成为当下人工智能的研究热点。 1.2深度学习中的超参数 深度学习的基础仍然是人工神经网络,一个 1.2.1深度学习模型的人工设计 深度学习的模型由多个神经元叠加构成。对于单 随着深度学习在各个领域大放异彩,人们提 个神经元,其输入向量记为a=[a,a2,…,anJ,神 出了大量不同的深度学习模型。但是归根结底, 经元的参数记为w=[w1,w2,…,wJ,神经元内使 深度学习模型可以优化的主要参数为神经元之间 用的非线性激活函数为g,则这个神经元的输 链接权重向量,除此之外神经元之间的连接方式 出为 均通过人工设计完成。目前最广泛使用的两种基 f(a)=g(w.a)=>g(w,×a,) 本神经元网络结构有常用于计算机视觉的卷积神 经网络和常用于自然语言处理的递归神经网络。 一个深度学习模型包含若干基本神经元,神 在这基础之上的各种不同结构的模型都是针对某模型的对抗样本攻击也证明了这一点[4]。另一方 面,真实世界的数据反映了复杂的社会现象,数 据拟合的单纯方法难以刻画真实世界中商品竞拍 和博弈对抗等行为。这样,盲目增加模型复杂度 只会对数据集“过拟合”,而不会真正提升模型在 现实世界中的表现。产生这种现象的一个重要原 因是训练好的模型很难在实际使用中根据现实情 况的差异做出调整。在这种情况下,对于复杂问 题,机器学习不应只关注于求解数据拟合的最优 解,而应该从博弈的角度出发,通过寻找问题的 均衡解,找到不同场合下适用的求解方法。博弈 论虽然是经济学的一个分支,但是自现代博弈论 创立之初,其就与计算机科学产生了千丝万缕的 联系,近年来更是与人工智能相结合,在围棋、德 州扑克、星际争霸等游戏中战胜人类选手[5-8]。 1 深度学习中的最优解拟合 1.1 深度学习的数据拟合 1.1.1 从浅层学习到深度学习 神经网络最初的研究可以追溯到 20 世纪 50 年代所提出的“感知机”模型[9] ,这是一种根据 生物神经细胞信号传导过程而设计的学习模型。 神经网络被普遍应用于机器学习等领域是在误差 反向传播算法[10-12] 被提出后,这一算法使得具有 拟合非线性函数能力的“多层感知机”模型的参数 可以通过反向传播算法进行优化。此后类似多层 感知机的一系列浅层学习的机器学习算法被提 出,包括支持向量机[13] 和 Boosting[14] 等方法。浅 层学习往往需要人工定义和构造特征,难以完成 端到端的训练过程。 2006 年,Hinton 等 [15] 首次提出了深度学习的 概念。深度学习是一种端到端学习 (end-to-end learning) 的机制,在给定输入数据后,可以自动提 取其最具区别力的特征,挖掘数据内部的隐含关 系。此后,深度学习在许多大规模数据上进行的 实验都表现出了远超过浅层学习的效果,深度学 习逐步成为当下人工智能的研究热点。 a = [a1,a2,··· ,an] T w = [w1,w2,··· ,wn] T 深度学习的基础仍然是人工神经网络,一个 深度学习的模型由多个神经元叠加构成。对于单 个神经元,其输入向量记为 ,神 经元的参数记为 ,神经元内使 用的非线性激活函数为 g,则这个神经元的输 出为 f (a) = g(w T · a) = ∑n i=1 g(wi ×ai) 一个深度学习模型包含若干基本神经元,神 经元之间的连接方式可以是简单的链式堆叠,也 可以是有分支的有向无环图结构。 1.1.2 深度学习的参数优化 F (xi) Loss(F (xi), yi) 深度学习中优化的参数主要是每个神经元链 接权重大小。在深度学习的模型中,通过不同神 经元的线性组合以及非线性激活函数输出预测结 果,并计算预测结果与真实标签的误差,再将误 差利用反向传播算法,对参数进行优化。此外, 为了防止过拟合,在优化参数时常常会在误差项 后对参数施以一定约束 (如参数稀疏等)。记深度 学习的神经网络模型为 F,则第 i 个训练数据 xi 对 应的预测输出结果为 ,若这个数据对应的真 实标签 为 y i ,则对这个训练数据的误差记作 ,对于不同的问题可以采用不同的损 失函数来计算误差,最终优化的目标就是在数据 全集上最小化损失函数。假设训练数据集中共 有 N 个训练样本,优化目标可以表示为 min(∑N i=1 Loss(F (xi), yi) 在进行参数优化的过程中,由于训练数据的 规模通常较大,所以需要将训练数据分批计算损 失函数,再将每一批数据的误差反向传播,应用 梯度下降法[16] 对参数进行优化。对于神经网络 模型中的待优化参数 w,在梯度下降的每一步中 参数都会如下优化更新: w new = w−η× ∂loss ∂w 式中:loss 表示由一批训练数据计算所得误差; η 表示学习率,是一个模型训练的超参数,表示根 据每批训练数据进行优化的步长。 可以看出,即使利用梯度下降法,在模型参数 较多和训练数据规模较大的情况下,深度学习的 数据拟合是一个非常缓慢的过程,尤其是近年来 神经网络的规模越来越大,例如在自然语言领域 表现优秀的模型 BERT,就有 1.1×108 ~3.4×108 个 训练参数[17]。 1.2 深度学习中的超参数 1.2.1 深度学习模型的人工设计 随着深度学习在各个领域大放异彩,人们提 出了大量不同的深度学习模型。但是归根结底, 深度学习模型可以优化的主要参数为神经元之间 链接权重向量,除此之外神经元之间的连接方式 均通过人工设计完成。目前最广泛使用的两种基 本神经元网络结构有常用于计算机视觉的卷积神 经网络和常用于自然语言处理的递归神经网络。 在这基础之上的各种不同结构的模型都是针对某 ·176· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有