型卷积深度学习的实验中具有一定的优势[1]。 O ( √ t ) t 在梯

正在加载图片...

第6期黄鉴之，等：非光滑凸情形Adam型算法的最优个体收敛速率 ·1141· 型卷积深度学习的实验中具有一定的优势四。 Adam的最初形式是在梯度下降的基础上使在梯度下降方法的基础上，首先使用基于梯用了EMA策略修正步长和Heavy-ball型动量法度的自适应步长方法是AdaGrad,其主要的思路修正梯度方向山。尽管Adam在深度学习中有着是通过对过往所有梯度的外积进行累加的方式进不错的表现1，但自从Kingma等于2015年提行步长自适应的调整。虽然AdaGrad在求解非出Adam后，其收敛性一直是一个具有挑战性的光滑凸问题时具有和投影次梯度方法一样O() 问题。对于非光滑凸问题，尽管Kingma等声称的regret界，其中t是算法的迭代步数。AdaGrad 证明了Adam取得了o(vd的regret界，但Reddi 算法最初主要用于正则化学习问题求解，但在深等却对Adam的收敛性提出了质疑，他们通过理度学习应用中的效果却很不理想。出现这一问题论和实验证明，即使是对简单的一维凸函数，Adam 的主要原因是算法对过去梯度的外积单纯做和，也会出现无法收敛到最优解甚至收敛到最差局部导致累加项变大得过快。为了克服这一缺陷，Hinton 极值点的现象。出现这一问题的原因在于：采等采用EMA(exponential moving average)的形用EMA方式处理梯度时，在迭代后期步长会出式修改AdaGrad算法累加项的计算方式，提出了现不降反升的现象，从而会导致目标函数值剧烈 RMSProp算法。RMSProp算法丢弃了相对遥远波动。为了克服这一问题，Reddi等提出了AMS 的历史梯度信息，保证了若干次迭代后学习能继 Grad和AdamNC两个修改版本。其中，AMSGrad 续进行，较好地适应了目标函数平滑性的局部变在Adam自适应矩阵上添加了一个确保步长衰减化。在RMSProp算法的基础上，自适应步长算法的操作，从而使得在线AMSGrad在一般凸的情况又有了进一步的发展，典型的算法有AdaDelta等。下能获得O(V)的regret界。2019年，Wang等动量法是在经典梯度下降法基础上通过添加通过对Adam进行适当的变形，得到了强凸情形动量项演变而来的，广泛用于提高一阶梯度算法下OIog()的regret界。的收敛速率。根据动量表示方式的不同以及动量从目前Adam的各种发展趋势来看，我们更项中计算梯度位置的不同可以分成两类：一类是愿意将Adam视为一种利用过去梯度信息同时更 Polyak于1964年提出的Heavy-ball型动量法；新下降方向和步长的一阶梯度算法框架。本文另一类是Nesterov!于I983年提出的NAG(nes- 主要研究非光滑凸情形Adam型方法AMSGrad terov accelerated gradient)型动量法。其中，Heay- 的个体收敛速率问题。为了避免叙述上的复杂 ball直接在当前点计算梯度；而NAG会根据当前性，直接简称为Adam算法。动量预判下次迭代可能抵达的位置，并在预判的本文的主要工作有以下3个方面：位置计算梯度。动量方法的加速性能主要体现在 1)证明了Adam具有O1/Wf的最优个体收求解凸光滑目标函数时NAG取得的突破，将梯敛速率。据我们所知，这一理论结果填补了Adam 度下降法的收敛速率0(1/)加速至最优的0(1/)P。算法在非光滑条件下个体最优收敛性方面研究的当目标函数光滑且强凸时，虽然动量方法和梯度缺失，同时也说明了Adam继承了Heay-ball型动下降法都能达到线性收敛，但动量法由于具有小量法的优点，体现了动量技巧的特性，可以将个的收敛因子仍然具有加速性网。体收敛加速至最优。对于非光滑凸优化问题，投影次梯度方法目 2)本文的收敛性分析思路具有一定的一般前获得的最好的个体收敛速率只是o1og)/W。性，本文首先借鉴了Ghadimi等⑧在光滑条件下 Heavy-ball算法收敛速率的证明方法，得到与梯度 2018年，陶蔚等10-1将NAG步长策略引入到投下降法相似的迭代公式。为了进一步得到非光滑影次梯度中，得到了最优个体收敛速率O(1/, 条件下的最优个体收敛速率，与文献[12]类似，同时保证了良好的稀疏性。2019年，程禹嘉等本文巧妙设计了时变的步长和动量权重参数，同证明了Heavy-ball型动量法具有O(1/A的最优时使用Zinkevich在处理在线优化问题收敛性时个体收敛速率。由此可以看出，动量方法对非光使用的技巧，处理变步长与权重导致的递归问题。滑凸问题同样具有加速作用，只不过体现在个体 3)本文选择了典型的l范数约束下的hinge 收敛速率上。从Heavy-ball型动量法加速个体速损失函数优化问题，通过与几种具有最优收敛速率的证明过程来看，主要是借鉴了Ghadimi等s 率算法的比较，验证了理论的正确性和算法在保在光滑条件下Heavy-ball算法收敛速率的证明。持稀疏性方面的良好性能。型卷积深度学习的实验中具有一定的优势[1]。 O ( √ t ) t 在梯度下降方法的基础上，首先使用基于梯度的自适应步长方法是 AdaGrad，其主要的思路是通过对过往所有梯度的外积进行累加的方式进行步长自适应的调整[2]。虽然 AdaGrad 在求解非光滑凸问题时具有和投影次梯度方法一样的 regret 界，其中是算法的迭代步数[3]。AdaGrad 算法最初主要用于正则化学习问题求解，但在深度学习应用中的效果却很不理想。出现这一问题的主要原因是算法对过去梯度的外积单纯做和，导致累加项变大得过快。为了克服这一缺陷，Hinton 等 [4] 采用 EMA (exponential moving average) 的形式修改 AdaGrad 算法累加项的计算方式，提出了 RMSProp 算法。RMSProp 算法丢弃了相对遥远的历史梯度信息，保证了若干次迭代后学习能继续进行，较好地适应了目标函数平滑性的局部变化。在 RMSProp 算法的基础上，自适应步长算法又有了进一步的发展，典型的算法有 AdaDelta[5] 等。 O(1/t) O ( 1 / t 2 ) 动量法是在经典梯度下降法基础上通过添加动量项演变而来的，广泛用于提高一阶梯度算法的收敛速率。根据动量表示方式的不同以及动量项中计算梯度位置的不同可以分成两类：一类是 Polyak[6] 于 1964 年提出的 Heavy-ball 型动量法；另一类是 Nesterov[7] 于 1983 年提出的 NAG (nesterov accelerated gradient) 型动量法。其中，Heavyball 直接在当前点计算梯度；而 NAG 会根据当前动量预判下次迭代可能抵达的位置，并在预判的位置计算梯度。动量方法的加速性能主要体现在求解凸光滑目标函数时 NAG 取得的突破，将梯度下降法的收敛速率加速至最优的 [7]。当目标函数光滑且强凸时，虽然动量方法和梯度下降法都能达到线性收敛，但动量法由于具有小的收敛因子仍然具有加速性[8]。 O ( log(t)/ √ t ) O ( 1/ √ t ) O ( 1/ √ t ) 对于非光滑凸优化问题，投影次梯度方法目前获得的最好的个体收敛速率只是 [9]。 2018 年，陶蔚等[10-11] 将 NAG 步长策略引入到投影次梯度中，得到了最优个体收敛速率，同时保证了良好的稀疏性。2019 年，程禹嘉等[12] 证明了 Heavy-ball 型动量法具有的最优个体收敛速率。由此可以看出，动量方法对非光滑凸问题同样具有加速作用，只不过体现在个体收敛速率上。从 Heavy-ball 型动量法加速个体速率的证明过程来看，主要是借鉴了 Ghadimi 等 [8] 在光滑条件下 Heavy-ball 算法收敛速率的证明。 O ( √ t ) O ( √ t ) O ( log(t) ) Adam 的最初形式是在梯度下降的基础上使用了 EMA 策略修正步长和 Heavy-ball 型动量法修正梯度方向[1]。尽管 Adam 在深度学习中有着不错的表现[13-14] ，但自从 Kingma 等于 2015 年提出 Adam 后，其收敛性一直是一个具有挑战性的问题。对于非光滑凸问题，尽管 Kingma 等声称证明了 Adam 取得了的 regret 界，但 Reddi 等却对 Adam 的收敛性提出了质疑，他们通过理论和实验证明，即使是对简单的一维凸函数，Adam 也会出现无法收敛到最优解甚至收敛到最差局部极值点的现象[15]。出现这一问题的原因在于：采用 EMA 方式处理梯度时，在迭代后期步长会出现不降反升的现象，从而会导致目标函数值剧烈波动。为了克服这一问题，Reddi 等提出了 AMSGrad 和 AdamNC 两个修改版本。其中，AMSGrad 在 Adam 自适应矩阵上添加了一个确保步长衰减的操作，从而使得在线 AMSGrad 在一般凸的情况下能获得的 regret 界。2019 年，Wang 等 [16] 通过对 Adam 进行适当的变形，得到了强凸情形下的 regret 界。从目前 Adam 的各种发展趋势来看，我们更愿意将 Adam 视为一种利用过去梯度信息同时更新下降方向和步长的一阶梯度算法框架[17]。本文主要研究非光滑凸情形 Adam 型方法 AMSGrad 的个体收敛速率问题。为了避免叙述上的复杂性，直接简称为 Adam 算法。本文的主要工作有以下 3 个方面： O ( 1/ √ t ) 1) 证明了 Adam 具有的最优个体收敛速率。据我们所知，这一理论结果填补了 Adam 算法在非光滑条件下个体最优收敛性方面研究的缺失，同时也说明了 Adam 继承了 Heavy-ball 型动量法的优点，体现了动量技巧的特性，可以将个体收敛加速至最优。 2) 本文的收敛性分析思路具有一定的一般性，本文首先借鉴了 Ghadimi 等 [8] 在光滑条件下 Heavy-ball 算法收敛速率的证明方法，得到与梯度下降法相似的迭代公式。为了进一步得到非光滑条件下的最优个体收敛速率，与文献 [12] 类似，本文巧妙设计了时变的步长和动量权重参数，同时使用 Zinkevich 在处理在线优化问题收敛性时使用的技巧，处理变步长与权重导致的递归问题[3]。 3) 本文选择了典型的 l1 范数约束下的 hinge 损失函数优化问题，通过与几种具有最优收敛速率算法的比较，验证了理论的正确性和算法在保持稀疏性方面的良好性能。第 6 期黄鉴之，等：非光滑凸情形 Adam 型算法的最优个体收敛速率 ·1141·

<<向上翻页向下翻页>>

点击下载：【机器学习】非光滑凸情形Adam型算法的最优个体收敛速率