正在加载图片...
ODE解的反向传播 训练连续深度的网络的主要技术难,点是计 算ODE解的反向转播。 直接按照前向传播的计算路径反向传播是 一个很直观的想法,但是会带来较高的存 储成本并引入额外的数值误差。 论文采取了使用伴随方法(adjoint method)[Pontryagin et al.,1962)】计算梯度的 策略。该方法通过时间上反向求解另一个 增广ODE来逼近计算梯度。之后的梯度即 可进一步用于参数的更新该方法的代价与 问题规模成线性关系,内存消耗较低,并 能够控制数值误差。ODE解的反向传播 训练连续深度的网络的主要技术难点是计 算ODE解的反向转播。 直接按照前向传播的计算路径反向传播是 一个很直观的想法,但是会带来较高的存 储成本并引入额外的数值误差。 论 文 采 取 了 使 用 伴 随 方 法 (adjoint method)[(Pontryagin et al., 1962)]计算梯度的 策略。该方法通过时间上反向求解另一个 增广ODE来逼近计算梯度。之后的梯度即 可进一步用于参数的更新该方法的代价与 问题规模成线性关系,内存消耗较低,并 能够控制数值误差
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有