正在加载图片...
梯度 ·反向传播的长链依赖关系 ·需要在内存中保留很多中间值 ·蝴蝶效应 ·梯度消失或发散(稍后会详细介绍) ·裁剪梯度以防止发散 gmin(,g ·重新缩放到最大尺寸为0的梯度 D2L.ai 梯度 • 反向传播的长链依赖关系 • 需要在内存中保留很多中间值 • 蝴蝶效应 • 梯度消失或发散(稍后会详细介绍) • 裁剪梯度以防止发散 • 重新缩放到最大尺寸为 � 的梯度 � ← min 1, � ∥ � ∥ �
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有