正在加载图片...
399 1041模网 1042定义注音力解码 10.43 训线 402 10.4.4小结 40g 10.4.5练习 10.5 多头注意) 404 10.5.1模型 405 10.5.2实再 10.53 小结 10.5.4练习 408 10.6白注意力和位置编码 408 10.6.1自注意力 409 10.62比较卷积神经网络、循环神经网络和自注意力。·····。,·········· 410 10.6.3位置编码 411 10.6.4小结 414 10.6.5练习 414 10.7Transformer 。。。 。。。。。 414 10.7.1模型 107.2基于位置的前馈网络.·..... 416 10.7.3残差连接和层规范化。 417 10.7.4绾风界 107.5 解码器 420 10.7.61训练 422 10.7.7小结 426 10.7.8练 426 11优化算法 111优化和深度学习. 427 428 11.1.2深度学习中的优化挑战 11.13 432 11.1.4练习 433 11.2凸性 433 112.1 定义 433 11.2.2性质 436 11.2.3约束 439 112.4小 441 11.2.5练习 41 113梯度下降 14 11.3.1 一维梯下降 442 11.3.2 多元梯度下陷 446 xii 10.4 Bahdanau 注意⼒ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 10.4.1 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 10.4.2 定义注意⼒解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400 10.4.3 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402 10.4.4 ⼩结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 10.4.5 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 10.5 多头注意⼒ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404 10.5.1 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 10.5.2 实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 10.5.3 ⼩结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 10.5.4 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 10.6 ⾃注意⼒和位置编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 10.6.1 ⾃注意⼒ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 10.6.2 ⽐较卷积神经⽹络、循环神经⽹络和⾃注意⼒ . . . . . . . . . . . . . . . . . . . . . 410 10.6.3 位置编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411 10.6.4 ⼩结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 10.6.5 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 10.7 Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 10.7.1 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 10.7.2 基于位置的前馈⽹络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 10.7.3 残差连接和层规范化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 10.7.4 编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 10.7.5 解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 10.7.6 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422 10.7.7 ⼩结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426 10.7.8 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426 11 优化算法 427 11.1 优化和深度学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 11.1.1 优化的⽬标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 11.1.2 深度学习中的优化挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 11.1.3 ⼩结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 11.1.4 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.2 凸性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.2.1 定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.2.2 性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 11.2.3 约束 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 11.2.4 ⼩结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 11.2.5 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 11.3 梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 11.3.1 ⼀维梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 11.3.2 多元梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 xii
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有