动手学深度学习 20.高级循环神经网络 中文教材:zh.d2a 英文教材:w.d2Lai 教学视频:https://courses.d2l.ai/berkeley-stat-157 units/blstm.html D2L.ai
动手学深度学习 20. 高级循环神经网络 中文教材:zh.d2l.ai 英文教材:www.d2l.ai 教学视频:https://courses.d2l.ai/berkeley-stat-157/units/blstm.html
概要 ·深度循环神经网络 ·双向循环神经网络 循环神经网络结合 。1 残差网络(ResNet) 。 稠密连接网络(DenseNet) ·循环神经网络的正则化 D2L.ai
概要 • 深度循环神经网络 • 双向循环神经网络 • 循环神经网络结合 • 残差网络(ResNet) • 稠密连接网络(DenseNet) • 循环神经网络的正则化
深度循环 神经网络 D2L.ai
深度循环 神经网络
使用循环神经网络 one to one one to many many to one many to many many to many 编码序列 (image courtesy of karpathy.github.io) 解码序列 。 同时做到这两点 D2L.ai
使用循环神经网络 • 编码序列 • 解码序列 • 同时做到这两点 (image courtesy of karpathy.github.io)
使用循环神经网络 one to one one to many many to one many to many many to many 编写诗歌 情感分析 自动问答 命名实体标记 文本分类 机器翻译 图片来源:karpathy.github.io D2L.ai
使用循环神经网络 (图片来源:karpathy.github.io) 编写诗歌 情感分析 文本分类 自动问答 机器翻译 命名实体标记
回顾-循环神经网络 输出 解释 观测 ·隐含状态更新 ht=(Whhht-1+Whxxt-1+bn) ·观测更新 怎么添加 ot=(Whoht +bo) 更多非线性的层? ai
回顾 - 循环神经网络 • 隐含状态更新 • 观测更新 x h 观测 解释 𝐡𝑡 = 𝜙(𝐖ℎℎ 𝐡𝑡−1 + 𝐖ℎ𝑥𝐱𝑡−1 + 𝐛ℎ) 𝐨𝑡 = 𝜙(𝐖ℎ𝑜𝐡𝑡 + 𝐛𝑜 ) 输出 o 怎么添加 更多非线性的层?
计划A-单元的非线性 输出 解释 观测 ·隐含状态更新 ht=(Whhht-1+WhxXt-1+bn) ·观察更新 ot=(Whoht bo) 替代为MLP? D2L.ai
计划 A - 单元的非线性 • 隐含状态更新 • 观察更新 x h 观测 解释 𝐡𝑡 = 𝜙(𝐖ℎℎ 𝐡𝑡−1 + 𝐖ℎ𝑥𝐱𝑡−1 + 𝐛ℎ) 𝐨𝑡 = 𝜙(𝐖ℎ𝑜𝐡𝑡 + 𝐛𝑜 ) 输出 o 替代为MLP?
计划A-单元的非线性 。 保持潜在空涧的结构 更复杂的梯度(非常昂贵) 例如:Zoph et al,2018 缓慢而昂贵,没有人在实践中使用 ·隐含状态更新 ht =(Wnhht-1+WhxXt-1+bh) ·观察更新 ot=φWhoht+bo) 替代为MLP? D2L.ai
计划 A - 单元的非线性 • 隐含状态更新 • 观察更新 𝐡𝑡 = 𝜙(𝐖ℎℎ 𝐡𝑡−1 + 𝐖ℎ𝑥𝐱𝑡−1 + 𝐛ℎ) 𝐨𝑡 = 𝜙(𝐖ℎ𝑜𝐡𝑡 + 𝐛𝑜 ) • 保持潜在空间的结构 • 更复杂的梯度(非常昂贵) 例如: Zoph et al, 2018 缓慢而昂贵,没有人在实践中使用 替代为MLP?
计划B-深度循环神经网络 浅度循环神经网络 ·输入 ·隐含层 ·输出 深度循环神经网络 ·输入 隐含层 隐含层 输出 D2L.ai
计划 B - 深度循环神经网络 • 浅度循环神经网络 • 输入 • 隐含层 • 输出 • 深度循环神经网络 • 输入 • 隐含层 • 隐含层 … • 输出
计划B-深度循环神经网络 H=f(H-1,X) 0,=g(H) H!=f-1,X) …+ 里=甲H) 0,=g(H) D2L.ai
计划 B - 深度循环神经网络