正在加载图片...
多层感知注意力 ·可学习的参数Wk∈Rhxk,W。∈Rhxda,v∈Rh a(k,q)vTtanh(Wik Waq) ·相当于连接“键”(key)和“询问”(quey),然后输入隐含 大小为h和输出大小1的单个隐含层感知 D2L.ai多层感知注意力 • 可学习的参数 𝐖𝑘 ∈ ℝ ℎ×𝑑𝑘 ,𝐖𝑞 ∈ ℝ ℎ×𝑑𝑞 , 𝐯 ∈ ℝ ℎ • 相当于连接“键”(key)和 “询问”(query),然后输入隐含 大小为 ℎ 和输出大小 1的单个隐含层感知 𝛼(𝐤, 𝐪) = 𝐯 𝑇 tanh(𝐖𝑘𝐤 + 𝐖𝑞𝐪)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有