正在加载图片...
点乘注意力 ·假设询问的长度与值相同q,k;∈Rd a(q,k)=(q,k)/Vd ·向量化版本 ·m个询问Q∈Rmxd和n个键K∈Rnxd a(Q,K)QKT/Vd D2L.ai 点乘注意力 • 假设询问的长度与值相同 𝐪, 𝐤𝑖 ∈ ℝ 𝑑 𝛼(𝐪, 𝐤) = ⟨𝐪, 𝐤⟩/ 𝑑 • 向量化版本 • m 个询问 𝐐 ∈ ℝ 𝑚×𝑑 和 n 个键 𝐊 ∈ ℝ 𝑛×𝑑 𝛼(𝐐,𝐊) = 𝐐𝐊 𝑇 / 𝑑
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有