正在加载图片...
注意力层 假设“一条询问”为q∈Rag,存储器为(k1,V1),…,(kVn); 。 k;eRak,V:∈Ra, ·计算n分数a1,,an;ai=(q,ki) 改变a可以 ·使用softmax获得注意力 获得不同 b1,…,bn=softmax(a1,…,an) 的注意力 ·输出是值的加权和 层 m 0=∑b1 i=1 D2L.ai注意力层 • 假设“一条询问”为 𝐪 ∈ ℝ 𝑑𝑞 ,存储器为 (𝐤1, 𝐯1), … , (𝐤𝑛, 𝐯𝑛) ; 𝐤𝑖∈ ℝ 𝑑𝑘 ,𝐯𝑖 ∈ ℝ 𝑑𝑣 • 计算 n 分数 𝑎1, …, 𝑎𝑛;𝑎𝑖 = 𝛼(𝐪, 𝐤𝑖) • 使用 softmax 获得注意力 𝑏1, … , 𝑏𝑛 = softmax(𝑎1, … , 𝑎𝑛) • 输出是值的加权和 𝐨 = ∑ 𝑖=1 𝑛 𝑏𝑖𝐯𝑖 改变α可以 获得不同 的注意力 层
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有