Self-attention ii=exp(ai)/โ๏ผexp(a๏ผ a41 a1,2 01,4 Soft-max 01,1 01,2 013 01,4 Q3 q1 Waa1 k2 Wka2 k3 Wka3 k4=Wka4 k1 Wkal 17๐ ๐ ๐ ๐ Self-attention ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ = ๐๐๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ = ๐๐๐ ๐ ๐ ๐ = ๐๐๐ ๐ ๐ ๐ = ๐๐๐ ๐ ๐ผ1,2 ๐ผ1,3 ๐ผ1,4 ๐ ๐ ๐ ๐ = ๐๐๐ ๐ ๐ผ1,1 Soft-max ๐ผ1,1 โฒ ๐ผ1,2 โฒ ๐ผ1,3 โฒ ๐ผ1,4 โฒ ๐ผ1,๐ โฒ = ๐๐ฅ๐ ๐ผ1,๐ /เท๐ ๐๐ฅ๐ ๐ผ1,๐ 17