Self-attention 01,1 k1 01,1= k 01,2= k2 2 01,3 k3 1,3=k3 q Q1,4=k4 01,4 k4 02,1 2,2 02,3 02,4 q k 01,1 2,1 03,1 @4.1 01,1 02,1 03,1 04,1 k1 a2,2 3,2 4,2 01,2 02,2 03,2 04,2 2 a, .3 03,3 04,3 01,3 02,3 03,3 04,3 a44 03,4 .4 01,4 02,4 034 C4,4 k4 Q A softmax A KT 23Self-attention ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ = ๐ผ1,1 ๐ผ1,2 ๐ผ1,3 ๐ผ1,4 ๐ ๐ ๐ผ2,1 ๐ผ2,2 ๐ผ2,3 ๐ผ2,4 ๐ผ3,1 ๐ผ3,2 ๐ผ3,3 ๐ผ3,4 ๐ผ4,1 ๐ผ4,2 ๐ผ4,3 ๐ผ4,4 ๐พ ๐ ๐ด ๐ ๐ ๐ ๐ ๐ ๐ผ1,1 โฒ ๐ผ1,2 โฒ ๐ผ1,3 โฒ ๐ผ1,4 โฒ ๐ผ2,1 โฒ ๐ผ2,2 โฒ ๐ผ2,3 โฒ ๐ผ2,4 โฒ ๐ผ3,1 โฒ ๐ผ3,2 โฒ ๐ผ3,3 โฒ ๐ผ3,4 โฒ ๐ผ4,1 โฒ ๐ผ4,2 โฒ ๐ผ4,3 โฒ ๐ผ4,4 โฒ ๐ดโฒ ๐ผ1,1 = ๐ ๐ ๐ ๐ ๐ผ1,2 = ๐ ๐ ๐ ๐ ๐ผ1,3 = ๐ ๐ ๐ ๐ ๐ผ1,4 = ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ ๐ = ๐ผ1,1 ๐ผ1,2 ๐ผ1,3 ๐ผ1,4 ๐ผ2,1 ๐ผ2,2 ๐ผ2,3 ๐ผ2,4 softmax 23