ๆญฃๅœจๅŠ ่ฝฝๅ›พ็‰‡...
Self-attention 01,1 k1 01,1= k 01,2= k2 2 01,3 k3 1,3=k3 q Q1,4=k4 01,4 k4 02,1 2,2 02,3 02,4 q k 01,1 2,1 03,1 @4.1 01,1 02,1 03,1 04,1 k1 a2,2 3,2 4,2 01,2 02,2 03,2 04,2 2 a, .3 03,3 04,3 01,3 02,3 03,3 04,3 a44 03,4 .4 01,4 02,4 034 C4,4 k4 Q A softmax A KT 23Self-attention ๐’— ๐Ÿ ๐’Œ ๐Ÿ ๐’’ ๐Ÿ ๐’— ๐Ÿ ๐’Œ ๐Ÿ ๐’’ ๐Ÿ ๐’— ๐Ÿ‘ ๐’Œ ๐Ÿ‘ ๐’’ ๐Ÿ‘ ๐’— ๐Ÿ’ ๐’Œ ๐Ÿ’ ๐’’ ๐Ÿ’ ๐’’ ๐Ÿ ๐’Œ ๐Ÿ ๐’Œ ๐Ÿ ๐’Œ ๐Ÿ‘ ๐’Œ ๐Ÿ’ = ๐›ผ1,1 ๐›ผ1,2 ๐›ผ1,3 ๐›ผ1,4 ๐’’ ๐Ÿ ๐›ผ2,1 ๐›ผ2,2 ๐›ผ2,3 ๐›ผ2,4 ๐›ผ3,1 ๐›ผ3,2 ๐›ผ3,3 ๐›ผ3,4 ๐›ผ4,1 ๐›ผ4,2 ๐›ผ4,3 ๐›ผ4,4 ๐พ ๐‘‡ ๐ด ๐‘„ ๐’’ ๐Ÿ‘ ๐’’ ๐Ÿ’ ๐›ผ1,1 โ€ฒ ๐›ผ1,2 โ€ฒ ๐›ผ1,3 โ€ฒ ๐›ผ1,4 โ€ฒ ๐›ผ2,1 โ€ฒ ๐›ผ2,2 โ€ฒ ๐›ผ2,3 โ€ฒ ๐›ผ2,4 โ€ฒ ๐›ผ3,1 โ€ฒ ๐›ผ3,2 โ€ฒ ๐›ผ3,3 โ€ฒ ๐›ผ3,4 โ€ฒ ๐›ผ4,1 โ€ฒ ๐›ผ4,2 โ€ฒ ๐›ผ4,3 โ€ฒ ๐›ผ4,4 โ€ฒ ๐ดโ€ฒ ๐›ผ1,1 = ๐’’ ๐Ÿ ๐’Œ ๐Ÿ ๐›ผ1,2 = ๐’’ ๐Ÿ ๐’Œ ๐Ÿ ๐›ผ1,3 = ๐’’ ๐Ÿ ๐’Œ ๐Ÿ‘ ๐›ผ1,4 = ๐’’ ๐Ÿ ๐’Œ ๐Ÿ’ ๐’’ ๐Ÿ ๐’Œ ๐Ÿ ๐’Œ ๐Ÿ ๐’Œ ๐Ÿ‘ ๐’Œ ๐Ÿ’ = ๐›ผ1,1 ๐›ผ1,2 ๐›ผ1,3 ๐›ผ1,4 ๐›ผ2,1 ๐›ผ2,2 ๐›ผ2,3 ๐›ผ2,4 softmax 23
<<ๅ‘ไธŠ็ฟป้กตๅ‘ไธ‹็ฟป้กต>>
©2008-็Žฐๅœจ cucdc.com ้ซ˜็ญ‰ๆ•™่‚ฒ่ต„่ฎฏ็ฝ‘ ็‰ˆๆƒๆ‰€ๆœ‰