ๆญฃๅœจๅŠ ่ฝฝๅ›พ็‰‡...
Self-attention ii=exp(ai)/โˆ‘๏ผŒexp(a๏ผ‰ a41 a1,2 01,4 Soft-max 01,1 01,2 013 01,4 Q3 q1 Waa1 k2 Wka2 k3 Wka3 k4=Wka4 k1 Wkal 17๐’’ ๐Ÿ ๐’Œ ๐Ÿ Self-attention ๐’‚ ๐Ÿ’ ๐’‚ ๐Ÿ‘ ๐’‚ ๐Ÿ ๐’‚ ๐Ÿ ๐’’ ๐Ÿ = ๐‘Š๐‘ž๐’‚ ๐Ÿ ๐’Œ ๐Ÿ‘ ๐’Œ ๐Ÿ’ ๐’Œ ๐Ÿ = ๐‘Š๐‘˜๐’‚ ๐Ÿ ๐’Œ ๐Ÿ‘ = ๐‘Š๐‘˜๐’‚ ๐Ÿ‘ ๐’Œ ๐Ÿ’ = ๐‘Š๐‘˜๐’‚ ๐Ÿ’ ๐›ผ1,2 ๐›ผ1,3 ๐›ผ1,4 ๐’Œ ๐Ÿ ๐’Œ ๐Ÿ = ๐‘Š๐‘˜๐’‚ ๐Ÿ ๐›ผ1,1 Soft-max ๐›ผ1,1 โ€ฒ ๐›ผ1,2 โ€ฒ ๐›ผ1,3 โ€ฒ ๐›ผ1,4 โ€ฒ ๐›ผ1,๐‘– โ€ฒ = ๐‘’๐‘ฅ๐‘ ๐›ผ1,๐‘– /เท๐‘— ๐‘’๐‘ฅ๐‘ ๐›ผ1,๐‘— 17
<<ๅ‘ไธŠ็ฟป้กตๅ‘ไธ‹็ฟป้กต>>
©2008-็Žฐๅœจ cucdc.com ้ซ˜็ญ‰ๆ•™่‚ฒ่ต„่ฎฏ็ฝ‘ ็‰ˆๆƒๆ‰€ๆœ‰