Autoregressive distribution 學 0.0 (Speech Recognition as example) 機 0.8 機 器 0.0 Size V max 習 0.1 (common … ■■ characters) softmax Encoder Decoder (機器學習) START (special token) 24Autoregressive Encoder Decoder START 學 0.0 機 0.8 器 0.0 習 0.1 …… …… Size V (common characters) softmax distribution ( 機器學習 ) max (Speech Recognition as example) 機 (special token) 24