人工智能芯片发展历程 GPU进行卷积加速 GPU上无法直接支持卷积计算，在

点击下载：电子科技大学：《嵌入式人工智能 Embedded Artificial Intelligence》课程教学资源（课件讲稿）第3章嵌入式AI硬件开发平台

正在加载图片...

人工智能芯片发展历程背景 GPU进行卷积加速 CPU GPU上无法直接支持卷积计算，在GPU上进行卷积计算时，需要首先将卷积核和特征图按照特定的规律进行预处理展开，称为lmg2Col方法. GPU TPU 1mg2Col操作如下图所示，以3x3x2的特征图和2x2x2x2的卷积核为例计算操作如下： FPGA 将每个周期通道1和通道2参与卷积计算的数据按行按列展开，通道1在上通道 2在下排成一列。由于需要进行4次计算，因此展开为8x4的矩阵。 SOC 同理将卷积核W和G分别按行按列展玨，通道1在前通道2在后展开为1行。由于有两个卷积核，所以将两行展开的卷积核按行拼接为2X8的矩阵。将特征图矩阵和卷积核矩阵进行矩阵乘法，得到2×4的输出矩阵，其中每行代表一张输出特征图。人工智能芯片发展历程 GPU进行卷积加速 GPU上无法直接支持卷积计算，在GPU上进行卷积计算时，需要首先将卷积核和特征图按照特定的规律进行预处理展开，称为Img2Col方法。 Img2Col操作如下图所示，以3x3x2的特征图和2x2x2x2的卷积核为例，计算操作如下：  将每个周期通道1和通道2参与卷积计算的数据按行按列展开，通道1在上通道 2在下排成一列。由于需要进行4次计算，因此展开为8x4的矩阵。  同理将卷积核W和G分别按行按列展开，通道1在前通道2在后展开为1行。由于有两个卷积核，所以将两行展开的卷积核按行拼接为2x8的矩阵。  将特征图矩阵和卷积核矩阵进行矩阵乘法，得到2x4的输出矩阵，其中每一行代表一张输出特征图。 GPU 背景 CPU TPU FPGA SOC

<<向上翻页向下翻页>>

点击下载：电子科技大学：《嵌入式人工智能 Embedded Artificial Intelligence》课程教学资源（课件讲稿）第3章嵌入式AI硬件开发平台