电子科技大学：《嵌入式人工智能 Embedded Artificial Intelligence》课程教学资源（课件讲稿）第3章嵌入式AI硬件开发平台

 人工智能芯片发展历程  华为昇腾310 AI 处理器  Atlas200DK AI开发者套件

团购合买资源类别：文库，文档格式：PDF，文档页数：56，文件大小：7.73MB

第3章嵌入式A硬件开发平台 ◆人工智能芯片发展历程华为昇腾310A1处理器 Atlas:200DKAI开发者套件

第3章嵌入式AI硬件开发平台  人工智能芯片发展历程  华为昇腾310 AI 处理器  Atlas200DK AI开发者套件

人工智能芯片发展历程

人工智能芯片发展历程背景人工智能的四大要素：数据、算法、场景、算力 ● CPU A芯片：也被称为A加速器，即专门用于处理人工智能应用中的大量计算任务的功能模块。 GPU ●AI芯片经历了从CPU到GPU、ASIC/TPU、FPGA、SOC的发展历程。 TPU FPGA SOC Al

人工智能芯片发展历程人工智能的四大要素：数据、算法、场景、算力  AI芯片：也被称为AI加速器，即专门用于处理人工智能应用中的大量计算任务的功能模块。  AI芯片经历了从CPU到GPU、ASIC/TPU、FPGA、SOC的发展历程。背景 CPU GPU TPU FPGA SOC

人工智能芯片发展历程背景 A芯片的组织结构要求 CPU 冯诺依曼定理 Von Nuemann Theory GPU 3D-NAND/MRAM/RRAM Memory 存储高速，低延迟，大带宽 Memory High speed,low latency,high bandwidth TPU Arithmetic FPGA Control Logic GPU/FPGA/ASIC 计算深度学习硬件加速 Unit Unit Computing Hardware accelerator for deep learning SOC Accumulator 高性能传感器 Input Output 交互 Interation High performance sensors 更强的语音/视觉算法 Stronger algorithm

人工智能芯片发展历程背景 AI芯片的组织结构要求 CPU GPU TPU FPGA SOC

人工智能芯片发展历程背景训练芯片和推理芯片 CPU 移动设备 ADAS cv VR 语音交机器人设备端推断互设备 Inference QUALCON 7/7 Movidius momeve Chiplatelli GPU On Device Cambricon NP INODTIVE 面 TPU FPGA+云计算 ASIC 云端推断 ADERA C)阿里云 FPGA Inference On Cloud (intel) now part of Intel XILINX amazon web services 百腹己 SOC Google GPU Cloud TPU 训练 Training nVIDIA

人工智能芯片发展历程背景训练芯片和推理芯片 CPU GPU TPU FPGA SOC

人工智能芯片发展历程背景 A芯片技术架构 CPU 冯诺伊曼架构（存算分离】非冯诺依曼架构技术架构趋势通用型AI芯片定制化AI芯片存算一体芯片 GPU CPU(中央处理器) FPGA(现场可编程门列阵) 存算一体芯片传统处理器芯片，非专为人· 算力较高，功耗较低，通用性较具备算力极高、功耗极低和 TPU 工智能设计，算力低价格高：强，但量产后单价较高，性价比成本低的优势。被AI领域普遍放弃，仅作逻一般。模拟人脑神经元结构，芯片存辑处理器进行任务调度。半定制芯片，用硬件实现软件储模块和计算模块一体化，具备 FPGA 算法，搭载算法变更需要重新多个技术发展方向，其发展尚编辑电路设计，烧录配置文件。处于起步阶段。 SOC GPU(图形处理器) ASIC(专用集成电路) 长远来看，作为颠覆传统架构 ·算力较高，通用性强，但功·算力高，功耗低，量产后单价的存算一体芯片，是被普遍寄耗高，成本很高，性价比低。低，性价比高，但通用性差。予厚望的未来发展方向。 ·单指令、多数据处理，具有· 全定制芯片，用硬件实现软件高并行结构，同样非专为A1 算法，电路设计为特别定制，计算设计，但优于CPU。功能固定。相比于FPGA,当下 A1算法迭代改进快速，面临风险

人工智能芯片发展历程背景 AI芯片技术架构 CPU GPU TPU FPGA SOC

人工智能芯片发展历程背景 1.CPU(Central Processing Unit) CPU ·早期计算机性能随着摩尔定律逐年稳步提升（18个月)。 ● 增加核数提升性能，多核处理器更好的满足软件对硬件的速度需求 GPU 但带来功耗和成本增加。 ●1 TPU 增加指令（修改架构）的方式提升A性能 Inte(ClSC架构)加入AVX-512等指令，在ALU计算模块加入 FPGA 矢量运算模块(FMA) ARM(RISC架构)发布Cortex-M55内建ArmHelium向量处理 SOC 技术的处理器、Arm Ethos-U55神经网络处理器(NPU) ●提高频率提升性能，但提升空间有限，同时高主频会导致芯片出现功耗过大和过热问题

人工智能芯片发展历程 1. CPU(Central Processing Unit)  早期计算机性能随着摩尔定律逐年稳步提升（18个月）。  增加核数提升性能，多核处理器更好的满足软件对硬件的速度需求，但带来功耗和成本增加。  增加指令（修改架构）的方式提升AI性能 Intel（CISC架构）加入AVX-512等指令，在ALU计算模块加入矢量运算模块（FMA） ARM（RISC架构）发布Cortex-M55内建ArmHelium向量处理技术的处理器、Arm Ethos-U55神经网络处理器（NPU）  提高频率提升性能，但提升空间有限，同时高主频会导致芯片出现功耗过大和过热问题。 CPU 背景 GPU TPU FPGA SOC

人工智能芯片发展历程背景地址总线AB 数据总线DB 0 CPU 个地址缓冲器数据缓冲器内部总线 GPU TPU 指令寄存器IR 累加器ACC 时钟脉冲源操作码，地址码通用寄存器组暂存堆栈指针SP 累加锁存器器 FPGA 脉冲分配器指令译码器D 程序计数器PC SOC 算术逻辑单元ALU 微操作控制电路标志寄存器FR 控制总线CB 控制器寄存器组运算器

人工智能芯片发展历程 CPU 背景 GPU TPU FPGA SOC

人工智能芯片发展历程背景 2.GPU(Graph Processing Unit) CPU ● GPU(Graph Processing Unit)在矩阵计算和并行计算上具有突出的性能，是异构计算的主力，最早作为深度学习的加速芯片被引入A领域 GPU 生态成熟。 ● TPU Nvidia)沿用GPU架构，对深度学习主要向两个方向发力：丰富生态：推出cuDNN针对神经网络的优化库，提升易用性并优 FPGA 化GPU底层架构。CUDA(Compute Unified Device Architecture)) 。提升定制性：增加多数据类型支持（不再坚持foat32，增加int8 SOC 等)；添加深度学习专用模块（如引入并配备张量核的改进型架构，V100的TensorCore) 当前主要问题在于：成本高，能耗比低，延迟高

人工智能芯片发展历程 2. GPU(Graph Processing Unit)  GPU(Graph Processing Unit)在矩阵计算和并行计算上具有突出的性能，是异构计算的主力，最早作为深度学习的加速芯片被引入AI领域，生态成熟。  Nvidia沿用GPU架构，对深度学习主要向两个方向发力：丰富生态：推出cuDNN针对神经网络的优化库，提升易用性并优化GPU底层架构。CUDA(Compute Unified Device Architecture) 提升定制性：增加多数据类型支持（不再坚持float32，增加int8 等）；添加深度学习专用模块（如引入并配备张量核的改进型架构，V100的TensorCore）  当前主要问题在于：成本高，能耗比低，延迟高。 GPU 背景 CPU TPU FPGA SOC

人工智能芯片发展历程背景 GPU进行卷积加速 CPU GPU上无法直接支持卷积计算，在GPU上进行卷积计算时，需要首先将卷积核和特征图按照特定的规律进行预处理展开，称为lmg2Col方法. GPU TPU 1mg2Col操作如下图所示，以3x3x2的特征图和2x2x2x2的卷积核为例计算操作如下： FPGA 将每个周期通道1和通道2参与卷积计算的数据按行按列展开，通道1在上通道 2在下排成一列。由于需要进行4次计算，因此展开为8x4的矩阵。 SOC 同理将卷积核W和G分别按行按列展玨，通道1在前通道2在后展开为1行。由于有两个卷积核，所以将两行展开的卷积核按行拼接为2X8的矩阵。将特征图矩阵和卷积核矩阵进行矩阵乘法，得到2×4的输出矩阵，其中每行代表一张输出特征图

人工智能芯片发展历程 GPU进行卷积加速 GPU上无法直接支持卷积计算，在GPU上进行卷积计算时，需要首先将卷积核和特征图按照特定的规律进行预处理展开，称为Img2Col方法。 Img2Col操作如下图所示，以3x3x2的特征图和2x2x2x2的卷积核为例，计算操作如下：  将每个周期通道1和通道2参与卷积计算的数据按行按列展开，通道1在上通道 2在下排成一列。由于需要进行4次计算，因此展开为8x4的矩阵。  同理将卷积核W和G分别按行按列展开，通道1在前通道2在后展开为1行。由于有两个卷积核，所以将两行展开的卷积核按行拼接为2x8的矩阵。  将特征图矩阵和卷积核矩阵进行矩阵乘法，得到2x4的输出矩阵，其中每一行代表一张输出特征图。 GPU 背景 CPU TPU FPGA SOC

点击进入文档下载页（PDF格式）

共56页，可试读19页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录