正在加载图片...
2· 智能系统学报 第10卷 processing unit,GPU)解决通用计算任务的异构计 IPS IPC x F (1) 算方式。 为了提高CPU的性能,可以从两方面入手:增 最初的GPU只是功能专一的协处理器,用以帮 加指令吞吐量(PC)和提高时钟频率(F)。 助中央处理器(central processing unit,CPU)从繁重 随着制作工艺的不断提高,CPU芯片的集成度 的图形图像处理任务中解脱出来。为满足人们对图 越来越高3)。一方面,在集成度更高的芯片中,各 像处理实时性和精确度不断高涨的需求,在过去的 个单元在物理上更加靠近,从而可以使器件运行在 十多年间,GPU的体系结构和制造工艺都取得了长 更高的频率上。另一方面,更多的晶体管也使得设 足的进步:GPU的计算性能及计算精度都得到了大 计更复杂精细的逻辑控制结构,以提高单位时钟周 幅提升。如今,GPU的浮点计算能力早已远超同时 期的指令吞吐量。 期的CPU。 在经过了多年的发展之后,这2种策略都遭遇 图像处理任务具有高度并行的特点,这使得 到了巨大的瓶颈。时钟频率的提高使得芯片消耗的 GPU从诞生之日起,便采用多核心的设计方案。随 功率密度(W/cm2)随之提高,供电和散热即将达到 着GPU性能的不断增强和可编程性的日渐提高, 某些基本的物理极限。如图1所示,CPU的时钟频 GPU的用途不再局限于传统的图形图像处理。目 率在经历了长期高速增长后,其提升势头难以为继。 前,GPU已经广泛应用于从小到图像解码,大到超 通过复杂的逻辑结构提高指令吞吐量也逐渐达 级计算机的各种计算领域,进入到了高性能计算的 到了收益递减点。现代处理器的内部结构已经十分 主流行列。 复杂,并已经能够从指令流中压榨出大量的并行性。 Owens等]全面综述了2007年之前的GPU 通过设计更复杂的结构来提高指令的执行能力变得 通用计算的进展情况。然而,在过去的几年里,GPU 更加困难3】」 软硬件条件都发生了极大的发展变化。GPU高级 45 10 编程平台,如CUDA、OpenCL等的出现,更是使得 40 35 GPU通用计算的面貌发生了深刻的变化。 25 本文在已有文献综述的基础上,总结了GPU通 20 5 ·Intel 用计算领域最新的软硬件发展及在计算智能领域的 10 ·AMD 应用。文章首先介绍GPU通用计算出现的背景,包 1996199820002002200420062008201020122014 括传统CPU面临的困难与挑战以及GPU作为通用 年份 计算器件的特点与优势。接着,文章回顾GPU通用 图1CPU时钟频率变化趋势 计算开发工具和平台的发展历程。然后,本文转向 Fig.1 The tendency of CPU's frequency GPU通用计算的现状,重点介绍主流的GPU编程 为应对上述困难,多核解决方案被提出,以便充 平台一NVIDIA GPU专属的CUDA平台和开放标 分利用晶体管数量的增加,进一步改善CPU。 准的OpenCL平台。GPU通用计算的主要在计算智 事实上,2004之后,主要的CPU厂商如Intel和 能领域的重要应用将在之后予以介绍。最后,文章 AMD等相继转移到多核解决方案,多核计算时代已 对GPU通用计算的目前存在的挑战及未来发展趋 全面到来。 势进行展望。 1.2GPU的特点与优势 GPU最初是为了加速图形处理而设计的专用 1GPU通用计算背景 硬件。图形渲染等任务具有很强的并行性,需要密 1.1多核计算时代 集的计算与巨大的数据传输带宽。因此,GPU从诞 CPU是计算机系统的核心部件,它为各种任务 生之日起便被设计为拥有众多核心,具有高吞吐量 提供计算能力,是一种通用的计算单元。CPU的计 的计算。并且,由于GPU的专用性,GPU芯片的晶 算能力可以用每秒钟执行指令数(instructions per 体管也更多的用于计算,而非控制和缓存(如图2 second,PS)来衡量,而IPS则是由CPU的指令吞吐 所示)。由于GPU与CPU在设计上存着巨大的差 量(instructions per clock,PC)和时钟频率F所共同 别,GPU通用计算有着自身的特点与优势。 决定的: 1)计算能力强大责则燥糟藻泽泽蚤灶早 怎灶蚤贼袁 郧孕哉冤 解决通用计算任务的异构计 算方式遥 最初的 郧孕哉 只是功能专一的协处理器袁用以帮 助中央处理器渊糟藻灶贼则葬造 责则燥糟藻泽泽蚤灶早 怎灶蚤贼袁 悦孕哉冤从繁重 的图形图像处理任务中解脱出来遥 为满足人们对图 像处理实时性和精确度不断高涨的需求袁在过去的 十多年间袁郧孕哉 的体系结构和制造工艺都取得了长 足的进步曰郧孕哉 的计算性能及计算精度都得到了大 幅提升遥 如今袁郧孕哉 的浮点计算能力早已远超同时 期的 悦孕哉遥 图像处理任务具有高度并行的特点袁这使得 郧孕哉 从诞生之日起袁便采用多核心的设计方案遥 随 着 郧孕哉 性能的不断增强和可编程性的日渐提高袁 郧孕哉 的用途不再局限于传统的图形图像处理遥 目 前袁郧孕哉 已经广泛应用于从小到图像解码袁大到超 级计算机的各种计算领域袁进入到了高性能计算的 主流行列 遥 韵憎藻灶泽 等咱员鄄圆暂 全面综述了 圆园园苑 年之前的 郧孕哉 通用计算的进展情况遥 然而袁在过去的几年里袁郧孕哉 软硬件条件都发生了极大的发展变化遥 郧孕哉 高级 编程平台袁如 悦哉阅粤尧韵责藻灶悦蕴 等的出现袁更是使得 郧孕哉 通用计算的面貌发生了深刻的变化遥 本文在已有文献综述的基础上袁总结了 郧孕哉 通 用计算领域最新的软硬件发展及在计算智能领域的 应用遥 文章首先介绍 郧孕哉 通用计算出现的背景袁包 括传统 悦孕哉 面临的困难与挑战以及 郧孕哉 作为通用 计算器件的特点与优势遥 接着袁文章回顾 郧孕哉 通用 计算开发工具和平台的发展历程遥 然后袁本文转向 郧孕哉 通用计算的现状袁重点介绍主流的 郧孕哉 编程 平台要要要晕灾陨阅陨粤 郧孕哉 专属的 悦哉阅粤 平台和开放标 准的 韵责藻灶悦蕴 平台遥 郧孕哉 通用计算的主要在计算智 能领域的重要应用将在之后予以介绍遥 最后袁文章 对 郧孕哉 通用计算的目前存在的挑战及未来发展趋 势进行展望遥 员摇 郧孕哉 通用计算背景 员援员摇 多核计算时代 摇 摇 悦孕哉 是计算机系统的核心部件袁它为各种任务 提供计算能力袁是一种通用的计算单元遥 悦孕哉 的计 算能力可以用每秒钟执行指令数渊 蚤灶泽贼则怎糟贼蚤燥灶泽 责藻则 泽藻糟燥灶凿袁陨孕杂冤来衡量袁而 陨孕杂 则是由 悦孕哉 的指令吞吐 量渊蚤灶泽贼则怎糟贼蚤燥灶泽 责藻则 糟造燥糟噪袁陨孕悦冤和时钟频率 云 所共同 决定的院 陨孕杂 越 陨孕悦 伊 云 渊员冤 摇 摇 为了提高 悦孕哉 的性能袁可以从两方面入手院增 加指令吞吐量渊 陨孕悦冤和提高时钟频率渊云冤 遥 随着制作工艺的不断提高袁悦孕哉 芯片的集成度 越来越高咱猿暂 遥 一方面袁在集成度更高的芯片中袁各 个单元在物理上更加靠近袁从而可以使器件运行在 更高的频率上遥 另一方面袁更多的晶体管也使得设 计更复杂精细的逻辑控制结构袁以提高单位时钟周 期的指令吞吐量遥 在经过了多年的发展之后袁这 圆 种策略都遭遇 到了巨大的瓶颈遥 时钟频率的提高使得芯片消耗的 功率密度渊宰 辕 糟皂圆 冤随之提高袁供电和散热即将达到 某些基本的物理极限遥 如图 员 所示袁悦孕哉 的时钟频 率在经历了长期高速增长后袁其提升势头难以为继遥 通过复杂的逻辑结构提高指令吞吐量也逐渐达 到了收益递减点遥 现代处理器的内部结构已经十分 复杂袁并已经能够从指令流中压榨出大量的并行性遥 通过设计更复杂的结构来提高指令的执行能力变得 更加困难咱猿暂 遥 图 员摇 悦孕哉 时钟频率变化趋势 云蚤早援员摇 栽澡藻 贼藻灶凿藻灶糟赠 燥枣 悦孕哉爷泽 枣则藻择怎藻灶糟赠 为应对上述困难袁多核解决方案被提出袁以便充 分利用晶体管数量的增加袁进一步改善 悦孕哉遥 事实上袁圆园园源 之后袁主要的 悦孕哉 厂商如 陨灶贼藻造 和 粤酝阅 等相继转移到多核解决方案袁多核计算时代已 全面到来遥 员援圆 摇 郧孕哉 的特点与优势 郧孕哉 最初是为了加速图形处理而设计的专用 硬件遥 图形渲染等任务具有很强的并行性袁需要密 集的计算与巨大的数据传输带宽遥 因此袁郧孕哉 从诞 生之日起便被设计为拥有众多核心袁具有高吞吐量 的计算遥 并且袁由于 郧孕哉 的专用性袁郧孕哉 芯片的晶 体管也更多的用于计算袁而非控制和缓存渊如图 圆 所示冤 遥 由于 郧孕哉 与 悦孕哉 在设计上存着巨大的差 别袁郧孕哉 通用计算有着自身的特点与优势遥 员冤计算能力强大 窑圆窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有