与悦孕哉相比袁郧孕哉具有更加强大的计算能力遥在相同时期袁郧孕哉的

正在加载图片...

第1期丁科，等：GPU通用计算及其在计算智能领域的应用 ·3 与CPU相比，GPU具有更加强大的计算能力。在下面的章节详细介绍。在相同时期，GPU的浮点计算的理论峰值能力相比 CPU要高出一个数量级[6]」 2GPU通用计算编程平台强大的计算能力使GPU在高性能计算领域获得最初的GPU功能固定，只能执行图形流水线中了广泛的应用。在全球最快的超级计算机之中，中国的特定任务，缺乏可编程性。此时，为了利用GPU 国家超级计算天津中心的天河1A号超级计算机和美进行通用计算，必须将计算任务封装成图形处理任国橡树岭实验室的TTAN号超级计算机，都是依靠务，然后交由GPU完成。这可以通过底层的汇编命装配GPU来提升性能，并提供大部分运算能力。令（低级着色语言）编程实现。更为高效的，通常我 GPU为高性能计算提供了新的巨大的发展潜能。们可以通过诸如OpenGL、Cg等图形编程接口，利用控制计算计算高级着色语言(shading language,SL)进行编程。计算计算但即使利用高级着色语言，这种方式也还存在缓存诸多不便。首先，开发者需要熟悉图形处理的流程，内存掌握一系列图形处理接口，并且需要以与任务完成内存 CPU GPU 完全无关的一套图形处理思路来考虑问题的编程求图2GPU的晶体管更多的用于计算单元解。其次，图形接口是专用的程序接口，缺乏通用计 Fig.2 GPUs devote more transistors to data processing 算所需要的灵活性，开发者必须面临如何将问题重 2)廉价易得新表述成图形处理问题的挑战。相比与基于CPU的计算机系统，GPU更加廉为了简化GPU编程，具有更高层硬件层次的编价，也更容易为个人和小型机构所利用。程模式被相继提出。GPU的统一着色器被抽象为以NVIDIA的旗舰版GPU TITAN为例。TTAN 与具体硬件无关的、能够以特定方式并行执行线程 GPU价格不足一万元人民币，共有2688个计算核的流处理器单元。GPU的内存、纹理缓存等存储单心，双精度浮点运算理论峰值计算能力达到1500 元，被抽象为具有层级结构的存储体系。经过抽象 GFLP/s,额定功耗约为250W。作为对比，北京大后，可以在流处理模式下，利用高级语言为GPU编学理论与应用地球物理研究所的集群，由1个服务写程序，完成通用的计算任务。器(Dell PowerEdge R710)、46个计算结点(Dell 本节首先介绍与GPU通用计算密切相关的流 PowerEdge M6l0)、3个刀片机箱(Dell PowerEdge 处理模式。之后，转向介绍基于流行的GPU编程语 MI000)组成。每个计算结点有2颗四核Intel Xeon 言和工具。 E5520(2.26GHz,Nehalem-EP架构)处理器，共368 2.1 流处理模式个计算核心，理论计算峰值3327GFLP/s,满载功耗流处理模式(stream programming model)是一种约为12kW。类似于单指令多数据(SIMD)的编程模式。可以看到，在提供相同数量级的计算能力的情通过将数据组织成数据流，将计算表达成作用况下，GPU非常的廉价，也易于装配（只需要一台能于数据流的核函数的方式，流处理能够暴露程序中够支持独立显卡的PC),个人和小型实验室都有条内在的并行性。通过流处理模式，程序开发者能够件利用。而集群等传统高性能计算设备，不但价格更容易地利用GPU、FGPA等计算硬件的并行能力昂贵，对场地、供电和维护等有较高的要求。可以而不用显式地处理空间分配、同步和计算单元间的说，GPU为PC提供了小型集群的计算能力[)。通信等问题。对于数据并行性良好的应用，流处理 3)开发灵活能够取得良好的性能[8] 现代的GPU都采用统一渲染架构，具有很强的如图3所示，流处理与SMD最大的不同之处可编程性。GPU编程的软件开发平台也趋于成熟，在于，SMD是以指令为操作单位的，而流处理模式 CUDA、OpenCL等工具的推出，使开发者能够使用则是以指令序列（核函数）为操作单元。数据流（输高级编程语言为GPU开发通用计算程序。现在主入流)与核函数一同进入流处理器，流中每个数据流的GPU也对单精度和双精度浮点运算提供了满元素同时被核函数执行，从而完成指定的操作，得到足EEE标准的完全支持。对于GPU编程，我们会输出数据（输出流）。与悦孕哉相比袁郧孕哉具有更加强大的计算能力遥在相同时期袁郧孕哉的浮点计算的理论峰值能力相比悦孕哉要高出一个数量级咱远暂遥强大的计算能力使郧孕哉在高性能计算领域获得了广泛的应用遥在全球最快的超级计算机之中袁中国国家超级计算天津中心的天河员粤号超级计算机和美国橡树岭实验室的栽陨栽粤晕号超级计算机袁都是依靠装配郧孕哉来提升性能袁并提供大部分运算能力遥郧孕哉为高性能计算提供了新的巨大的发展潜能遥图圆摇郧孕哉的晶体管更多的用于计算单元云蚤早援圆摇郧孕哉泽凿藻增燥贼藻皂燥则藻贼则葬灶泽蚤泽贼燥则泽贼燥凿葬贼葬责则燥糟藻泽泽蚤灶早圆冤廉价易得相比与基于悦孕哉的计算机系统袁郧孕哉更加廉价袁也更容易为个人和小型机构所利用遥以晕灾陨阅陨粤的旗舰版郧孕哉栽陨栽粤晕为例遥栽陨栽粤晕郧孕哉价格不足一万元人民币袁共有圆远愿愿个计算核心袁双精度浮点运算理论峰值计算能力达到员缘园园郧云蕴孕辕泽袁额定功耗约为圆缘园宰遥作为对比袁北京大学理论与应用地球物理研究所的集群袁由员个服务器渊阅藻造造孕燥憎藻则耘凿早藻砸苑员园冤尧源远个计算结点渊阅藻造造孕燥憎藻则耘凿早藻酝远员园冤尧猿个刀片机箱渊阅藻造造孕燥憎藻则耘凿早藻酝员园园园冤组成遥每个计算结点有圆颗四核陨灶贼藻造载藻燥灶耘缘缘圆园渊圆援圆远郧匀扎袁晕藻澡葬造藻皂鄄耘孕架构冤处理器袁共猿远愿个计算核心袁理论计算峰值猿猿圆苑郧云蕴孕辕泽袁满载功耗约为员圆噪宰遥可以看到袁在提供相同数量级的计算能力的情况下袁郧孕哉非常的廉价袁也易于装配渊只需要一台能够支持独立显卡的孕悦冤袁个人和小型实验室都有条件利用遥而集群等传统高性能计算设备袁不但价格昂贵袁对场地尧供电和维护等有较高的要求遥可以说袁郧孕哉为孕悦提供了小型集群的计算能力咱苑暂遥猿冤开发灵活现代的郧孕哉都采用统一渲染架构袁具有很强的可编程性遥郧孕哉编程的软件开发平台也趋于成熟袁悦哉阅粤尧韵责藻灶悦蕴等工具的推出袁使开发者能够使用高级编程语言为郧孕哉开发通用计算程序遥现在主流的郧孕哉也对单精度和双精度浮点运算提供了满足陨耘耘耘标准的完全支持遥对于郧孕哉编程袁我们会在下面的章节详细介绍遥圆摇郧孕哉通用计算编程平台摇摇最初的郧孕哉功能固定袁只能执行图形流水线中的特定任务袁缺乏可编程性遥此时袁为了利用郧孕哉进行通用计算袁必须将计算任务封装成图形处理任务袁然后交由郧孕哉完成遥这可以通过底层的汇编命令渊低级着色语言冤编程实现遥更为高效的袁通常我们可以通过诸如韵责藻灶郧蕴尧悦早等图形编程接口袁利用高级着色语言渊泽澡葬凿蚤灶早造葬灶早怎葬早藻袁杂蕴冤进行编程遥但即使利用高级着色语言袁这种方式也还存在诸多不便遥首先袁开发者需要熟悉图形处理的流程袁掌握一系列图形处理接口袁并且需要以与任务完成完全无关的一套图形处理思路来考虑问题的编程求解遥其次袁图形接口是专用的程序接口袁缺乏通用计算所需要的灵活性袁开发者必须面临如何将问题重新表述成图形处理问题的挑战遥为了简化郧孕哉编程袁具有更高层硬件层次的编程模式被相继提出遥郧孕哉的统一着色器被抽象为与具体硬件无关的尧能够以特定方式并行执行线程的流处理器单元遥郧孕哉的内存尧纹理缓存等存储单元袁被抽象为具有层级结构的存储体系遥经过抽象后袁可以在流处理模式下袁利用高级语言为郧孕哉编写程序袁完成通用的计算任务遥本节首先介绍与郧孕哉通用计算密切相关的流处理模式遥之后袁转向介绍基于流行的郧孕哉编程语言和工具遥圆援员摇流处理模式流处理模式渊泽贼则藻葬皂责则燥早则葬皂皂蚤灶早皂燥凿藻造冤是一种类似于单指令多数据渊杂陨酝阅冤的编程模式遥通过将数据组织成数据流袁将计算表达成作用于数据流的核函数的方式袁流处理能够暴露程序中内在的并行性遥通过流处理模式袁程序开发者能够更容易地利用郧孕哉尧云郧孕粤等计算硬件的并行能力而不用显式地处理空间分配尧同步和计算单元间的通信等问题遥对于数据并行性良好的应用袁流处理能够取得良好的性能咱愿暂遥如图猿所示袁流处理与杂陨酝阅最大的不同之处在于袁杂陨酝阅是以指令为操作单位的袁而流处理模式则是以指令序列渊核函数冤为操作单元遥数据流渊输入流冤与核函数一同进入流处理器袁流中每个数据元素同时被核函数执行袁从而完成指定的操作袁得到输出数据渊输出流冤遥第员期摇摇摇摇摇摇摇摇摇摇摇摇摇摇丁科袁等院郧孕哉通用计算及其在计算智能领域的应用窑猿窑

<<向上翻页向下翻页>>

点击下载：【学术论文】GPU通用计算及其在计算智能领域的应用