渊悦哉阅粤悦燥则藻袁在较早的文档中也称了杂贼则藻葬皂蚤灶早孕则燥

正在加载图片...

第1期丁科，等：GPU通用计算及其在计算智能领域的应用 5 (CUDA Core,在较早的文档中也称了Streaming 免浪费宝贵的计算资源。 Processor(SP),即流处理器)编写程序一“核 3.3内存层级结构函数”(kernel)。同基于CPU的常规计算机体系类似，GPU的存不同于常规的C/C++函数，当核函数被调用储体系也具有层次性：容量大的存储器，远离GPU, 后，它会被N个不同的CUDA线程(thread)并行的读写也延迟大：延迟小的存储单元容量小，位置靠近执行N次。执行核函数的每个线程都被赋予一个 GPU。一的线程索引D。如图5，CUDA程序在运行过程中，线程能够从 3.2线程的层级结构不同的内存空间中读取数据。每个线程都有仅本线如图4所示，CUDA中的线程具有层次结构。程可见的局部内存(local memory)。局部空间一般一定数量线程组成线程块(block):线程块再组成更是片上的寄存器，可以几乎无延迟的读写。每个线大的单位线程格(grid)。程块分配有一块共享内存(shared memory),块中的所有线程都可以读写共享内存的数据。共享内存靠线程格近GPU,虽然不如寄存器读写速度快，但访问延迟线程块(0.0 线程块(0.1) 线程块(0.2) 也非常小。离GPU最远的是大容量的全局内存。所有线程都可以访问全局内存，但读写延迟非常大，线程块线程块(12 大约要比共享内存高出一个数量级。线程局部内存线程块(1.1) 线程块线程线程线程线程共享内存 (0.0) (0.1) (0.2) (0.3) ( 线程线程线程线程 (1.0) (1.1) (1.2) (1.3) 线程格线程块线程块线程块全局内存图4线程的层级结构线程块线程块线程块 Fig.4 Hierarchy of threads 核函数启动后，每个线程块(thread block)被分配给某个流多处理器(streaming multiprocessor,SM) 图5线程的层级结构上执行。线程块执行的先后顺序是不确定的，它们 Fig.5 Hierarchy of threads 必须相互独立地被执行。即不论它们按何种次序，也不论是按并行还是串行方式，最后的执行结果都表1对比了在NVIDIA GeForce560 Ti GPU中，不同层级内存的数据传输率。应该一致。表1GPU内存数据传输率(560T,PCIe2.0x16) 不同流多处理器上的线程是相互独立的，相 Table 1 GPU memory bandwidth (560 Ti,PCIe 2.0 x16) 同流多处理器上的线程则是阻塞式的]。前者内存/ 全局内存/共享内存/ 意味着，不同流多处理器上的线程由不同的处理局部内存 (GB·s)(GB·81)(GB·s) 器以任意先后顺序执行：后者意味着，当一个活跃线程受到阻塞（如执行延迟较大的数据读写操带宽 16 128.26 1024 无延迟作)时，流多处理器可以切换执行其他的线程，避除以上介绍的几种存储空间外，还存在2种对渊悦哉阅粤悦燥则藻袁在较早的文档中也称了杂贼则藻葬皂蚤灶早孕则燥糟藻泽泽燥则渊杂孕冤袁即流处理器冤编写程序要要要野核函数冶渊噪藻则灶藻造冤遥不同于常规的悦辕悦垣垣函数袁当核函数被调用后袁它会被晕个不同的悦哉阅粤线程渊贼澡则藻葬凿冤并行的执行晕次遥执行核函数的每个线程都被赋予一个一的线程索引陨阅遥猿援圆摇线程的层级结构如图源所示袁悦哉阅粤中的线程具有层次结构遥一定数量线程组成线程块渊遭造燥糟噪冤曰线程块再组成更大的单位线程格渊早则蚤凿冤遥图源摇线程的层级结构云蚤早援源摇匀蚤藻则葬则糟澡赠燥枣贼澡则藻葬凿泽核函数启动后袁每个线程块渊贼澡则藻葬凿遭造燥糟噪冤被分配给某个流多处理器渊泽贼则藻葬皂蚤灶早皂怎造贼蚤责则燥糟藻泽泽燥则袁杂酝冤上执行遥线程块执行的先后顺序是不确定的袁它们必须相互独立地被执行遥即不论它们按何种次序袁也不论是按并行还是串行方式袁最后的执行结果都应该一致遥不同流多处理器上的线程是相互独立的袁相同流多处理器上的线程则是阻塞式的咱员园暂遥前者意味着袁不同流多处理器上的线程由不同的处理器以任意先后顺序执行曰后者意味着袁当一个活跃线程受到阻塞渊如执行延迟较大的数据读写操作冤时袁流多处理器可以切换执行其他的线程袁避免浪费宝贵的计算资源遥猿援猿摇内存层级结构同基于悦孕哉的常规计算机体系类似袁郧孕哉的存储体系也具有层次性院容量大的存储器袁远离郧孕哉袁读写也延迟大曰延迟小的存储单元容量小袁位置靠近郧孕哉遥如图缘袁悦哉阅粤程序在运行过程中袁线程能够从不同的内存空间中读取数据遥每个线程都有仅本线程可见的局部内存渊造燥糟葬造皂藻皂燥则赠冤遥局部空间一般是片上的寄存器袁可以几乎无延迟的读写遥每个线程块分配有一块共享内存渊泽澡葬则藻凿皂藻皂燥则赠冤袁块中的所有线程都可以读写共享内存的数据遥共享内存靠近郧孕哉袁虽然不如寄存器读写速度快袁但访问延迟也非常小遥离郧孕哉最远的是大容量的全局内存遥所有线程都可以访问全局内存袁但读写延迟非常大袁大约要比共享内存高出一个数量级遥图缘摇线程的层级结构云蚤早援缘摇匀蚤藻则葬则糟澡赠燥枣贼澡则藻葬凿泽摇摇表员对比了在晕灾陨阅陨粤郧藻云燥则糟藻缘远园栽蚤郧孕哉中袁不同层级内存的数据传输率遥表员摇郧孕哉内存数据传输率渊缘远园栽蚤袁孕悦陨藻圆援园曾员远冤栽葬遭造藻员摇郧孕哉皂藻皂燥则赠遭葬灶凿憎蚤凿贼澡渊缘远园栽蚤袁孕悦陨藻圆援园曾员远冤内存辕渊郧月窑泽原员冤全局内存辕渊郧月窑泽原员冤共享内存辕渊郧月窑泽原员冤局部内存带宽员远员圆愿援圆远员园圆源无延迟摇摇除以上介绍的几种存储空间外袁还存在圆种对第员期摇摇摇摇摇摇摇摇摇摇摇摇摇摇丁科袁等院郧孕哉通用计算及其在计算智能领域的应用窑缘窑

<<向上翻页向下翻页>>

点击下载：【学术论文】GPU通用计算及其在计算智能领域的应用