CHAPTER 引 言 1 本章内容: 。GPU与并行计算机 ● 现代GPU的体系结构 。为什么需要更高的速度和并行化 ·并行编程语言与模型 ·综合目标 ·本书的组织结构 概述 近20年来,基于单个中央处理单元(Central Processing Unit,CPU)的微处理器,如Intel 的奔腾(Pentium)系列和AMD的皓龙(Opteron)系列,很好地推动了计算机应用程序的性能 提升和成本降低。正是这些微处理器,使得桌面计算机的浮点运算可以达到每秒十亿次 (Giga FLoating-point OPerations per Second,GFLOPS),而集群服务器甚至可以达到几百 GFLOPS。一方面,性能的飞速提升使应用软件行业提供更多功能强大的、用户界面友好 的、可用性更高的软件成为可能。另一方面,用户一旦适应了这些改进,对性能的需求也 会不断地提升。这在计算机行业形成了一个很好的良性循环。 在这种用户需求的驱动下,很多软件开发人员在底层靠硬件性能的提升来提高应用程 序的运行速度;处理器每更新一代,软件的运行速度也会相应地变得更快。然而,自2003 年以来,由于能耗和散热问题限制了时钟频率的提高和单CPU在每个时钟周期中的执行能 力,因此光靠硬件性能的提升来提高应用程序的运行速度已经远远不够。实际上,所有微