西安电子科技大学：《并行计算》课程教学资源（课件讲稿）并行计算机性能测评

团购合买资源类别：文库，文档格式：PDF，文档页数：24，文件大小：753.09KB

《并行计算：Parallel Computing》结构编程算法应用 §2.2并行计算机性能测评徐悦牲Yueshen Xu)) ysxu@xidian.edu.cn 软件工程系西安电子科技大学

§2.2 并行计算机性能测评徐悦甡(Yueshen Xu) ysxu@xidian.edu.cn 软件工程系西安电子科技大学《并行计算：Parallel Computing》结构编程算法应用

本节提纲历些毛子代枚大多 XIDIAN UNIVERSITY ▣并行计算机访存模型 ■均匀存储访问与非均匀存储访问 ■高速缓存存储访问从存储器的角度 ■非远程存储访问模型等 ■体系结构与访存模型的关系口并行计算机性能测评 ■并行计算机的基本性能指标性能测评的后半部 ■加速比性能测评分内容，很重要 ■可扩展性性能测评 2

并行计算机访存模型  均匀存储访问与非均匀存储访问  高速缓存存储访问  非远程存储访问模型等  体系结构与访存模型的关系本节提纲从存储器的角度 并行计算机性能测评  并行计算机的基本性能指标  加速比性能测评  可扩展性性能测评性能测评的后半部分内容，很重要 2

并行计算机性能测评历些毛子种枝大” XIDIAN UNIVERSITY )上节课已讲 ▣并行计算机性能测评慨述 ■硬件层面或机器层面 ■程序层面或软件层面或算法层面计算开销硬件层面测试测评通信开销并行计算机存储开销性能测评加速比性能测评程序/软件层面测评可扩展性测评

并行计算机性能测评 上节课已讲  并行计算机性能测评概述  硬件层面或机器层面  程序层面或软件层面或算法层面并行计算机性能测评硬件层面测试测评程序/软件层面测评计算开销通信开销存储开销 3 加速比性能测评可扩展性测评

并行计算机性能测评历些毛子科枚大多 XIDIAN UNIVERSITY )上节课已讲 ▣CPU的部分通用性能指标 ■浮点运算数(FLOPS) > 每秒浮点运算次数，floating-point operations per second, FLOPS >原因： 1.并行计算，特别是科学计算中大量使用浮点数，即小数 -2.浮点数运算比整数运算更花费时间，更有测量的意义与效果 ■执行时间T >T comput:计算时间，Tparo:为并行开销时间，T comm: 为相互通信时间 Tn=T comput T paro+Tcomm 4

并行计算机性能测评 上节课已讲 CPU的部分通用性能指标  浮点运算数（FLOPS）  执行时间 T ➢ T comput ：计算时间，T paro ：为并行开销时间，T comm：为相互通信时间 ➢ 每秒浮点运算次数，floating-point operations per second， FLOPS ➢ 原因： - 1. 并行计算，特别是科学计算中大量使用浮点数，即小数 - 2. 浮点数运算比整数运算更花费时间，更有测量的意义与效果 T n = T comput + T paro+ T comm 4

并行计算机性能测评历些毛子种枝大兽 XIDIAN UNIVERSITY )上节课已讲口算法层面程序层面性能评测 ■开始关注软件，而不是硬件 ■加速比性能评测 >并行系统的加速比是指对于一个给定的应用，并行算法（或并行程序）的执行速度相对于串行算法（或串行程序）的执行速度加快了多少倍 >Amdahl定律 >Gustafson定律 Sun Ni定律 ■可扩展性评测 >等效率度量标准 >等速度度量标准 >平均延迟度量标准

并行计算机性能测评 上节课已讲 算法层面/程序层面性能评测 ➢ 并行系统的加速比是指对于一个给定的应用，并行算法（或并行程序）的执行速度相对于串行算法（或串行程序）的执行速度加快了多少倍 ➢ Amdahl 定律 ➢ Gustafson定律 ➢ Sun Ni定律  可扩展性评测 ➢ 等效率度量标准 ➢ 等速度度量标准 ➢ 平均延迟度量标准  开始关注软件，而不是硬件  加速比性能评测 5

并行计算机性能测评历些莞子种拔大多 XIDIAN UNIVERSITY 加速赴比口Amdahl定律（阿姆达尔定律，固定负载） >P:处理器数 >W:问题规模（计算负载、工作负载，给定问题的总计算量等） >W:应用程序中的串行分量，f是串行分量比例 f=W/W >W,:应用程序中可并行化部分，1-f为并行分量比例 Ws Wo W >Amdahl定律的出发点（三个） ·固定不变的计算负载固定的计算负载分布在多个处理器上增加处理器，加快执行速度，从而达到加速的目的 6

并行计算机性能测评  加速比  Amdahl 定律（阿姆达尔定律，固定负载） ➢ 𝑃：处理器数 ➢ 𝑊：问题规模（计算负载、工作负载，给定问题的总计算量等） 6 ➢ 𝑊𝑠：应用程序中的串行分量，𝑓是串行分量比例 𝑓 = 𝑊𝑠 / 𝑊 ➢ 𝑊𝑝 ：应用程序中可并行化部分，1- 𝑓为并行分量比例 𝑊𝑠 + 𝑊𝑝 = 𝑊 ➢ Amdahl定律的出发点（三个） - 固定不变的计算负载 - 固定的计算负载分布在多个处理器上 - 增加处理器，加快执行速度，从而达到加速的目的

并行计算机性能测评历些毛子种枝大等 XIDIAN UNIVERSITY →加速比 ▣Amdahl定律 ■S:加速比→如何计算？串行时间Vs.并行时间 ■固定负载的加速公式 Ws Wo S= 注： Ws+W=W Ws Wp/p W=Wxf ■ Ws+W,可相应地表示为Wx(f+(1-f) s=f+(1-f) p f+1-f 1+f(p-1) 0 ■ po时，上式极限为S=/f ■这意味着随着处理器数目的无限增大，并行系统所能达到的加速比上限为=1/，这不是一个很有利的结论

并行计算机性能测评  加速比  Amdahl 定律  S：加速比  如何计算？ 7  W s+ W p可相应地表示为W×(𝑓 +(1- 𝑓))  p→∞时，上式极限为 S= ൗ 1 𝑓  这意味着随着处理器数目的无限增大，并行系统所能达到的加速比上限为= ൗ 1 𝑓 ，这不是一个很有利的结论 𝑆 = 𝑊𝑠 + 𝑊𝑝 𝑊𝑠 + 𝑊𝑝Τ𝑝 𝑆 = 𝑓 + (1 − 𝑓ሻ 𝑓 + 1 − 𝑓 𝑝 = 𝑝 1 + 𝑓(𝑝 − 1ሻ 注： 𝑊𝑠 + 𝑊𝑝 = 𝑊 𝑊𝑠 = 𝑊 × 𝑓  固定负载的加速公式串行时间 vs. 并行时间

并行计算机性能测评历些毛子科枝大》 XIDIAN UNIVERSITY )加速比 ▣Amdahl定律 >处理器个数与加速比的关系 Amdahl's Law 20 Parallel portion 16 -50% 75% 14 90% 95% 12 10 9网8图用启蒼景冒言香胃圈 Number of processors 8

并行计算机性能测评  加速比  Amdahl 定律 ➢ 处理器个数与加速比的关系 8

并行计算机性能测评历粤毛子种找大学 XIDIAN UNIVERSITY →加速比 ▣继续考虑并行的额外开销 ■W,为额外开销 ■为什么要考虑额外开销？额外开销不但存在，而且占比不容忽视 S=_ Ws W W +Wo Ws+p wxf+W×=D+w。 p p 1+f×(p-1)+Wo×p/W 1 =1/p+fx (p-1)/p+Wo/W ■p→∞时，上式极限为S= f+Wo/W ■ 串行分量越大和并行额外开销越大，则加速越小 9

并行计算机性能测评  加速比  继续考虑并行的额外开销  𝑊𝑂为额外开销 9 = 𝑊 𝑊 × 𝑓 + 𝑊 × (1 − 𝑓ሻ 𝑝 + 𝑊𝑂 𝑆 = 𝑊𝑠 + 𝑊𝑝 𝑊𝑠 + 𝑊𝑝 𝑝 + 𝑊𝑂 = 𝑝 1 + 𝑓 × (𝑝 − 1ሻ + 𝑊𝑂 × 𝑝Τ𝑊  p→∞时，上式极限为𝑆 = 1 𝑓+𝑊𝑂Τ𝑊  串行分量越大和并行额外开销越大，则加速越小  为什么要考虑额外开销？额外开销不但存在，而且占比不容忽视 = 1 1/𝑝 + 𝑓 × (𝑝 − 1ሻ/𝑝 + 𝑊𝑂/𝑊

并行计算机性能测评历些毛子代枚大多 XIDIAN UNIVERSITY )加速比 ▣Gustafson定律 ■出发点 >精度要求 ·对于很多大型计算，精度要求很高，即在此类应用中精度是个关键因素，而计算时间是固定不变的 ·此时为了提高精度，必须加大计算量，相应地亦必须增多处理器数才能维持时间不变 >实际应用 - 除非学术研究，在实际应用中没有必要固定工作负载而计算程序运行在不同数目的处理器上 ~增多处理器，相应地增大问题规模才更有实际意义对大多数问题，问题规模的改变只会改变计算中并行计算量，而不会改变串行计算量 10

并行计算机性能测评  加速比  Gustafson定律 10  出发点 ➢ 精度要求 - 对于很多大型计算，精度要求很高，即在此类应用中精度是个关键因素，而计算时间是固定不变的 - 此时为了提高精度，必须加大计算量，相应地亦必须增多处理器数才能维持时间不变 ➢ 实际应用 - 除非学术研究，在实际应用中没有必要固定工作负载而计算程序运行在不同数目的处理器上 - 增多处理器，相应地增大问题规模才更有实际意义 - 对大多数问题，问题规模的改变只会改变计算中并行计算量，而不会改变串行计算量

点击下载完整版文档（PDF格式）

共24页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录