《并行计算:Parallel Computing》 结构 编程算法应用 §2.2并行计算机性能测评 徐悦牲Yueshen Xu)) ysxu@xidian.edu.cn 软件工程系 西安电子科技大学
§2.2 并行计算机性能测评 徐悦甡(Yueshen Xu) ysxu@xidian.edu.cn 软件工程系 西安电子科技大学 《并行计算:Parallel Computing》 结构 编程 算法 应用
本节提纲 历些毛子代枚大多 XIDIAN UNIVERSITY ▣并行计算机访存模型 ■均匀存储访问与非均匀存储访问 ■高速缓存存储访问 从存储器的角度 ■非远程存储访问模型等 ■体系结构与访存模型的关系 口并行计算机性能测评 ■并行计算机的基本性能指标 性能测评的后半部 ■加速比性能测评 分内容,很重要 ■可扩展性性能测评 2
并行计算机访存模型 均匀存储访问与非均匀存储访问 高速缓存存储访问 非远程存储访问模型等 体系结构与访存模型的关系 本节提纲 从存储器的角度 并行计算机性能测评 并行计算机的基本性能指标 加速比性能测评 可扩展性性能测评 性能测评的后半部 分内容,很重要 2
并行计算机性能测评 历些毛子种枝大” XIDIAN UNIVERSITY )上节课已讲 ▣并行计算机性能测评慨述 ■硬件层面或机器层面 ■程序层面或软件层面或算法层面 计算开销 硬件层面测试测评 通信开销 并行计算机 存储开销 性能测评 加速比性能测评 程序/软件层面测评 可扩展性测评
并行计算机性能测评 上节课已讲 并行计算机性能测评概述 硬件层面或机器层面 程序层面或软件层面或算法层面 并行计算机 性能测评 硬件层面测试测评 程序/软件层面测评 计算开销 通信开销 存储开销 3 加速比性能测评 可扩展性测评
并行计算机性能测评 历些毛子科枚大多 XIDIAN UNIVERSITY )上节课已讲 ▣CPU的部分通用性能指标 ■浮点运算数(FLOPS) > 每秒浮点运算次数,floating-point operations per second, FLOPS >原因: 1.并行计算,特别是科学计算中大量使用浮点数,即小数 -2.浮点数运算比整数运算更花费时间,更有测量的意义与效果 ■执行时间T >T comput:计算时间,Tparo:为并行开销时间,T comm: 为相互通 信时间 Tn=T comput T paro+Tcomm 4
并行计算机性能测评 上节课已讲 CPU的部分通用性能指标 浮点运算数(FLOPS) 执行时间 T ➢ T comput :计算时间,T paro :为并行开销时间,T comm:为相互通 信时间 ➢ 每秒浮点运算次数,floating-point operations per second, FLOPS ➢ 原因: - 1. 并行计算,特别是科学计算中大量使用浮点数,即小数 - 2. 浮点数运算比整数运算更花费时间,更有测量的意义与效果 T n = T comput + T paro+ T comm 4
并行计算机性能测评 历些毛子种枝大兽 XIDIAN UNIVERSITY )上节课已讲 口算法层面程序层面性能评测 ■开始关注软件,而不是硬件 ■加速比性能评测 >并行系统的加速比是指对于一个给定的应用,并行算法(或并行程序)的 执行速度相对于串行算法(或串行程序)的执行速度加快了多少倍 >Amdahl定律 >Gustafson定律 Sun Ni定律 ■可扩展性评测 >等效率度量标准 >等速度度量标准 >平均延迟度量标准
并行计算机性能测评 上节课已讲 算法层面/程序层面性能评测 ➢ 并行系统的加速比是指对于一个给定的应用,并行算法(或并行程序)的 执行速度相对于串行算法(或串行程序)的执行速度加快了多少倍 ➢ Amdahl 定律 ➢ Gustafson定律 ➢ Sun Ni定律 可扩展性评测 ➢ 等效率度量标准 ➢ 等速度度量标准 ➢ 平均延迟度量标准 开始关注软件,而不是硬件 加速比性能评测 5
并行计算机性能测评 历些莞子种拔大多 XIDIAN UNIVERSITY 加速赴比 口Amdahl定律(阿姆达尔定律,固定负载) >P:处理器数 >W:问题规模(计算负载、工作负载,给定问题的总计算量等) >W:应用程序中的串行分量,f是串行分量比例 f=W/W >W,:应用程序中可并行化部分,1-f为并行分量比例 Ws Wo W >Amdahl定律的出发点(三个) ·固定不变的计算负载 固定的计算负载分布在多个处理器上 增加处理器,加快执行速度,从而达到加速的目的 6
并行计算机性能测评 加速比 Amdahl 定律(阿姆达尔定律,固定负载) ➢ 𝑃:处理器数 ➢ 𝑊:问题规模(计算负载、工作负载,给定问题的总计算量等) 6 ➢ 𝑊𝑠:应用程序中的串行分量,𝑓是串行分量比例 𝑓 = 𝑊𝑠 / 𝑊 ➢ 𝑊𝑝 :应用程序中可并行化部分,1- 𝑓为并行分量比例 𝑊𝑠 + 𝑊𝑝 = 𝑊 ➢ Amdahl定律的出发点(三个) - 固定不变的计算负载 - 固定的计算负载分布在多个处理器上 - 增加处理器,加快执行速度,从而达到加速的目的
并行计算机性能测评 历些毛子种枝大等 XIDIAN UNIVERSITY →加速比 ▣Amdahl定律 ■S:加速比→如何计算? 串行时间Vs.并行时间 ■固定负载的加速公式 Ws Wo S= 注: Ws+W=W Ws Wp/p W=Wxf ■ Ws+W,可相应地表示为Wx(f+(1-f) s=f+(1-f) p f+1-f 1+f(p-1) 0 ■ po时,上式极限为S=/f ■这意味着随着处理器数目的无限增大,并行系统所能达到的加速比 上限为=1/,这不是一个很有利的结论
并行计算机性能测评 加速比 Amdahl 定律 S:加速比 如何计算? 7 W s+ W p可相应地表示为W×(𝑓 +(1- 𝑓)) p→∞时,上式极限为 S= ൗ 1 𝑓 这意味着随着处理器数目的无限增大,并行系统所能达到的加速比 上限为= ൗ 1 𝑓 ,这不是一个很有利的结论 𝑆 = 𝑊𝑠 + 𝑊𝑝 𝑊𝑠 + 𝑊𝑝Τ𝑝 𝑆 = 𝑓 + (1 − 𝑓ሻ 𝑓 + 1 − 𝑓 𝑝 = 𝑝 1 + 𝑓(𝑝 − 1ሻ 注: 𝑊𝑠 + 𝑊𝑝 = 𝑊 𝑊𝑠 = 𝑊 × 𝑓 固定负载的加速公式 串行时间 vs. 并行时间
并行计算机性能测评 历些毛子科枝大》 XIDIAN UNIVERSITY )加速比 ▣Amdahl定律 >处理器个数与加速比的关系 Amdahl's Law 20 Parallel portion 16 -50% 75% 14 90% 95% 12 10 9网8图用启蒼景冒言香胃圈 Number of processors 8
并行计算机性能测评 加速比 Amdahl 定律 ➢ 处理器个数与加速比的关系 8
并行计算机性能测评 历粤毛子种找大学 XIDIAN UNIVERSITY →加速比 ▣继续考虑并行的额外开销 ■W,为额外开销 ■为什么要考虑额外开销? 额外开销不但存在,而且占比不容忽视 S=_ Ws W W +Wo Ws+p wxf+W×=D+w。 p p 1+f×(p-1)+Wo×p/W 1 =1/p+fx (p-1)/p+Wo/W ■p→∞时,上式极限为S= f+Wo/W ■ 串行分量越大和并行额外开销越大,则加速越小 9
并行计算机性能测评 加速比 继续考虑并行的额外开销 𝑊𝑂为额外开销 9 = 𝑊 𝑊 × 𝑓 + 𝑊 × (1 − 𝑓ሻ 𝑝 + 𝑊𝑂 𝑆 = 𝑊𝑠 + 𝑊𝑝 𝑊𝑠 + 𝑊𝑝 𝑝 + 𝑊𝑂 = 𝑝 1 + 𝑓 × (𝑝 − 1ሻ + 𝑊𝑂 × 𝑝Τ𝑊 p→∞时,上式极限为𝑆 = 1 𝑓+𝑊𝑂Τ𝑊 串行分量越大和并行额外开销越大,则加速越小 为什么要考虑额外开销? 额外开销不但存在,而且占比不容忽视 = 1 1/𝑝 + 𝑓 × (𝑝 − 1ሻ/𝑝 + 𝑊𝑂/𝑊
并行计算机性能测评 历些毛子代枚大多 XIDIAN UNIVERSITY )加速比 ▣Gustafson定律 ■出发点 >精度要求 ·对于很多大型计算,精度要求很高,即在此类应用中精度是个关键因素, 而计算时间是固定不变的 ·此时为了提高精度,必须加大计算量,相应地亦必须增多处理器数才能 维持时间不变 >实际应用 - 除非学术研究,在实际应用中没有必要固定工作负载而计算程序运行在 不同数目的处理器上 ~增多处理器,相应地增大问题规模才更有实际意义 对大多数问题,问题规模的改变只会改变计算中并行计算量,而不会改 变串行计算量 10
并行计算机性能测评 加速比 Gustafson定律 10 出发点 ➢ 精度要求 - 对于很多大型计算,精度要求很高,即在此类应用中精度是个关键因素, 而计算时间是固定不变的 - 此时为了提高精度,必须加大计算量,相应地亦必须增多处理器数才能 维持时间不变 ➢ 实际应用 - 除非学术研究,在实际应用中没有必要固定工作负载而计算程序运行在 不同数目的处理器上 - 增多处理器,相应地增大问题规模才更有实际意义 - 对大多数问题,问题规模的改变只会改变计算中并行计算量,而不会改 变串行计算量