并行程序,编译与函数库 简介,应用软件的调优 高鯈限品部 应用支持处:胡自玉(博士) nSpu浪潮
并行程序, 编译与函数库 简介,应用软件的调优 高性能服务器产品部 应用支持处:胡自玉(博士)
主要内容 1.并行程序 ①高性能计算与并行计算简介 ②并行计算机的发展 ③并行计算体系结构 ④并行计算机的性能评价技术 2.MP函数库的设计基础 3.并行算法的设计基础 4.应用软件调优化工方向 ispU浪潮
2 主要内容 1. 并行程序 ① 高性能计算与并行计算简介 ② 并行计算机的发展 ③ 并行计算体系结构 ④ 并行计算机的性能评价技术 2. MPI函数库的设计基础 3. 并行算法的设计基础 4. 应用软件调优-化工方向
高性能计算 ●高性能计算( ligh Performance Computing 并行计算( Parallel computing) ●并行计算,就是在并行机上所做的计算 》计算科学与传统的两种科学,即理论科学和实验科学,并立被 认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科 学发展与社会进步。在许多情况下,或者是理论模型复杂甚至 理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成 了求解问题的唯一或主要的手段。 ispU浪潮
3 ⚫ 高性能计算(High Performance Computing) ⚫ 并行计算(Parallel Computing) ⚫ 并行计算,就是在并行机上所做的计算 ►计算科学与传统的两种科学,即理论科学和实验科学,并立被 认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科 学发展与社会进步。在许多情况下,或者是理论模型复杂甚至 理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成 了求解问题的唯一或主要的手段。 高性能计算
4 高性能计算的应用领域 Government-Classified Work Government· Research istituto Nacional d4 Met sloga 1a OAK RIDGE NATIONAL LABORATORY (Severe) Weather Prediction Climate Modeling Automotive Design Safet 曲 Drug Discovery Genomic research Aircraft/Spacecraft Design Fuel-Efficiency Oil Exploration Energy Research Basic Scientific Research
4 高性能计算的应用领域
高性能计算的分类 ●计算密集( compute-Intensive) 科学计算与数字模拟 ●数据密集(data- Intensive) 数字图书馆、数据仓库、图像处理 ●网络密集( network-intensive) 网络应用 ●以上三种的混合 ispU浪潮
5 ⚫ 计算密集(compute-intensive) 科学计算与数字模拟 ⚫ 数据密集(data-intensive) 数字图书馆、数据仓库、图像处理 ⚫ 网络密集(network-intensive) 网络应用 ⚫ 以上三种的混合 高性能计算的分类
6 并行计算机 》并行计算机就是由多个处理单元组成的计算机系统, 这些处理单元相互通信和协作以快速、高效求解大型复 杂问题。 处理单元有多少 处理单元的功能有多强 处理单元之间怎样连接 ·处理单元的数据如何传递 各处理单元如何相互协作 ·并行程序如何编写 ispU浪潮
6 并行计算机 并行计算机就是由多个处理单元组成的计算机系统, 这些处理单元相互通信和协作以快速、高效求解大型复 杂问题。 •处理单元有多少 •处理单元的功能有多强 •处理单元之间怎样连接 •处理单元的数据如何传递 •各处理单元如何相互协作 •并行程序如何编写
并行计算机的发展 》(1)并行机的萌芽阶段(1964-1975) 》(2)向量机/SMP的发展和鼎盛阶段(1976-1990 》(③)MPP出现和蓬勃发展阶段(19901995) 》(4) Cluster出现,并成为并行计算机的主流(1995年后) ispU浪潮
7 并行计算机的发展 (1)并行机的萌芽阶段(1964-1975) (2)向量机/ SMP的发展和鼎盛阶段(1976-1990) (3)MPP出现和蓬勃发展阶段(1990-1995) (4)Cluster出现,并成为并行计算机的主流(1995年后)
常见的几种并行计算体系结构 o SMP ●DSM( CC-NUMA) MPP Cluster ispU浪潮
8 ⚫ SMP ⚫ DSM(CC-NUMA) ⚫ MPP ⚫ Cluster 常见的几种并行计算体系结构
9 SMP- Symmetric MultiProcessing 「°多个CPU连接于统一的内存总线,多CPU共用一个内存 内存地址统一编址,单一操作系统映像 可扩展性较差,一般CPU个数少于32个 目前商用服务器多采用这种架构 4 CPUs may CPUS CPUsCPUs CPUs require sWItching Local Area network Chipset Memot, Bus Memory lo Bus oo g9 NC C System ispU浪潮
9 ⚫ 多个CPU连接于统一的内存总线, 多CPU共用一个内存 ⚫ 内存地址统一编址,单一操作系统映像 ⚫ 可扩展性较差,一般CPU个数少于32个 ⚫ 目前商用服务器多采用这种架构 Chipset Memory NIC System CPUs CPUs CPUs CPUs I/O Bus Memory Bus >4 CPUs may require switching Local Area Network SMP- Symmetric MultiProcessing
DSM-Distributed Shared Memory 物理上分布存储、所有内存模块统一编址 非一致内存访问(NUMA)模式 基于 Cache的数据一致性,又称CC-NUMA 节点数可扩展到几百个,小型机多为此类架构 CPUs CPUS CPU Memory Memory Memory Memory Memory Memory BU US Bus Bus NUMA Chipset NUMA Chipset Link Link Chipset 1o Bus oBuS VO Bus NIC NIC NIC System yyy Local Area network yy ispU浪潮
10 ⚫ 物理上分布存储、所有内存模块统一编址 ⚫ 非一致内存访问(NUMA)模式 ⚫ 基于Cache的数据一致性,又称CC-NUMA ⚫ 节点数可扩展到几百个,小型机多为此类架构 DSM- Distributed Shared Memory Local Area Network ... System ... NIC Memory CPUs Chipset I/O Bus Memory Bus I/O NIC Memory CPUs Chipset I/O Bus Memory Bus I/O NIC Memory CPUs Chipset I/O Bus Memory Bus I/O NUMA Link NUMA Link