第二章当代并行机系统 *2.1共享存储多处理机系统 *2.1.1对称多处理机SMP结构特性 *2.2分布存储多计算机系统 *2.2.1大规模并行机MPP结构特性 *2.3机群系统 *2.3.1大规模并行处理系统MPP机群SP2 *2.3.2工作站机群COW 2011/9/13
2.1 共享存储多处理机系统 2.1.1 对称多处理机SMP结构特性 2.2 分布存储多计算机系统 2.2.1 大规模并行机MPP结构特性 2.3 机群系统 2.3.1 大规模并行处理系统MPP机群SP2 2.3.2 工作站机群COW 2 2011/9/13 第二章 当代并行机系统
对称多处理机SMP(1) 米 SMP:采用商用微处理器,通常有片上和片外Cache, 基于总线连接,集中式共享存储,UMA结构 *例子:SGI Power Challenge,DEC Alpha Server,, Dawning 1 P/C P/C P/C 总线或交叉开关 SM SM I/0 2011/9/13
SMP: 采用商用微处理器,通常有片上和片外Cache, 基于总线连接,集中式共享存储,UMA结构 例子:SGI Power Challenge, DEC Alpha Server, Dawning 1 3 2011/9/13 对称多处理机SMP(1) P/C S M S M I/O 总线或交叉开关 P/C … P/C
对称多处理机SMP(2) *优,点 *对称性 *单地址空间,易编程性,动态负载平衡,无需显示数据分配 *高速缓存及其一致性,数据局部性,硬件维持一致性 *低通信延迟,Load/Store完成 *问题 *欠可靠,BUS,0S,SM *通信延迟(相对于CPU),竞争加剧 *慢速增加的带宽(MB double/3年,IOB更慢) *不可扩放性-〉CC-NUMA 4 2011/9/13
优点 对称性 单地址空间,易编程性,动态负载平衡,无需显示数据分配 高速缓存及其一致性,数据局部性,硬件维持一致性 低通信延迟,Load/Store完成 问题 欠可靠,BUS,OS,SM 通信延迟(相对于CPU),竞争加剧 慢速增加的带宽(MB double/3年,IOB更慢) 不可扩放性‐‐‐〉CC‐NUMA 4 2011/9/13 对称多处理机SMP(2)
大规模并行机MPP 成百上千个处理器组成的大规模计算机系统,规模是 变化的。基于NORMA结构,高带宽低延迟定制互连。 *可扩放性 *Mem,l/O,平衡设计 *系统成本 *商用处理器,相对稳定的结构,SMP,分布 *通用性和可用性 *不同的应用,PVM,MPL,交互,批处理,互连对用户透明,单一 系统映象,故障 *通信要求 *存储器和/O能力 *例子:Intel Option Red,IBM SP2 Dawning1ooo 5 2011/9/13
成百上千个处理器组成的大规模计算机系统,规模是 变化的。基于NORMA结构,高带宽低延迟定制互连。 可扩放性 Mem, I/O,平衡设计 系统成本 商用处理器,相对稳定的结构,SMP,分布 通用性和可用性 不同的应用,PVM,MPI,交互,批处理,互连对用户透明,单一 系统映象,故障 通信要求 存储器和I/O能力 例子:Intel Option Red,IBM SP2 Dawning 1000 5 2011/9/13 大规模并行机MPP
大规模并行机MPP MB MB P/C P/C LM ●●● LM NIC NIC 定制网络 6 2011/9/13
6 2011/9/13 大规模并行机MPP P/C L M NIC 定制网络 P/C L M NIC MB MB …
典型MPP象统特性比较 MPP模型 Intel/Sandia ASCI IBM SP2 SGI/Cray Origin2000 Option Red 一个大型样机 9072个处理器, 400个处理器, 128个处理器, 的配置 1.8Tflop/s(NSL) 100Gflop/s(MHPCC) 51Gflop/s(NCSA) 问世日期 1996年12月 1994年9月 1996年10月 处理器类型 200MHz, 67MHz,267Mflop/s 200MHz, 200Mflop/s POWER2 400Mflop/s MIPS Pentium Pro R10000 节点体系结构 2个处理器,32到 1个处理器,64MB 2个处理器,64MB 和数据存储器 256MB主存,共享 到2GB本地主存, 到256MB分布共享 磁盘 1GB到14.5GB本地 主存和共享磁盘 互连网络和 分离两维网孔, 多级网客武ORMA 胖超立方体网络, 主存模型 NORMA CC-NUMA 节点操作系统 轻量级内核 完全AX(IBM 微内核Cellular IRIX (LWK) UNIX) 自然编程机制 基于PUMA Portals MPI和PVM Power C,Power 的MPI Fortran 其他编程模型 Nx,PVM,HPF HPF,Linda MPI,PVM 2011/9/13
7 2011/9/13 典型MPP系统特性比较 MPP模型 Intel/Sandia ASCI Option Red IBM SP2 SGI/Cray Origin2000 一个大型样机 的配置 9072个处理器, 1.8Tflop/s(NSL) 400个处理器, 100Gflop/s(MHPCC) 128个处理器, 51Gflop/s(NCSA) 问世日期 1996年12月 1994年9月 1996年10月 处理器类型 200MHz, 200Mflop/s Pentium Pro 67MHz,267Mflop/s POWER2 200MHz, 400Mflop/s MIPS R10000 节点体系结构 和数据存储器 2个处理器,32到 256MB主存,共享 磁盘 1个处理器,64MB 到2GB本地主存, 1GB到14.5GB本地 磁盘 2个处理器,64MB 到256MB分布共享 主存和共享磁盘 互连网络和 主存模型 分离两维网孔, NORMA 多级网络,NORMA 胖超立方体网络, CC-NUMA 节点操作系统 轻量级内核 (LWK) 完全AIX(IBM UNIX) 微内核Cellular IRIX 自然编程机制 基于PUMA Portals 的MPI MPI和PVM Power C, Power Fortran 其他编程模型 Nx,PVM,HPF HPF,Linda MPI,PVM
MPP所用的高性能CPU特性比较 属性 Pentium Pro PowerPC 602 Alpha 21164A Ultra SPARC MIPS R10000 工艺 BiCMOS CMOS CMOS CMOS CMOS 晶体管数 5.5M/15.5M 7M 9.6M 5.4M 6.8M 时钟频率 150MHz 133MHz 417MHz 200MHz 200MHz 电压 2.9V 3.3V 2.2V 2.5V 3.3V 功率 20W 30W 20W 28W 30W 字长 32位 64位 64位 64位 64位 I/O 8KB/8KB 32KB/32KB 8KB/8KB 16KB/16KB 32KB/32KB 高速缓存 2级 256KB 1-128MB 96KB 16MB 16MB 高速缓存 (多芯片模块) (片外) (片上) (片外) (片外) 执行单元 5个单元 6个单元 4个单元 9个单元 5个单元 超标量 3路(Way) 4路 4路 4路 4路 流水线深度 14级 4~8级 7~9级 9级 5~7级 SPECint 92 366 225 >500 350 300 SPECfp 92 283 300 >750 550 600 SPECint 95 8.09 225 >11 N/A 7.4 SPECfp 95 6.70 300 >17 N/A 15 其它特性 CISC/RISC混 短流水线长L1 最高时钟频率 多媒体和图形 MP机群总线 合 高速缓存 最大片上2级 指令 可支持4个 8 高速缓存 CPU 2011/9/13
8 2011/9/13 MPP所用的高性能CPU特性比较 属性 Pentium Pro PowerPC 602 Alpha 21164A Ultra SPARC II MIPS R10000 工艺 BiCMOS CMOS CMOS CMOS CMOS 晶体管数 5.5M/15.5M 7M 9.6M 5.4M 6.8M 时钟频率 150MHz 133MHz 417MHz 200MHz 200MHz 电压 2.9V 3.3V 2.2V 2.5V 3.3V 功率 20W 30W 20W 28W 30W 字长 32位 64位 64位 64位 64位 I/O 高速缓存 8KB/8KB 32KB/32KB 8KB/8KB 16KB/16KB 32KB/32KB 2级 高速缓存 256KB (多芯片模块) 1~128MB (片外) 96KB (片上) 16MB (片外) 16MB (片外) 执行单元 5个单元 6个单元 4个单元 9个单元 5个单元 超标量 3路(Way) 4路 4路 4路 4路 流水线深度 14级 4~8级 7~9级 9级 5~7级 SPECint 92 366 225 >500 350 300 SPECfp 92 283 300 >750 550 600 SPECint 95 8.09 225 >11 N/A 7.4 SPECfp 95 6.70 300 >17 N/A 15 其它特性 CISC/RISC混 合 短流水线长L1 高速缓存 最高时钟频率 最大片上2级 高速缓存 多媒体和图形 指令 MP机群总线 可支持4个 CPU
机群系统(1) 米 计算机机群(Cluster)简称集群是一种计算机系统, 它通过一组松散集成的计算机软件和|或硬件连接起 来高度紧密地协作完成计算工作。 *在某种意义上,他们可以被看作是一台计算机。 米 集群系统中的单个计算机通常称为节点,通常通过 局域网连接,但也有其它的可能连接方式。 *集群计算机通常用来改进单个计算机的计算速度和 或可靠性。一般情况下集群计算机比单个计算机, 比如工作站或超级计算机性能价格比要高得多。 2011/9/13
计算机机群(Cluster)简称集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起 来高度紧密地协作完成计算工作。 在某种意义上,他们可以被看作是一台计算机。 集群系统中的单个计算机通常称为节点,通常通过 局域网连接,但也有其它的可能连接方式。 集群计算机通常用来改进单个计算机的计算速度和/ 或可靠性。一般情况下集群计算机比单个计算机, 比如工作站或超级计算机性能价格比要高得多。 9 2011/9/13 机群系统(1)
机群系统(2) *集群分为同构与异构两种,它们的区别在于:组成 集群系统的计算机之间的体系结构是否相同。集群 计算机按功能和结构可以分成以下几类: *高性能计算集群High-performance(HPC)clusters *负载均衡集群Load balancing clusters *高可用性集群High-availability(HA)clusters *网格计算Grid computing 10 2011/9/13
集群分为同构与异构两种,它们的区别在于:组成 集群系统的计算机之间的体系结构是否相同。集群 计算机按功能和结构可以分成以下几类: 高性能计算集群 High‐performance (HPC) clusters 负载均衡集群 Load balancing clusters 高可用性集群 High‐availability (HA) clusters 网格计算 Grid computing 10 2011/9/13 机群系统(2)
机群系统(3) 米 高性能计算集群 * 高性能计算集群采用将计算任务分配到集群的不同计 算节点而提高计算能力,因而主要应用在科学计算领 域。比较流行的HPC采用Liux操作系统和其它一些免 费软件来完成并行运算。这一集群配置通常被称为 Beowulf集群。这类集群通常运行特定的程序以发挥 HPC cluster的并行能力。这类程序一般应用特定的运 行库,比如专为科学计算设计的MPI库。 *HPC集群特别适合于在计算中各计算节点之间发生大量 数据通讯的计算作业,比如一个节点的中间结果或影 响到其它节点计算结果的情况。 11 2011/9/13
高性能计算集群 高性能计算集群采用将计算任务分配到集群的不同计 算节点而提高计算能力,因而主要应用在科学计算领 域。比较流行的HPC采用Linux操作系统和其它一些免 费软件来完成并行运算。这一集群配置通常被称为 Beowulf集群。这类集群通常运行特定的程序以发挥 HPC cluster的并行能力。这类程序一般应用特定的运 行库, 比如专为科学计算设计的MPI库。 HPC集群特别适合于在计算中各计算节点之间发生大量 数据通讯的计算作业,比如一个节点的中间结果或影 响到其它节点计算结果的情况。 机群系统(3) 11 2011/9/13