
计算机系统结构 (第28讲) 主讲人: 郑纬民教授 清华大学计算机系
计算机系统结构 (第28讲) 主讲人: 郑纬民 教授 清华大学计算机系

研究多处理机的目的: 提前5年得到速度高10倍的机器。 或用1/10的价格获得一台高性能的机 器。 如果设计得好,在某些适合进行并 行处理得应用领域,可以达到: 提前10年得到速度高100倍的机器 或用1/100的价格获得一台高性能的机 器。 并行性在很大程度上依赖于R/C比值, 其中:R代表程序执行时间,C代 表通信开销
研究多处理机的目的: 提前5年得到速度高10倍的机器。 或用1/10的价格获得一台高性能的机 器。 如果设计得好,在某些适合进行并 行处理得应用领域,可以达到: 提前10年得到速度高100倍的机器 或用1/100的价格获得一台高性能的机 器。 并行性在很大程度上依赖于R/C比值, 其中:R代表程序执行时间,C代 表通信开销

通常:R/C比值小,并行性低。 R/C比值大,并行性高。 如果把作业分解成较大的块,就能得到 较大的R/C比值,但是所得到的并行 性比最大可能的并行性要小得多。 R/C比值是衡量任务粒度(Granularity)大 小的尺度 在粗粒度(Coarsegrain)并行情况 下,R/C比值比较大,通信开销小 在细粒度(Finegrain)并行情况下, R/C比值比较小,通信开销大
通常:R/C比值小,并行性低。 R/C比值大,并行性高。 如果把作业分解成较大的块,就能得到 较大的R/C比值,但是所得到的并行 性比最大可能的并行性要小得多。 R/C比值是衡量任务粒度(Granularity)大 小的尺度 在粗粒度(Coarsegrain)并行情况 下,R/C比值比较大,通信开销小 在细粒度(Finegrain)并行情况下, R/C比值比较小,通信开销大

细粒度并行性需要的处理机多,粗粒度 并行性需要的处理机少。 细粒度并行性的基本原理是把一个程序 尽可能地分解成能并行执行的小任务。 在极端情况下,一个小任务只完成一 个操作
细粒度并行性需要的处理机多,粗粒度 并行性需要的处理机少。 细粒度并行性的基本原理是把一个程序 尽可能地分解成能并行执行的小任务。 在极端情况下,一个小任务只完成一 个操作

8.6多处理机实例 多处理机系统主要有四大类: (1)多向量处理机系统: 如CRAY YMP-90,NEC SX-3 和FUJITSU VP-2000 (2)SMP(Symmetry MultiProcessors)对称 多处理机;SMP(Shared Memory MulptiProcessors)共享存储多处理机 如SGI Challenge Sun SparcCenter 2000
8.6 多处理机实例 多处理机系统主要有四大类: (1) 多向量处理机系统: 如CRAY YMP-90, NEC SX-3 和FUJITSU VP-2000 (2) SMP (Symmetry MultiProcessors)对称 多处理机; SMP (Shared Memory MulptiProcessors)共享存储多处理机 如SGI Challenge Sun SparcCenter 2000

8.6多处理机实例 (3)MPP (massively parallel processing) 规模并行处理机 Intel Paragon,CM-5,Cray T3D (4)Cluster机群系统(NOW或COM) 8.61大规模并行处理机(MPP) 8.6.2对称多处理机(SMP) 8.6.3机群系统(Cluster)
8.6 多处理机实例 (3) MPP (massively parallel processing)大 规模并行处理机 如Intel Paragon, CM-5, Cray T3D (4) Cluster 机群系统(NOW或COM) 8.6.1 大规模并行处理机(MPP) 8.6.2 对称多处理机(SMP) 8.6.3 机群系统(Cluster)

8.6.1大规模并行处理机MPP) 科学计算中的重大课题要求提供3T性能: (I)1 Teraflops计算能力 (2)1 Terabyte.主存储器 (3)1 Terabyte/s输入输出频带宽度 目前,速度还慢1000倍左右,存储容 量和/O带宽差距更大。 科学计算中的重大课题: 全球气候预报,基因工程,飞行动力学 海洋环流,流体动力学,超导建模,半导 体建模,量子染色动力学,视觉
8.6.1 大规模并行处理机(MPP) 科学计算中的重大课题要求提供3T性能: (1) 1 Teraflops计算能力 (2) 1 Terabyte主存储器 (3) 1 Terabyte/s 输入输出频带宽度 目前,速度还慢1000倍左右,存储容 量和I/O带宽差距更大。 科学计算中的重大课题: 全球气候预报, 基因工程 ,飞行动力学 , 海洋环流, 流体动力学, 超导建模, 半导 体建模, 量子染色动力学, 视觉

采用的关键技术: VLSL,可扩展技术,共享虚拟存储技术 虚拟共享存储器(Shared Virtual Memory) 也称为共享分布存储器(Distributed Shared Memory);物理上分布存储器, 逻辑上共享存储器。 虚拟共享存储器的优点: 编程容易,系统结构灵活 可扩充性好,有较好的软件移植性
采用的关键技术: VLSI, 可扩展技术, 共享虚拟存储技术 虚拟共享存储器(Shared Virtual Memory) 也称为共享分布存储器(Distributed Shared Memory);物理上分布存储器, 逻辑上共享存储器。 虚拟共享存储器的优点: 编程容易, 系统结构灵活 可扩充性好, 有较好的软件移植性

虚拟共享存储器实现途径: (1)硬件实现,利用Cache技术。需要增加 专用硬件 (2)操作系统和库实现,通过虚拟存储机 制取得共享和一致性。在松耦合的分布 存储多处理机上,不需要增加任何硬件 (3)编译实现,自动将共享访问转换成同 步和一致原语。大多数系统采用途径(1) 和(2),或这两种途径结合实现
虚拟共享存储器实现途径: (1) 硬件实现, 利用Cache技术。需要增加 专用硬件 (2) 操作系统和库实现,通过虚拟存储机 制取得共享和一致性。在松耦合的分布 存储多处理机上,不需要增加任何硬件 (3) 编译实现,自动将共享访问转换成同 步和一致原语。大多数系统采用途径(1) 和(2),或这两种途径结合实现

8.6.2对称多处理机(SMP) SMP称为共享存储多处理机(Shared Memory mulptiProcessors). 也称为对称多处理机(Symmetry MultiProcessors) 有三种模型: (1)UMA多处理机 均匀存储器存取模型(Uniform Memory Access) 存储器被所有处理机均匀共享 所有处理机对所有存储单元具有相同 的存取时间
8.6.2 对称多处理机 (SMP) SMP称为共享存储多处理机 (Shared Memory mulptiProcessors), 也称为对称多处理机 (Symmetry MultiProcessors) 有三种模型: (1) UMA多处理机 均匀存储器存取模型 (Uniform Memory Access) 存储器被所有处理机均匀共享 所有处理机对所有存储单元具有相同 的存取时间