正在加载图片...
众核发展趋势浅析 定位,还是从技术发展趋势,以及从科研资源获取角众核芯片面积庞大,功耗问题依然突出。根据半导体 度分析,尽快将众核研究推向深入都是势在必行。 国际工艺路线发展报告IRS-2007的分析,在2018年 芯片的供电电压将为07v,而目前为1.1v,即使假设 二、众核设计的技术问题是什么? 不提高设计主频,根据功耗计算公式cv2f,功耗降低 众核研究是一项复杂的系统性研究,完全不能简仅为(1.1/0.7)2=2.5倍,但集成的晶体管数量却可以增 单地理解为处理器核的堆砌,分析众核结构应当以看加12倍以上,绝对功耗会有明显增加。如何在众核 处理器结构图作为终点,而不是起点,首要关注的是设计中提高能效?如何对众多计算资源进行调度管理 隐藏在结枃图后面系统化的设计思想。下面我们从三才能最大限度降低众核设计的功耗?这些问题依然要 个层次进行分析,说明众核设计所涉及的关键技术。在众核结构设计过程中寻找答案。 众核设计的基础是摩尔定律的延续,也就是人类 最后,线延迟变长使得在众核设计中进行集中 掌握的最先进的硅制造工艺的进步。制造工艺的进步控制变得困难,如何采用更分布式的方式完成结构设 带来了四个主要的变化:1.集成度提高,2.带宽受限,计?如何在分布的结构中实现共享数据的分发传播? 3.功耗问题突出,4.线延迟变长。这些芯片生产工艺如何在分布的结构中实现高效的核间互斥并发操作? 变化直接引出了众核设计的关键问题。 将上面根据工艺实现的变化带来的众核设计关 首先,芯片集成度的提高是众核设计的基本条件,键问题进行凝练,众核设计的主要研究内容包括并行 这使得更多的计算资源可以集成在一块芯片上,但这编程模型、运行时系统、存储模型、通讯模型等。在 种集成却也带来了硬件资源管理的困难和对资源的竞对这些问题进行深入研究,对不同设计部分进行匹配 争。如何容易地将计算任务进行分割,映射到众多处权衡,最终凝练为完善的系统软件、运行时库,以及 理器核上?众多处理器核如何分享片上有限的存储空众核结构模型。众核结构模型只是整个系统的集咔 间?如何让众多处理器核利用有限片上传输网络传递体现。 数据,而冲突最小?如何对片上众多资源进行测试和 众核设计是一种新型的并行计算形式,传统的基 修复? 于SMP或集群的并行研究成果不能直接应用,必须 其次,芯片的访存带宽问题在众核设计中变得更进行重新评价。这个研究领域有待解决的问题很多 为严峻,访存带宽的限制是众核发展的最大制约。以虽然目前世界上很多研究人员都参与到该领域的研究 NVIDIA G8800GTX为例,访存带宽为864GBs,计中,但还没有找到系统解决问题的好方法,而且未来 算能力为5888 GFlops,每次计算需要2个4B宽数据,五年,众核设计会一直是研究的热点。 计算访存比约为55 Flops/B, Stanford大学设计的流处 理器 Merrimac的计算访存比为32 Flops,/B,随着工艺 三、适合于众核的应用是什么? 的进步,这个比例还将增大,比例越大,就意味着可 首先罗列了一下已有众核芯片自称适用的应用领 在此结构上取得接近峰值性能的应用算法越少。这直域,包括生物计算、网络安全、虚拟现实、信号处理 接引入了一系列问题,如何让众多处理器核有数据可(GsM、MPEG-4、压缩、滤波等)、国土安全(加密 算?如何更充分地利用片上有限存储空间的众核间共解密、模式匹配、搜索等)、网络包处理、生物特征 享,以避免片外访存?如何充分利用有限访存带宽,识别、图形处理、移动游戏、服务器组件和机器人学 尽量让访存通道繁忙,并能优先满足处于关键路径处习等。从上面的列举可以看出,适于众核设计的应用 理器核的访存请求? 很广泛,下面我们更技术化地从两个层次进行简要分 再有,虽然众核设计有助于提高芯片的能效析,一是应用算法本身的特性,一是结合众核处理器 ( Power- Efficiency),如 Intel的80核实验设计 Polaris结构,看何种应用更适合特定众核设计,应用的特性 能效为16 Flops/watt,而 Intel传统超标量 Clovertown如何同结构结合。 设计的能效为0.35 GFlops/Wat,但是不能忽视,由于 应用算法本身特性主要体现在三个方面,即应用 国糾字能补算技研定20年B月(双月刊·总第2期)定位,还是从技术发展趋势,以及从科研资源获取角 度分析,尽快将众核研究推向深入都是势在必行。 二、众核设计的技术问题是什么? 众核研究是一项复杂的系统性研究,完全不能简 单地理解为处理器核的堆砌,分析众核结构应当以看 处理器结构图作为终点,而不是起点,首要关注的是 隐藏在结构图后面系统化的设计思想。下面我们从三 个层次进行分析,说明众核设计所涉及的关键技术。 众核设计的基础是摩尔定律的延续,也就是人类 掌握的最先进的硅制造工艺的进步。制造工艺的进步 带来了四个主要的变化:1. 集成度提高,2. 带宽受限, 3. 功耗问题突出,4. 线延迟变长。这些芯片生产工艺 变化直接引出了众核设计的关键问题。 首先,芯片集成度的提高是众核设计的基本条件, 这使得更多的计算资源可以集成在一块芯片上,但这 种集成却也带来了硬件资源管理的困难和对资源的竞 争。如何容易地将计算任务进行分割,映射到众多处 理器核上?众多处理器核如何分享片上有限的存储空 间?如何让众多处理器核利用有限片上传输网络传递 数据,而冲突最小?如何对片上众多资源进行测试和 修复? 其次,芯片的访存带宽问题在众核设计中变得更 为严峻,访存带宽的限制是众核发展的最大制约。以 NVIDIA G8800 GTX 为例,访存带宽为 86.4GB/s,计 算能力为 588.8GFlops,每次计算需要 2 个 4B 宽数据, 计算访存比约为 55Flops/B,Stanford 大学设计的流处 理器 Merrimac 的计算访存比为 32 Flops/B,随着工艺 的进步,这个比例还将增大,比例越大,就意味着可 在此结构上取得接近峰值性能的应用算法越少。这直 接引入了一系列问题,如何让众多处理器核有数据可 算?如何更充分地利用片上有限存储空间的众核间共 享,以避免片外访存?如何充分利用有限访存带宽, 尽量让访存通道繁忙,并能优先满足处于关键路径处 理器核的访存请求? 再 有, 虽 然 众 核 设 计 有 助 于 提 高 芯 片 的 能 效 (Power-Efficiency),如 Intel 的 80 核实验设计 Polaris 能效为 16GFlops/Watt,而 Intel 传统超标量 Clovertown 设计的能效为 0.35GFlops/Watt,但是不能忽视,由于 众核芯片面积庞大,功耗问题依然突出。根据半导体 国际工艺路线发展报告 ITRS-2007 的分析,在 2018 年, 芯片的供电电压将为 0.7v,而目前为 1.1v,即使假设 不提高设计主频,根据功耗计算公式 cv2f,功耗降低 仅为 (1.1/0.7)2=2.5 倍,但集成的晶体管数量却可以增 加 12 倍以上,绝对功耗会有明显增加。如何在众核 设计中提高能效?如何对众多计算资源进行调度管理 才能最大限度降低众核设计的功耗?这些问题依然要 在众核结构设计过程中寻找答案。 最后,线延迟变长使得在众核设计中进行集中 控制变得困难,如何采用更分布式的方式完成结构设 计?如何在分布的结构中实现共享数据的分发传播? 如何在分布的结构中实现高效的核间互斥并发操作? 将上面根据工艺实现的变化带来的众核设计关 键问题进行凝练,众核设计的主要研究内容包括并行 编程模型、运行时系统、存储模型、通讯模型等。在 对这些问题进行深入研究,对不同设计部分进行匹配 权衡,最终凝练为完善的系统软件、运行时库,以及 众核结构模型。众核结构模型只是整个系统的集中 体现。 众核设计是一种新型的并行计算形式,传统的基 于 SMP 或集群的并行研究成果不能直接应用,必须 进行重新评价。这个研究领域有待解决的问题很多, 虽然目前世界上很多研究人员都参与到该领域的研究 中,但还没有找到系统解决问题的好方法,而且未来 五年,众核设计会一直是研究的热点。 三、适合于众核的应用是什么? 首先罗列了一下已有众核芯片自称适用的应用领 域,包括生物计算、网络安全、虚拟现实、信号处理 (GSM、MPEG-4、压缩、滤波等)、国土安全(加密 解密、模式匹配、搜索等)、网络包处理、生物特征 识别、图形处理、移动游戏、服务器组件和机器人学 习等。从上面的列举可以看出,适于众核设计的应用 很广泛,下面我们更技术化地从两个层次进行简要分 析,一是应用算法本身的特性,一是结合众核处理器 结构,看何种应用更适合特定众核设计,应用的特性 如何同结构结合。 应用算法本身特性主要体现在三个方面,即应用 众核发展趋势浅析
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有