
计算化学集群构建入门
计算化学 集群构建入门

目录第一章绪论$1.1计算机集群的基本概念$1.2计算机集群的软件结构.第二章集群的系统配置82.1操作系统的安装,$2.2网络通信系统的建立.9.10S2.2.1SSH:主机间无密码的远程登录$2.2.2NFS:主机间的文件共享.11S2.2.3NIS:主机间的用户同步13.15$2.3编译器的安装..$2.3.1GNU编译器15.16$2.3.2intel编译器..$2.4并行计算环境的配置17.19$2.5作业系统的建立.20$2.5.1Torque的安装.20$2.5.2Maui的安装.2182.5.3Torque和Maui的配置g2.5.4mpiexec的安装.23.2382.6第一次运行集群.26第三章集群的计算化学软件配置..26s3.1Gaussian03安装与配置.26g3.1.1Gaussian03的安装$3.1.2Gaussian03的单机配置.27$3.2NAMD安装与配置.28.29$3.2.1组件安装.29$3.2.2charm++安装$3.2.3NAMD编译.31.32$3.2.4NAMD运行$3.3Autodock的安装与配置.33.34$3.4MKL编程环境的构建。第四章集群的管理技巧.39.39$4.1用户管理.39$4.1.1用户权限.39$4.1.2高效的管理$4.2作业管理..40$4.2.1管理员管理4144$4.2.2普通用户管理第五章GPU在集群上的应用..46$5.1GPU/CUDA的安装配置.46$5.1.1驱动程序的安装46$5.1.2程序开发环境..46$5.1.3CUDA编程测试,47
目 录 第一章 绪论.1 §1.1 计算机集群的基本概念.1 §1.2 计算机集群的软件结构.4 第二章 集群的系统配置.7 §2.1 操作系统的安装.7 §2.2 网络通信系统的建立.9 §2.2.1 SSH:主机间无密码的远程登录.10 §2.2.2 NFS:主机间的文件共享 .11 §2.2.3 NIS:主机间的用户同步 .13 §2.3 编译器的安装.15 §2.3.1 GNU编译器.15 §2.3.2 intel编译器.16 §2.4 并行计算环境的配置.17 §2.5 作业系统的建立.19 §2.5.1 Torque的安装.20 §2.5.2 Maui的安装 .20 §2.5.3 Torque和Maui的配置.21 §2.5.4 mpiexec的安装.23 §2.6 第一次运行集群.23 第三章 集群的计算化学软件配置.26 §3.1 Gaussian03 安装与配置.26 §3.1.1 Gaussian03 的安装.26 §3.1.2 Gaussian03 的单机配置.27 §3.2 NAMD安装与配置 .28 §3.2.1 组件安装.29 §3.2.2 charm++安装.29 §3.2.3 NAMD编译 .31 §3.2.4 NAMD运行 .32 §3.3 Autodock的安装与配置.33 §3.4 MKL编程环境的构建.34 第四章 集群的管理技巧.39 §4.1 用户管理.39 §4.1.1 用户权限.39 §4.1.2 高效的管理.39 §4.2 作业管理.40 §4.2.1 管理员管理.41 §4.2.2 普通用户管理.44 第五章 GPU在集群上的应用.46 §5.1 GPU/CUDA的安装配置 .46 §5.1.1 驱动程序的安装.46 §5.1.2 程序开发环境.46 §5.1.3 CUDA编程测试 .47

..47$5.2NAMDCUDA版本的安装继续前进!.50
§5.2 NAMD CUDA版本的安装.47 继续前进!.50

第一章绪论第一章绪论$1.1计算机集群的基本概念正如题目所示,本教程的目的是为读者提供计算机集群组建及其在计算化学中的应用的入门知识。可能对大多数读者而言,“集群”什么的是一个全新的概念一一没关系,万丈高楼平地起,我们先讲一些基本概念,然后将以最快的速度进入实践阶段,使大家能够在最短的时间内迅速建立起一个可以从事高性能计算的集群,为大家的科研提供帮助。本教程主要面向从事计算化学的读者(当然也包括其它有计算机集群需要的读者),相信大家知道,计算化学研究中常常需要巨大的计算量,无论对CPU速度、存储容量和总线带宽都要很高的要求。例如,conventional SCF计算中,一个有1000个基函数的体系,所需要计算的双电子积分量约为1012个,按双精度存储需要1.8TB,对于计算速度和存取速度都是极大的负担:在对神经系统的分子动力学模拟中,钾通道动态工作的时间尺度为毫秒级,而即使利用500核的Alpha机器,也只能达到每天4纳秒的速度。这样的速度是人们无法接受的。解决这些计算问题的方法,从理论上应当发展新的更高效的算法,诸如量子化学中的线性标度方法等等;从硬件角度说,需要发展更新的硬件,但由于物理定律的限制,单个计算机的硬件能力已经接近极限,例如CPU主频的提高是以发热量的增加为代价的,而现代CPU的主频已达到4.00GHz左右(实验室产品),更高的主频由于发热量巨大而难以实现。从计算机的角度上来说,可以通过使用超级计算机来解决。但是,这类超级计算机,硬件研发费用昂贵,软件投资更加高居不下,开发出来的软件无法移植,并且学习代价非常高,非一般研究组所能负担的起。那么对于一般的研究组,如何才能突破计算瓶颈呢?答案就是本教程的核心概念:计算机集群(computercluster)!相信很多实验室内部都有局域网,即一大堆计算机通过路由器等连成一个整体,大家可以通过路由器上外网,而内网中,大家可以通过网络共享文件,如Windows下的“共享”。好了,既然局域网可以共享文件,为什么不可以共享计第1页
第一章 绪论 第 1 页 第一章 绪论 §1.1 计算机集群的基本概念 正如题目所示,本教程的目的是为读者提供计算机集群组建及其在计算化学 中的应用的入门知识。可能对大多数读者而言,“集群”什么的是一个全新的概 念——没关系,万丈高楼平地起,我们先讲一些基本概念,然后将以最快的速度 进入实践阶段,使大家能够在最短的时间内迅速建立起一个可以从事高性能计算 的集群,为大家的科研提供帮助。 本教程主要面向从事计算化学的读者(当然也包括其它有计算机集群需要的 读者),相信大家知道,计算化学研究中常常需要巨大的计算量,无论对CPU速 度、存储容量和总线带宽都要很高的要求。例如,conventional SCF计算中,一 个有 1000 个基函数的体系,所需要计算的双电子积分量约为 1012个,按双精度 存储需要 1.8TB,对于计算速度和存取速度都是极大的负担;在对神经系统的分 子动力学模拟中,钾通道动态工作的时间尺度为毫秒级,而即使利用 500 核的 Alpha机器,也只能达到每天 4 纳秒的速度。这样的速度是人们无法接受的。 解决这些计算问题的方法,从理论上应当发展新的更高效的算法,诸如量子 化学中的线性标度方法等等;从硬件角度说,需要发展更新的硬件,但由于物理 定律的限制,单个计算机的硬件能力已经接近极限,例如 CPU 主频的提高是以 发热量的增加为代价的,而现代 CPU 的主频已达到 4.00GHz 左右(实验室产品), 更高的主频由于发热量巨大而难以实现。从计算机的角度上来说,可以通过使用 超级计算机来解决。但是,这类超级计算机,硬件研发费用昂贵,软件投资更加 高居不下,开发出来的软件无法移植,并且学习代价非常高,非一般研究组所能 负担的起。 那么对于一般的研究组,如何才能突破计算瓶颈呢?答案就是本教程的核心 概念:计算机集群(computer cluster)! 相信很多实验室内部都有局域网,即一大堆计算机通过路由器等连成一个整 体,大家可以通过路由器上外网,而内网中,大家可以通过网络共享文件,如 Windows 下的“共享”。好了,既然局域网可以共享文件,为什么不可以共享计

第一章绪论算能力呢?好了,我们学院派的定义一下计算机集群:通过一组松散集成的计算机软件和硬件连接起来高度紧密地协作完成计算工作的计算机系统,可以被看作是一台计算机,这种系统就称为计算机集群。也就是说,只要大家有几台计算机(PC或服务器),一个路由器,几根网线,我们就可以把它们连接起来,通过一些软件,使它们的计算能力得以共享,实现并行计算(parallelcomputing),不仅可以实现高速的计算,而且可以使计算工作规范化,从而大大的提升科研效率!如图1-1-1所示,这是作者所在实验室的组建的一个集群的实景(摄于2009年)。这个集群现在已扩充升级。图1-1-1集群系统实景图(摄于2009年)下面我们讲几个计算机集群中常用的术语和概念。这些概念可以为读者组建集群打下坚实的基础。节点(node)。集群中单独的每一台计算机称为节点。这些计算机,既可以是普通PC也可以是服务器。按照现在的发展(2011年前后),高端PC和服务器的计算能力已经相差无几,而PC的成本较低,不失为是个很好的选择。服务器的优点在于可靠性高,即平均无故障时间长。比如,一个500台计算机构成的集群连续运转一年,若全部为服务器,一个月平均可能只有几台机器出故障,若第2页
第一章 绪论 第 2 页 算能力呢?好了,我们学院派的定义一下计算机集群:通过一组松散集成的计算 机软件和硬件连接起来高度紧密地协作完成计算工作的计算机系统,可以被看作 是一台计算机,这种系统就称为计算机集群。也就是说,只要大家有几台计算机 (PC 或服务器),一个路由器,几根网线,我们就可以把它们连接起来,通过 一些软件,使它们的计算能力得以共享,实现并行计算(parallel computing), 不仅可以实现高速的计算,而且可以使计算工作规范化,从而大大的提升科研效 率! 如图 1-1-1 所示,这是作者所在实验室的组建的一个集群的实景(摄于 2009 年)。这个集群现在已扩充升级。 图 1-1-1 集群系统实景图(摄于 2009 年) 下面我们讲几个计算机集群中常用的术语和概念。这些概念可以为读者组建 集群打下坚实的基础。 节点(node)。集群中单独的每一台计算机称为节点。这些计算机,既可以 是普通 PC 也可以是服务器。按照现在的发展(2011 年前后),高端 PC 和服务 器的计算能力已经相差无几,而 PC 的成本较低,不失为是个很好的选择。服务 器的优点在于可靠性高,即平均无故障时间长。比如,一个 500 台计算机构成的 集群连续运转一年,若全部为服务器,一个月平均可能只有几台机器出故障,若

第一章绪论全部为PC,则可能平均每一天都会有机器崩溃。当然,对于普通研究组而言,情况没有那么夸张。读者根据自已的需要决定是选择PC还是服务器。控制节点。集群中需要多台计算机相互协作的完成任务,因此必须有一台计算机作为“核心”领导者,控制其它的计算机,为其它的计算机分配计算任务,调整负载等等。这个节点习惯称为控制节点。一般而言,控制节点可以选一台CPU、内存一般(512MB内存足!)的机器以节约成本,但是必须有大容量的硬盘来存储用户的文件,即使是很小的组也一般最好是1TB以上(貌似更小容量的硬盘已经没有卖的了),根据本组的人员数量和科研任务决定,作者知道某个分子动力学研究组每个月都会有几个TB的轨迹文件产生。计算节点。计算节点就是集群中直接进行计算任务的计算机,这是决定计算机集群性能的最关键因素之一。自然,CPU主频越高,内存越大,总线带宽越高,对计算就越有利。当然,具体的任务对这些硬件的要求不同。对于分子动力学模拟计算,内存的要求很低,一般1~4GB的内存就可以,但是要求CPU具有强大的计算能力,最好在8核(或双4核)、主频2.5GHz以上。对于量子化学计算,除了要求有强劲的CPU外,还要求有高容量和高读写速度的内存、硬盘,因为量子化学计算常常需要大容量的缓存文件,如果存储容量不够,会对计算速度带来很大的影响。通常,内存最好在16GB以上,如果经常计算金属有机化合物,内存32GB也不嫌多;硬盘最好在1TB以上,特别是需要大量相关方法计算(如MP2或CCSD(T)计算)时,硬盘的读写速度也十分重要。有些计算,诸如分子对接这种计算,对计算机性能要求很低,普通的高端配置即可。现代计算机有32位,64位等多种架构。64位架构的机器当然是最好,但是大多数研究组可能无法承担它的购买成本。现在的计算主流是选用虚拟64位的机器,如em64t和AMD64等。本教程就是以虚拟64位机器为例介绍的,即所谓x86_64或者amd64机器。通信网络。顾名思义,就是集群中连接各个节点的网络。这是决定计算机集群性能的另一个最关键因素。在进行并行计算时,网络速度是整个计算速度的瓶颈。这个网络,当然可以选择使用普通实验室中的局域网连接即“宽带网加路由器”结构。集群中,这个网的带宽最低不能低于百兆,即至少在千兆以上,再低的网在计算时可能会出显各种由于网络延时过长而导致的错误。如果读者能使用第3页
第一章 绪论 第 3 页 全部为 PC,则可能平均每一天都会有机器崩溃。当然,对于普通研究组而言, 情况没有那么夸张。读者根据自己的需要决定是选择 PC 还是服务器。 控制节点。集群中需要多台计算机相互协作的完成任务,因此必须有一台计 算机作为“核心”领导者,控制其它的计算机,为其它的计算机分配计算任务, 调整负载等等。这个节点习惯称为控制节点。一般而言,控制节点可以选一台 CPU、内存一般(512MB 内存足矣!)的机器以节约成本,但是必须有大容量 的硬盘来存储用户的文件,即使是很小的组也一般最好是 1TB 以上(貌似更小 容量的硬盘已经没有卖的了),根据本组的人员数量和科研任务决定,作者知道 某个分子动力学研究组每个月都会有几个 TB 的轨迹文件产生。 计算节点。计算节点就是集群中直接进行计算任务的计算机,这是决定计算 机集群性能的最关键因素之一。自然,CPU 主频越高,内存越大,总线带宽越 高,对计算就越有利。当然,具体的任务对这些硬件的要求不同。对于分子动力 学模拟计算,内存的要求很低,一般 1~4GB 的内存就可以,但是要求 CPU 具 有强大的计算能力,最好在 8 核(或双 4 核)、主频 2.5GHz 以上。对于量子化 学计算,除了要求有强劲的 CPU 外,还要求有高容量和高读写速度的内存、硬 盘,因为量子化学计算常常需要大容量的缓存文件,如果存储容量不够,会对计 算速度带来很大的影响。通常,内存最好在 16GB 以上,如果经常计算金属有机 化合物,内存 32GB 也不嫌多;硬盘最好在 1TB 以上,特别是需要大量相关方 法计算(如 MP2 或 CCSD(T)计算)时,硬盘的读写速度也十分重要。有些计算, 诸如分子对接这种计算,对计算机性能要求很低,普通的高端配置即可。 现代计算机有 32 位,64 位等多种架构。64 位架构的机器当然是最好,但是 大多数研究组可能无法承担它的购买成本。现在的计算主流是选用虚拟 64 位的 机器,如 em64t 和 AMD64 等。本教程就是以虚拟 64 位机器为例介绍的,即所 谓 x86_64 或者 amd64 机器。 通信网络。顾名思义,就是集群中连接各个节点的网络。这是决定计算机集 群性能的另一个最关键因素。在进行并行计算时,网络速度是整个计算速度的瓶 颈。这个网络,当然可以选择使用普通实验室中的局域网连接即“宽带网加路由 器”结构。集群中,这个网的带宽最低不能低于百兆,即至少在千兆以上,再低 的网在计算时可能会出显各种由于网络延时过长而导致的错误。如果读者能使用

第一章绪论高性能的集群专用网络,如Myrinet或者InfinitBand,那当然更好,这可以大大地提升集群的并行效率!不过,这是要很高的成本的。维护部件。这是维持集群能够正常工作的部件,包括散热系统如空调和电源、机柜等。因为集群常常要长时间高功耗的工作,如果不能保持适当的温度和稳定的电源,计算机内部出错的概率就会大大的提高,轻则死机导致作业失败,重则烧毁硬件造成损失。特别是热天,集群高速运转时会有很高的温度,一定要做好降温的工作;如果有断电通知,记得事先将总插头拔下,以免恢复供电时瞬时电流的冲击将机器烧毁。好了,下面我们来讨论一下构建集群所需要的软件基础。离开之前,我们必须声明,本教程介绍的是面向科学计算用户的“高性能集群(HighPerformanceCluster,HPC)”,而不是面向企业的“高可用集群(HighAvailabilityCluster,HAC)”。后者常常用于建立企业网站,服务器,大型数据库(如Oracle数据库)。这两者,应该来说,完全不同!S1.2计算机集群的软件结构有了硬件后,要真正实现集群,还必须有优秀的软件进行支持。集群的软件结构包括以下几部分:操作系统。虽然世界top100的集群中确实有Windows集群,但是我们强烈推荐读者使用Linux操作系统。Linux免费,方便,最重要的是效率高,很多计算化学软件都是专门为Linux编写的,而且Linux非常适合于程序开发和批量处理,这都是Windows难以实现的,即使能,往往也比较臃肿。Linux操作系统也有很多不同的分支。比较常见的就是RedHat系列,但是本教程不使用它。我们选择Debian操作系统,与RedHat相比它有很多优点,最大的优点是体积小,安装完系统后只有不到100MB,并且随时可以扩充新的功能,没有几余的文件,因此非常适合于科学计算。关于Debian可以在网上找到很多信息。本教程不会直接讲解Linux或者Debian的使用方法,对Linux不熟悉的读者可以参考:王旭。Debian标准教程。北京:人民邮电出版社,2009网络通信系统。这是集群得以成为“集群”的核心系统。没有这个系统,集第4页
第一章 绪论 第 4 页 高性能的集群专用网络,如 Myrinet 或者 InfinitBand,那当然更好,这可以大大 地提升集群的并行效率!不过,这是要很高的成本的。 维护部件。这是维持集群能够正常工作的部件,包括散热系统如空调和电源、 机柜等。因为集群常常要长时间高功耗的工作,如果不能保持适当的温度和稳定 的电源,计算机内部出错的概率就会大大的提高,轻则死机导致作业失败,重则 烧毁硬件造成损失。特别是热天,集群高速运转时会有很高的温度,一定要做好 降温的工作;如果有断电通知,记得事先将总插头拔下,以免恢复供电时瞬时电 流的冲击将机器烧毁。 好了,下面我们来讨论一下构建集群所需要的软件基础。 离开之前,我们必须声明,本教程介绍的是面向科学计算用户的“高性能集群(High Performance Cluster,HPC)”,而不是面向企业的“高可用集群(High Availability Cluster, HAC)”。后者常常用于建立企业网站,服务器,大型数据库(如 Oracle 数据库)。这两 者,应该来说,完全不同! §1.2 计算机集群的软件结构 有了硬件后,要真正实现集群,还必须有优秀的软件进行支持。集群的软件 结构包括以下几部分: 操作系统。虽然世界 top100 的集群中确实有 Windows 集群,但是我们强烈 推荐读者使用 Linux 操作系统。Linux 免费,方便,最重要的是效率高,很多计 算化学软件都是专门为 Linux 编写的,而且 Linux 非常适合于程序开发和批量处 理,这都是 Windows 难以实现的,即使能,往往也比较臃肿。 Linux 操作系统也有很多不同的分支。比较常见的就是 RedHat 系列,但是 本教程不使用它。我们选择 Debian 操作系统,与 RedHat 相比它有很多优点,最 大的优点是体积小,安装完系统后只有不到 100MB,并且随时可以扩充新的功 能,没有冗余的文件,因此非常适合于科学计算。关于 Debian 可以在网上找到 很多信息。本教程不会直接讲解 Linux 或者 Debian 的使用方法,对 Linux 不熟 悉的读者可以参考: 王旭。Debian 标准教程。北京:人民邮电出版社,2009 网络通信系统。这是集群得以成为“集群”的核心系统。没有这个系统,集

第一章绪论群只是几台互不相干的计算机组成的“机群”。这里的网络通信系统,不止是TCP/IP协议等网络连接功能,还包括文件共享系统、远程登录系统、信息管理系统等,只有这样才能使集群中的计算机成为一个相互协作的整体。这些功能可以直接使用Debian操作系统的组件完成,并行计算系统。这是实现高性能计算的平台。并行计算系统是实现某种并行计算协议的软件,各种并行计算的程序都要调用并行计算的函数和库才能运行,例如量子化学软件GAMESS,NWChem和分子动力学软件NAMD,Gromacs,Amber等。它本质上是一种通信协议。本教程将使用MPICH2作为并行计算系统。作业管理系统。这是管理集群的工具。它负责计算作业的提交、管理、控制,集群资源的分配、调度,用户权限的分配、区分等,对于管理、维护特别是使用集群具有重要的意义。本教程使用免费软件TORQUE和Maui实现。应用软件。这是集群的实用部分,比如Gaussian,NAMD和各种编译器等等。本教程涉及到的软件,除了Windows操作系统和Gaussian等以外,所有软件均为免费软件!在继续之前,有一些话需要交代给读者。Linux系列的软件和其它免费学术类软件都是自由开发的,因此,它们的不同版本之间可能有某些不兼容情形,一些安装时候发生的状况和本教程所描述的可能有很大的不同。作者曾经帮人装过NWChem,因为作者本人安装过NWChem5.2,没有遇到过什么问题。可是别人安装的是6.0版本,在安装的时候碰到了无数编译错误,最后通过作者手动修改了NWChem6.0的源码才得以解决(有经验的读者应该意识到这是编译器版本的问题)。读者在继续之前,应该意识到在组建集群的过程中可能会遇到巨大的困难。这时,可以在网上搜索或咨询身边有经验的人。不要灰心,一旦集群组建完成,读者的计算机水平会有质的飞跃!好了,现在说一下本教程的集群的各种信息:1个控制节点,8个计算节点,千兆局域网,安装Debian6系统,安装有:Gaussian,Gamess,NWChem,NAMDGromacs,Autodock,以及GNU和intel编译器等等,这个集群可以实现各种计算化学软件的运行,并提供完整的编程开发功能!第5页
第一章 绪论 第 5 页 群只是几台互不相干的计算机组成的“机群”。这里的网络通信系统,不止是 TCP/IP 协议等网络连接功能,还包括文件共享系统、远程登录系统、信息管理 系统等,只有这样才能使集群中的计算机成为一个相互协作的整体。这些功能可 以直接使用 Debian 操作系统的组件完成。 并行计算系统。这是实现高性能计算的平台。并行计算系统是实现某种并行 计算协议的软件,各种并行计算的程序都要调用并行计算的函数和库才能运行, 例如量子化学软件 GAMESS,NWChem 和分子动力学软件 NAMD,Gromacs, Amber 等。它本质上是一种通信协议。本教程将使用 MPICH2 作为并行计算系 统。 作业管理系统。这是管理集群的工具。它负责计算作业的提交、管理、控制, 集群资源的分配、调度,用户权限的分配、区分等,对于管理、维护特别是使用 集群具有重要的意义。本教程使用免费软件 TORQUE 和 Maui 实现。 应用软件。这是集群的实用部分,比如 Gaussian,NAMD 和各种编译器等 等。 本教程涉及到的软件,除了 Windows 操作系统和 Gaussian 等以外,所有软 件均为免费软件! 在继续之前,有一些话需要交代给读者。Linux 系列的软件和其它免费学术 类软件都是自由开发的,因此,它们的不同版本之间可能有某些不兼容情形,一 些安装时候发生的状况和本教程所描述的可能有很大的不同。作者曾经帮人装过 NWChem,因为作者本人安装过 NWChem5.2,没有遇到过什么问题。可是别人 安装的是 6.0 版本,在安装的时候碰到了无数编译错误,最后通过作者手动修改 了 NWChem6.0 的源码才得以解决(有经验的读者应该意识到这是编译器版本的 问题)。读者在继续之前,应该意识到在组建集群的过程中可能会遇到巨大的困 难。这时,可以在网上搜索或咨询身边有经验的人。不要灰心,一旦集群组建完 成,读者的计算机水平会有质的飞跃! 好了,现在说一下本教程的集群的各种信息:1 个控制节点,8 个计算节点, 千兆局域网,安装 Debian6 系统,安装有;Gaussian, Gamess, NWChem, NAMD, Gromacs, Autodock,以及 GNU 和 intel 编译器等等,这个集群可以实现各种计算 化学软件的运行,并提供完整的编程开发功能!

第一章绪论说了那么多,读者读完本教程并搭建完成了二个计算机集群后,对于使用集群的人,集群无非是这样一个东西:..他装了个集群,在隔壁房间里,好像是好多台计算机,有啥计算节点控制节点的,好像还装得神马Linux,我也不懂。我就知道,我每天在我的实验室,打开Win7,用putty登陆到集群,输入命qstat,我发现有两个Gaussian和一个NAMD任务在运行。哦,我前天算的那个NAMD的任务已经结束了,算了七天可算完了,把输出文件下下来看看。我这有还个gif,传上去,好,算上了。现在关了putty,分析分析NAMD的轨迹吧...”好了,概念性的东西到此结束,下面,我们组建集群的激动人心的过程就开始了!第6页
第一章 绪论 第 6 页 说了那么多,读者读完本教程并搭建完成了一个计算机集群后,对于使用集 群的人,集群无非是这样一个东西: “.他装了个集群,在隔壁房间里,好像是好多台计算机,有啥计算节点控制节点的, 好像还装得神马 Linux,我也不懂。我就知道,我每天在我的实验室,打开 Win7,用 putty 登陆到集群,输入命令 qstat,我发现有两个 Gaussian 和一个 NAMD 任务在运行。哦,我前 天算的那个 NAMD 的任务已经结束了,算了七天可算完了,把输出文件下下来看看。我这 有还个 gjf,传上去,好,算上了。现在关了 putty,分析分析 NAMD 的轨迹吧.” 好了,概念性的东西到此结束,下面,我们组建集群的激动人心的过程就开 始了!

第二章集群的系统配置第二章集群的系统配置$2.1操作系统的安装到2011年5月时,Debian的最新版本为6.0,可以在Debian社区的网站http://cdimage.debian.org上获得其DVD镜像文件。根据读者的机器架构下载到相应的镜像,由于我们的机器是amd64架构,只需要下载第一个debian-6.0.1a-amd64-CD-1.iso当然,完整的镜像包括50多个iso文件,但出于我们组建集群的目的只需要第一个就可以。如果读者有兴趣可以全部下载下来。将第一个iso刻录为DVD光盘,利用光盘进行安装。注意,安装操作系统的过程中,一定要保证外网的连通,因为安装过程需要在外网下载一些组件。安装操作系统的步骤对控制节点和全部计算节点基本一致,叙述如下。注意:读者在初学时,可以只装两台机器:一台compuchem,一台nodeo21,等把全部细节弄懂之后,再根据自己的需要扩充新的节点。事实上,如果读者的计算节点的硬件完全相同的话,完全可以在配置好一台计算节点以后,用Ghost软件拷贝到其它所有机器上,然后将其IP(修改/etc/network/interface)和主机名(修改/etc/hostname)修改成正确的即可。当然,逐台计算机修改IP和主机名也可以使用shell脚本在控制节点上轻松的实现,因此,工作量不是问题。下面提到的“在全部计算节点上…”是为了让读者明确的知道,哪些操作只在控制节点上做,哪些只在计算节点上做,哪些在全部节点上做。1.将Debian6.0的光盘插入光驱,在BIOS中选择光盘启动,启动计算机。2.如启动成功,屏幕出现Debian的logo,选择textmode按Enter键开始安装。3.语言选择American,后面的选项根据具体情况选择,这里选择默认选项。4.进入Network设置界面时,选择Cancle取消DHCP,选择手动安装网络,在随后将出现一系列对话框,分别设置IP地址、子网掩码、默认网关、DNS服务器、主机名、域名。其中IP地址、主机名设置如表2-1-1。其它选项根据实验室的实际情况设定。第7页
第二章 集群的系统配置 第 7 页 第二章 集群的系统配置 §2.1 操作系统的安装 到 2011 年 5 月时,Debian 的最新版本为 6.0,可以在 Debian 社区的网站 http://cdimage.debian.org 上获得其 DVD 镜像文件。根据读者的机器架构下载 到相应的镜像,由于我们的机器是 amd64 架构,只需要下载第一个: debian-6.0.1a-amd64-CD-1.iso 当然,完整的镜像包括 50 多个 iso 文件,但出于我们组建集群的目的只需 要第一个就可以。如果读者有兴趣可以全部下载下来。 将第一个 iso 刻录为 DVD 光盘,利用光盘进行安装。注意,安装操作系统 的过程中,一定要保证外网的连通,因为安装过程需要在外网下载一些组件。安 装操作系统的步骤对控制节点和全部计算节点基本一致,叙述如下。 注意:读者在初学时,可以只装两台机器:一台 compuchem,一台 node021,等把全部 细节弄懂之后,再根据自己的需要扩充新的节点。事实上,如果读者的计算节点的硬件完全 相同的话,完全可以在配置好一台计算节点以后,用 Ghost 软件拷贝到其它所有机器上,然 后将其 IP(修改/etc/network/interface)和主机名(修改/etc/hostname)修改成正确的即可。 当然,逐台计算机修改 IP 和主机名也可以使用 shell 脚本在控制节点上轻松的实现,因此, 工作量不是问题。下面提到的“在全部计算节点上.”是为了让读者明确的知道,哪些操 作只在控制节点上做,哪些只在计算节点上做,哪些在全部节点上做。 1. 将 Debian 6.0 的光盘插入光驱,在 BIOS 中选择光盘启动,启动计算机。 2. 如启动成功,屏幕出现 Debian 的 logo,选择 text mode 按 Enter 键开始 安装。 3. 语言选择 American,后面的选项根据具体情况选择,这里选择默认选项。 4. 进入 Network 设置界面时,选择 Cancle 取消 DHCP,选择手动安装网络, 在随后将出现一系列对话框,分别设置 IP 地址、子网掩码、默认网关、DNS 服 务器、主机名、域名。其中 IP 地址、主机名设置如表 2-1-1。其它选项根据实验 室的实际情况设定