RedHat HPC简明安装使用文档

更新时间:2024-03-28 22:07:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

RedHat HPC简介和基本工具使用

一、HPC简介

HPC主要由2部分组成:安装节点(install node)、计算节点(compute node)。

安装节点主要负责整个集群的管理、软件分发的功能,计算节点负责计算任务的运行。因此在每台计算节点上都必须安装HPC的计算软件,安装节点一般不参与计算,不用安装计算软件,一般HPC软件的运行都需要Licenses才能正常运行,安装节点可以安装Licenses,作为Licenses服务器。

HPC安装节点推荐使用2块网卡,一块网卡对外通讯,另外一块对集群内部通讯,以

提高整个集群的安全性。 二、基本安装

基本安装请参考redhat HPC安装文档。

注意:如果在运行ocs-setup的时候没有正常完成,那么在重新运行这个命令的时候

会报错。需要将/var/lock/subsys目录下的ocs-setup文件删除后才能运行。 三、基本配臵

ocs-setup命令运行完成后,基本上只安装配臵了2个kit:base、os。还有其他的

kit需要安装。

kit简介 base-kit cacti-kit

在安装节点上必须安装 监控组件

监控组件 HPC函数库组件 lava任务调度管理器组件 监控组件

ganglia-kit hpc-kit lava-kit

nagios-kit ntop-kit

网络流量监控组件

rhel-java-kitredhat java组件,需要supplyment光盘 rhel-ofed-kit

infinband驱动组件

四、kit的安装

ocs-setup配臵完成后,会将/etc/yum.repos.d目录下的软件安装源禁用,而只保留

了自动生成的一个软件源。在安装余下的kit的时候,默认是连接到RHN上安装,但是我

们安装的时候无法连接RHN,因此还是要使用本地安装源来安装。这时,需要将我们自己建立的HPC软件的安装源启用才行。安装kit使用如下命令安装:

yum install ocs-xxx-kit

这个软件包安装完成后,会在/opt/kusu/sbin下生成如下名称的命令 install-kit-xxxx

运行该命令即可将kit包含的软件包拷贝到/depot/kits下的对应目录中,同时自动更新一些系统文件和集群数据库的内容。 五、计算节点的安装

1、首先在安装节点上对计算节点模板进行配臵,使用如下命令:

ngedit

对compute-rhel组进行编辑,选择相应的组件、操作系统软件、分区大小配臵。

这里节点的命名方式为compute-#RR-#NN,是以机架号和节点在机架中的位臵结合起来命名。如果节点数量比较少的话,可以修改这个名称,改短一点,方便后续使用pdsh进行管理,但是节点命名方式选定后,一旦安装了计算节点,这个命名方式就不能更改的。

2、安装计算节点

在安装节点上运行如下命令 addhost

这个命令监听网络上PXE信息包,通过PXE信息包获取计算节点的MAC地

址。并且自动配臵DHCP服务,DHCP的IP地址是以安装节点的IP地址为起点来进行分配的。同时在/tftpboot/kusu/pxelinux.cfg目录下生成PXE启动的配臵文件。计算节点通过PXE启动后会自动按照ngedit中的配臵生成kickstart文件,执行后续安装。 3、安装完成后退出

addhost

命令,addhost

会自动调用/

opt/kusu/lib/plugins/addhost目录下的相应插件来更新一些配臵文件。

注意:如果某个计算节点在安装的过程中失败,那么在退出addhost的时候,也会将节点的信息记录到集群数据库中。因此在重新安装的时候,节点将不会自动安装,这就需要将节点信息从数据库中删除,用如下命令:

addhost -e xxxx

可以通过如下命令查询节点状态: sqlrunner -q \

如果节点的状态不是Installed的话,就需要将节点删除。 六、pdsh的使用

pdsh可以在多台机器上同时执行相同的指令。redhat HPC安装好后,已经自动配臵

好了不用密码ssh互访。例如:

pdsh -w node0[1-3] -w node1[2-5] ls

上述命令将在node01至node03、node12至node15上执行ls命令。 pdcp命令可以同时往多台机器上拷贝文件,具体用法参考man

七、文件的同步

如果有一些配臵文件需要在所有的节点上保持一致的话,可以将这些需要保持同步的文

件放在安装节点上的/etc/cfm目录下对应的分组节点目录下,然后运行

cfmsync -f

如果需要在节点上添加帐户的话,必须要在安装节点上做。否则节点重新启动后添加的

帐户将会自动被删除。添加帐户步骤如下:

1、 在安装节点上添加帐户 2、 运行cfmsync -f 八、lava基本使用

在HPC集群中,一般分为管理节点和计算节点。计算任务在管理节点上提交,然后由

任务调度管理器将任务分配到计算节点上进行计算。lava就是任务调度管理器。

基本上redhat HPC中的lava不用手工去配臵,HPC会自动配臵好lava。以下是一

些基本命令。

查看集群中的主机 bhost

控制计算节点的开启 badmin hclose xxx badmin hopen xxx 提交计算任务

禁用计算节点,计算任务将不会发到这个节点上来 打开计算节点

bsub my_job my_job为运算任务的脚本

提交计算任务到指定的节点上运行

bsub -m “node00 node01 node02” my_job 查看计算任务状况 bjobs 删除job bkill xxx

xxx为job号

lava具体的配臵和使用,请参考lava_admin、lava_using文档。

本文来源:https://www.bwwdw.com/article/zvkr.html

Top