LSF简单使用手册

更新时间:2024-03-07 15:31:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

LSF(load sharing Facility)是由platform公司开发的公布资源管理工具。它用来调度,监视,分析联网计算机的负载,可以对cluster机群的资源统一调度和监控。

一. LSF使用方法

1. 设置环境变量:

用户使用LSF前,应设置相应的环境变量:

Csh用户,登陆系统后执行source /export/lsf/cshrc.lsf Bash用户,登陆系统后执行./export/lsf/conf/profile.lsf

用户也可写入.cshrc或.bashrc,则登录后就能设置相应的环境变量。 2. 提交作业

LSF使用bsub提交作业。 Bsub命令常见用法如下:

Bsub –n z –q QUEUENAME –iinputfile –o outputfile COMMAND

其中z代表了提交作业需要的cpu数,-q指定作业提交到的队列。如果不采-q选项,系统把作业提交到默认作业队列。Inputfile代表程序需要读入的文件名(例如

namelist等),outputfile代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。COMMOND是用户要运行的程序。

(1) 对于串行程序COMMOND可以直接使用用户的程序名

例如,对一个运行时间12小时内完成的串行作业mytest,提交方式为: Bsub –n 1 –q QS_Norm –o mytest.out ./test

(2) 对于并行作业COMMAND为“-a mpich_gm mpirun.lsf 程序名”因为并行作业

必须用到MyriNET库,所以提交的时候必须使用-a mpich_gm mpirun.lsf

例如,对于一个12个小时内完成,使用16个CPU的并行作业mytest,提交方式为:bsub –n 16 –q QN_Norm –o mytest.out –a mpich_gm mpirun.lsf ./mytest. 目前,系统规定每个用户最多只能使用16个CPU。

3. 使用脚本提交作业

Bsub命令可以使用输入脚本多次提交具有相同参数的作业,格式为: #BSUB –n Z #BSUB –q QUEUENAME #BSUB –o OUTPUTFILE COMMAND 该脚本的参数与命令行

“bsub –n Z –q QUEUENAME –o outputfile COMMAND”参数相同。 提交时为bsub<脚本名。

例如要提交一个12小时内完成,需要16个CPU的并行作业mytest,可以编写脚本bsub.scriptfile #BSUB –n 16

#BSUB –q QN_Norm #BSUB –o mytest.out

-a mpich_gm mpirun.lsf ./mytest

作业提交方法为:bsub

二. LSF队列状况

LSF分了如下几个作业组:

1、 长时间并行作业组(LSF管理)

该队列用于运行长时间并行作业,作业不限执行时间。作业规模限制为:最多使用16个CPU。

2、 串行作业组(LSF管理)

(1) QS_Norm队列该队列用于串行短时间作业,最长作业执行时间为12小时。 (2) QS_Long该队列专用于长时间串行作业,作业不限执行时间。 3、 短时间并行作业组(LSF)管理

(1) QN_Norm队列该队列用于运行短时间并行作业,最长作业执行时间为12小时。 (2) QN_Debug队列该队列用于调试或试算,最长作业执行时间为5分钟。

请用户根据自己的需求,选择适当的作业进行作业提交。 附:队列命名规则

新的队列命名遵循一定的潜规则,下面详细解释队列名中各字母的含义: QL_Norm :Q代表queues;L代表long,表示该队列运行长时间并行作业; QN_Norm:Q代表queues;N代表normal,表示该队列运行短时间。

并行作业:

QS_Norm: Q代表queues;S代表serial,表示该队列运行短时间串行作业;

QS_Long:Q代表queues;S代表serial,表示该队列运行串行作业;Long表示长时间运行;

三. 查看作业状态和删除作业等

几个常用的指令:

Bjobs检查提交作业状态 Bjobs Bjobs –w

Bjobs –r显示正在运行的作业

Bjobs –a显示正在运行的和最近完成的作业 Bjobs –p显示等待运行的作业和等待原因 Bjobs –s显示正在挂起的作业和挂起的原因 Bjobs –l显示该作业的所有信息

Bhist显示最近完成作业或正在运行作业的历史情况 Bhist

Bkill删除不需要的作业 Bkill

Bkill –r

Bpeek当作业正在运行时显示它的标准输出,监视作业运行 Bpeek

Bqueues显示队列信息 Bqueues

Bqueues –l Lsload显示各节点负载信息 Lsload

Lsload

Lshosts处理各节点静态资源信息 Lshosts

Lshosts

本文来源:https://www.bwwdw.com/article/i3pa.html

Top