torque使用指南

更新时间:2024-06-25 22:44:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Tip1:By default, job submission is allowed only on the TORQUE server host (host on which pbs_server is running). Enablement of job submission from other hosts is documented in Configuring Job Submit Hosts. Master node:node3 Submit a job: Qsub

查询作业状态:qstat/qstat –f 查询节点状态:pbsnodes –a 第一步:安装

Yum install torque*

安装之后的路径:/var/torque

第二步:配置 配置控制节点:

1. 执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。

命令:./torque.setup (指定一个非root用户名) qmgr -c 'p s' //查看配置信息 2. 具体指定计算节点

在目录TORQUE_HOME/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。 简单示例如下:

# Nodes 001 and 003-005 are cluster nodes #

node001 np=2 cluster01 rackNumber22 #

# node002 will be replaced soon node002:ts waitingToBeReplaced # node002 will be replaced soon #

node003 np=4 cluster01 rackNumber24 node004 cluster01 rackNumber25

node005 np=2 cluster01 rackNumber26 RAM16GB node006

node007 np=2 node008:ts np=4

配置计算节点:

在计算节点的TORQUE_HOME/mom_priv/config文件中修改

$pbsserver headnode # note: hostname running pbs_server $logevent 255 # bitmap of which events to log

Pbsserver为你的集群中的管理节点的hostname. 3. 重启节点

计算节点:pbs_mom

控制节点:> qterm -t quick

> pbs_server

注意事项:

1.在torque中在执行mpi程序时。执行运行作业的不同节点的用户之间必须要配置为ssh服务相互间访问不用密码。

安装中出现的错误:

Mpirun中找不到共享文件库时:

错误6:error while loading shared libraries: xxx.so.0:cannot open shared object file: No such file or directory

原因:程序执行时,系统不知道xxx.so放在哪个目录下 解决:/etc/ld.so.conf中加入xxx.so所在的目录 若libesmf.so在/usr/local/esmf/lib下

则在/etc/ld.so.conf的下一行加入/usr/local/esmf/lib 最后运行/sbin/ldconfig –v

配置好后重启时,执行qterm -t quick:报错: [root@node2 mom_priv]# qterm -t quick

Cannot connect to default server host 'localhost' - check pbs_server daemon. qterm: could not connect to server '' (111) Connection refused

启动pbs_server时报错:

[root@node2 server_priv]# pbs_server

PBS_Server: LOG_ERROR::No such file or directory (2) in get_svr_attr, Unable to read server database

pbs_server: failed to get server attributes

上述两个错误都是出现在在计算节点企图启动管理daemon导致的哦。

本文来源:https://www.bwwdw.com/article/p0w3.html

Top