网站建设的发展历史与新方向,关于建设工程招标的网站,买医疗产品的网站建设,公司网络安全管理制度和应急工作预案在使用HPC跑模型时常常需要批量取消提交的job#xff0c;本文将三种常见的作业调度系统的批量取消作业方法进行介绍#xff0c;方便平时使用。
一、Slurm
Slurm取消/删除作业的命令为scancel#xff0c;其基本的使用方法有#xff1a;
命令说明scancel jobid 删…在使用HPC跑模型时常常需要批量取消提交的job本文将三种常见的作业调度系统的批量取消作业方法进行介绍方便平时使用。
一、Slurm
Slurm取消/删除作业的命令为scancel其基本的使用方法有
命令说明scancel jobid 删除指定作业scancel -t ST删除指定状态的作业scancel --account name 删除指定账号的作业scancel --name name 删除指定名称的作业scancel --partition names 删除指定分区的作业scancel --reservation name 删除指定预约名称的作业scancel --state names 删除指定状态的作业scancel --user name 删除指定用户的作业scancel --nodelist names 删除指定节点的作业
而在实际shell脚本和命令行中需要批量取消作业这时有以下几种方式
方法1常用
# 1.取消所有作业
scancel -u user_name#2.不过滤取消
squeue --me -h -o %i | xargs scancel# 3. 过滤取消如取消所有jobid中以xxxxx开头的作业
squeue --format%.18i --me -h | grep -w xxxxx.* | xargs scancel方法2
# 方法2scancel接受多个作业ID时可以省略该-n 1部分
squeue -u $USER | grep 作业号全部或部分数字 | awk {print $1} | xargs -n 1 scancel有时候对于squeue命令输出的部分需要修剪包含列标题的第一行
squeue -u $USER | awk {print $1} | tail -n2 | xargs scancel二、PBS
2.1 根据jobid取消
qdel {14371..35428}2.2 直接根据用户名取消
qselect -u username | xargs qdel或者
qdel -u username 三、LSF
LSFLoad Sharing Facility接触相对较少其主要使用bkill来删除作业.
3.1 直接删除
直接使用bkill命令删除
bkill jobid
bkill –r jobid3.2 批量删除
批量删除任务的方法以使用bkill删除所有PSUSP状态的任务为例
# 删除单个用户提交的任务
bjobs -u username | grep PSUSP|awk {print $1} |xargs bkill# 删除所有用户提交的任务-p参数可有可无不影响命令执行结果
bjobs -u all -p -q normal | grep PSUSP|awk {print $1} |xargs bkill3.3 LSF其他常用命令
bjobs检查提交作业状态:
命令说明bjobs –r显示正在运行的作业bjobs –a显示正在运行的和最近完成的作业bjobs -p显示等待运行的作业和等待原因bjobs –s显示正在挂起的作业和挂起的原因bjobs -l显示该作业的所有信息
bhist显示最近完成作业或正在运行作业的历史情况
bhist jobidbpeek 当作业正在运行时显示它的标准输出监视作业运行
bpeek jobidbqueues 显示队列信息
bqueues
bqueues –l queue namebhosts 显示各节点作业相关情况
bhosts
bhosts hostname欢迎关注学习及分享的微信公众号微思研