Slurm(Simple Linux Utilities for Resource Management)是一款集群资源管理及作业调度系统,适用于Linux集群环境。目前Slurm作为一款免费且开源的软件,被全世界很多超算中心,研发企业、实验室及大学部署并使用。在 TOP500 排名前 10 的HPC系统中,有超过半数是使用Slurm来执行工作负载管理工作。
目前,Ansys软件也支持使用Slurm来完成并行求解作业的任务提交和管理,本文介绍Ansys Fluent 2023R1版本并行求解作业提交到Slurm系统的相关操作。
1. Ansys RSM方式提交
1、首先在Linux集群管理节点启动Ansys RSM Launcher服务。
2、打开Windows端的“RSM Configuration 2023 R1”配置工具,完成Slurm资源的添加配置。
3、打开Windows端的“RSM Cluster Monitoring 2023 R1”工具,可以看到刚配置完成的Slurm队列的资源状态:2个计算节点(node1和node2),每节点8个CPU Core。
4、在Ansys Workbench中打开Ansys Fluent测试算例,并按图示1~4步骤的操作说明,完成Fluent作业的远程提交。如果项目中有多个待分析任务的话,建议使用右键菜单的Update选项,来准确定位要提交求解的分析任务。
5、打开“Job Monitor”工具,查看运行中的作业状态。
6、Linux管理节点上,我们也可以通过squeue命令查看运行中的Slurm作业的状态。
7、计算完成后,计算结果自动传回Windows主机上的项目文件目录,我们在本地完成后处理工作。
2. sbatch批处理方式提交
1、工作目录中上传Ansys Fluent算例、Journal文件及sbatch的批处理文件。
2、slurm.sh批处理文件中,定义了任务名:test,标准输出文件,错误输出文件,slurm队列名:debug,计算节点数:2,每节点并行进程数量:6。
3、执行“sbatch slurm.sh”命令完成作业提交,作业号为174。
4、计算完成后,工作目录生成了对应的结果文件,日志文件,过程文件。需手动下载文件到本地,进行后处理工作。
3. 总结