本文摘要(由AI生成):
文章主要介绍了HPC作业调度系统,该系统专为CAE仿真产品用户提供,具有高安全性、模块化、Web化和开放性特点。系统主要由操作系统、作业调度软件和应用软件组成,作业调度软件提供了作业调度、License管理、集群监控、告警管理、用户管理、记账统计等功能。系统支持多种商业CAE仿真软件,如ANSYS、LSDYNA、MSC、Abaqus、Fluent、CFX等,并具有多种优势,如支持断点续算、UDF用户自定义Function、稳态和瞬态作业、双向流固耦合、IO和存储优化、仿真作业管理等。最后,文章还提到了12月21日19:00-20:00,安世亚太高级系统工程师张老师将在仿真大课堂直播,教您选出更适合仿真工程师的工作站,以ANSYS软件操作系统选择最优的硬件配置为例。
HPC作业调度系统 是专为CAE仿真产品用户提供的一款HPC计算作业调度系统。高性能计算作业调度系统直接面向前端仿真应用工程人员,为其提供与后台计算资源完善友好的连接,并实现作业的多用户并发提交与协调管理。此外,在吸收和借鉴现有技术经验的同时,高性能计算作业调度系统整合开发出了属于自己的独特功能,通过与ANSYS,LSDYNA,MSC,Abaqus,Fluent,CFX等系列仿真软件的针对性开发,大大提升了软件系统的易用性和稳定性,为企业用户提供了一个简单易用、实用高效的作业调度软件系统。
HPC作业调度软件软件架构采用先进的设计理念,具有高安全性、模块化、Web化和开放性特点。其模块化设计,可扩展,可定制,维护简单,容易升级;其Web化设计,提供集中的操作维护界面,用户随时随地可以接入,支持三员分立并且支持集成吉大正元安全密钥;其开放性设计,体现在提供开放的被集成接口,支持第三方系统集成。整体架构如下图所示:
HPC软件系统主要由三大部分组成:操作系统、作业调度软件和应用软件。
其中,操作系统支持RHEL5.X/6.X/7.X、SLES 11.X、CentOS 5.X/6.X/7.X版本;作业调度软件提供的业务模块主要包括:作业调度、License管理、集群监控、告警管理、用户管理、记账统计;应用环境主要包含:商业CAE仿真软件、并行库(多数商业软件自带并行库)、数学库、编译器和调测器这几类。
HPC作业调度软件集群管理软件主要提供如下核心功能:
1、作业调度(即作业调度与管理),主要是指作业相关的操作,包括与商业CAE软件集成、作业管理、应用管理、队列管理、计算资源管理和调度策略管理。
2、License管理,提供了方便的集群节点上下电操作、带外管理、节点批量配置、文件系统管理、NFS配置管理和有效的license管理。
3、集群监控,提供了简单直观的集群整体视图、多指标多周期的集群以及节点监控、GPU监控。
4、告警管理,提供了严重、警告、未知等多种告警级别,支持磁盘、内存、负载、cpu温度超出阈值和主机失连时产生告警。
5、能耗管理,通过可配置的节能策略,在满足业务需求的前提下,使得功耗有效降低。
6、用户管理,主要指开销户管理和权限管理.包括用户管理,角色管理和权限管理,还包括限制用户能使用的系统资源。
7、记账统计,提供基于用户、求解器、时间段的机时数据功能。
优势分析:
1)Fluent高级应用
① 支持断点续算
② 支持UDF用户自定义Function
③ 支持稳态,瞬态作业
2)Dyna支持重启动
① 支持安全保存退出,不丢失数据
② 支持完全重启动,小型重启动,简单重启动
3) 双向流固耦合
业界首创的双向流固耦合高性能作业
4)IO和存储的优化
① 流式上传,不占服务器内存
② 支持单个100G大小的仿真文件的上传下载
③ 支持存储监控以及容量预警
④ 支持同时上传多个文件,并选择其中一个作为主输入文件
5)仿真作业管理
① 作业备份,复 制
② 作业重运行,优先级控制
③ 支持按时间,求解器,并行量,备注等多个维度查询作业
6)支持GPU加速卡应用
在ANSYS求解器中可支持GPU资源调度
7) 三员的实现
系统管理员、安全保密管理员和安全审计员(以下简称“三员”)分别承担本单位涉密信息系统的日常运行维护、安全保密管理及安全审计工作。
以上文章是张老师关于HPC作业调度的分享, 12月21日19:00-20:00 ,我们将邀请安世亚太高级系统工程师张老师在仿真大课堂直播《“超算”项目验收高级系统工程师, 教您选出更适合仿真工程师的工作站 ,以ANSYS软件操作系统选择最优的硬件配置为例》。
欢迎老铁提前报名(提示:直播前报名可免费收看,且可长期反复看)。
作者:张老师, 仿真秀科普作者
声明:原创文章,首发仿真秀,图片源自网络,如有不当请联系我们,欢迎分享,原创文章和视频,版权所有,禁止私自转载,转载请联系我们。