近几年超算中心已经被越来越多的人所认识,并且被广泛应用到工业制造领域和科研单位,用以计算庞大的数据任务。随着行业数字化转型的不断深入和AI技术的广泛应用,未来的算力中心的发展将向大数据+AI及高性能计算+AI的融合趋势演化。作为“智慧时代”的基础设施——智算中心,也将开始逐步登上未来科技发展的舞台,拥有自己的一席之地。
智算中心是一种“前云后算”的融合架构计算平台,即数据通过后端的算力把结果输送给前端云应用,典型的使用场景如天气预报,它就是通过新的天气数据触发预报计算,也就是后端的算力,再把计算结果自动发布到云应用上,最后将数据和结果发回气象局存档。除此以外,生命科学、科研物理仿真、高端制造、能源研究开采等领域随着传统仿真和人工智能的结合都逐渐向“前云后算”的需求模式靠拢。
智算中心日常要处理庞大的人工智能数据,面对复杂的数据流和计算任务管理,高性能、高吞吐的任务调度系统是智算中心的大脑,它高效智能地协调计算资源,有序的管理计算任务,从而提高平台资源使用效率、大大加速生产和研发进程。
近几年国内对于“国产化替代”政策持续输出,全国各地都积极响应国家政策,迅速针对各地的科研、高新技术、高端制造等领域的进行调整布局,国内某省的智算中心自成立以来一直为高校、科研等单位提供了面向对生物信息、工业仿真、人工智能的算力支持。
随着日益增长的算力需求,该智算中心已经无法满足现有客户的业务,迫切需要进行全面升级。为了更好的服务用户,中心计划进行一次全面升级,此次升级的目标一是提升开放性,要以云服务的方式对外开放,提供各种常用的借口和界面,以方便用户使用和接入;二是提升集约高效性,采用超大规模的先进技术,支持异构硬件架构,支持裸金属和容器的应用方式;三是提升普适普惠性,能以云服务的方式服务大众,提供各种灵活的用户功能。
天云融创软件接到客户的咨询后立即组织技术团队针对上述目标进行了初步调研,发现生物信息类计算大量依赖于GPU加速算力,应用封装多采用Docker等容器技术,并行算法多基于MPI并行应用框架。开源社区的容器集群解决方案虽能管理调度GPU和容器,但无法很好地兼容需要裸金属和高速互联InfiniBand的MPI并行应用程序。
一方面由于不用计算任务所需的GPU算力差别很大,需要根据任务需求设定不同大小的GPU实例,使GPU利用率最大化;另一方面,容器镜像的管理以及多容器任务需要与MPI等类型的普通HPC应用共享计算资源。
面对这些棘手的问题天云融创软件技术团队立刻着手制定解决方案,结合公司两个完全自主可控的核心产品——SkyForm应用平台和SkyForm AIP集群资源调度系统,其核心代码不依赖国外开源社区。方案具有灵活的GPU调度能力,支持NVIDIA MIG多实例调度,限制用户在不越权的情况下灵活调用Docker容器,并且可以很好地调度Singularity/Apptainer多节点MPI并行任务,同时支持裸金属HPC和AI计算任务,深度集成Jupyter环境,实现了国产化的异构环境的融合计算解决方案。
通过应用平台提供的基于WEB的远程可视化技术,用户可以轻松管理和使用生物信息领域所需的容器封装应用、GPU加速应用、和MPI并行应用,实现资源共享和统一管理,应用运行环境统一管理,以及应用数据统一管理。
此方案已在该智算中心正式部署上线,不仅异构算力得到了充分利用,而且还大大缩短了应用上线时间,为多租户和多用户提供安全有效的计算能力,让更多科研客户享受到稳定的算力保障。