本文摘要(由AI生成):
IT4Innovations(IT4I)是捷克国家超级计算中心,支持前沿计算研究。中心包括捷克最大的集群系统Anselm,及预计入全球百强的更大规模系统。中心关注交通、洪水、空气污染建模等研究。为满足需求,采用PBS Professional管理超级计算机,获用户好评。目前,研究人员已广泛使用此系统,未来计划进一步拓展技术应用。
国家超级计算中心IT4Innovations是捷克共和国VŠB——奥斯特拉瓦技术大学 (VŠB-TUO) 中的一个研究机构,由欧盟运作项目“创新研究与开发”资助。来自捷克共和国各大主要科研机构的数以百计的研究人员在利用该中心进行计算工作。自2011年起,IT4Innovations 便加入了享负盛名的欧洲PRACE超级计算中心网络,为来自欧洲其他国家的研究人员提供计算资源。
IT4I国家超级计算中心正在建造一台 独一无二的超级计算机,用以支持该中心的用户所进行的前沿计算研究。这台超级计算机由两部分构成:一部分是从2013年6月投入运行的集群计算机系统Anselm,另一部分是将于2015年初投入运行的更大规模的集群计算机系统,后者有望跻身于全世界超级计算机一百强榜单。Anselm系统现已是捷克最大的集群计算机系统,它作为DECI TIER-1系统,是PRACE的一部分。有关这些系统的详细信息,请访问 www.it4i.cz/hardware/en。
IT4I国家超级计算中心主要有六个研究方向,分别使用计算流体动力学 (CFD) 和有限元分析/有限元法 (FEA/FEM) 等方法处理多种计算问题,包括实时交通分析/管理、洪水建模/预测、空气污染建模/预防、分子动力学仿真和新材料建模等。
面对形形色 色的用户和应用,IT4I意识到他们需要为超级计算中心用户提供一种可靠、高性能的作业负载管理产品。在采购过程中,IT4I要求提供高级作业调度程序和资源管理器以及高级应用分析工具。在硬件供应商Bull的投标中,捆绑了满足这些要求的产品。
在采购过程中对于作业负载管理器设定的标准是:较高的计算资源效率和利用率;稳健的批量作业和交互作业运行;支持使用GPU/协处理器卡进行节点调度;支持作业依赖性和作业阵列;确保操作的容错性和高可用性;具有用于调度与作业执行的静态和动态资源,包括软件许可证等外部动态资源;支持资源预留;支持回填;可向用户通知作业生命周期事件;可对用户/用户组和资源进行限制或定额配给;拥有记录完备的高质量API,支持C和Python 等常见编程语言;以及许多其它特定技术要求。
“无疑我们需要一款高质量的调度程序——所有的超级计算中心都需要这样的程序,因为确保资源利用率达到最高是计算中心成功的关键,”计算中心主任Martin Palkovič说道。“当你投入如此多的时间、资源和精力来打造一个超级计算系统来支持数以百计的用户需求时,就应当确保作业负载管理系统可靠无误,能够提供你需要的性能。”
IT4I国家超级计算中心使用PBSProfessional管理其新型Bull超级计算机,该超级计算机由200多位计划用户所共享。PBS Professional易于实施和使用,具有极高的可靠性,这些都是使其脱颖而出的关键优势。该中心还采用了PBSAnalytics,并计划随着集群机使用规模的扩大,对更多的产品进行考察评估。
为满足调度程序的严格采购要求,Bull的专家对很多商用开源产品进行了评估,最后决定推荐AltairPBS Professional®作为作业负载管理器。
“要实现高质量大规模的作业负载管理,PBSProfessional是极佳的选择,”Bull的ISV联盟主任Olivier David说道,“我们将PBS Professional和bullx超级计算机套装紧密集成,配以经过优化的bullxMPI,可保证用户应用在bullx超级计算机上的高效利用。Bull和 Altair两家公司长期以来都为HPC市场呈献了很多广受赞誉的解决方案,这次联袂为客户提供的解决方案不但彰显了高性能和高稳健性,而且适用于规模庞大的配置。”
IT4I超级计算服务部总监Branislav Jansík对该决策进行了肯定,他说:“我们有很多选择,但是PBS Professional提供的解决方案是最为先进成熟的方案之一,我们很高兴Bull选择在其产品中使用这款调度程序。”
Jansík补充道:“我们已经能够熟练使用PBS Professional对我们在大学的HPC集群进行作业调度。不过,由于我们现在运作的系统的规模巨大,我们想要重新开始,让供应商提供的新系统能够搭载他们能想到的最好的调度程序。令人高兴的是,PBS依然脱颖而出。”
凭借以往使用PBS Professional的经验,IT4Innovations超级计算服务部的专家为所需的新调度程序定义了功能标准。BranislavJansík 解释说:“PBSProfessional 在功能性上设定了一个高标准,我们选用的调度程序在功能上至少不能逊于此标准。”
最终,由于PBS Professional易于实施和使用,供应商决定选择PBS Professional。“PBS Professional易于安装和使用,而且它能满足我们全部的功能要求,”BranislavJansík 说道,“现在我们的用户可以完全依靠这套作业负载管理系统,而我们可以充满自信地应对系统规模的扩张。”
目前,该中心的所有研究人员都使用PBSProfessional来分配和利用Anselm超级计算机的计算资源,Anselm是Bull提供的一款 x86集群计算机,运算速度峰值约为94万亿次浮点运算/秒。
PBS Professional由Bull以预安装的形式提供,所以中心的用户可以迅速开始工作。IT4I能够在项目初期阶段分析用户和运行需求,然后根据用户的需要对该产品轻松地实施定制。
“有了PBS Professional,我们可以快速创建插件和序言/结语脚本,确保最佳资源使用率,增强安全性以符合规范要求,并使计算节点在作业使用后仍保持原始、一致的状态,”IT4I 超级计算服务部副总监兼高级管理员Filip Staněk说道。“为满足客户需求,我们需要完成高度复杂的定制工作,而PBS Professional让这些变得易如反掌。”
IT4I 国家超级计算中心还实施了PBS Analytics,该软件随解决方案进行预安装,用于用户分析和报告。
“对于每个超级计算中心来说,有必要准确掌握用户和项目所消耗的分配资源并相应地收取费用。PBS Analytics提供的高级分析和报告功能可让我们更好地了解资源使用细节和项目未来的负载,”Martin Palkovič 说道。
用IT4I国家超级计算中心管理员的话来说,选择PBS Professional最大的好处在于操作人员能够迅速轻松地适应和使用这款程序。
“用户可以很快熟悉并上手使用PBS Professional,”Filip Staněk 说道,“我们清楚,是Altair让我们有机会获得一流的支持服务,而这也是PBSProfessional与SLURM或Torqueover等开源替代产品相比所具有的独特优势。”
目前,在IT4I国家超级计算中心的用户中,有超过100名活跃用户只通过PBS Professional这一种途径分配和使用集群计算资源。Anselm 集群上每天都要安装新的应用程序,所以该中心计划对Altair的其它技术进行评估,以备未来扩展之用。
PBS Professional运行的大部分应用程序均为用户编写的代码,或是像OpenFOAM、ParaView和Octave这样的开源软件。但系统中现已部署了ANSYS、EnSight、LS-DYNA、MATLAB和COMSOL等商用软件。除此之外,该中心还计划部署VASP、Wien2K等其它软件。
该中心主管 Martin Palkovič 说道:“我们确信 PBS Professional 就是我们超级计算系统的正确选择。”