本文摘要(由AI生成):
本文概述了Altair公司的RADIOSS软件在结构及复杂系统性能仿真中的应用和性能优势。该软件利用混合大规模并行处理技术,在各类计算机配置上均展现出卓越的计算性能。通过与Intel的合作,RADIOSS在Intel® Xeon®处理器上进行了优化,显著提升了其性能与可扩展性。验证仿真显示,在拥有60核的Intel® Xeon® E7 v2系列处理器上,RADIOSS的运行速度较24核的E5-2695 v2处理器提升近2.75倍。此外,RADIOSS还支持多物理仿真及先进材料,并通过并行优化技术实现了高可扩展性。综上所述,RADIOSS软件是结构及复杂系统性能仿真的理想选择,为企业提供了强大的仿真计算工具。
结构及复杂系统性能仿真,例如汽车碰撞,需要进行大量的分析计算。现在的仿真软件依赖于高度并行化的代码,充分利用高性能计算集群的拥有大量内核的优势,来提高这一类复杂仿真的求解速度。
Altair的RADIOSS软件在Intel® Xeon®处理器进行了优化。RADIOSS采用了混合的大规模并行处理技术,对不同的计算机配置,从单节点的工作站到拥有成千上万个内核的计算集群,都能提供出色的计算性能。
为评估Altair的RADIOSS求解器在Intel® Xeon® E7 v2系列处理器下的性能及可扩展性,Altair采用了已公开的克莱斯勒NEON乘用车的碰撞模型来进行验证。该验证仿真是在拥有4接口/60核/120线以及256GB的内存的单点服务器(4sockets/60 cores/120 threads and 256 GB of memory)平台进行的。该验证仿 真证明,RADIOSS能够充分利用服务器的所有的60个核,在相同的工作负载下运行速度是Intel® Xeon®E5-2695 v2处理器/24核服务器的2.75倍。
Altair精通HPC技术。公司不仅提供 产品设计服务外,还开发、使用和销售自己的HPC工程仿真软件、3D工业设计套件、企业分析解决方案以及HPC管理工具。Altair能准确地了解哪些依靠计算集群和密集型的计算应用来开发产品和解决问题的公司的需要及需求。Altair在高端软件和咨询服务行业具有30年的历史,公司能够始终如一处于高端软件和咨询服务地位,为超过5000多个客户提供高价值的商用软件及咨询服务。
Intel与Altair拥有悠长的合作历史,从而使Altair软件的求解在Intel的架构下设计并优化,能够实现高性能计算。Altair与Intel的软件开发人员密切合作,采用Intel的Parallel Studio XE套件对Altair的代码进行调整及优化。使用的这些软件套件包括:Intel的MPI库,Intel的Fortran和C/C++编译器,Intel数学核心函数库,Intel的VTuneTM放大器以及Intel跟踪分析器等其他产品。
图1:混合大规模并行处理使得RADIOSS在大规模集群服务器上具有可扩展性
Altair的RADIOSS是领先的求解动力荷载作用下高度非线性问题的结构求解器。在过去的25年中,RADIOSS发展为汽车碰撞和冲击分析的领导者和行业标准。在世界各地和各个行业都有公司都使用RADIOSS,以提高其结构设计的耐撞性、安全性和可制造性。
该软件以其可扩展性、高品质及稳健性而著名,能够支持多物理仿真及先进的材料,例如复合材料。
Altair公司采取多核Intel®处理器的优势,从单节点计算平台到大型计算集群都对RADIOSS进行了系统的优化。使用混合大规模并行处理(HMPP)技术,Altair工程师将MPI与OpenMP结合编码,创建多级并行的模式,提高了可扩展性,允许用户根据软件运行的工作量及硬件对RADIOSS进行微调(图1)。
结果表明,在任何规模的服务器上,RADIOSS求解一系列结构分析问题都具有优异的性能。
多年来与Intel工程师在关键的硬件和软件优化方面的合作,使得Altair研发工程师能够持续地在英特尔架构上提高RADIOSS的性能。目前,RADIOSS在Intel® Xeon® E5 V2系列处理器上的性能与Intel® Xeon®5100系列处理器相比,提升了10倍(图2)。基于Intel®处理器的平台,这些扩展核心数量继续使RADIOSS提供无与伦比的可扩展性。实际上,当今的单个节点服务器就可以提供大型计算集群几年前的性能。
Altair公司使用已公开的克莱斯勒霓Neon模型的修改版去验证RADIOSS在各类工况下的性能(见图7)。克莱斯勒Neon模型是免费的,并且之前已经用于汽车行业的验证基准;修改后的模型有100万个单元,而此前的公开版模型只有 27万个单元。按今天的标准,这依然只是一个中等大小的模型。应当注意到,在目前的情况下车祸是一种仅持续80毫秒的瞬间事件。
该模型是用RADIOSS在Intel®Xeon® E7-4890 v2处理器/60核/单节点的服务器上运行的。RADIOSS在这些基准测试中性能超出预期,表明在较小规模的服务器上,也有可能加快复杂碰撞仿真的求解时间,而不仅仅限于大规模高性能计算集群。
图2:RADIOSS在RADIOSS单节点/Intel®处理器平台性能发展
Intel®Xeon®E7-4890 V2处理器为集成了Intel®超线程(HT)技术,15核心(30线程同时进行),37.5 MB高速缓存,3个8 GT/ s的Intel® QuickPath互连(Intel®QPI)链接和Intel®高级矢量扩展3/(英特尔®AVX)到一个单一的22nm制程芯片。内置的4插槽平台,256 GB的内存,这样的配置为使用RADIOSS进行复杂模拟提供了高度的可扩展性。
采用60核/120线程,Altair能够分析HMPP的能力以及从单节点上使用多核的响应。在低节点数情况下,纯MPI普遍优于HMPP,而在多核情况下,建议使用每个插槽只有一个MPI及与每个插槽的内核数相匹配的若干OpenMP线程的。
用于测试的系统平台性能数据如表1所示。
表1:基准测试平台
基于Intel® Xeon® E5-2695 v2处理器的平台 | 基于Intel® Xeon® E7-4890 v2处理器的平台 | |
CPU | Intel® Xeon® E5-2695 v2 | Intel® Xeon® E7-4890 v2 |
接口 | 2 | 4 |
核/线程数 | 12/24 | 15/30 |
总核/线程 | 24/48 | 60/120 |
缓存 | 30MB | 37.5MB |
内存 | 128 GB; 1600 DDR3 | 256 GB; 1600 DDR3 |
频率 | 2.5 GHz | 2.8 GHz |
该基准测试表现出了RADIOSS卓越的性能,揭示,基于Intel®Xeon® E7-4890 v2处理器的基础平台,只需几个节点的系统也能使RADIOSS产生较高的效率。
仅使用MPI的并行计算,都在24核处理器上,RADIOSS处理基准仿真采用4插口/ Intel® Xeon® E7-4890 v2的平台与2插口/ Intel® Xeon®E5-2695 v2平台相比,RADIOSS处理基准仿真的速度前者是后者的2.75倍(图3)。
当纯MPI的效率下降(当MPI的域的数量和相关联的跨MPI通讯费用增加),也就是,对于具有更多内核的系统,采用混合的MPP并行计算,能够保持RADIOSS的可扩展性。使用HMPP,在具有上千内核的大型高性能计算集群上,RADIOSS表现出了高度的可扩展性以及难以置信的高效率(图4)。根据不同的硬件平台上,用户可以调整其跨MPI领域的问题分解,最大限度地提高内核与基于OpenMP的多线程的性能。在多内核情况下,,每个接口运行一个MPI进程,并执行与内核数量一样多的OpenMP的线程时,配置显示出能提供最佳的可扩展性。如图4所示,16个节点后,纯MPI的可扩展性与下降;当每MPI 拥有8个OpenMP线程,采用HMPP时 RADIOSS可扩展性可持续至64个节点。因此,采用HMPP时,运行100万个单元的中等大小的模型,RADIOSS可扩展性可以持续到1024核。
对于较小规模的系统,Altair公司认为,由于我们的优化代码和Intel®Xeon®E7-4890 v2处理器基础平台的高率结合,MPI下单域分解也能提供最佳的计算性能(最好的数据位置)。通过使用Intel®Xeon®E7家族处理器的虚拟共享内存的优势而优化的英特尔MPI库,4接口平台上的通信成本能够保持极低的水平。
Intel®超线程技术,采用所有的120线程时,能够提供了大约5%的性能提升。超线程特别适合于单节点系统。如图5,Altair使用HMPP混合大规模并行处理时, 2 OpenMP线程/MPI与2超线程/核结果的比对。
单精度(SP)和双精度(DP)的浮点数之间的比较表明,RADIOSS在单节点系统使用单精度计算时性能是双精度的1.5倍。在这里,同样Intel超线程(HT)技术提供了5%的性能的提升。
注:RADIOSS的标准版采用双精度浮点。Altair开发了单精度浮点版本,它能使RADIOSS得性能提高1.5倍。这是一个扩展的单精度版本,在某些关键的地方继续使用双精度,这样能保持很好的精度,同时也最大限度地提高性能。
图4:计算集群中采用HMPP时RADIOSS性能提升
图5:HMPP超线程性能
图6:双精度浮点与单线程浮点对比(超线程)
通过Intel®Xeon®处理器的大规模并行处理进行优,Altair的RADIOSS软件能够利用系统所有的内核,并表现出高度可扩展的性。RADIOSS在小型和大型系统上均表现良好,使之成为企业加紧从工作站到一些更强大的计算集群进行仿真计算的理想解决方案。
测试基准使用修改克莱斯勒Neon的碰撞模型,该模型拥有100万单元,并在80ms内完成了汽车的碰撞分析。分析表明,在使用Intel Xeon E7-4890 v2系列处理器/60核/120线程的求解平台时,软件具有较高的可扩展性。其原因是硬件设施的高效以及软件本身基于Intel架构的代码优化。
对于需要更新求解技术运行RADIOSS软件的企业而言,无论是在单台工作站还是大型计算集群上,都可以考虑使用配置IntelXeon 处理器的平台或者工作站,这样能充分利用RADIOSS的计算性能及可扩展性。
图7:修改的克莱斯勒Neon汽车碰撞模型(100万单元)在RADIOSS中用作碰撞仿真基准测试