性能测试｜有限元软件分析——以Abaqus显式求解为例

4小时前浏览3

背景

CAE是高性能计算的主要应用场景。本期选取CAE领域最常用的仿真软件Abaqus，选择基于Abaqus显式求解的某型汽车碰撞的案例。我们来看下基于“神工坊”高性能仿真平台”的Abaqus显式求解计算，和其他仿真云平台进行效率对比如何。

Abaqus显示求解适用于非线性的动力学问题和准静态问题，适用于模拟碰撞、冲击和爆炸等问题，因此广泛应用于航空、航天、汽车等领域。显式求解应用中心差分方法对运动方程进行显式的时间积分，应用一个增量步的条件计算下一个增量步的条件，且需要较小的时间增量，所以对计算机的硬件要求较高。

01 模型介绍

我们进行显式分析的模型为某型汽车的碰撞有限元模型。使用材料为某型钢，模型网格数量为300万 ,实体网格使用C3D8R,壳体网格使用S4RS。仿真时间为0.6s。使用质量缩放，定义时间增量步为1E-06。

【仿真平台性能测试】Abaqus显式求解分析的图1

汽车、路面和墙体之间接触使用通用接触。定义墙体为刚体、路面为刚体。通过在墙体上定义RP点，将固定约束施加在RP点上使得墙体固定。汽车的初始速度为25mph ,在车体上施加速度场，方向为X轴正方向。

【仿真平台性能测试】Abaqus显式求解分析的图2

02 仿真结果

仿真后的应力云图如下所示：

【仿真平台性能测试】Abaqus显式求解分析的图3

汽车碰撞过程：

【仿真平台性能测试】Abaqus显式求解分析的图4

03 仿真云平台对比

进行Abaqus显式求解分析时,所使用的“神工坊”高性能仿真平台与其他两家仿真云平台的硬件参数如下表所示：

【仿真平台性能测试】Abaqus显式求解分析的图5

提交显式计算后，各个平台的计算日志如下：

【仿真平台性能测试】Abaqus显式求解分析的图6

【仿真平台性能测试】Abaqus显式求解分析的图7

【仿真平台性能测试】Abaqus显式求解分析的图8

本次仿真并行规模分别选取了4核、16核、32核、64核、128核，受限另外两个平台无法进行跨节点并行，并行规模无法进一步扩大。但是我们在“神工坊”高性能平台进行了256核的并行计算，结果显示计算用时会进一步缩短。

SIMFORGE神工坊高性能仿真平台与其他几家仿真云平台的计算时间如下图所示。仿真云平台2最高只能64核并行使用，故图表中无仿真云平台2并行规模为128核的结果。

【仿真平台性能测试】Abaqus显式求解分析的图9

可以发现，SIMFORGE“神工坊”高性能仿真平台进行显式动力学仿真分析时，仿真计算所用的时间随着计算所用核数的增加而持续减少，反观仿真云平台1，其计算所用时间在使用到64核、128核时，时间反而有了增加。

不仅如此，在使用相同的计算核数时，SIMFORGE“神工坊”高性能仿真平台计算所用时间也远短于其他仿真云平台，并且SISIMFORGE在使用32核的计算时间比其他仿真云平台使用64、128核的计算时间更短。

04 结论

综上所述，SIMFORGE“神工坊”高性能仿真平台在进行Abaqus显式求解分析时，其性能优于其他仿真云平台。

SIMFORGE“神工坊”高性能仿真平台以超算HPC集群作为硬件支撑，加上SIMFORG对于仿真软件进行了CPU的适配与优化，不仅能够实现跨节点大规模并行计算，还缩短了在结构设计中对碰撞、冲击等仿真所需时间，提高了设计工作效率，为产品的设计优化工作提速。

案例分享｜性能提升突破25%！揭秘国产CFD——风雷软件并行架构升级

软件介绍风雷软件（PHengLEI，PlatformforHybridENGineeringsimulationofflows）是中国空气动力研究与发展中心（CARDC）研发的面向流体工程的混合CFD平台。平台以面向对象的设计理念，采用C++语言编程。2020年12月，风雷软件正式面向全国开源，与其他开源CFD软件相比，风雷软件具有扩展能力强、开发难度低、计算效率高等特点，同时适用于前沿研究和大规模常规工程应用。[1]一、背景概述：突破自主可控的CFD性能瓶颈风雷软件（PHengLEI）作为我国自主研发的通用CFD平台，具备结构/非结构/混合网格的全域求解能力，其核心数据结构PHArray通过C++模拟Fortran多维数组特性，兼顾工程代码的兼容性。然而，受限于C++默认不实现向量化及索引冗余计算，PHArray的实际运算效率显著低于Fortran原生数组，串行性能测试中GFlop峰值比例不足问题尤为突出。为打破这一技术瓶颈，「神工坊」技术团队提出以编译器深度优化为核心的综合性能提升方案，在保持用户接口零改动的前提下重构底层数据访问逻辑。Tip“用户接口零改动”：指在系统升级或架构调整时，保持用户直接接触的前端界面（UI/UX）和交互逻辑完全不变，用户无需重新学习或适应新界面，同时后台技术栈、服务逻辑或数据架构可能已发生重大变化。这种策略的核心是通过解耦前后端依赖，确保用户体验的连续性和系统升级的透明性。[2]对于本项目指PHarray容器的接口不变。二、三大核心难题攻克：平衡兼容性、效率与跨平台需求那么如何在不改动接口的情况下，让软件跑得更快且适配所有平台？「神工坊」技术团队迅速拆解出了三大核心需求：接口稳定性：PHArray作为风雷软件的核心数据容器，需确保优化不改变现有数千行工程代码的调用方式；性能瓶颈突破：C++隐式索引计算、内存访问模式不佳导致向量化率低下，需在不侵入业务逻辑的前提下重构底层实现；跨平台适配：方案需兼容Linux/Windows系统及GNU/Intel编译器，确保优化效果普适性。三、技术方案：编译器赋能的多级优化体系针对上述需求，我们提出采用“循环优化+链接优化”双引擎驱动，通过编译器技术释放硬件算力。1.循环级缓存性能榨取向量化加速：重构循环结构，利用Intel编译器自动向量化技术将标量运算转化为SIMD指令（如AVX512），单指令处理多数据；分块与融合：通过循环分块（Tiling）提升缓存命中率，融合独立循环减少分支跳转开销；数据预取：优化内存访问模式，引导编译器自动插入预取指令，减少CPU等待延迟。2.链接时全局优化LTO（链接时优化）：借助LLVM工具链对全程序代码进行跨模块分析，内联关键函数、消除冗余计算；IPO（过程间优化）：跨函数边界优化寄存器分配与指令调度，提升指令级并行度。3.零侵入式代码重构多维数组底层访问优化：用多级指针替代传统类封装，减少隐式索引计算；编译器指令嵌入：通过`pragmaompsimd`等编译制导语句引导编译器生成高效机器码。四、结果测试：效率跃升与跨平台验证在完成编译优化方案的构建后，我们迎来了至关重要的实战验证阶段。本次测试聚焦两大核心目标：一是验证优化后的风雷结构网格求解器在不同平台上的计算效率是否实现显著提升，二是确保优化过程丝毫未影响程序的计算精度。1.测试方案全解（1）标准化测试环境：全面检验跨平台兼容性基础配置信息CPUIntel(R)Core(TM)i7-6700CPU@3.40GHz操作系统Ubuntu22.04LTS|Windows10专业版（2）多样化算例模型：确保测试结果的普适性算例配置信息（3）测试流程：严格遵循科学验证标准正确性验证：优化前后各跑一遍，vimdiff对比气动力系数文件，考察是否满足5位有效数字一致性能统计：优化前后跑10遍记录时间，取平均值计算性能提升百分比（4）测试举例：典型结构网格算例Linux平台：Linux平台正确性验证平均优化前耗时260.49s，优化后耗时172.54s，优化提速33.76%Windows平台Windows平台正确性验证平均优化前耗时1156.71s，优化后耗时843.27s，优化提速27.1%（5）典型结构网格算例性能测试结果跨平台验证显示，气动外形算例（平板/2822翼型/30p30n）加速比普遍高于复杂几何模型（球头/双椭球/RamC）。通过插桩分析发现：高自动向量化函数占比（多采用PHArray单元素访问的无依赖函数）与加速比呈正相关；湍流求解器因单元素接口调用更多且两方程模型含可向量化的crossing/blending函数，其优化空间显著优于已充分优化的层流求解器（依赖集合访问及链接优化）。整体表现为：湍流>层流，两方程>一方程。2.测试结论当前基于Intel编译器自动向量化和LLVM框架链接时优化的编译参数优化方案，在典型的结构网格算例中对风雷结构网格求解器的性能提升能达到25%以上，优化方案在Windows和Linux操作系统上均有效，且程序的正确性不受影响。五、总结：风雷软件并行升级成果全景呈现历经数月的攻坚克难，「神工坊」团队针对风雷软件的并行架构升级专项，交出了一份硬核成绩单：从达标情况来看，性能上，30p30n翼型、2822翼型、球头、双椭球、RamC模型等算例在Linux平台下，基于Intel/GCC/Clang编译器均实现超25%性能提升，满足预设指标；功能上，针对用户提供的典型结构网格算例，算例结果保证与优化前的气动力系数有效位前5位保持一致。另外值得一提的是，本次优化的三大亮点为国产工业软件的发展树立了新标杆：跨平台兼容性：Linux/Windows双系统、Intel/GCC/Clang多编译器全适配，优化方案普适性强；精度-效率双优：气动力系数零偏差约束下实现性能跃升，兼顾工程实用性与计算效能；多维性能锚定：从单元素到集合访问、从二维到四维数组，全维度覆盖性能基线，为后续优化提供量化基准。本次优化标志着风雷软件在自主可控CFD内核性能上实现里程碑式突破，为大规模工程仿真提供了更高效率的国产化解决方案。未来，「神工坊」团队将持续深耕编译器协同优化技术，推动国产工业软件跻身国际一流行列。参考资料：[1]红山开源社区.关于风雷[EB/OL].https://docs.osredm.com/phenglei/[2]Faulkner,L.andWick,D.(2005)Cross-UserAnalysis:BenefitsofSkillLevelComparisoninUsabilityTesting.InteractingwithComputers,17,773-786.来源：神工坊