航空发动机360度整机数值模拟——超算助力工业仿真迈向系统级高保真时代_HPC_仿真体系_航天_航空_多体动力学_结构基础_流体基础_旋转机械_燃烧

航空发动机360度整机数值模拟——超算助力工业仿真迈向系统级高保真时代

背景

数值模拟已广泛应用于航空发动机的设计和研制领域，数值模拟技术的应用可以有效地提高设计精度，减少实验迭代次数和开发成本，缩短开发周期，提高研究效率和质量。

目前在航空发动机领域，部件级仿真技术经过多年发展已经非常成熟，有效促进了航发部件的设计。然而时至今日，航空发动机整机的仿真依旧面临较大挑战。

首先整个航空发动机包含风扇、压气机、燃烧室、涡轮等多个部件，使得整机仿真对网格和计算规模的要求远超以往；其次，部件复杂几何、高速相对运动以及无处不在的多尺度流动，对网格功能与性能提出苛刻的要求；第三，核心能量转化部件燃烧室内多相、喷雾、燃烧、传热、声学等多物理化学过程强烈耦合，给求解器开发带来极大难度。最后，上述三点导致航发仿真求解器在大规模并行时难以获得令人满意的并行效率，从而无法真正利用超级计算机资源。

应用概述

我们开创性地在“神威·太湖之光”超级计算机上基于swOpenFoam完成发动机整机模拟。如图1所示，目标发动机由2个轴、2级风扇、10级压气机、一个短环形燃烧室，和7级涡轮组成。网格总量在业界首次达到50亿，并行规模达到65336个MPI进程，强扩展性测试中66560核相对8320核并行效率保持在80%以上。在“神威·太湖之光”上投入的总核数为400万核，持续运算性能高达1384 DP-GFLOP/s。

图片8.png

图1 目标涡轮风扇发动机模型

挑战

1、航空发动机仿真并行规模和问题规模难以增长

航空发动机仿真并行规模和问题规模难以增长有多方面的原因。首先是航空发动机/燃气轮机模拟需要更复杂精细的燃烧模型，以及需要利用高性能计算资源进行超大规模并行计算的专门优化。第二个原因是当网格和并行规模非常大时，网格生成和后处理也成了一道难以逾越的屏障。目前业界在工程实际中仍倾向于使用基于RANS的低保真模拟，未能将强大的超级计算资源应用于航空发动机的真实模拟。

2、在先进超级计算机上，异构众核处理器访存带宽受限

从2010年开始，异构众核处理器成了高性能计算中的主流硬件架构，例如GPU或Intel MIC。“神威·太湖之光”是另一种异构系统，组成它的SW26010芯片采用片上融合的异构众核架构，如图2所示，每块芯片由四个核组组成，每个核组包含一个主核和64个从核。相比于多核架构处理器，异构众核处理器一般访存带宽受限，SW26010在此方面更加显著，并且非结构网格数据分散，因此非结构网格程序在SW26010众核处理器上难以获得较好的性能。

图片9.png

图2 SW2606处理器架构示意图

解决之法

1、使用swOpenFOAM

swOpenFOAM是国家超级计算无锡中心“神工坊”团队对OpenFOAM进行深度移植优化形成的一款可以在国产“神威·太湖之光”超级计算机上进行大规模多级并行计算的通用CFD软件。我们对OpenFOAM的多个核心计算模块进行了从核加速，覆盖通量计算和代数求解，涉及大量计算热点，热点最高加速17倍，某风电场算例测试中OpenFAOM整体加速4倍。

2、AMI优化

结合“神威·太湖之光”超级计算机的硬件环境，优化AMI边界处理的并行通信机制，将多个AMI的动态表面和静态表面相结合，有效解决AMI的并行瓶颈。以4000万网格单元的测试为例，在1000个核并行的情况下，单时间步AMI边界插值系数计算需要1300秒才能完成。但是，优化后只需不到20秒的时间。因此，AMI并行优化效率显著提高。

3、神威·太湖之光上的非结构计算众核加速策略

我们通过两种网格分段排序策略，即行分段策略和网格多级重排，有效地解决了非结构网格计算在“神威·太湖之光”异构众核芯片上计算效率低下的问题。两种措施都能够有效解决异构众核芯片访存受限情况下，非结构网格计算数据分散的问题，有效提高缓存命中率，最终提升程序效率。

性能与结果对比

1、应用介绍

我们采用的涡扇发动机由两个轴、2级风扇、10级压气机、短环形燃烧室和7级涡轮组成，如图3所示。我们使用swOpenFOAM求解器在“神威·太湖之光”超级计算机上，对该发动机的三维非定常流动和燃烧进行计算。

图片6.png

图3 算例中使用涡扇发动机模型

模拟的工况为：高压压气机和高压涡轮转速12290转/分；风扇和低压涡轮转速3505转/分。时间格式采用CFL数固定、时间步长可调的欧拉隐式格式。采用区域分解方法生成燃烧室非结构四面体网格和发动机其余部件的六面体网格，包括风扇、压气机、燃烧室和发动机在内的整个航空发动机网格，如下图所示。

图片10.png

我们设计了三组算例CASE-1 ~ CASE-3来测试并行性能。CASE-3使用65336个SW26010核组来测试峰值性能。

截屏2023-01-09 16.02.13.png

表1 各算例网格数

2、性能与结果分析

首先是弱扩展性测试，我们使用网格量不同的算例CASE-1、CASE-2、CASE-3。如表所示，其中NCPU是SW26010的核心数量，MPIs是进程数量，TN是运行时间，当前测试表明swOpenFOAM具有良好的弱扩展性能。

截屏2023-01-09 15.59.11.png

表2 弱扩展性测试算例配置

强扩展性测试我们使用CASE-1的网格，分为四组并行规模。如表所示SN为并行效率，强扩展性能良好。

截屏2023-01-09 16.00.21.png

表3 强扩展性测试算例配置

持续峰值运行性能测试使用CASE-3的网格，核数为4259840核，网格量51亿，持续峰值性能达到1384.92 DP-GFLOP/s。

图4为整个航空发动机马赫数和温度的仿真结果。结果显示了该航空发动机子午截面上的流速分布，风扇、压气机和涡轮转子叶片的转速以及燃烧室内的燃烧现象。

图片5.png

图4 马赫数云图

图5为整个航空发动机的压力和温度仿真结果。从结果中可以看出，通过数千块叶片的工作，气流在压气机出口处的压力最高。高压气体在燃烧室与燃料混合，充分燃烧，释放出巨大的机械能。高压高能气体驱动涡轮做功，气流经过涡轮后，压力减小，速度增大。

图片7.png

图5 温度云图

最后，图6为高压压气机第6级转子出口处从根部到叶尖总压比沿叶高的模拟分布，并与固定传感器和移动探针的实验测量值进行对比。

图片4.png

图片4 2.png

图6 总压分布对比

结论

经过上述性能与结果分析，我们认为在本次仿真应用中实现了高保真模拟，设计人员可以捕捉部件相互作用造成的复杂现象，并在设计的中后期阶段对航空发动机的性能进行合理准确的预测，从而缩短发动机研发周期、降低研发成本。

在第18届中国CAE工程分析技术年会暨第4届中国数字仿真论坛上，本次应用斩获2022数字仿真科技奖“卓越应用奖”。

图片12.png

完成人：徐全勇任虎陈建军等

撰稿：高飞

极大规模整车气动数值模拟——构筑数字风洞基础框架

摘要本应用基于神威·太湖之光超级计算机与自研自适应加密网格框架（SAMR[1]）完成了某真实汽车模型的气动仿真数值模拟。为提高计算精度与效率，采用了8层网格加密，网格规模约10亿量级、并行规模在50万核并行规模。流场数值求解器则是采用了自主研发的非定常格子玻尔兹曼流场求解器（LBM[2]，LatticeBoltzmannMethod）与采用简单的Smagorinsky湍流模型。所计算的Ahmed标准车模阻力系数与实验高度吻合，具备了工程应用能力。01背景在汽车设计和改型中，数值计算和风洞试验是评估气动性能的两大手段。风洞试验模型制作和试验实施的周期长，成本高，因此如何减少风洞实验次数，提高汽车设计效率，一直是汽车设计及空气动力学领域研究的重点。数字风洞即风洞的数字化，是遵循数字孪生理念，通过高保真数值计算、机器学习等技术手段，将物理风洞试验设施和试验过程1:1还原到数字世界，从而具备实施高置信数字风洞试验的能力。通过数字风洞试验，可以取代部分早期风洞试验车次和部分风洞试验，从而缓解风洞试验成本高、周期长与旺盛试验需求之间的矛盾。国家超级计算无锡中心神工坊团队，依托我国最先进的国产自主超级计算机神威·太湖之光，自主研制了结构网格自适应框架（SAMR[1]）与格子玻尔兹曼流场求解器（LBM[2],LatticeBoltzmannMethod)，形成了自主数值风洞软硬件基础框架，可以高效地为汽车气动仿真赋能。02方法下面对40m/s(或144km/h)速度下的Ahmed标准汽车模型（25°后背角）与某实车模型进行数值模拟。1）网格生成：采用国家超级计算无锡中心自主开发的结构网格自适应加密框架，可对汽车中复杂几何表面以及流场变化剧烈的地方进行自动加密。2）流场求解器：采用国家超级计算无锡中心自主开发的基于多层加密格子玻尔兹曼方法的流场求解器，具有并行效率高且易于处理复杂几何等优点。3）湍流模型：选用Smagorinsky模型，它是一种简单的大涡模拟模型，且易于在格子玻尔兹曼方法中实现。03结果汽车模拟验证1）网格规模：网格规模6.2亿，采用了8层网格加密。并行规模约13万核（含主核与从核)。注：这里采用6亿网格主要是为了验证大规模计算能力，在小规模网格的算例中我们也得到了与实验基本吻合的阻力系数。2）速度场：图1：Ahmed车模瞬时速度云图。后背角为25°，来流速度40m/s。图1中给出了流场完全发展后的速度场瞬态云图，可以看到车模表面进行了更为精细的网格加密。3）阻力系数：图2：Ahmed车模阻力系数随时间的变化。后背角为25°，来流速度40m/s。从图2中可以看到，我们的计算结果与实验结果吻合的很好。表1给出了我们的阻力系数与Fluent、PowerFlow等商业软件的比较，可以看到我们的计算误差最小。同时也可以看出，PowerFlow与我们的结果明显好于Fluent计算结果，这也间接说明LBM方法在车模计算中是优于FVM方法的。表1：Ahmed车模阻力系数比较。后背角为25°，来流速度40m/s。实车仿真1）网格规模：网格规模6.7亿，采用了8层网格加密，其中汽车表面附近做了3层网格加密，能更好的捕捉汽车几何特征以及汽车前后缘的大速度梯度等特征。并行规模约46.8万核（含主核与从核）。2）速度场：图3：某实车模型瞬时速度云图。来流速度40m/s。图3中给出了流场完全发展后的速度场瞬态云图，可以看到车模表面进行了更为精细的网格加密。3）阻力系数：图4：某实车模型阻力系数随时间的变化。来流速度40m/s。图4中可以看到，流场完全发展后，某实车模型阻力系数约为0.258。04特点特点一：结构网格自适应：网格自适应加密是本应用的主要特点之一。通过网格自适应，可以对几何外形复杂的区域以及流场变化剧烈的地方着重加密。在我们的结构网格自适应加密框架下，只需要读入汽车几何外形信息，会自动在外形复杂以及流场变化剧烈区域自动加密（如图5自适应网格效果图），在提高计算精度的同时大大节省了人力成本。另外值得一提的是，我们生成的网格是分布式的，这非常适合大规模并行计算。图5某车模算例中的网格自适应效果图特点二：众核加速二级并行：本应用的另一个特色是大规模并行效率高。为了适配国产神威太湖之光超级计算机，本数值求解体系从设计之初就融入了主从核异构并行体系，在进行流场数值求解时能充分发挥异构计算机的主核与从核性能。例如，本次汽车模拟算例就采用了7200核组（包含7200*64=46.08万从核）。此外通过测试，发现7200核组相对3600核组，算例获得了几乎翻倍的性能，表明当前的算例大规模并行效率非常的优异。特点三：求解器代码精简：求解器代码精简也是本应用的主要特色之一。此次求解器采用的LBM流场求解器只涉及几百行代码。由于求解器是基于我们自研的SAMR框架，该框架底层封装了异构并行，对离散层开放了“迭代器+算子”接口，用户只需要设计自己的求解器算子，代入对应的迭代器（空间遍历器）即可完成空间迭代计算。这里算子结构往往十分精简（如图6，复杂的空间遍历与异构并行都被封装到迭代器内部，因而基于这种模式开发的求解器代码往往非常精简易用。）图6：格子玻尔兹曼流场求解器碰撞算子示意图参考文献[1]https://mp.weixin.qq.com/s/Yb4Ez3P1LWVrk_h51oQQ3Q[2]KrügerT,KusumaatmajaH,KuzminA,etal.ThelatticeBoltzmannmethod:Principlesandpractice[M].Switzerland:Springer,2017[3]FaresE.UnsteadyflowsimulationoftheAhmedreferencebodyusingalatticeBoltzmannapproach.Computers&Fluids35(2006)940–950[4]https://www.youtube.com/watch?v=Dzji-kG11Ys&list=PLMLR0Z92Et3wn1zk8q20ZMDsYUecZ6zLp&index=5[5]http://cfd.mace.manchester.ac.uk/ercoftac/doku.php？id=cases:case082END--神工坊--撰稿|刘明修订|任虎编辑|顾强审核|任虎