背景
数值模拟已广泛应用于航空发动机的设计和研制领域,数值模拟技术的应用可以有效地提高设计精度,减少实验迭代次数和开发成本,缩短开发周期,提高研究效率和质量。
目前在航空发动机领域,部件级仿真技术经过多年发展已经非常成熟,有效促进了航发部件的设计。然而时至今日,航空发动机整机的仿真依旧面临较大挑战。
首先整个航空发动机包含风扇、压气机、燃烧室、涡轮等多个部件,使得整机仿真对网格和计算规模的要求远超以往;其次,部件复杂几何、高速相对运动以及无处不在的多尺度流动,对网格功能与性能提出苛刻的要求;第三,核心能量转化部件燃烧室内多相、喷雾、燃烧、传热、声学等多物理化学过程强烈耦合,给求解器开发带来极大难度。最后,上述三点导致航发仿真求解器在大规模并行时难以获得令人满意的并行效率,从而无法真正利用超级计算机资源。
应用概述
我们开创性地在“神威·太湖之光”超级计算机上基于swOpenFoam完成发动机整机模拟。如图1所示,目标发动机由2个轴、2级风扇、10级压气机、一个短环形燃烧室,和7级涡轮组成。网格总量在业界首次达到50亿,并行规模达到65336个MPI进程,强扩展性测试中66560核相对8320核并行效率保持在80%以上。在“神威·太湖之光”上投入的总核数为400万核,持续运算性能高达1384 DP-GFLOP/s。
图1 目标涡轮风扇发动机模型
挑战
1、航空发动机仿真并行规模和问题规模难以增长
航空发动机仿真并行规模和问题规模难以增长有多方面的原因。首先是航空发动机/燃气轮机模拟需要更复杂精细的燃烧模型,以及需要利用高性能计算资源进行超大规模并行计算的专门优化。第二个原因是当网格和并行规模非常大时,网格生成和后处理也成了一道难以逾越的屏障。目前业界在工程实际中仍倾向于使用基于RANS的低保真模拟,未能将强大的超级计算资源应用于航空发动机的真实模拟。
2、在先进超级计算机上,异构众核处理器访存带宽受限
从2010年开始,异构众核处理器成了高性能计算中的主流硬件架构,例如GPU或Intel MIC。“神威·太湖之光”是另一种异构系统,组成它的SW26010芯片采用片上融合的异构众核架构,如图2所示,每块芯片由四个核组组成,每个核组包含一个主核和64个从核。相比于多核架构处理器,异构众核处理器一般访存带宽受限,SW26010在此方面更加显著,并且非结构网格数据分散,因此非结构网格程序在SW26010众核处理器上难以获得较好的性能。
图2 SW2606处理器架构示意图
解决之法
1、使用swOpenFOAM
swOpenFOAM是国家超级计算无锡中心“神工坊”团队对OpenFOAM进行深度移植优化形成的一款可以在国产“神威·太湖之光”超级计算机上进行大规模多级并行计算的通用CFD软件。我们对OpenFOAM的多个核心计算模块进行了从核加速,覆盖通量计算和代数求解,涉及大量计算热点,热点最高加速17倍,某风电场算例测试中OpenFAOM整体加速4倍。
2、AMI优化
结合“神威·太湖之光”超级计算机的硬件环境,优化AMI边界处理的并行通信机制,将多个AMI的动态表面和静态表面相结合,有效解决AMI的并行瓶颈。以4000万网格单元的测试为例,在1000个核并行的情况下,单时间步AMI边界插值系数计算需要1300秒才能完成。但是,优化后只需不到20秒的时间。因此,AMI并行优化效率显著提高。
3、神威·太湖之光上的非结构计算众核加速策略
我们通过两种网格分段排序策略,即行分段策略和网格多级重排,有效地解决了非结构网格计算在“神威·太湖之光”异构众核芯片上计算效率低下的问题。两种措施都能够有效解决异构众核芯片访存受限情况下,非结构网格计算数据分散的问题,有效提高缓存命中率,最终提升程序效率。
性能与结果对比
1、应用介绍
我们采用的涡扇发动机由两个轴、2级风扇、10级压气机、短环形燃烧室和7级涡轮组成,如图3所示。我们使用swOpenFOAM求解器在“神威·太湖之光”超级计算机上,对该发动机的三维非定常流动和燃烧进行计算。
图3 算例中使用涡扇发动机模型
模拟的工况为:高压压气机和高压涡轮转速12290转/分;风扇和低压涡轮转速3505转/分。时间格式采用CFL数固定、时间步长可调的欧拉隐式格式。采用区域分解方法生成燃烧室非结构四面体网格和发动机其余部件的六面体网格,包括风扇、压气机、燃烧室和发动机在内的整个航空发动机网格,如下图所示。
我们设计了三组算例CASE-1 ~ CASE-3来测试并行性能。CASE-3使用65336个SW26010核组来测试峰值性能。
表1 各算例网格数
2、性能与结果分析
首先是弱扩展性测试,我们使用网格量不同的算例CASE-1、CASE-2、CASE-3。如表所示,其中NCPU是SW26010的核心数量,MPIs是进程数量,TN是运行时间,当前测试表明swOpenFOAM具有良好的弱扩展性能。
表2 弱扩展性测试算例配置
强扩展性测试我们使用CASE-1的网格,分为四组并行规模。如表所示SN为并行效率,强扩展性能良好。
表3 强扩展性测试算例配置
持续峰值运行性能测试使用CASE-3的网格,核数为4259840核,网格量51亿,持续峰值性能达到1384.92 DP-GFLOP/s。
图4为整个航空发动机马赫数和温度的仿真结果。结果显示了该航空发动机子午截面上的流速分布,风扇、压气机和涡轮转子叶片的转速以及燃烧室内的燃烧现象。
图4 马赫数云图
图5为整个航空发动机的压力和温度仿真结果。从结果中可以看出,通过数千块叶片的工作,气流在压气机出口处的压力最高。高压气体在燃烧室与燃料混合,充分燃烧,释放出巨大的机械能。高压高能气体驱动涡轮做功,气流经过涡轮后,压力减小,速度增大。
图5 温度云图
最后,图6为高压压气机第6级转子出口处从根部到叶尖总压比沿叶高的模拟分布,并与固定传感器和移动探针的实验测量值进行对比。
图6 总压分布对比
结论
经过上述性能与结果分析,我们认为在本次仿真应用中实现了高保真模拟,设计人员可以捕捉部件相互作用造成的复杂现象,并在设计的中后期阶段对航空发动机的性能进行合理准确的预测,从而缩短发动机研发周期、降低研发成本。
在第18届中国CAE工程分析技术年会暨第4届中国数字仿真论坛上,本次应用斩获2022数字仿真科技奖“卓越应用奖”。
完成人:徐全勇 任虎 陈建军等
撰稿:高飞