仿真干货｜算例核心数越多反而越慢？来了解下“最佳并行规模”！

19天前浏览535

simforge

高性能计算的瓶颈
    在实际的工作和科研中，许多人会遭遇一个令人费解的困境：
    明明想要通过增加核心数来提高计算效率，但是随着并行计算核心数的不断增加，原本期待的加速效果并未如约而至，计算效率的曲线非但没什么变化，甚至开始不断下降。
    而影响计算效率的因素除了“算法的优化”，像“数据相关性”、“负载平衡”等也涉及其中，下面我们就来讲讲各个因素为何会影响算例的“最佳并行规模”。

01 影响因素分析

1. 数据通信和同步

在并行计算中，不同处理单元之间需要进行数据通信和同步动作，而过多的核心数所产生的通信时间也是相当可观的，从而会影响到作业本身的计算效率和计算平台的整体性能，但是通信密集型任务需要更多的核心，最终的计算效率反而会下降，这个也需要在作业的配置中考虑到。

2. 负载平衡

在并行计算中，各个节点的负载分配可能不均衡，导致部分处理单元负载过重，而部分处理单元空闲，从而影响到计算效率。

3. 数据相关性

并行计算中的数据相关性可能导致处理单元之间的依赖关系，限制了并行度的提高，从而影响性能。

4. 潜在的竞争和瓶颈

在并行计算中，可能存在共享资源的竞争和瓶颈，如内存带宽、I/O带宽等，这些因素可能限制并行计算的性能。

5. 算法设计和并行化的复杂性

一些算法并不容易并行化，或者其并行化的复杂性较高，这可能导致并行计算的效率不高。

02 最佳并行规模分析

——以“汽车碰撞分析”为例

车辆模型包括数百个部件，如车身、座椅、安全带、气囊等。碰撞分析的模型需要考虑所有这些部件的相互作用。

图片来源：网络

在汽车碰撞分析中，采用并行计算可以显著缩短求解时间，但同时也需要注意优化计算性能。根据计算节点和核心数量合理分配任务，避免资源浪费，并通过调整网格划分，确保计算负载在所有节点间平衡分配，减少计算瓶颈。

配置更多算力核心后，计算效率下降原因分析如下：

1. 负载不均衡

当并行规模过大时，各个计算节点之间的负载分配可能变得不均衡，部分节点计算任务过重，而其他节点则处于空闲状态，导致整体计算效率下降。

2. 通信开销增加

过多的并行核心会导致通信频率和复杂度增加，通信开销增大，从而拖慢计算速度。

3. 内存管理问题

在大规模并行计算中，内存分配和管理变得更加复杂，可能出现内存不足或内存访问冲突等问题，影响计算效率。

在实际测试中，使用不同规模的计算资源对同一组LS-DYNA任务进行运算，结果如下：

本地计算资源：

使用32、48、64核计算资源，耗时分别为821、566、439分钟。

注：本地资源有限，无法提供更多资源测试，共进行了3次作业提交，总计耗时1826分钟。

云端计算优化型实例：

使用32、48、64、128、256核计算资源，耗时分别为662、458、375、299、321分钟。

注：云平台资源充足，可同时进行多个作业的提交和计算，即耗时662分钟得出所有结果（测试效率提升约64%），得出该作业最佳并行规模为128核。

03 计算效率瓶颈解决方案

方案一：多次作业并行运算，找出合适运算规模

不同的大规模作业需要不同的优化方式，其中包括优化数据读写策略、优化网格划分、找到合适的最佳并行规模。

方案二：在线云平台解决方案

SimForge高性能仿真云平台可以在线提供以下资源：

① 在线图形界面

② 海量软件提供计算支持

③ 多个大算力作业同步计算

④ 数据实时同步，快速展示传输

新媒体矩阵版尾.png

SimForge 案例分享｜击碎算力瓶颈，神工坊赋能搅拌釜生物反应器仿真

在生物工程领域，搅拌釜生物反应器是细胞培养、发酵工艺开发的核心装备。其内部流场均匀性、氧传递效率及剪切力分布的精准控制，直接关系产物收率与工艺稳定性。然而，传统仿真手段在应对多相流耦合、瞬态动力学分析等高复杂度场景时，常因算力资源不足导致模型简化过度、收敛困难，甚至被迫牺牲仿真精度。场景直击，痛点解析1多物理场耦合计算超载在搅拌釜生物反应器中，流体力学场、传热场和传质场之间存在着紧密的耦合关系。通过多物理场耦合计算，可以深入了解搅拌釜生物反应器内各个物理场的相互作用机制。例如，流场和颗粒分布的动态模拟需要实时计算流体的速度、压力和颗粒的分布情况。[1]但求解这些耦合的偏微分方程对算力的要求非常高，尤其是在处理大规模反应釜时，容易出现计算超载的情况。2网格规模与精度矛盾网格越密，网格数量越多，计算结果越精确，但过大的网格规模将消耗庞大的计算资源[2]。例如，千万网格会致使本地工作站内存溢出，但缩减后又会导致关键涡流区域解析度不足。3参数优化效率低下参数优化：在工程设计领域，“参数优化”是指通过系统地调整和优化设计变量（参数），以使系统或产品的性能达到最优或满足特定的设计要求。[3]比如在过去传统搅拌釜生物反应器设计仿真流程中，需要改变各主要部件的结构和尺寸参数，进行分析对比。[4]参数优化的过程通常需要进行多次仿真计算，以寻找最优的参数组合，这对于计算资源和时间成本都是巨大的消耗。技术突围，精准赋能“本地没有高性能设备，软硬件投入及维护成本又高，导致搅拌釜生物反应器仿真工作效率低下。”“每次提交任务都要排队等HPC资源，参数调整后又要重新排队，研发周期完全不可控。”这是一线工程师、科研人员的真实困境，也正是SimForge高性能仿真云平台的技术攻坚方向。1.专业GPU并行渲染，操作丝滑如本地仿真SimForge高性能仿真云平台实现了多GPU的分时共享，同时支持大规模仿真数据的多GPU服务端并行渲染，让10亿+网格可视化无压力。这意味着在处理搅拌釜生物反应器复杂的流场、颗粒分布等大规模数据可视化时，工程师不再需要因本地设备性能不足而困扰，云端的操作体验也可以和本地高性能工作站上的作业流畅度一较高下。SimForge平台Fluent性能测试结果注：仿真云平台2最高只能64核并行使用2."超算级资源池+工业级软件栈"的垂直整合架构SimForge拥有亚洲最大的价值2亿的商业仿真软件授权，搭建了“传统商软+开源/国产软件+自研定制软件”的“工业级软件栈”，配合超算资源支持，单体软件并行最高可达2048核。以搅拌釜生物反应器仿真为例，无论是多物理场耦合计算超载，还是网格规模与精度难以两全的难题，都能借此迎刃而解。3.实时计费，精准结算，风险可控SimForge采用实时计费，精准结算的模式，让用户在使用过程中能够清晰了解费用情况，风险可控。无论是短期的集中计算任务，还是长期的研发项目，都能根据实际使用情况灵活计费，避免了资源浪费和不必要的成本支出，以及日常软硬件维护的烦恼。结语基于SimForge高性能仿真云平台的软硬件支撑，用户极大降低了软硬件的一次性投入成本，避免了日常软硬件维护烦恼。用户通过web，即享受了“PC式高性能体验”，使用超算硬件资源和海量软件资源开展仿真作业，实现从前处理建模到结果可视化的全云端闭环，高效完成了搅拌釜生物反应器仿真工作。参考文献：[1]丁敬斌.反应釜搅拌性能有限元仿真分析CFD辅助设计应用[J].科学技术创新,2022(26):68-71.[2]周储朋,钱善华,任海栋,等.基于流体仿真的搅拌器结构参数对搅拌特性影响研究[J].化学工业与工程,2024,41(3):124-134.[3]LIUPeilin,TIANLifeng,QIUTian,LILihui,HuangFuxiang,YINBingang,ZHUGang.ROVControllerParameterOptimizationSimulationBasedonCombinatorialOptimizationAlgorithmJ.OceanEngineeringEquipmentandTechnology,2023,10(1):64-70.[4]孙庆丰.搅拌釜式生物反应器设计及优化[D].黑龙江:哈尔滨工业大学,2007.