GPU(图形处理单元)最初是为图形渲染任务设计的专用处理器,其核心功能是快速生成高质量的图像和视频内容。凭借数以万计的计算核心,GPU能够同时调用大量线程进行运算,展现出强大的并行处理能力。随着技术的不断进步,尤其是NVIDIA Ampere、Hopper等现代架构的推出,GPU的并行处理能力得到显著提升,能够轻松应对超大规模计算挑战。
GPU显卡
在人工智能(AI)领域,随着技术的飞速发展,从基础的卷积神经网络和多层感知器,到如今参数动辄达到数以亿计的大语言模型,模型的训练和推理对计算资源提出了极高的要求。例如,当前最火热的DeepSeek模型在训练阶段就使用了数千块高端GPU显卡。而在部署DeepSeek模型时,使用的参数版本越大,对显卡的内存和计算能力要求就越高。AI的迅猛发展,得益于GPU技术的不断进步,这在传统的CPU时代是难以想象的。可以说,GPU已成为AI发展的核心驱动力。
GPU的高并行计算能力不仅推动了AI领域的繁荣,更在CAE(计算机辅助工程)行业引发了深远变革。
CAE在现代制造业中扮演着关键角色,广泛应用于汽车、电子、航空航天等行业。CAE软件通过模拟结构力学、流体动力学、电磁学等领域的物理现象,对产品设计进行优化,从而减少物理实验的需求,有效加速研发进程并降低成本。
传统的CAE仿真 主要依赖于CPU计算,在处理大规模复杂模型时往往会遭遇性能瓶颈,导致仿真时间过长,难以满足快速迭代设计的需求。随着产品设计复杂性的不断增加,企业对CAE仿真的计算效率提出了更高要求。
“软件跟着硬件走。”CAE通过在将模型离散成网格进行仿真计算,网格越密集,仿真结果越可靠,这意味着CAE天然适合进行大规模并行计算任务,这与GPU强大的并行计算能力高度契合。在软件层面,NVIDIA的CUDA生态通过提供完整的编程接口和工具链,让开发者可以方便地将计算任务分配到GPU上执行,实现计算资源从CPU到GPU的转移,显著提升性能。
近年来,众多CAE供应商都开始利用GPU加速。例如:
Ansys在2021年发布了GPU版本的Fluent求解器,且在Icepak、Structural Mechanics和HFSS中采用了GPU加速线性求解功能。
海克斯康的MSC Apex Generative Design借助NVIDIA的CUDA框架,实现了设计、网格化和分析功能的融合。
西门子2022年发布了首个GPU版本的Simcenter STAR-CCM+,专注于车辆外部空气动力学应用。
Altair在2022年前后也发布了全GPU版本的LBM求解器。
达索系统(Dassault Systèmes)在电磁仿真中采用了GPU版本的时域有限差分方法。
Dyna和Nastran也采用了GPU技术,加速线性方程组的求解。
2024年,COMSOL Multiphysics发布了GPU版本的声学仿真求解器。
截至目前,已有来自10多个ISV的120多个CAE应用通过GPU实现了加速。随着GPU自身的持续升级和优化,CAE仿真获得了更高的性能和更好的扩展性。
当前,云道智造也在积极探索GPU加速技术,通过引入更高的算力提升仿真效率,助力客户降低硬件成本,缩短研发周期,加速产品上市进程,增强市场竞争力。
在今年即将发布的伏图(Simdroid)6.0中,我们将正式推出GPU版本的求解器。该版本采用纯原生GPU方案,摒弃了传统的异构加速方案,所有内存分配和计算均在GPU上进行,避免了CPU和GPU之间数据交换造成的性能损失,从而充分发挥GPU的计算能力,加速仿真求解,显著提升软件性能,降低硬件成本与功耗。此外,该原生GPU求解器采用双精度计算,确保与传统CPU求解器相同的计算精度,为用户带来高效且可靠的仿真体验。
例如,在伏图-电子散热模块(Simdroid-EC)中,针对强迫对流散热、液冷散热等场景,与传统CPU计算(Intel i7,8核并行)相比,使用单块NVIDIA A4000显卡(其价格和Intel i7相当),计算时长可显著缩短一半以上,极大提升了仿真效率。对于商业用户而言,若采用更新一代的显卡,计算时间将进一步缩短。与此同时,我们的工程师仍在持续进行深度优化,预期后续性能有望实现数倍提升,为电子散热仿真带来革命性的改变。
强迫对流散热、液冷散热案例结果图
Intel i7 8核并行与NVIDIA A4000单显卡案例运行时间及加速比结果对比
可登陆Simapps网站,申请试用仿真工具Simdroid-EC。