CAE实证Vol.14：超大内存机器，让你的HFSS电磁仿真解放天性_LS-DYNA_Fluent_HFSS_HPC_Abaqus_Comsol_动网格_电路_半导体_通用_航天_电子_芯片_通信_电场_理论

CAE实证Vol.14：超大内存机器，让你的HFSS电磁仿真解放天性

本文摘要：（由ai生成）

HFSS软件用于3D电磁仿真，对计算和内存资源需求高，适合高配单机或高性能计算。HFSS支持自适应网格剖分和GPU加速，但性价比有限。fastone研发平台通过Auto-Scale功能提升任务成功率。一站式工业研发平台提供CAE/CFD仿真设计全流程支持，包括任务自动提交、仿真结果可视化和高效数据传输工具。

HFSS（High FrequencyStructure Simulator）是世界上第一款商业化的3D电磁仿真软件。由Ansoft公司在1990年开发并发布第一个版本。

2008年，Ansys收购了Ansoft，继续开发HFSS等电子与电磁仿真产品，目标是解决整个工业体系中机械与电气领域的持续融合问题。

现在的HFSS，已经成为天线、射频RF或微波组件、高速互连、滤波器、连接器、IC封装、PCB设计者必不可少的工具。世界各地的工程师使用 Ansys HFSS 软件来设计通信系统、高级驾驶辅助系统 (ADAS)、卫星和物联网 (IoT) 产品中的高频高速电子设备。

HFSS作为一款以麦克斯韦理论为基础的数值仿真计算工具，如何摸准TA的特性，借助计算机技术有效提升仿真效率，我们今天浅聊一下。

01 扩展性低

大内存单机是首选

我们在蓝箭航天案例中提到过，不同的CAE应用，对于底层资源的适配要求是不一样的。

对于求解计算：

隐式算法，相对显式算法来说，精度相对高。但可扩展性不是很好，即在多台机器上的线性加速比并不好，适合在多核大内存机器上运行，一般对内存、IO要求比较高。

显式算法，精度相比隐式算法低，但可扩展性更好，即在多台机器上的线性加速比相对较好，适合于多节点并行计算，对机器无特殊要求，一般对内存、IO要求相对较低。

不同CAE业务场景的扩展性排序大抵如下图所示，从上往下逐步提高：

HFSS作为计算电磁学的典型应用，在整个表的最上层，这代表其可扩展性低，适合高配、高IO的单机，性能越高越好。

这是由于两方面原因造成的：

1. 网络通信开销大

2. 内存要求高

关于通信开销，我们在Fluent实证和LS-DYNA实证中都提到过，随着计算节点规模的增加，这两个应用有着很明显的节点之间数据交换造成的通信开销，造成信息延时。

HFSS也是这样，对网络要求极高。随着CPU核心数量的增加，带宽优势超过了核心效率。也就是说，堆机器不如堆网络带宽。

而在内存上的要求，跟算法、精确度十分相关，很大程度上取决于对需求与价格的取舍。

整体来说，HFSS对内存需求极高。根据我们的有限观测，不同任务实际运行的CPU核数与内存比从1:5到1:23，差异巨大。单个任务对内存需求动辄几百G，这类大内存机器放在整个行业都属于稀缺资源。

而结合以上这两种需求场景，网络要求高，内存需求大，单台大内存机器成为不二之选。

我们全新推出的FCC-E专有D区配置水平如下：

四大特点：

1. 专供超大内存裸金属机器；

2. 全新三/四代机器，性价比极高；

3. 三个月起租，短期/长期租赁皆可；

4. 可动态拓展至通用C区。

超大内存裸金属机器，最大4T内存，最高192核，完美满足HFSS应用需求。

单机多核心，带宽不是问题。

内存足够大，无需工程师向精度与算法做妥协。

而且，资源足够，价格感人，还不用长期持有。

详情戳：专有D区震撼上市，高性价比的稀缺大机型谁不爱？

02 要是没有大单机或者一台不够呢？

那就搞集群！

在过去，如果企业不购买成本极其高昂的大机器，工程师就不得不对规模和难度大的设计“拆分组合”处理，将几何结构分割成多个区域，到后期再合并结果。由于没有考虑所有的电磁耦合，这种方法是极容易出错的。

或者，工程师直接简化模型降低精度，以减少计算量。

现在，情况不同了，HFSS在HPC高性能计算技术方面下了不少工夫。

方法一：在算法层面的持续优化与改进，提供针对多核机器优化的数值求解器与算法；

方法二：通过将HFSS与调度器集成，将多台机器组成集群来求解大规模问题，不再受限于单台机器的配置水平，满足网络带宽要求就可以。

这两种方法，工程师都能使用HFSS求解更大、更复杂的模型，而不会影响精度。

我们擅长的是方法二。

对研发工程师来说，使用集群有两大好处：

一、提高了单人使用上限

我们把一台台独立的单机集群化，也就是变成一个统一的计算资源池。在某种意义上来说，集群可以被看作是一台大的计算机，集群中的单个计算机通常叫做节点，由这些节点合作完成用户任务。

当用户把一个集群当一台大计算机使用的时候，单个用户的资源上限由原来一台机器的上限，变成了这个资源池的整体上限。

所以，HFSS对资源的高要求，由原来的一台机器变成由这个资源池来整体满足。

用户可以将HFSS任务调度分布在多个计算节点上执行，也能通过在集群中划分不同的仿真流程任务队列及分配不同的资源队列，并行执行多个CAE设计流程。

说人话就是，一个任务可以拆分多机跑，多个任务可以同时跑，来了大任务也不用担心被一台机器的上限所限制。

二、提高了团队协作水平

单机模式下大家都是各用各的，缺乏协作，也没有统一管理，无形中造成的沟通成本和损耗，其实并不小。

各种不同任务之间可能会出现资源争抢，互相干扰。比如，两个HFSS任务同时在一台机器上跑可能出现内存告警。

而集群模式下：

我们根据不同业务团队分工，为其在集群中划分不同的独立分区，这样既保证了不同组的研发们能在同一个集群中工作，保留各自操作习惯，同时还互不干扰。

比如浙桂半导体的研发分为四个组，像元组的Sentaurus是抢资源大户，往往他们的任务一上线，其他人就没法用了。集群模式下的独立分区可以很好地解决此类问题，戳这篇了解：【案例】95后占半壁江山的浙桂，如何在百家争鸣中快人一步

同时，在建立起一套统一的使用规范基础上，我们支持项目数据、用户数据的统一管理和权限控制，不同业务团队之间可以根据不同用户权限共享计算、存储、软件资源等，整体上提高了整个团队的工作与协同效率。

当然，除了研发工程师，对公司或团队管理者和IT工程师来说，集群的好处就更多了。

这里不再展开，可以参考：从“单打独斗”到“同舟共集”，集群如何成为项目研发、IT和老板的最佳拍档？

03 绝配！

自适应网格剖分&Auto-Scale

一半时间画网格，一半时间等仿真结果。

这恐怕是很多CAE工程师的日常。

HFSS的自适应网络剖分技术，是在几何结构和边界条件网格自动生成的基础上，根据电场梯度进行自适应网格细化和剖分，经过若干次迭代，给出满足精度要求的结果。这一技术减少了求解所需的网格数量，大大降低了电磁场仿真的难度。

HFSS自适应剖分过程：自动生成初始网格，网格加密细化迭代，直到收敛。

整个过程完全自动化，无需人为干预。

这对广大电磁场仿真工程师来说是非常大的利好，在减少工作量的同时降低了软件的使用难度，让工程师们可以将注意力完全放在如何得到好的仿真结果上。

接下来，让我们换一个视角来看这个问题。

HFSS支持将整个自适应网格剖分过程通过调度器进行多步骤提交，我们的调度器Fsched提供的Auto-Scale功能与这个过程简直是绝配。

最佳效果是分为三步：

第一步：初始网格生成，核数与内存需求很低；

第二步：网格自适应剖分，适度的核数与大量内存需求；

第三步：频率扫描，核数与内存需求高。

三个阶段需要的资源量差别很大。

同时，由于这一过程是自动的，很难提前预估内存需求。

对用户来说，如果留的缓冲空间比较大，可能造成资源浪费，留的空间小了，任务可能运行失败。

我们的Auto-Scale功能可以根据HFSS任务在不同步骤的实际需求动态开启云端资源，自动使用较少的资源启动网格生成，而用较大的资源进行第三步频率扫描，并在任务完成后自动关闭。

为每个步骤分配不同的资源量，最大程度匹配任务需求，提升任务成功率，减少资源浪费。

04 GPU

一个可能的选择

从ANSYS HFSS 17.2开始，HFSS开始明确支持GPU加速。

一般来说，GPU可以加速可视化和后处理过程，提高工作效率。

是否选择使用GPU对求解器进行加速，主要还是取决于算法本身是否合适。

最新的ANSYS 2024 R1用户手册显示GPU加速主要在以下三种场景：

1. 频域求解器

2. 时域求解器

3. SBR+求解器

GPU加速需要占用HPCLicense，ANSYS Electronics HPC高性能选项模块同时支持CPU加速和GPU加速，1个HPC Pack可以启用1块GPU加速卡或8个CPU内核。

综合对比硬件成本与运算效率，目前业界普遍认为使用GPU跑HFSS性价比不高。

实证小结

1. 网络通信和内存要求双高，一般来说，用HFSS跑3D电磁仿真首选大内存单机；

2. 没有大内存单机或者一台不够的情况下，通过把HFSS与调度器集成，将多台机器组成集群来求解大规模问题，能帮助用户求解更大、更复杂的模型；

3. 自适应网格剖分技术结合fastone研发平台的Auto-Scale功能可提升任务成功率，减少资源浪费。

- END -

我们有个一站式工业研发平台

CAE/CFD仿真设计全流程覆盖

Auto-Scale自动按需开关所需资源

任务一键提交，仿真结果可视化

自研DM工具，高效传输仿真数据

仿真成本自动统计、分析、优化

来源：速石科技

国产调度器之光——Fsched到底有多能打？

这是一篇推荐我们速石自研调度器——Fsched的文章。看起来在专门写调度器，但又不完全在写。往下看，你就懂了。本篇一共五个章节：一、介绍一下主角——速石自研调度器Fsched二、只要有个调度器，就够了吗？三、全面对比：速石研发平台 VS LSF Suite四、如果你想尝试AI——五、不止半导体领域。。。。介绍一下主角速石自研调度器Fschedfastone Scheduler，简称Fsched，是速石科技所有产品的核心调度组件。Ta是面向HPC集群的操作系统，是HPC集群的“大脑”，用于对HPC集群内的计算资源进行管理、监控，对用户提交的任务进行统一管理、分发和远程执行。Fsched是速石科技基于开源的Slurm版本进化而来的全新产品。01我们的Fsched调度器到底厉害在哪？先看一组我们在半导体领域用户的真实验证数据：5个月时间内：CPU调度峰值达到5万核；提交了超过8000万Jobs；构建超过700台机器组成的大规模集群；使用量约3000万核时。Fsched性能指标吞吐量：1000 jobs/second响应时间：1 ms集群规模：单个Fsched集群能够支持的最大节点数：1000单个Fsched集群能够支持的最大CPU核数：30000总结一下，Fsched调度器优势：1. 完全由速石独立开发，性能卓越；2. 我们能提供代码级技术支持；3. 支持市面上几乎所有EDA工具；4. 服务了100+家不同类型的半导体行业用户；5. 兼容LSF/SGE等调度器，使用体验不变。02代码级技术支持有什么不一样？代码级技术支持的特别之处主要体现在解决问题的路径上。一句话，我们能做很多人做不到的事情。一般问题：我们站在产品视角来解决特殊问题：我们以开发者身份来解决比如一些特殊调度策略的改造与优化，我们是开发者，所以能做。包括各种调度器日志的监控分析，优化调度器的提交方式和脚本等等。DEBUG：深入代码级的技术支持举一个典型例子：当研发提交任务出现异常状态，怎么办？我们首先需要定位与任务相关的日志。日志分为：基础设施层日志、中间件层日志、应用层日志等。IT和研发工程师的关注点不一样：IT工程师一般看基础设施层日志，CAD和研发工程师看中间件层日志和应用层日志。不同角色各看各的，定位问题效率低。我们通过Fsched调度器：1. 把调度任务的异常日志分类，找出是哪一层的问题；2. 任务状态跟踪，通过异常应用找出相应进程和IO信息，方便判断；3. 通过数据分析抓取日志中的关键信息。找到问题，over。03Slurm之上，我们还做了什么？ Slurm是厉害的：全球60%的TOP500超算中心和超大规模集群（包括我国的天河二号等）都采用Slurm作为调度系统。它拥有容错率高、支持异构资源、高度可扩展等优点，适用性相当强。那么，基于Slurm之上，我们还做了些什么？从0到1，帮助用户更快，更简单地用起来1. 产品级IT自动化管理，标准化地调用资源，保证环境一致性，降低用户配置复杂度和出错率，上手更容易；2. 从业务出发，Fsched与底层资源的联动性强，根据任务需求自动伸缩，更符合云上使用方式。从1到10，让用户用得稳定，用得放心1. 对Slurm开源版进行修复与增强。修复Slurm开源版在复杂环境下任务异常崩溃等问题，增加了混合云智能调度能力；2. 基于Wrapper组件，Fsched对上层EDA应用进行了兼容与优化，保证用户使用体验不变；PS：同样是Wrapper，水平也是有高下的。要达到多年战斗在一线的专业高级口译的经验和水平，只能说：有难度。3. 根据最佳实践经验总结的流程与规则，能优化EDA Workflow，提高调度器使用效率；4. 代码级支持能力让用户无后顾之忧。只要有个调度器就够了吗？答案自然是否定的。为什么？或许，我们可以换个角度来回答这个问题。就像汽车出现之前，用户的期望永远是——1匹更快的马一样。在当下芯片设计研发领域，我们如果把调度器类比马，那么汽车是什么呢？我们给大家简单描绘一下：一个站在整个芯片设计研发体系和架构视角来满足EDA行业用户性能、功能、体验的产品。1. Ta是完整的一体化产品，功能紧密耦合，且经过层层实战考验；2. Ta解决的是完整生命周期的芯片设计业务问题，调度器只是其中一个模块；3. Ta具有对企业未来发展的弹性，能扩展至不同规模和更多业务路线，比如AI。而这，正是我们与其他很多产品最大的区别之一。我们的产品在设计之初就是面向EDA应用，服务芯片设计研发业务场景的。这也决定了我们解决问题的出发点永远是：是否满足研发业务需求，然后从上至下地解决问题。首先，我们提供的是一整套上中下层联动的芯片设计研发环境：1. 连接上层EDA应用，对应用本身的运行提供支持和优化；2. 连接底层资源，给用户提供更灵活，更高效使用资源的能力；3. 结合EDA应用和底层资源的联动和适配，给出最佳实践经验。第二，我们的功能都是面向实际业务场景设计和提供的：1. License调度优化，可帮助企业用户最大化提升License利用率，更好地规划License购买策略，控制整体使用成本；2. 我们能多维度监控任务状态，提供基于EDA任务层的监控、告警、数据统计分析功能与服务，让团队管理者监控各个重要指标变化，从全局角度掌握项目的整体任务及资源情况，为未来项目合理规划、集群生命周期管理、成本优化提供支持；3. 日常数据统计与运营分析管理，实现问题可追溯，可追踪，降低成本，提升整体项目管理效率。第三，我们的交互方式不改变EDA用户使用习惯。原来怎么用，现在还怎么用。速石研发平台VSLSFSuite半导体行业用户最熟悉的调度器是LSF，就不多介绍了。不过，它背后的LSF Suite大家就不一定熟悉了。来来，我们盘一下，我们速石研发平台跟LSF Suite的区别是什么？01根本区别：设计理念不一样我们是站在整个芯片设计研发体系和架构视角来设计的一体化产品，解决的是完整生命周期的芯片设计业务问题，功能紧密耦合，且经过层层实战考验。而Fsched调度器只是其中一个模块，不单独售卖，在我们的全线企业级产品均属内置，且与产品其他功能深度绑定。这正是我们上一节提到的面向EDA业务的产品定位决定的。而LSF Suite里的核心调度器LSF与其他组件是不关联的，属于可选项。这也导致了用户大多只接触过LSF，而对它的其他组件没有什么概念。而且，因为各种功能组件之间独立存在的，用户使用的时候需要根据自己业务需要进行二次开发组装，从零开始进行功能模块需求评估、采购、对接、开发和测试验证兼容性，才能搭建出一个完整的研发环境，时间周期也会比较长。另外还有期间的运维、后续的更新升级和功能扩展等事项。02性价比：速石研发平台TCO更低下图是我们研发平台与LSF Suite的横向对比图，可以清楚地看到，两者的收费模式差别很大。我们Fsched调度器是包含在平台费用里的，相关组件也都是随产品一起内置的，不单独收费。而LSF Suite除了核心调度器按使用核数收费以外，所有功能组件都需要额外收费。从总拥有成本来看，对用户来说，速石研发平台付出的成本更低，获得的东西更多。还有很多隐性成本没有列在表格里，比如对接调试时间成本，人工成本，售后支持成本等等。总结一下，我们跟LSF Suite的五大主要区别：1. 核心调度器Fsched完全国产自研，有代码级支持能力； 2. 我们的产品设计初衷就是提供面向EDA业务的一整套研发环境，可扩展性强； 3. 各功能模块紧密耦合，不单独收费，整体性价比高； 4. 我们的CAD能力与经验，能有效提高上中下层整体联动效率； 5. 我们兼容LSF/SGE等调度器，使用体验不变。如果你想尝试AI——目前，AI在芯片设计领域的应用主要有两条路线：路线一：AI+EDA工具Synopsys、Cadence与Siemens等公司纷纷在其最新工具中使用了AI技术，覆盖先进数字与模拟芯片的设计、验证、测试和制造环节，让开发者在芯片开发的每一个阶段都可以采用借助AI的自主学习能力，提供芯片设计生产力。当然，越来越多EDA工具也支持借助GPU进行运算加速。路线二：AI算法模型训练Google研究人员使用10,000个芯片布局图来训练他们的深度学习模型——PRIME，人工智能生成的芯片的设计时间不到六个小时。而NVIDIA设计了另一种用于芯片设计的深度学习方法——PrefixRL模型，NVIDIA使用其RL工具设计的电路比人类使用当今EDA工具设计的电路小25%，但性能相似。路线一需要支持全流程EDA工具的一整套研发环境，以及构建异构资源（CPU+GPU、本地+云上）的调度及管理平台的能力。路线二需要的支持企业从ML/LLM模型构建、大规模训练到最终部署需求的MLOps模块。我们都有。另外，我们刚刚发布的一款行业知识库聊天应用Megrez，面向企业客户提供大语言模型的私有化部署能力，允许用户自定义行业知识库，实现领域知识的问答。Megrez基于芯片设计领域提供的支持不止半导体领域。。。。在半导体以外的其他行业，如生命科学、汽车/智能制造，我们也表现不错。 - END -来源：速石科技