异构GPU 调度难题?用这款软件搞定
现状与挑战:异构GPU 加速的管理问题
高效解决方案:资源调度软件的三大核心功能
助力用户:资源利用率和效率双提升
联系我们:让电磁仿真更高效
在电磁仿真计算领域,借助 CST 软件的 GPU 加速技术和资源调度方案,许多用户已经显著缩短仿真工期,加快科研和产品迭代速度。随着一些用户深入的使用中,面对以下硬件平台管理的挑战,你是否也深有感触?
·硬件复杂,资源利用率低:GPU 硬件设备多种类型,以及当前国产GPU逐渐投入使用,计算设备分配方式繁琐,难以做到按需使用。
·多平台兼容性差:一些用户会同时运行 Linux 和 Windows 系统,人工分配费时费力。
·任务调度不灵活:设备经常按项目组进行分配,资源利用率步均衡,有的项目组高峰期任务排队时间长,同时有的项目组可能负载较低,资源分配效率低。
如何借助云计算的理念,集中管理异构硬件平台并提升资源利用效率,已成为众多电磁仿真用户关注的重点。参考科学研究和工业制造仿真等领域计算资源的使用方式,采用集中管理调度软件是当前主流的技术方案,将异构软硬件平台集中为一个物理资源池,像云平台一样按需响应计算需求。通过调度软件可以支撑国外或国产各类GPU硬件和不同操作系统平滑扩展,以及有效的分配和使用。
调度软件给用户和异构计算资源之间提供了一个平台,通过调度软件的Web页面进行仿真计算和任务管理,可以实现下面三个方面的主要功能。
CPU/GPU 资源整合为单一物理资源池,统一调度分配,可以7*24 小时不间断运行。
·用户通过Web界面提交DC或非DC以及mpi任务,由资源调度软件根据申请者的权限自动分配硬件和启动运行;在资源全部占用情况下进行作业排队;不管是深夜还是节假日,一旦有资源释放就会自动触发排队作业运行,实现计算资源的7*24小时连续使用。
用户提交 DC 多机任务时,调度软件会为该任务动态启动专属 DC Server,从而避免多任务共用同一 DC Server 时的排队等待问题。通过动态 DC 方式,可平均减少 10%-20% 的计算时间。
模式 | 调度软件动态DC | 单台固定DC模式 |
任务排队时间 | 几乎无 | pending时间长 |
计算效率 | 提升10-20% | 数据预处理和回传时间较长 |
资源分配灵活性 | 高 | 低 |
·对于非 DC 的中小任务,调度软件可根据用户需求分配 GPU 数量或指定 GPU ID,并以独占模式运行任务,相较非独占模式可提升约 5% 的运行效率。
自动管理异构资源池以及设置优先级,有效提高资源利用率。
·集中管理与分配异构资源池,计算任务可按类别自动分配至不同类型的 GPU 或操作系统平台;或者按提前设置的异构硬件优先级提交,如按资源池一、资源池二、资源池三依次判断资源情况进行分配;也可以由计算用户在网页手动选择资源池提交。
·用户可以通过调度软件实时查询计算进度和当前系统资源状态,方便用户参考提出服务请求。
·用户提交的作业可以设置优先级,也可以调整自己提交的作业排队顺序。
用户与数据的集中管理,提高使用效率。
·调度软件可以按项目组管理用户,为用户设置使用GPU数量权限;在用户权限内提交任务,自动的排队或运行,无需人工介入;用户也可以超出权限提交,超权限的任务会一直排队,当用户有权限释放后才可以运行。
·调度软件会为用户设置数据目录规则,计算数据自动归档到用户目录,便于数据的集中管理和今后的共享。
·调度软件还可以针对资源利用率提供统计和报表,为以后扩容提供数据支撑。
借助 HPC主流调度软件,你可以:
·更快完成仿真任务:通过高效 GPU管理和任务调度,减少 20% 计算时间。
·最大化资源利用率:实现 GPU 的满负荷运行,避免资源闲置浪费。
·提升管理便捷性:所有任务和数据集中管理,再也不需要手动操作。
还在为 GPU 调度效率低而烦恼?让我们来帮你解决!
凌云仿真信息技术有限公司,已经为上百家科研机构与企业提供定制化 HPC与电磁仿真解决方案,为用户提供linux/windows异构平台调度以及多机运行优化服务。如有相关需求立即联系我们, support@espbs.cn