研发/IT工程师双视角测评8大仿真平台,结果……
上一篇 ,我们围绕着亿万研发工程师的梦想,考察了市面上几乎所有类型的工业仿真平台,深度评测了他们本质究竟是什么,适用场景有哪些,分别能给研发和IT工程师们减轻多少工作量。据此,我们搭建了一个工业仿真平台【心累指数】金字塔模型。不同厨房/餐厅设定对应着同一层级不同“仿真平台”的本质属性,详细展开可以戳上面的链接。总之,从金字塔底层到塔尖,不论是对研发还是IT工程师,都是站得越高,用得越爽。在 上篇 里,我们从基础定义与适用场景出发,讨论了8种平台/方案的产品模式、兼容性、支持的CAE仿真软件、底层资源量与类型、计费模式等信息。今天,我们将更进一步,从研发和IT工程师的双视角用户体验出发,一起看看这8种平台/方案究竟是如何提升研发效率、降低IT工作量的?自己买机器,研发+IT需要联合搞定包括但不限于软件、系统、硬件行情、机房选址、网络配置、IT运维、数据安全、集群调度……等事情。自家IT的能力越强,研发就相对轻松,反之就更心累。特别是超算中心大多使用Linux系统,要求研发掌握一定的Linux常识才能上手。云厂商同样需要研发点亮部分IT技能。但是云厂商可同时提供Windows和Linux的若干版本供用户选择,只不过带Windows系统的云资源普遍要比带Linux系统的贵。这一层属于第三方平台,用户没有接触底层资源的权限,自然也不需要有太多IT技能。但这也代表着,很多东西是不能轻易改动的。如果遇到使用上的问题,一般需要呼唤第三方平台的人来协助。自家IT可能帮不了太多。针对研发与IT之间的交叉领域,我们的一整套端到端的仿真研发环境将很多IT工作自动化操作,大大减少了交叉领域的工作难度和工作量。另外,还有fastone的R&D-IT团队还可以提供全方位的服务支持。fastone在支持Windows的同时,也可支持用户在Linux系统中使用图形化界面操作仿真任务,你只需熟悉一下Linux的常用操作与工具(如浏览器、文本编辑器),即可在很短的时间内上手,操作习惯几乎无需改变。买机器,系统环境都需要自己部署,更别提软件功能了,一切都要靠自己。你可在软件平台中直接点击进入相关步骤,完成前后处理和计算求解。超算云做了类似电脑桌面的界面,所有服务(包括SSH、上传下载,应用等)都可以在图形界面上操作。fastone针对不同的用户,提供多种任务提交方式以供选择。图形界面模式:可通过Web浏览器启动集群,跳转到虚拟桌面,并可在该桌面直接操作应用进行相应设置以开启云端仿真任务。任务模式:用户可以通过Web浏览器选择新建任务、选择应用、上传文件、输入参数、配置资源等一系列向导式路径提交任务。集群模式:对于高级用户,比如本身对应用工作流的理解和编程能力超强,可以不用走普通用户通过应用向导式提交的路径,可以直接根据自己写的脚本,通过Web浏览器选择新建集群,然后按需动态地在云端创建HPC集群。买机器响应时间最长,采购、运输、调试、部署环境、安装软件一套流程走下来,黄花菜都凉了。云厂商可以较快地拿到资源,但配置环境、安装软件也需要时间。除了超算云依然面临排队问题,在资源需求量不大的情况下,其他三个平台理论上均能较快地拿到资源并开始计算。尤其是当这个紧急项目需要非常多的算力时,fastone云平台的全球数据中心能持续稳定地提供用户所需资源类型及数量,分钟级调度开启上万核计算资源,满足业务紧迫度。不需要你一台台地开机器,鼠标简单点几下就能自动开关机;自动检查任务状态,出现错误可以及时重复提交并通知你;甚至对于某些因资源类型报错的任务,还能自动定位并调度其他类型的资源来跑任务……fastone云平台可提供包括自动化部署、自定义工作流、自动检查任务状态与重复提交、自动定位任务并调度其他类型资源重算等IT自动化能力与Auto-Scale自动伸缩等功能,可快速全面地提升仿真研发效率。比如我们的Auto-Scale功能可以自动监控用户提交的任务数量和资源的需求,动态按需地开启所需算力资源。在资源不够的时候,还能根据不同的用户策略,自动化调度本区域及其他区域的目标类型或相似类型实例资源。3.6、当有多个仿真任务时,是否支持开多台机器同时跑任务?多个任务同时在数台机器上跑,这个我们称之为并行计算,一般都需要有调度器的参与。
这么多机器,这么多任务,怎么顺利一一配置、启动、关闭,提高整体资源利用率,最好还能自动化管理等等,难度就陡然提升了。
对研发来说,能否支持大规模并行计算,是提升研发效率的关键。
底层:
买机器需要自己搞定一切。
超算中心和云厂商则是为你提供了一个基础架构,只要应用支持,你就可以进行并行计算。
中层:
同样在应用支持的前提下,金字塔中层可以让用户较为方便地进行并行计算。
不过这一层平台提供的只是基础环境,用户能否用好取决于其自身技术能力。
塔尖:
我们自主研发的云原生国产化调度器Fsched,可分钟级自动化调度上万核计算资源,帮助用户应对突发算力需求场景。更重要的是,fastone能够结合业务特点以及应用特性,利用计算机技术提升不同业务场景的计算效率。
3.7、能否提供任务监控及相应的告警、优化分析功能?研发工程师关心的主要是自己的任务情况。
我们能多维度监控任务状态,提供基于任务层的监控、告警、数据统计分析功能与服务。买机器如果是在本地进行数据传输,取决于本地网络配置。如果是多地传输,就看你买多大的带宽了。超算中心对外的网络带宽十分有限,且被很多并发用户共享,数据传输是个大问题,人肉送硬盘有时甚至是最好的解决方案。云厂商对结果数据支持直接读取,云上存储,按需下载。但怎么用,能不能用好,还是取决于用户自己。其他三者的传输效率视自身机房条件/资源提供方而定。你只需要把数据上传到的DM(DataManager)工具上,就可以直接使用数据来跑任务。与市面上开源的数据传输工具相比,DM使用方便、功能全面,利用fastone自主研发的分段上传、高并发、断点续传等数据传输技术,可大幅优化海量数据的传输效率。自己买机器需要强大的IT团队,搞定机房、硬件、环境、软件……等一系列事项。超算中心与云厂商的情况比较类似,除了机器在别人机房你摸不着,IT需要协助研发搞定在使用过程中遇到的其他任何问题……这一层,自家IT在熟读第三方平台操作说明之后可以帮上一定的忙。借助多个自动化功能与管理系统,IT只需简单熟悉操作之后便可快速上手平台。而R&D-IT服务的存在也让IT与研发之间的沟通更加顺畅。1)是否可以方便地自动化运维?这里面涉及到包括开关机、软件安装配置、资源监控、集群管理等IT基础工作的自动化程度;2)是否可以方便地分配业务?比如临时需要将一批机器从团队A划拨给团队B使用,是否能够支持IT快速方便地进行配置?而能否做到第二点,事实上是由第一点决定的。也就是说,自动化运维的程度越高,越能够快速方便地分配业务。对IT来说,也就意味着更便于管理。买机器需要IT自己搞定所有的运维工作,机器越多越麻烦。云厂商会提供诸如资源监控、集群管理模块等功能,具体使用程度取决于用户本身。金字塔中层基本都具备一定的自动化运维能力,如资源监控、权限分配等,但同时也存在着一定程度的功能缺失 ,比如需要IT自行搞定支持列表之外的软件、除云厂商的仿真平台之外均缺失集群管理模块等等。fastone云平台拥有完整的全维度自动化 运维能力,机器再多都能轻松管理,快速分配业务。比如大家都熟悉的集群管理,在云端手动管理集群和自动化部署的工作量区别一目了然:支持管理员角色对每一个用户进行相关权限设定,包括预算使用上限和CPU核数使用上限。
4.5、有没有资源监控及相应的告警、优化分析功能?超算中心的监控功能仅存在于全局统计,无法拆开,其他层面的监控功能缺失。云厂商会提供类似CloudWatch的基础监控功能,对云资源的监控十分细致,但配置相对复杂。云厂商的Cloud Watch在金字塔底层说过了,就不再重复了。有的软件平台支持定制监控管理工具,可实时监控任务状态以及CPU/内存等资源的使用情况;也有的做了中央管理仪表板可视化功能,帮助你方便快捷地监控数据。不同角色的用户可根据自身需求,查看所需的资源监控信息。如研发可查看单个任务的资源使用情况,IT则可通过监控功能掌握平台整体的资源消耗水平。团队管理者可以监控各个重要指标,从全局角度掌握项目的整体任务及资源情况,为未来项目规划、集群生命周期管理、成本优化提供支持。买机器的都是纯本地资源,需要自己搭建防火墙等安全措施,还得注意机房安全。而且机器在自己上手看似能完全掌控计算资源,其实麻烦更多,软件、硬件、机房、网络、人员……任何环节出了问题都可能影响你的仿真进程。超算中心的底层是非隔离的,你能看到其他用户的任务信息,这是一个比较致命的问题。更致命的一点是,而超算由于要优先服务国家级科研项目,在某些情况下,即便已经分配到的超算资源,也有可能会被无条件收回。
想象一下,有一天,你吃着火锅唱着歌,跑着仿真等结果,突然就被收回了资源……任务就凉了。
云厂商的是独占资源,可以理解为在海量云资源中划出一块专属区域供用户使用,别人无法触及。2)可根据用户的习惯和应用的特性自由选择操作系统,没有任何限制;我们提供完整的云安全策略模型,可对整个安全生命周期进行管理。我们用更完善更具体的产品安全架构,全面保障客户业务系统安全,包括身份认证、操作日志、MFA、数据隔离、数据加密、数据审批、日志审计、安全规范、安全组织、风险预警等。