首页/文章/ 详情

今日上新——FCP

5月前浏览6133
本文摘要:(由ai生成)

这篇文档主要介绍了速石的 FCP 产品,这是一款面向企业的一站式软件平台,旨在解决本地研发环境中的问题。FCP 可以快速构建本地研发环境,高效管理用户资源,支持企业向混合云架构演进。文章还介绍了 FCP 的典型适用场景、与 FCC-E 的关系及不同版本的区别,并通过具体案例展示了其实际应用效果。此外,速石科技提供 CSM 专业服务,为客户提供全天候专业服务与客户保障。

今年2月,我们FCC-E产品全新上线了D区专门满足用户对
高性价比的稀缺大机型需求

产品研发组的小伙伴们根本停不下来~

才几个月,我们又又上新了!
今天的新品是FCP(fastone Compute Platform),我们的一站式企业级软件平台主要面向的是已经有本地研发环境,但依然为一些问题而头疼的用户——
  • 本地资源利用率为什么这么低??

  • 设计仿真业务卡顿,怎么搞?加机器?扩存储?集群化?

  • 如何搭建一个研发集群LSF、Slurm、OpenLava、SGE没有经验?

  • EDA/CAE等工具无法使用?仿真Case异常退出?验证出现中断?

  • 项目高峰期或冲刺期,怎么确保业务稳定可靠,不掉链子?

  • 有成熟稳定大规模实践的国产自主可控研发平台吗?

  • 上市成熟企业如何中长期规划研发平台的演进持续性降本增效


01

先说FCP有啥用

四大典型适用场景

FCP是面向创新驱动型用户的一站式企业级软件平台,能够快速构建企业本地研发环境,高效管理用户资源。FCP充分支持企业向混合云架构演进统一管理多本地及多云的复杂研发环境,提升研发效率并降低总体拥有成本

emmmmm,官方说明有点过于官方了。

没事,接下来我们来具体看看,对企业来说,FCP的四个典型适用场景:

场景一:黑箱变白箱,提升资源利用率  

用户将本地机器当单机使用,各干各的,也不加限制与管理,先到先得。一旦有人着急使用的时候要么机器拉满,内存爆掉,任务失败,要么排长队。本地资源使用情况,形同黑箱。
FCP搭载了速石调度器Fsched把散乱的单机资源汇成集群支持灵活的调度策略实现集群全生命周期管理,避免资源碎片化和资源抢夺问题,统一管理,资源共享,提升利用率。
配合可视化监控,资源使用状况了如指掌,安排得明明白白。如果任务运行触发了预设的告警指标,负责人会实时收到提醒,及时处理任务异常。

场景二:可视化界面+自动化运维,赢麻了

企业业务场景需求多样,比如突发大算力需求、混合云模式、外包团队管理、全球多地协同研发等等,整个IT基础架构通常比较复杂
而工业软件体系庞大,使用和维护都有一定的门槛,如工具版本管理、任务flow优化等既要基础IT能力,又要有业务认知
企业内部有多个部门的,还要考虑审批流程与内部权限划分,保障自己的数字资产安全。
FCP实现了上述需求的产品化,只要在后台 完成设置,不需要手动一一操作,可视化界面+自动化运维,赢麻了。


场景三:应用与资源双管齐下,研发战斗力加成100%  

本地研发环境的集群模式能提高单人资源使用上限,而当本地资源不够用的时候,FCP还能开启混合云模式,自动调度云资源充分满足业务需求。

但是研发效率的症结可不止在资源层面——

FCP提供基于任务、资源或团队层面的灵活调度策略配置,最优化使用资源满足不同企业不同发展阶段的业务目标。对应用本身运行提供支持和优化结合应用和底层资源的联动和适配,给出最佳实践

不同业务团队之间可以根据不同用户权限共享计算资源、存储资源、软件资源等,提高了整个团队的工作与协同效率。

场景四:业务目标稳定达成,中间不掉链子

资源利用率,运维效率,研发效率,统统上来了,最后一个要保证的,就是业务稳定性与可持续性了,尤其是项目高峰期或冲刺期。像我们在普冉案例里算的,停一天就是几百万,这谁扛得住?

我们FCP产品能支持整个研发全流程,同时,高可用的混合云架构保障平台自身稳定。我们能统一管理多本地及多云的复杂研发环境,且能随时拓展到云上支持业务的扩展性和连续性业务数据运营分析为运营优化与决策提供数据支撑专业的CSM服务能覆盖用户全生命周期,提供全天候专业服务与客户保障,确保用户业务目标的达成

更长期来看,国产合规这个问题,不少企业已经开始早作打算了。


02    

速石两大产品线:

FCP与FCC-E,啥关系?

我们的两大产品线FCC-E和FCP有什么关系呢?

用户应该怎么选?两者之间有冲突吗?

如果企业想轻资产快速起步,对未来发展不确定,对产品弹性要求高,我们首推FCC-E即开即用的研发云平台,遍布全球的资源中心,满足全球化业务协同发展,能为企业提供一条研发的捷径  
如果企业需要部署或者优化本地研发环境,FCP可以说是不二之选:本地标准化集群部署,灵活的调度策略,可视化的监控与实时告警,IT运维自动化,能最大化本地资源的投入产出比  

发展到一定阶段后,有本地环境的企业,业务逐渐增多,波峰波谷明显,可能涉及外包团队管理,数据备份或容灾,或者多地研发中心协同。这时候,就需要混合云架构了。

本地+云端,这就是混合云了?  
nonono ~~  
 
由于FCP与FCC-E在底层架构的一致性,FCP能够随时向混合云架构演进,把本地的管理能力拓展到云端,并且实现算力、网络、存储、许可证和数据等关键资源的统一管理,保障资源调度、系统监控和性能分析的一致性和高效性  

之前怎么用,之后还是怎么用。


03

选择适合你的FCP版本:

Core核心版 vs Suite旗舰版

为了让FCP更贴合用户的实际需求,我们推出了两种不同的版本——FCP Core核心版FCP Suite旗舰版
下图中心区域即FCP Core核心版,中心和周边共同构成FCP Suite旗舰版。
  二者相同点  
  • 帮助企业提升研发效率,保障业务的连续性与扩展性;
  • 自动化构建标准本地环境,榨干本地算力,让运维更简单;
  • 提供可视化的资源监控告警,信息透明,便于决策支持。

  二者的区别  

  • Core提供的是核心功能模块,构建环境、集群管理、自动化运维这些都包括在内,因此更适合需要快速搭建本地环境的小微企业
  • Suite涵盖Core的全部功能,并在这个基础上增加了六大高级能力加持更适合用于大中型企业的复杂研发环境管理
  • FCP目前只有Suite支持将工作负载溢出至云端,也只有Suite能满足深度定制化需求。
 
总的来说,Core是产品的地基,而Suite就是建立在这个基础上更全面、更符合企业级业务需求的产品  


04

FCP的落地实践

举4个栗子叭

单机变集群,研发效率提升50% 

我们有一家做模拟芯片设计的用户,他们的研发工程师们都没有接触过集群,平时本地服务器就是当单机用,各干各的,没有明确的资源限制和任务管理机制
这就导致任务高峰期机器经常满载,内存爆掉也很常见,办公室里经常响起绝望的嘶吼。
OK,安排。

转成集群模式后,对研发工程师来说,一个任务可以拆分多机跑,多个任务可以同时跑,来了大任务也不用担心被一台机器的上限所限制

而原本碎片化的资源在统一汇入资源池后,IT负责人可以直接在可视化界面上做集群管理,根据各组的情况调度分配资源,从根本解决资源碎片化和资源抢夺等问题。

从单机模式到集群模式,最直接的效果是:计算效率提升30%-50%


FCP产品替代开源调度器,CAD精力节约40%+

普冉半导体在与我们合作前,是用SGE搭建集群的,但版本和新版操作系统、EDA工具软件兼容不佳,在满足一些更高阶功能的情况下受到一定限制
为了保障公司整体业务的稳定性,同时最小化软件环境对研发进度的影响,普冉选择让FCP逐渐覆盖原有的研发环境,最终完全替代,以此提高自身的研发效率和体验。同时,研发人员无须改变操作习惯
我们提供了调度策略+任务&资源监控+实时告警三步走功能。

在调度策略上,普冉能按照任务优先级、资源空闲状况、许可证使用等维度安排任务进程,也能实现不同团队间的资源分配,随时设置,随时修改。

在监控层面,我们提供基于EDA任务层的监控、告警、数据统计分析功能与服务,管理者能监控重要指标变化,从全局角度掌握项目的整体任务及资源情况。
在实时告警上,普冉能自己设置关键指标,一旦触发告警,就通过邮件、微 信、飞书等方式告知相关人员,提醒处理。
FCP作为标准化产品,IT自动化程度高,能帮CAD和IT把很多手动的工作自动化省去大量繁琐的手动部署和对接调试工作。
在和普冉之前的研发表现做了量化对比后,我们帮助普冉提升了30%的整体研发效率,在上线初期就为CAD节省了40%的时间

更多详细内容可戳:【案例】普冉半导体逐步布局自主可控,渐次提升研发效率


海内外多site研发协同与统一管理 

我们有一家全球化的IC Design用户,在上海、美国、印度等地都有研发团队,每个团队都是独立的,但又存在业务上的交叉,还有云上云下多个不同研发环境。

这种跨国多地研发中心的协同与统一管理,算是最复杂的那种了。

用户统一使用了我们的产品,这对保障不同site间基础架构与用户体验的一致性起到了关键作用,可以减少大量的重复建设和协同过程中的沟通成本,显著提高了整体的工作效率。
在多地研发协同上——
FCP的标准化确保了各site间的环境一致性,可以减少大量的重复建设和协同过程中的沟通成本。全球的项目数据能按照需求手动或自动同步,各site间互为备份。还有应用的多版本管理,网络优化加速这种工作我们也顺手解决了。
在FCP的支持下,不管是环境、网络、数据还是工具,都得到了一致性的保障
在全球统一管理上——

FCP能实现全球范围的统一身份认证,给不同的用户分别设定角色与访问权限,对项目的数据和计算资源等做统一的管理和隔离,提高运营效率与整体信息安全水平。

IT自动化和平台级的统一管理也释放了IT与CAD的精力,各site间无需重复配置同一职能,有效帮助团队节省了人力成本。

混合云架构,无需动辄六位数投入 

在和一家数模混合芯片设计企业的交流过程中,对方表示自己的团队扩张速度很快,业务量大且没有规律,突发算力需求和多项目并行是常事了

之前虽然超额配置了一批服务器,现在也不够用了,考虑到自身需要一定的现金流储备,而且机器买多了也没有地方放,因此不想继续投入大量资金采购

在详细分析了用户的业务数据后,我们整理出了三个重点:
  1. 精细化运营,给一些需要大内存的任务单独分区,避免内部的资源抢夺,进一步提升效率;

  2. 尽可能使用本地资源,如果有突发算力需求,或者到了业务高峰期,能使用云端弹性资源补足;

  3. 本地和云端统一管理,降低IT压力。

FCP的混合云架构,自带的Auto-Scale弹性伸缩功能,可以按照任务需求,动态开启和关闭云端资源,在资源灵活性和快速响应能力这一块拿捏得死死的。

我们提升了用户的资源利用率,混合云架构也完美解决了项目并行带来的短期算力缺口,无需动辄六位数的投入,需要多少用多少。


05

1000家企业

1000个CSM

1000家企业,可能有1000种不同需求。

大部分都可以用标准FCP产品来满足的。

但总有一些非标需求,需要深入企业自身的业务场景与使用现状,会涉及到一些定制化服务、专业分析评估、专家技术支持与行业经验的提炼输出

当然,很多问题,用户自己也能在实践中慢慢摸索,这个得失权衡,取决于用户自己,可能是时间,可能是金钱,或其他。

我们的CSM(Customer Success Manager)服务提供面向企业用户的全天候专业服务与客户保障,覆盖用户全生命周期使用场景。

CSM专业服务——单核时成本下降73% 

蓝箭航天,我国民营商业航天的“破局者”,主打一个自主研发发展速度非常快,使用速石研发平台的用户数从0到数百人,稳定增长,资源用量也随着业务周期长期稳定上升。
CSM服务效果:
  1. 提升用户研发效率,保障整体业务稳定性;
  2. 整个研发平台使用期间,单核时成本下降达73%。

我们大致把整个业务分为三个阶段

阶段一:在业务的磨合阶段,平台刚刚上线,用户的使用习惯比较粗放

CSM在调研和摸底后,结合实际业务和操作,向团队输出更精细的资源使用建议,并对CAE应用做了深度支持,建立基础监控告警策略

阶段二:在中期优化阶段,GPU的使用量逐步增多,成本提升,不合理的资源使用带来的成本浪费也被放大

CSM通过监控数据发现这点后,指导了合理的资源选型和业务分配,让资源利用更加合理、高效。同时增设了核时波动告警、实例空闲告警,持续进行成本优化

阶段三:持续优化的平稳期,蓝箭的业务稳定性和单核时成本均迈入了稳定向好的态势。

CSM持续提供主动巡检、定期数据分析、使用技巧赋能、安全加固规划、产品需求追踪落地等服务支撑,深耕细化,持续提升用户体验。


 END -


来源:速石科技
HFSSComsol电路半导体航天电子芯片上云FAST
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-05-24
最近编辑:5月前
速石科技
为应用定义的云
获赞 36粉丝 2文章 16课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈