文字版全文:
做AI大模型的硬件算力基础架构时间也不短了。(掉了不少头发)。
把Deepseek三篇近期的论文(V3,R1的report以及DeepSeek LLM Scaling Open-Source Language Models with Longtermism)拜读了一番。
从我的角度说说Deepseek对AI算力硬件架构以及硬件工程师就业机会的想法吧。
讲三点,专业术语较多,可以挑重点看,或者仅供一乐。本文不做为投资建议,一定程度上可作为择业参考。
用过Deepseek的人都经常看到的一句话:”服务器繁忙,请稍后再试”。起码Deepseek看起来得再多买点设备了。
在推理端,各个国产GPU/中小公司/已有的数据中心也能相对容易得部署起deepseek,也算是火了一把,枯木逢春。这方面会进一步推动应用落地和生态完善,可以理解为蛋糕更大,感兴趣的也可以去查一下Jevons悖论。
结论:AI硬件相关的行业还是可以无脑进,服务器,头部互联网厂商,国产GPU, 核心交换机,各类高速互联协议的中继扩展芯片、数据中心电源、高速线缆SI,光模块的机会待遇都是增长趋势。
(这个问题对于绝大多数朋友圈的硬件同仁,可能技术方案描写本身没多大意义,路飞这里讨论是想来点鸡汤)
还有没有必要在硬件基础设备路线上跟进英伟达吊炸天极致算力的NVL72以及下一代方案?从Deepseek的论文可以看出,其从算法工程技术层面做了FP8 精度训练,模型蒸馏,稀疏MoE,MLA等漂亮的优化,同时也对AI基础设计的硬件架构,GPU/AISC的设计给出来了建议,期待IB和NVLINK大一统,更好的提升MoE的效率。目前大模型的趋势从以前的堆算力,到算力-算法-架构协同。一味的堆scale up算力还有没有价值?
半导体遵循摩尔定律这个是大家的共识,其实生成式AI也有类似的规律,是沿着Scaling Law演进,这种规律的延续不是无形自动发生的,而是有人一直在突破。
引用梁文锋的一段话:“我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。”
针对第二点,我的个人看法如下:
短期局势不明朗情况下国家大基金以及头部设备/AI芯片厂商应布局更大domain的GPU Scale up方案。跟着NVIDIA去走,同时布局国产供应链生态,逐步建立自己的优势,是一个不容易掉队的稳妥方案,从技术角度,Deepseek也是基于MoE模型,多个专家对多个专家时,现有架构Scale up和Scale out域的数据转发通信仍会低效,无脑的给大量的“专家们”开好路搭好桥,让他们能心无旁骛流畅的干好他们的工作,粗暴但有效,(这里的专家不是人,具体可以了解下MoE概念)。
对于客户端来看,是否豪赌,小赌,还是不赌,确实要打一个大大的问号???这个蹲一个后续。
(也许是对关注我的硬件同仁们最有用的一点)
出于兴趣,在年前把端侧AI硬件的研报做了总结和技术洞察。
25年必然迎来AI端侧应用大爆发,如智能硬件耳机,眼镜,机器人,智能学习设备/智能家居/常规的手机/电脑等。
稍微复杂的架构如瑞芯微,全志等SOC的解决方案,简单的如乐鑫ESP32连上WIFI,对接上豆包接口,加上语音输入输出就是很智能交互设备,尽情发挥想象。感兴趣的可以去搜相关研报。也许会有很多新的机会。
以上,谢谢!