华为硬件工程师:做了10多年研发后才真正懂得师父的话
前言
十年硬件时光,如白驹过隙,记忆中那个青涩而倔强的少年迎着风雨一路走来,眼角多了几丝皱纹,双鬓添了几丝华发,胸中唯有“坚持”二字,致敬无悔青春。
师父的一句话让我震惊很久
25岁那年,大学毕业的我加入了一家华为合资的公司。五一后的第一个星期一,我来公司报到,领导安排一位资深的单板工程师做我师父。师父没跟我讲具体的业务,只是淡淡地说了一句话:“做单板工程师,特别是我们搞硬件的,要学习的东西很多,要经得起失败,耐得住寂寞,一步一步走扎实。”年轻气盛的我,除了口头“嗯嗯”地应付着,心里却不服气:我的字典里就没有“失败”这个词。一周后,我接到了第一项工作,将一块已经完成的单板做一次改板,原因是这块单板的时钟方案有问题。这么快就有活干了?第一次就是做一块自己的单板?我高兴坏了,但接下来开始犯难,凭借我在学校做过的那点单板,以及对时钟的了解,根本不知道时钟会出啥问题。没办法,拼命学呗。我感觉浑身有使不完的劲儿,除了自学,遇到不懂的就不断请教,很快就弄清楚了时钟抖动、锁相环、精度、频偏等基础名词,找出了问题的根因。之后,我做的单板上电调通,一次归档。很快,第二件事情来了——为一家运营商定制全系列交换机产品。这是一个非常巨大的定制BOM(物料清单)方案,涉及整机的近50种形态,上百种BOM清单。我的内心有点崩溃,但也没什么好办法,扎扎实实学呗。每个BOM清单中的每一个物料,大到整机机柜,小到一颗螺钉,我都不停地问自己:我弄清楚每个细节了吗?所幸,最后所有的清单无任何纰漏,达到100%准确。这也让我养成了保持至今的一个习惯,就是经常问自己:这件事情我到底明白了没?如果哪个细节我还回答不上来,有时候还会莫名地吓出一身冷汗。很快,2年过去了,期间我完成了3块单板的设计,全部一版归档,我也当选部门的年度最佳新人。
一次认清自我的出走
新员工时期的顺风顺水,让我开始有些飘飘然,对自己有些盲目的认知,更没有将师父那句话放在心上。当时的我,认定自己完全可以胜任更高的工作,可以打破人生的条条框框,交换机硬件相关的设计我都一清二楚了,已经没什么挑战了,于是我选择了离职,希望找一个更具挑战的平台去进一步发掘自己的潜力。我去了一家小公司担任硬件总负责人,希望自己可以独立完成一些设计。但说易行难,之前的我也就是一名只会把原理图上的器件简单拼接的“连连看”硬件工程师,对大硬件领域的知识和结构完全一知半解。而现在,没有结构,没有互连,更没有热设计和工艺,所有和硬件相关的设计都要自己一肩挑,技术上的短板一下凸显出来。我开始反思,以前自己做得多好,很大程度上是依赖于公司的大平台,离开了平台,又缺少个人的技术积累,如何能确保自己在硬件领域做到最好呢?就这样顶着压力工作了两年,虽然算不上成功,但至少对自己有了更清晰准确的认知,硬件领域博大精深,而我资历尚浅,想要有一番作为还需沉下心来,摒弃浮躁,稳扎稳打,提升自我。
重新出发证明自己
经过慎重的考虑,我入职了当时的华赛,后来华赛并入华为,我成为华为的一员。回到大平台的我,决定“重新做人”,一步一个脚印打牢自己的基本功,在多个版本的洗礼中逐渐成长起来。入职的第一年某一天,领导突然找我,问我:“有个紧急的项目,半年内完成一套存储产品的交付,你愿不愿意做?”以往一个产品的交付需要大概一年的时间,这次只有半年,我还要身兼SE(架构设计)和硬件开发,挑战巨大。但我想都没想就应承下来,因为我一直希望能有机会重新做出最好的单板来证明自己。开发过程压力非常大,但我们5人的小团队始终朝气冲天,所有人都非常期待能交付出一套精品。当时碰到最棘手的事是硬件EMC(电磁兼容)问题,我们第一次做RE(辐射骚扰测试),辐射量超出设计标准10%,完全没想到结果这么严重。以前其他单板的设计也用过这颗芯片,知道该芯片的辐射量有些偏大,因此在单板和结构设计上已经做了屏蔽优化,但实际测试后发现芯片的辐射能量完全超出我们预期。这个测试如果不通过,我们的产品是无法上市销售的。我们和EMC工程师泡在实验室一个多月,一直在寻找破解的方法。首先想到的是“堵”,简单来说,就是想尽办法让设备辐射的能量封闭在产品空间内部,减小对外的辐射。但我们反复测试发现,产品通过结构进行辐射屏蔽的难度很大,结构缝隙其实非常难以控制,往往这边堵住,那边又泄漏出来。实验的过程中,有时候第一次测试通过了,重新插拔了模块,或者机箱做了一些搬动,再重新测试,辐射量又超标了。而且如果堵得非常严密,又对生产结构装配精度要求非常高,结构专家认为这种设计生产加工难度太大,无法量产。就在我们反复测试,百思不得其解之时,有个同事说了一句,“堵”行不通的话,那我们可不可以考虑从源头解决?芯片的辐射大,是不是因为我们设计忽略了某些问题?一语惊醒梦中人,之前我们都陷入在常规的思维里,太关注一种方法,完全没考虑芯片优化这个方向。我找到芯片厂家,了解到该芯片对电源和时钟均比较敏感,如果能降低电源纹波并适当地优化时钟信号质量,就有可能解决问题。通过不断的优化和尝试,在芯片上做了一定程度的优化,再加上结构屏蔽作用,问题得到了圆满解决。解决问题的方法有很多,有时候思维上会存在一些先入为主的想法,这个时候发散思维很重要,认真了解问题并多集思广益,才有可能找到解题之道。
往前多走一步也许就是胜利
2016年开始,我开始接手硬件DE的工作。在还没完全熟悉DE工作时,一个全新的项目开始了,是下一代存储系统的预研。回顾上一代产品在现网暴露的一个个可靠性、可维护性的问题,想想客户的抱怨和维护兄弟的无奈,我暗暗下定决心,下一代产品一定要给大家一个交代。项目经过多轮讨论后确立了总体框架,但是剩下的方案评估进展异乎寻常的艰难。作为硬件DE的我,常常为了一个方案,陷入长时间的思考,决断过程非常纠结。比如硬件架构,我们要在一定密度内实现,什么密度最合理?容量性能如何配置?我和团队反复权衡了不下10种方案才确定。背板设计是开发阶段最大的“拦路虎”。因为背板有源器件(需供给电源的器件)的问题,生产环节和现网已经出了好几个相关的硬件问题,尽管我们也针对性地修改了背板设计,但是治标不治本,设计团队面临巨大的压力。维护人员提出诉求:新方案能不能做背板无源化设计?一开始我的内心是拒绝的,之前几个版本的相关人员都想做,但都没成功,我们能成吗?但心底又有另一个声音提醒我,不能怂,怎么能还未开战就承认失败呢?我们开始剖析背板上的有源部分电路的功能并逐步将背板上大部分有源功能移除,一开始进展很顺利,可就在我以为曙光到来之前,发现背板的电子标签功能难以移除。这也是之前几次无源化设计的难点所在。以前电子标签放在背板上,存在失效问题,但是谁也没想过拿走这个电子标签,因为明显不符合常理嘛!我们尝试把电子标签放在其他部件上,都没有成功,唯一可行性的替代方案是转移到可拆卸的挂耳上。但如果转移到挂耳上,以前更换背板的过程,电子标签的存储位置更改,势必会带来生产流程变化以及软件流程的变化。我拉通制造、装备、驱动和硬件集体讨论,大家集思广益,分析了整个电子标签加载以及现网备件更换等多个场景,经过技术反复论证,修改了生产装备加工流程,解决了挂耳上电子标签应用的可靠性问题,实现了背板无源化,开启了业界存储无源背板的先河。初战告捷,我们采用的4U16刀片设计方案也得到了周边团队的认可,但样机展示过程中我们又发现系统盘的维护方式不甚理想,目前主要是将系统盘安装单板进行翻转的方式维护下面的业务盘,配置和维护方式不灵活。怎么改善维护方式,让方案更具竞争力呢?我想到了免螺钉扣板方案。硬件扣板一般都是有螺钉固定的,此前并没有免螺钉的先例,团队很多人认为方案不可行。通过激烈的争论,我站在客户的角度说服了大家,我们不能总是让客户现场拿螺丝刀来拆装扣板吧,为什么不尝试一下?我们试了多种不同紧固件的组合和拆装方案,扳手的设计尺寸、连接器的选型和插拔力评估、公差分析、PCB的布局等等。一次次制定尝试新方案,又一次次地推翻重来,不同组合试了十多次,大家都有点麻木了,但是心中那份对技术的执念支撑着我们没有放弃。一次又一次,坚持终于有了回报,采用新型卡扣和扳手的方案完美地解决扣板安装插拔力的问题,免螺钉扣板是可行的!一开始,我还不太敢相信,真的能行吗?我们与结构专家反复确认这种安装方式,确认扳手设计和插拔力数据,结构专家都快受不了我的“唠叨”了,只是一遍遍验证确认没有问题。团队每个人都非常兴奋,我也充满了成就感。是的,我们做到了!解决问题没有捷径,碰到问题多往前走一步,再坚持一下,说不定就柳暗花明了。幸运的是,我们从没有轻言放弃,终被成功眷顾。十几年来,我一直在硬件开发的岗位上耕耘,没有考虑调整发展方向,因为我总能从一个又一个难题中找到解题的乐趣,不断收获价值感和成就感。任总说过,决胜取决于坚如磐石的信念,信念来自专注。什么是专注?也是在十年后的今天,我才深切领悟到师父那句话的含义,就是坚持做好一件事情,经得起摔打,耐得住寂寞。在专注和坚持中追寻梦想的灯塔,终会点亮希望之光。期待在下一个下下个十年继续成为那个更好的自己,加油!声明:文章来源华为人。本号对所有原创、转载文章的陈述与观点均保持中立,推送文章仅供读者学习和交流。文章、图片等版权归原作者享有,如有侵权,联系删除。