首页/文章/ 详情

详解数据中心液冷方案

19天前浏览1519

投资要点

液冷是一种用液体来冷却电子设备的散热技术,能够显著提高数据中心散热效率。液冷技术根据冷却液与发热器件的接触方式不同,可以分为间接液冷和直接液冷,其中间接液冷主要包括冷板式液冷,直接液冷包括浸没式液冷和喷淋式液冷。冷板式液冷和浸没式液冷是目前主流的液冷形式,冷板式液冷应用最为广泛,在改造成本、可维护性、兼容性方面具备优势;浸没式液冷冷却效果最好,节能性上优势明显,但可维护性和兼容性一般,多用于高功率密度机柜。


控制当前数据中心温控方式仍以风冷为主,液冷方案中冷板式技术更为普及。2022年数据中心液冷技术的渗透率大概在5%~8%左右,风冷仍然占据90%以上的市场份额。按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例为90%左右,浸没式液冷渗透率为10%。


数据中心算力与能耗水涨船高,逐渐超出风冷散热阈值,液冷散热已是趋势所向。Chatgpt为代表的生成式人工智能模型拉升算力需求,百亿参数成为模型涌现门槛,算力成为大模型性能提升的关键。大模型带来大算力,大算力带来高功耗,Intel的多款CPU芯片的TDP已突破350W,NVIDIA 的H100系列GPU芯片TDP更是达到700W。这也导致单服务器和单机柜功率均显著上升,已经逐渐超出风冷散热的覆盖范围,液冷散热已成为必然趋势。


PUE限制是现阶段液冷技术发展的核心驱动力。PUE代表数据中心能源使用效率,等于数据中心总耗电/IT设备耗电,比值越接近于1,说明能源越接近全部都用于IT设备负载上。我国数据中心平均PUE为1.49,仍有半数区域的数据中心PUE位于1.5以上。近几年,国家与地方出台了一系列针对新建与老旧数据中心PUE的管控计划,明确要求东、西部枢纽节点数据中心PUE分别控制在1.25、1.2以下。而传统风冷方案的数据中心PUE一般在1.5左右,高于政策要求的范围;液冷方案能够有效降低冷却系统的能耗水平,从而将数据中心整体PUE降低到1.05-1.2左右,满足相关的政策要求。


数据中心TCO是液冷技术规模应用的关键因素。数据中心总成本(TCO)包括建设成本(Capex)和运营成本(Opex)。根据奕信通科技在2022年数据中心标准峰会发布的报告进行测算,以华东地区数据中心建设情况为例,现阶段冷板式液冷方案的TCO甚至Capex已经低于风冷,浸没式液冷方案的TCO也将在运行五年左右之后出现低于风冷方案的拐点。但是该测算结果依赖于一定的前提条件:如机柜功率达到30KW、不计算服务器折旧和服务器运营支出、水电费与房租等运营成本按华东地区情况计价、采用集中式大型IDC机房且IT设备在12个月线性上架后实现80%负载率、外界气温对制冷系统的能耗需求较高等。因此在西北部地区、较小型数据中心等场景下液冷技术的经济性尚没有完全体现。但在数据中心发展的大型化、集约化的趋势下,且液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心TCO的优势将更加明显。


控制数据中心液冷未来市场规模估算:到2025年,中国数据中心液冷市场规模将达到359亿元左右,CAGR达到72.4%;AI数据中心液冷市场规模将达到280亿元左右,CAGR达到71.4%;通用数据中心液冷市场规模将达到79亿元,CAGR达到76.2%。


相关标的和投资建议:由于液冷设备与基础设施主要依附于服务器和机房而存在,建议关注:1)服务器产品技术实力雄厚,积极布局液冷技术的服务器厂商:曙光数创、浪潮信息;2)多年深耕温控领域,多点布局的机房温控厂商:英维克。


风险提示:产业政策不及预期风险;人工智能技术发展不及预期风险;芯片算力与功耗发展不及预期风险;液冷技术发展不及预期风险;行业竞争加剧风险


1液冷技术详解


液冷是一种用液体来冷却电子设备的散热技术。液冷的工作原理是以液体作为冷媒,利用液体的高热容和高热传导性能,通过液体流动将IT设备的内部元器件产生的热量传递到设备外,使IT设备的发热器件得到冷却,以保证IT设备在安全温度范围内运行(本文主要讨论数据中心应用场景下的液冷技术)。根据冷却液与发热器件的接触方式不同,可以分为间接液冷和直接液冷。间接液冷是指服务器热源与冷却液之间没有直接接触的换热过程,以冷板式液冷技术为主。直接液冷是指将发热部件与冷却液直接接触的冷却方式,包括浸没式和喷淋式液冷技术。其中又可以根据冷却液是否会发生液态到气态的转变,将浸没式液冷分为单相浸没式液冷和双相浸没式液冷。当前,冷板式液冷和浸没式液冷为液冷的主要形式。



液冷系统通用架构包括室外侧和室内侧两部分:室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、液冷机柜、ICT 设备、二次侧管网和二次侧冷却液。室外侧为外部冷源,通常为室外的冷水机组、冷却塔或干冷器,热量转移主要通过水温的升降实现;室内侧包括供液环路和服务器内部流道,主要通过冷却液温度的升降实现热量转移;两个部分通过CDU中的板式换热器发生间壁式换热。



1.1 冷板式液冷


冷板式液冷属于间接液冷,冷却液不与服务器芯片直接接触。冷板式液冷也被称作芯片级液冷,技术原理是通过在服务器组件(如 CPU、GPU等高发热部件)上安装液冷板(通常为铜铝等导热金属构成的封闭腔体),服务器组件通过导热部件将热量传导到液冷板上,然后利用液冷板内部的液体循环将热量传递到远离服务器的散热单元;同时一般会增设风冷单元为低发热元件进行散热。


冷板式液冷系统主要由冷却塔、CDU、一次侧 & 二次侧液冷管路、冷却介质、液冷机柜组成;其中液冷机柜内包含液冷板、设备内液冷管路、流体连接器、分液器等。


1.2 浸没式液冷


浸没式液冷属于直接液冷,将发热器件浸没在冷却液中进行热交换,依靠冷却液流动循环带走热量。


浸没式液冷系统室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、浸没腔体、IT 设备、二次侧管网和二次侧冷却液。使用过程中 IT设备完全浸没在二次侧冷却液中,因此二次侧循环冷却液需要采用不导电液体,如矿物油、硅油、氟化液等。


浸没式液冷根据冷却液换热过程中是否发生相变,可以进一步分为单相浸没式液冷和双相浸没式液冷技术。


1.2.1 单相浸没式液冷


在单相浸没式液冷中,冷却液在热量传递过程中仅发生温度变化,而不存在相态转变。单相浸没式液冷的技术原理为:CDU循环泵驱动二次侧低温冷却液由浸没腔体底部进入,流经竖插在浸没腔体中的IT设备时带走发热器件热量;吸收热量升温后的二次侧冷却液由浸没腔体顶部出口流回CDU;通过CDU内部的板式换热器将吸收的热量传递给一次侧冷却液;吸热升温后的一次侧冷却液通过外部冷却装置(如冷却塔)将热量排放到大气环境中,完成整个冷却过程。



1.2.2 双相浸没式液冷


双相浸没式液冷的不同之处在于冷却液会发生相态转变。双相浸没式液冷的传热路径与单相浸没液冷基本一致,主要差异在于二次侧冷却液仅在浸没腔体内部循环区域,浸没腔体内顶部为气态区、底部为液态区;IT设备完全浸没在低沸点的液态冷却液中,液态冷却液吸收设备热量后发生沸腾,汽化产生的高温气态冷却液因密度较小,会逐渐汇聚到浸没腔体顶部,与安装在顶部的冷凝器发生换热后冷凝为低温液态冷却液,随后在重力作用下回流至腔体底部,实现对IT设备的散热。


1.3  淋式液冷


喷淋式液冷属于直接液冷,将冷却液精准喷洒于电子设备器件进行散热。冷却液借助特制的喷淋板精准喷洒至发热器件或与之相连接的固体导热材料上,并与之进行热交换,吸热后的冷却液换热后将通过回液管、回液箱等集液装置进行收集并通过循环泵输送至CDU进行下一次制冷循环。


喷淋式液冷系统主要由冷却塔、CDU、一次侧 & 二次侧液冷管路、冷却介质和喷淋式液冷机柜组成;其中喷淋式液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。


1.4 不同液冷方案的比较



1.4.1 冷板式液冷目前应用最为广泛,在改造成本、可维护性、兼容性方面具备优势


冷板式液冷的优势主要在于:


1)兼容性:冷板式液冷的改造成本相对较低,不需要对数据中心现有的机房及机柜进行大规模改造,其适用的硬盘、光模块等服务器部件与风冷方案一致,运维模式、机房承重与风冷场景也基本一致;


2)散热效果与节能性:冷却效果和节能性要远好于风冷,PUE可以达到1.2左右;(据《绿色高能效数据中心散热冷却技术研究现状及发展趋势》数据显示,风冷散热下数据中心的 PUE 值通常在1.5左右)


3)可靠性:液体与设备不直接接触,可靠性更高;


4)维护性:易开展维护性设计,可实现在线维护方案;


5)噪声:风机转速大幅降低,噪声值可至 70dB 左右。


冷板式液冷的局限性主要在于:


1)液体没有与电子器件直接接触,而是通过金属管壁进行热交换,与直接接触的浸没式液冷相比冷却与节能效果欠佳;


2)IT设备、冷却液、管路、供配电等不统一,服务器多与机柜深耦合;


3)管路接头、密封件较多,漏液维护复杂。


1.4.2  浸没式液冷的散热效果和节能性优势明显,但兼容性和维护性一般,多用于高功率密度机柜


浸没式液冷的优势主要在于:


1)散热效果与节能性:与冷板式液冷相比,浸没式液冷中采用了直接接触式的热交换,传热系数高,冷却效果更好,节能性更强(双相浸没式液冷方案的PUE在1.04-1.07左右,单相浸没式为1.09左右)


2)紧凑:支持高密机柜,单柜散热量高达160kW;同时,机柜间无需隔开距离,机房不需要空调和冷冻机组、无需架空地板、无需安装冷热通道封闭设施;


3)可靠性:设备完全浸没在液体中,排除了温度、风机振动、灰尘等带来的可靠性问题;


4)噪声:100%液体冷却,无需配置风扇,实现极致“静音”机房。


浸没式液冷的局限性主要在于:


1)兼容性较差:IT设备需要定制,光模块、硬盘等部件兼容性仍待验证;此外,双相浸没式液冷方案适配的服务器需改为刀片式,其专用机柜对于管路要求高,控制复杂;


2)维护复杂:浸没式液冷设备维护时需要打开Tank上盖,并配备可移动机械吊臂或专业维护车实现设备的竖直插拔,维护复杂度高,耗时长;且开盖维护过程有一定的冷却液挥发问题,增加运行成本;


3)承重要求高:因浸没式液冷系统Tank内充满冷却液,整柜重量大幅增加,对机房有特殊承重要求,普遍要求浸没式液冷机房地板承重应大于1500kg/m2;


4)国产冷媒待验证:单相浸没式液冷方案所使用的国产冷媒仍待验证。


浸没式液冷比较适用于对功率密度、节能性要求较高的大型数据中心,特别是地理位置较为特殊、空间有限的数据中心。


1.4.3 喷淋式液冷在安装便利性、空间利用等方面有优势,但是现阶段落地应用相对较少


喷淋式液冷不需要对数据中心基础设施进行大幅改动,安装便捷,空间利用率高,且喷淋方式能够节省冷却液,其不足在于服务器整体密封于气相柜中,排液、补液,维护时会破坏服务器原有密封结构。目前喷淋式液冷技术的应用场景有限,只有少量数据中心采用了喷淋式液冷技术。


2 数据中心液冷行业基本情况与竞争格局


2.1 基本情况:数据中心液冷行业如日方升,液冷技术有望加速导入


数据中心温控方式仍以风冷为主,液冷技术有望加速导入。目前数据中心的散热方式仍然以风冷为主,在算力设备以及数据中心机房的高热密度趋势和高能效散热要求的双重推动下,预计未来液冷将成为主流的数据中心温控方式。根据产业调研与曙光数创的信息,2022年数据中心液冷技术的渗透率大概在5%~8%左右,风冷仍然占据90%以上的市场份额;预计2025-2028年时液冷技术的渗透率有望达到30%。



液冷方式以冷板式为主,浸没式技术有望加速推广。当前主流的液冷技术包括冷板式液冷和浸没式液冷,由于冷板式液冷对于数据中心的改造难度较低,改造所需成本也较为可控,所以目前冷板式液冷的市场应用相对更加普及。根据IDC《中国半年度液冷服务器市场(2023上半年)跟踪》报告,按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例达到90%左右,浸没式液冷渗透率仅为10%。但随着国家对于数据中心PUE的政策要求的愈发严格,机柜功率密度的持续抬升以及浸没式液冷技术的逐渐成熟,浸没式液冷方案有望进入加速推广期。



2.2 产业链:涉及环节众多,存在较高进入壁垒


液冷产业链涉及环节众多,包括上游的液冷设备及产品零部件提供商、中游的液冷服务器及液冷基础设施提供商与下游的数据中心使用者。上游主要为产品零部件及液冷设备,包括快速接头、CDU、电磁阀、浸没液冷TANK、manifold、冷却液等产品,代表性厂商有英维克、3M、高澜股份、云酷、奕信通、广东合一、绿色云图、巨化股份等。中游主要为液冷服务器、芯片厂商以及液冷集成设施、模块与机柜等,代表性厂商有华为、中兴、浪潮、曙光、新华三、联想、超聚变、英特尔等。下游主要为数据中心的使用者,包括三家电信运营商,百度、阿里巴巴、腾讯、京东等互联网企业,数据港、光环新网等第三方IDC服务商以及政府、科研机构、金融、能源、交通等其他信息化需求客户。




产业链存在较高的技术、人才、客户认证壁垒。


1)技术壁垒:液冷数据中心基础设施产品的研发和制造涉及冷却技术、制冷系统设计及仿真技术、温湿度解耦控制算法等多项技术领域,要求企业在液冷核心技术进行多年研究积累,深入掌握液冷技术的相关原理和应用。此外,液冷数据中心基础设施产品工艺流程复杂,需要掌握生产制造流程中的核心工艺,同时需具备成熟的控制体系,对产品质量进行把控,保证产品的合格率,因此数据中心液冷行业具有较高的技术壁垒。


2)人才壁垒:液冷数据中心基础设施领域属于新兴技术密集型产业,产品性能涉及材料化学、热力学、电子学、计算机科学等多学科,并且数据中心的制冷系统存在定制化特征,因此对研发技术人员的技术研发能力和行业经验要求较高。目前行业发展历程较短,技术与产品仍处于验证阶段,高端技术人才相对稀缺,且高端人才主要集中规模较大的企业以及国家级研究机构中,因此新进企业难以在短期内培养出一批具备技术开发实力并拥有丰富实践项目经验的专业技术队伍,由此数据中心液冷行业存在较高的专业人才壁垒。


3)客户认证壁垒:出于安全性、稳定性等考虑,企业客户在选择液冷数据中心基础设施供应商时通常需要进行严格的资质验证。尤其是金融、医药等机构出于数据安全、保密等要求,对液冷数据中心基础设施解决方案供应商挑选非常严格,需要对企业产品质量水平、项目经验、技术研发能力进行综合考察,因此认证过程复杂且耗时较长。液冷数据中心基础设施厂商应具备较强的产品研发能力、稳定的产品供应以及售后服务经验,同时具备丰富的技术储备,才能满足不同客户的需求。另一方面,由于更换液冷数据中心基础设施供应商会对产品的稳定性形成风险,客户在与液冷数据中心基础设施供应商建立生产配套关系后,倾向于维持与现有技术供应商的合作,不会轻易更换主要供应商,因此先进入者一旦建立起自身客户资源、形成先发优势,新进入企业将很难在短期内争夺市场份额、改变行业现有格局,因此数据中心液冷行业具有较高的客户认证门槛。


2.3 竞争格局:行业仍处于技术验证阶段,市场格局尚不明确


目前液冷行业仍处于技术验证阶段,技术路线、产品结构、行业标准等还无定数,国外厂商难以进入中国市场,市场竞争格局尚不明确。目前市场中主要厂商在液冷技术和产品方面还处于实验研究或初步应用阶段,产品结构与行业标准尚在演进,市场内还未形成具备较强核心竞争力的龙头厂商,市场竞争格局尚未稳定。此外,由于中国对数据安全的保护,在数据中心基础设施的供应方面存在一定的地域壁垒,因此,目前国外厂商的产品的应用主要以其本国市场为主,进入中国市场较为困难。


曙光数创暂列第一梯队。液冷行业目前的核心参与者包括服务器厂商、互联网厂商和温控厂商等三类。第一梯队的厂商为中科曙光(曙光数创),赛迪顾问《2023中国液冷应用市场研究报告》显示,2021年至2023年H1曙光数创以58.8%的市场份额位列中国液冷数据中心基础设施市场部署规模第一;第二梯队包括华为、联想等服务器厂商与阿里巴巴等互联网厂商;第三梯队有广东合一、维谛技术、英维克等温控厂商以及浪潮信息、戴尔中国等服务器厂商。


温控厂商、服务器厂商与互联网公司等厂商积极布局液冷技术,相继推出核心产品。目前,中科曙光、华为、阿里巴巴、浪潮信息、英维克等厂商都已经有了成熟的液冷产品应用案例。(1)温控厂商:英维克推出Coolinside全链条冷板式液冷解决方案,打破了国外技术壁垒,已实现单机柜200kW批量商用;高澜股份可提供冷板式和浸没式液冷服务器热管理解决方案及集装箱液冷数据中心解决方案,目前已实现服务器液冷相关产品样件及小批量供货;申菱环境天枢液冷温控系统已成功应用于超算数据中心、海外数据中心、中国移动南方基地液冷机房等项目中。(2)服务器厂商:曙光数创(中科曙光子公司)旗下布局有双相浸没式液冷产品C8000系列与冷板式液冷产品C7000系列,2019年首次实现双相浸没式液冷数据中心产品C8000产品在国家级重大科研装置大规模部署;华为2022年发布FusionServerPro冷板全液冷系统解决方案,应用于高功耗密度服务器机柜部署场景;联想新一代海神温水水冷系统在42U的标准机柜中,最多可以支持144张最新的GPU和72个CPU,它采用了冷板全水冷设计方案,功耗器件覆盖高达98%,PUE最低1.05;浪潮信息将“All in 液冷”纳入公司发展战略,全栈布局液冷,发布全栈液冷产品,实现通用服务器、高密度服务器、整机柜服务器、AI 服务器四大系列全线产品均支持冷板式液冷,并提供液冷数据中心全生命周期整体解决方案。(3)互联网公司:阿里巴巴2021年发布了行业首款单相浸没液冷解决方案——磐久ImmersionDC1000;京东云与浪潮信息2022年3月联合发布“天枢(ORS3000S)液冷整机柜服务器”,该产品支持冷板式液冷,目前已在京东云数据中心实现规模化部署。


3 数据中心液冷行业未来看点


3.1 推理/训练服务器功耗有望达到10/2kW,液冷方案成为首选


生成式人工智能横空出世,助推AI算力景气度。受ChatGPT为代表的生成式人工智能大模型等新业态带动,全新的AI应用场景有望在未来3-5年爆发,百亿参数是大模型具备涌现能力的门槛,千亿参数的大模型将具备较好的涌现能力,AI算力成为大模型能力提升的核心驱动力。现阶段ChatGPT的总算力消耗达到了3640PF-day(每秒计算一千万亿次,需要计算3640天),需要7-8个投资规模30亿元,算力500P的超大数据中心才能支撑其训练过程,AI算力的重要性不言而喻。据IDC预测,全球AI算力市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元,其中生成式AI算力市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元,生成式AI算力占整体AI算力市场规模的比例将从4.2%增长到31.7%。



大模型带来高算力,高算力带来高功耗。随着AI计算、HPC计算等高性能计算需求不断提升,CPU、GPU等计算芯片朝高算力、高集成方向演进,同时也导致单颗计算芯片功耗的大幅提升。对于CPU、GPU、ASIC等计算芯片而言,一方面可以通过增加计算核心数或提高单核心的主频等方式来提高算力,此举会显著增加芯片的TDP(热设计功耗);另一方面可以依靠先进制程技术来缩减单位算力对应的TDP(TDP/算力)。但是由于先进制程技术推进较慢等因素,单位算力对应TDP的下降幅度逐年减少,且远不及算力的增长速度,这也导致了AI芯片功耗的大幅攀升。当前,Intel的多款CPU芯片的TDP已突破350W,NVIDIA 的H100系列GPU芯片的TDP更高达700W。



计算芯片高功耗造成单服务器功耗显著提高。单服务器功耗大部分源于计算芯片,服务器的核心组件包括CPU(中央处理器)、GPU(图形处理器)、内存芯片、SSD(固态硬盘)、网卡、PCB主板、RAID卡、HBA卡和电源等。CPU/GPU等计算芯片在通用服务器功耗中占比约为50%左右,而在AI服务器中,计算芯片的功耗占比高达80%以上。我们参考2022-2023年中国电信集采AI服务器配置与阿里云通用服务器配置进行功耗计算,服务器的功耗可以粗略估计为所有组件的功耗总和;选取超聚变FusionServer 2288 V7作为通用服务器的代表型号,超聚变FusionServer G5500 V6作为AI训练服务器的代表型号,超聚变FusionServer G8600 V7作为AI推理服务器的代表型号。


通过我们的测算,通用服务器的总功耗为595W,AI训练服务器的总功耗为7015W,AI推理服务器的总功耗为1615W。但是由于芯片超频,额外的NVLINK模组等因素的存在,计算芯片的实际满载功耗往往会高于官方标定的功耗。以上因素导致服务器的实际功耗可能会高于各组件的总功耗,具体的功耗还要以实际测试为准。根据超聚变服务器功耗计算器的测算,当前配置下的通用服务器的实际满载功耗为700W左右,AI训练服务器的实际满载功耗为9800W左右,AI推理服务器的实际满载功耗为2000W左右。(该过程仅为根据公开资料的估算,请以实际环境和负载下的测算为准)



随着服务器功耗提高,单机柜功率上升趋势明显。根据Uptime Institute发布的《2020年全球数据中心调查报告》显示,2020年全球数据中心单机柜功率密度达到8.4kW/机柜,相比于2017年的5.6 kW/机柜有明显提升;其中71%的数据中心平均功率密度低于10 kW/机柜,17%的数据中心平均功率密度高于20kW/机柜,预计未来数据中心功率密度将继续上升,高密度数据中心占比将持续提高。


单机柜功率逐渐超出风冷散热阈值,液冷散热已是趋势所向。风冷散热一般适用于20Kw/机柜左右的功率密度以下,20Kw/机柜以上时液冷散热优势明显。通用服务器通常为2U,AI训练服务器通常为6U,AI推理服务器通常为4U,标准机柜为42U;考虑到电源模块、网络模块等因素,假设单机柜内可以放置18个通用服务器或6个AI训练服务器或9个AI推理服务器,根据之前对于服务器功耗的测算,则单机柜功率可以分别达到12.6kW(通用),58.8kW(AI训练)和18kW(AI推理);考虑到机柜中其他模块的散热情况,实际单机柜功率会更高。对于通用服务器机柜,其单机柜功率已经开始逐步靠近风冷散热阈值,随着通用服务器功耗的持续上升,液冷散热的优势有望逐步显现;对于AI训练与推理服务器机柜,其单机柜功率已经逼近或者超出了风冷散热所能覆盖的功率密度范围,液冷散热已成大势所趋。


3.2 PUE限制是现阶段液冷技术发展的核心驱动力


数据中心耗电量不断提升,绿色低碳成为必然趋势。数据中心是能耗大户,其包含大量的 IT 设备、供电与制冷设备。据工信部预测,2022年全国数据中心能耗总量为2700千瓦时,占全社会总耗电量的3.1%左右,预计2025年数据中心耗电量将占全社会耗电量的5%以上,将成为我国第九大高耗能产业。随着数据中心算力与功耗的不断增长,数据中心耗电量必将呈快速增长趋势,绿色低碳必将并且已经成为新型数据中心发展的重要基本原则之一。




我国数据中心平均PUE为1.49,仍有半数区域的数据中心PUE位于1.5以上。PUE 全称 “Power Usage Effectiveness(能源使用效率)”,是数据中心消耗的一切能源与 IT 负载运用的能源之比,比值越接近于1,说明能源越接近全部都用于 IT 负载上。目前我国一半以上区域的数据中心 PUE 值都在 1.5 以上,即消耗在冷却等非 IT 负载上的能源,占到了 IT 负载的一半以上。截至2021年全国数据中心平均PUE为1.49,还有华南、华东、西北和西南区域的数据中心PUE超过1.50,仅有东北、华北和华东区域的数据中心PUE在1.50以下。



数据中心PUE管控日趋严格,针对老旧与新建数据中心均出台强力约束措施。国家与地方出台了一系列政策对数据中心能耗管理进行规范,不断强调数据中心绿色高质量发展的重要性。2021年7月,工信部印发《新型数据中心发展三年行动计划(2021-2023年)》,要求到2021年底,新建大型及以上数据中心PUE降低到1.35以下;到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区降低到1.25以下。2022年8月,工信部等七部门印发《信息通信行业绿色低碳发展行动计划(2022-2025年)》,要求到2025年,全国新建大型、超大型数据中心电能利用效率(PUE)降到1.3以下,改建核心机房PUE降到1.5以下。除此之外,地方也出台了一系列数据中心PUE要求相关的政策文件,其中北京针对数据中心的年能源消耗量设立了多层次PUE要求,年能源消耗量越高的数据中心PUE要求越高,此外还针对PUE超过1.4的数据中心实行电价加价措施。



冷却系统占据数据中心除IT设备负载外的能耗中的绝大部分,液冷技术能够有效降低冷却系统能耗,进而降低数据中心PUE,满足监管政策要求。PUE为1.92的数据中心下冷却系统能耗占总能耗的比例为38%左右,而PUE为1.3的数据中心下冷却系统能耗占比下降至18%,这意味着降低数据中心PUE的关键就在于降低冷却系统的能耗表现。在同等的散热水平下,传统风冷方案的数据中心PUE一般为1.5左右,液冷方案的PUE值可降至1.05-1.2左右,能够满足当前政策对于数据中心PUE的要求。


3.3 数据中心TCO是液冷技术规模应用的关键因素


数据中心总成本(TCO)包括建设成本(Capex)和运营成本(Opex)。Capex一般指建设成本,包括土地获取、勘察、规划设计、设备购置、建设、安装以及系统调测等费用;Opex一般指运营成本,主要包含电力、冷却散热等基础设施成本、维护成本及管理成本。低成本是数据中心建立竞争优势的关键,也是降低投资回收期和持续发展的关键。


我们基于华东地区、2N UPS、30kW每机柜等常见数据中心配置进行风冷、冷板式液冷和浸没式液冷等不同冷却方式下的TCO测算(本文关于TCO的讨论均不考虑服务器等IT设备成本)。市场普遍认为,风冷方案在Capex上更具经济性,液冷方案只在后续的Opex中有一定的优势。但是根据奕信通科技在2022年数据中心标准峰会(CDCC)发布的报告进行测算,现阶段选择冷板式液冷方案的Capex已经低于风冷方案,即便是浸没式液冷方案,也将在运行5年左右之后出现TCO低于风冷方案的拐点。(该过程仅为根据公开资料的估算,请以实际环境和负载下的测算为准)


但是该测算结果依赖于一定的前提条件:如机柜功率达到30KW、不计算服务器折旧和服务器运营支出、水电费与房租等运营成本按华东地区情况计价、采用集中式大型IDC机房且IT设备在12个月线性上架后实现80%负载率、外界气温对制冷系统的能耗需求较高等。因此在西北部地区、较小型数据中心等场景下液冷技术的经济性尚没有完全体现。但在数据中心发展的大型化、集约化的趋势下,且液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心TCO的优势将更加明显。


机电部分包括制冷系统、配电系统、机柜系统、布线系统和监控管理系统的购置和安装成本,不考虑IT设备成本。



液冷方案与风冷方案相比:1)其机电部分的Capex可以节省掉冷冻水机组/冷冻水精密空调,减少UPS和开关设备的容量等;2)需要增加密封机箱、冷却液、冷板、热交换器、防滴漏连接器和机架式分液器等液冷设备方面的成本;3)液冷方案下同样外电体量的数据中心内空间利用率更高,能承载更多IT设备,每ITkW(IT设备功率)下的分摊成本更低。根据假设条件测算,风冷、冷板式液冷、浸没式液冷方案的机电部分Capex分别为16000-18000元/ITkW、15000-17000元/ITkW和23000-28000元/ITkW左右。冷板式液冷方案下分摊到每ITkW下的机电部分Capex与风冷方案基本持平甚至更低;浸没式液冷方案所需增加的机电设备较多,分摊下来每ITkW的Capex相比于风冷仍有7000-10000元/ITkW左右的上升。



土建部分主要包括建筑物成本。风冷和液冷方案的土建成本差异主要在于同样体量的数据中心内,液冷方案下建筑所需的建筑面积更小。根据奕信通科技测算,风冷、冷板式液冷、浸没式液冷的土建部分Capex分别为5000元/ITkW,3000元/ITkW和3500元/ITkW左右。


外电和能评部分主要包括获取外电资源,通过能评验收所需付出的成本。与风冷相比,液冷方案的PUE更低更节能,获取外电资源,通过能评验收的难度相对会小很多。根据奕信通科技测算,风冷、冷板式液冷、浸没式液冷的外电和能评部分Capex分别为4000元/ITkW,2000元/ITkW和2000元/ITkW左右。


Opex中占比最高的是电力成本,液冷技术可以有效降低电力成本。数据中心的Opex主要包括电力成本、固定资产折旧、房租、人工费等等,其中电力成本占比最高,达到56.7%(风冷情况下)。



浸没式液冷方案的Opex最具优势。根据奕信通科技测算,风冷方案的Opex为9360-9720元/ITkw/年左右,冷板式液冷方案的Opex为8040-8400元/ITkw/年左右,浸没式液冷方案的Opex是7800-8160元/ITkw/年左右。




现阶段选择冷板式液冷的初始TCO已经低于风冷,浸没式液冷的TCO将在5-6年之后低于风冷。我们根据以上测算结果进行10年期的TCO测算,那么风冷的Capex和Opex分别为26000元/ITkW和9540元/ITkW/年,冷板式液冷的Capex和Opex分别为21000元/ITkW和8220元/ITkW/年,浸没式液冷的Capex和Opex分别为31000元/ITkW和7980元/ITkW/年。根据TCO测算,现阶段冷板式液冷方案的TCO从开始就已经低于风冷方案,浸没式液冷方案也将在5年左右之后出现TCO低于风冷方案的拐点。



3.4 液冷技术能够有效延长服务器使用寿命,实现降本增效


传统电子设备普遍采用空气冷却方式,温度是电子设备产生故障的主要原因之一。环境的多样性包括温度、湿度、振动、灰尘等多个方面,在导致电子设备失效的因素中温度占了55%,过热是电子设备产生故障的主要诱因。随着温度的增加,电子、原子、分子的运动速度加快,使得电子设备的性能发生变化,当达到一定阶段时,就会引起严重的故障。在高于一般室内环境温度(约20°C~25°C)范围内条件下,故障率大致按指数规律随温度的升高而增加。同时,湿度、振动、灰尘等因素同样会对电子设备的工作性能和使用寿命产生负面影响。



液冷能够有效降低服务器部件故障率,延长使用寿命。液体具有比空气更大的比热容,散热能力更强,使得服务器温度更加稳定,CPU和GPU计算部件可以长时间稳定工作在高性能频率状态。此外,浸没式液冷将IT设备浸入封闭的液体环境中,与空气完全隔离,并且不再需要高速风扇进行散热,消除了空气湿度、风扇振动以及灰尘带来的可靠性影响,从而优化了服务器的运行环境,延长了设备的使用寿命。根据阿里云的实验数据,与风冷服务器相比,液冷服务器整体部件故障率下降约53%,其中电源、网卡、风扇、网线等部件的故障率下降超过80%。随着单服务器价值量以及数据中心运营成本的与日俱增,服务器的可靠性与使用寿命显得尤为重要,液冷带来的附加经济价值有望逐步显现。


3.5 解耦交付模式成为未来发展趋势,助力液冷产业规范化发展


目前冷板式液冷方案的交付模式可以分为两类,包括一体化交付与解耦交付两种。一体化交付是指液冷机柜的所有部分,包括机柜和服务器等,都按照厂商自行设定的标准进行集成设计开发,然后再作为一个整体进行交付。而解耦交付则要求液冷机柜与液冷服务器之间遵循用户预先制定的通用接口设计规范,机柜与服务器可以分别由不同厂商负责生产和交付。




解耦交付模式为大势所趋,助推冷板式液冷产业规范化发展。服务器与机柜解耦更有利于形成统一的技术标准及规范,能够促进行业竞争与技术推广,让更多厂商能够参与液冷行业,实现多厂家适配,也便于后续灵活部署,使得客户可以根据实际需求选择不同的服务器和机柜组合,不会受限于某一个供应商。目前华为、超聚变等液冷厂商已经实现了盲插快接,中国移动也已经着手研发新型机柜,并计划在完成测试后开源,推动更多的服务器和机柜厂商参与到盲插解耦液冷技术的研发与验证中,推动技术成熟与规范化。



4 数据中心液冷未来市场规模估算


根据估算,到2025年,中国数据中心液冷市场规模将达到359亿元左右,CAGR达到72.4%;AI数据中心液冷市场规模将达到280亿元左右,CAGR达到71.4%;通用数据中心液冷市场规模将达到79亿元,CAGR达到76.2%。核心假设如下:


1)假设通用服务器的平均功率为0.7kW。以超聚变FusionServer 2288 V7(2U)作为通用服务器的代表型号,在超聚变服务器功耗计算器中测算得出其满载功率约为0.7kW。


2)假设AI服务器的平均功率为3.8kW,其中AI训练服务器平均功率为8kW,AI推理服务器为2kW。根据产业调研数据,假设AI服务器中训练与推理的数量关系约为3:7,训练服务器中H系列和A系列所占比例约为4:6,推理服务器均为T4系列。以超聚变FusionServer G5500 V6作为AI训练服务器的代表型号,超聚变FusionServer G8600 V7作为AI推理服务器的代表型号,根据超聚变服务器功耗计算器,H系列训练服务器满载功率约为10kW,A系列训练服务器满载功率约为6.8kW,T4系列推理服务器的功率约为2KW。结合以上数量比例关系,可以估算出AI服务器平均功率约为3.8kW。


3)假设通用服务器平均功率每年提升10%,AI训练与推理服务器平均功率未来三年提升30%/20%/15%。根据近几年CPU/GPU TDP的变化趋势,CPU TDP每年提升10%左右,GPU TDP每年提升20%左右,我们假设通用服务器平均功率未来三年保持10%左右的增速,AI训练与推理服务器平均功率未来三年的增速为30%/20%/15%。


4)至2025年,假设通用服务器液冷渗透率由5%提升到20%,AI训练服务器液冷渗透率由70%提升到100%,AI推理服务器液冷渗透率由40%提升至70%。根据产业调研与曙光数创的信息,2022年我国液冷渗透率为5%-8%左右,预计2025-2028年时液冷渗透率能达到30%左右。我们假设通用服务器2022年液冷渗透率为5%,至2025年液冷渗透率上升至20%;AI训练服务器2022年液冷渗透率为70%,至2025年液冷渗透率上升至100%;AI推理服务器2022年液冷渗透率为40%,至2025年液冷渗透率上升至70%;整体液冷渗透率由2022年的8%上升至2025年的25.7%。


5)至2025年,假设浸没式液冷渗透率由10%提升至30%,冷板式液冷渗透率由90%降低至70%。根据IDC《中国半年度液冷服务器市场(2023上半年)跟踪》报告,按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例为90%左右,浸没式液冷渗透率仅为10%。随着未来浸没式液冷技术逐渐成熟进入加速推广期,我们预计浸没式液冷的渗透率由2022年的10%上升至2025年的30%,冷板式液冷的渗透率由2022年的90%下降至70%。


6)考虑到大部分数据中心液冷厂商的产品只覆盖数据中心液冷基础设施中的制冷系统、机柜系统等核心部分,故估算数据中心液冷市场规模时只考虑数据中心液冷基础设施中制冷系统、机柜系统等核心部分的市场规模,不考虑布线系统、土建、外电、能评等其他配套部分。结合产业调研数据,假设冷板式液冷基础设施的价值量约为10000元/ITkW,浸没式液冷基础设施的价值量约为15000元/ITkW。


7)考虑到未来数据中心液冷市场竞争逐步加剧以及技术逐渐成熟,液冷方案价格将呈逐年下降的趋势;冷板式液冷技术目前更为成熟,未来价格的下降空间相对较小。我们假设冷板式液冷价值量逐年下降5%,浸没式液冷价值量逐年下降10%。


来源丨财信证券研究


来源:做个热设计
HPC振动化学电源通用建筑电力电子芯片材料热设计APEX控制人工智能
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-08-25
最近编辑:19天前
做个热设计
本科 | 热设计工程师 公粽号:做个热设计
获赞 132粉丝 420文章 81课程 1
点赞
收藏
作者推荐
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈