AI集群互连散热专题：散热需求从芯片向互连系统延伸

AI算力需求呈指数级爆发，直接推动AI集群功耗上扬。从单芯片到机柜级别的功耗密度激增已超越传统数据中心的设计极限。以英伟达产品为例，芯片功率持续突破：从H100的700W热设计功耗，到B200的1000W，再到GB200的1200W，直至2026年下半年登场的Vera Rubin平台，其GPU热设计功耗将飙升至2300W，VR200 NVL44 CPX更高达3700W。
与此同时，大模型加速迭代，全球人工智能发展进入应用层推陈出新的关键拐点。AI正从"能聊天、会思考"的L1、L2阶段向"能决策、会用工具"的L3阶段迈进，AI智能体快速落地。预计全球智能体市场规模将从2025年的78.4亿美元增至2030年的526.2亿美元，复合年增长率高达46.3%。算力需求高速增长推动智能算力密度持续攀升，预计至2030年全球算力将超过16 ZFlops，其中智能算力占比将超过90%。
芯片功耗提升带来单机柜功率密度不断增长。主流IT机柜的功率密度预计将从目前的6至8千瓦每柜提升至12至15千瓦每柜，而超算和智算中心的功率密度预计将超过30千瓦。单机柜20千瓦的功率密度通常被认为是风冷散热能力的天花板，20千瓦以上需要采用液冷来保证数据中心运行的稳定性。
在传统数据中心散热模型中，核心关注点通常集中在CPU和GPU等计算核心芯片的散热。然而，随着AI算力中心架构的演进，包括高速连接器、光模块、互连线缆等的互连系统正成为新的发热器件，其发热量占比正从历史的边缘角色迅速扩展至核心地位。
随着传输速率从56 Gbps、112 Gbps向224 Gbps过渡，高性能服务器和系统产生的热量随之攀升。仅光学模块在长距离相干链路中高达40W，较几年前的12W翻了近4倍。在光模块领域，传输速率从100G提升到800G时，单个光模块功耗从2.5W提升到30W。随着单光模块传输速率往1.6T演进以及叶脊架构下光模块用量的增加，AI集群所用的光模块整体功耗将成为数据中心中不可忽视的重要部分。
高密度集成带来新的散热问题。在传统以芯片为主要散热目标的方案中，CPU和GPU通常被假设为唯一的热源。但由于速率提升及空间设计需求，如光模块等互连模块在更高速率条件下被直接焊接或卡载在主板上，它们的热量直接通过铜制底座传导至CPU或GPU的散热器底座，使其成为算力与互连总成的热源。
连接器在工作过程中产生的温升，本质上是电热力多物理场耦合的结果。焦耳热是高速信号和大电流通过导体产生的热量，是连接器最根本的热量来源。在高速信号场景下，在224Gbps传输速率下，趋肤效应使电流集中在导体表面的薄层内，等效电阻大幅上升。此外，来自临近热源传导的热量，如芯片和DSP的传导热量，也使连接器需承担热传导通道的角色。
面对上述热源，连接器散热技术正从被动散热走向主动管理。被动散热主要通过结构优化与材料升级，降低产热以及优化导热路径，如选用铜合金、银镀层等高导电率材料或耐高温绝缘材料。当被动散热无法满足需求时，必须引入外部冷却介质。接触式冷板是使连接器贴合冷板，通过导热界面材料将热量传导至冷板的有效方案。集成式液冷则使冷却液直接流经连接器内部，实现源头降温。
连接器散热的需求在不同应用场景下呈现差异化特征。在高速I/O连接器方面，可配套光模块的笼子连接器散热，以解决1.6T光模块功耗突破20W的散热需求。在电源连接器方面，主要解决GPU供电连接器等大电流供电端子的焦耳热问题。在高速背板连接器方面，主要面向112G和224G高速背板连接器，解决高速信号传输产生的焦耳热及多通道密集排布的热耦合问题。
全球算力需求高速增长，推动AI算力密度持续攀升，散热从芯片到互连实现边界拓展。连接器散热成为散热方案中的关键环节，从被动散热走向主动管理，应用在包括高速率通信等场景的解决方案持续被推出。建议关注AI集群互连中的连接器散热市场投资机遇，重点关注英维克、瑞可达、中航光电等企业。

免责声明：本网站提供的所有数据及资讯（包括第三方机构提供的信息）仅作交流学习及参考用途，不构成任何投资建议或交易要约‌。

猜您喜欢

发表评论

热门话题

热门文章

最新文章

文章归档

链接信息