英伟达Feynman发布在即:LPU推理芯片全景梳理
一. 驱动逻辑
2025年12月,英伟达与Groq达成200亿美元授权协议,获得其LPU架构授权,同时吸纳Groq创始人、谷歌TPU开发者Jonathan Ross及核心团队。
此举是英伟达应对低延迟AI推理需求爆发的关键布局,采用LPU架构的Feynman芯片有望在2026年3月15日的GTC大会上发布。
二. 两大算力芯片
2.1GPU(图形处理器)
(1)概览:最初用于图形渲染,因其大规模并行计算架构,为当前最主流算力芯片,分为消费级(游戏显卡)和专业级(AI训练与推理)。
(2)特点:高并行架构(数千处理核心,适合大规模矩阵运算)、高内存带宽(加速数据吞吐)、通用性强(CUDA等框架成熟)。
(3)海外头部:英伟达、AMD(超威半导体)、英特尔。
2.2ASIC(专用集成电路)
(1)概览:针对特定应用场景定制的芯片,通过固化硬件逻辑实现性能和能效的极大提升。
(2)特点:专用度高(功能固化、灵活性差)、极致能效比(无冗余逻辑、高性能与低功耗)、开发成本高(周期长)、软件生态弱。
(3)海外头部:谷歌、博通、Marvell、亚马逊、Groq。
三.ASIC分类
(1)TPU(张量处理器):谷歌专为深度学习张量运算定制,采用脉动阵列架构,适用于AI训练和推理场景。
(2)DPU(数据处理器):专为数据中心场景设计,通过硬件加速引擎卸载CPU网络/存储/安全任务,释放计算资源。
(3)NPU(神经网络处理器):采用数据驱动并行计算架构,专为神经网络推理优化,适配端侧、边缘侧的低功耗AI场景。
(4)LPU(语言处理单元):Groq专为自然语言处理(NLP)场景定制,适用于大模型实时推理。
四.LPU技术架构
LPU摒弃了GPU的多核并行设计,采用张量流处理器(TSP)架构,具备低延迟、高吞吐量、超高能效比等优势:
(1)极低延迟
GPU采用内存层级架构(片外HBM+多级缓存),数据在HBM与缓存之间来回搬运,导致高功耗及高延迟(内存墙瓶颈)。
LPU采用片上SRAM主存,权重常驻片上,无需片外访问,访问延迟仅1纳秒(HBM100纳秒),带宽达80TB/s(是HBM10倍)。
(2)确定性执行
GPU采用动态调度(运行时由硬件决定指令执行顺序),执行时间不确定,存在调度抖动。
LPU采用静态调度,编译时确定执行时间,数据路径固定、无时延抖动,适配金融、自动驾驶等高时延稳定性场景。
(3)超高能效比
无冗余逻辑,相同推理吞吐量下,功耗仅为GPU的1/10;无需2.5D/3D封装(GPU HBM需CoWoS),封测成本降低。
五. 核心增量环节
(1)PCB(印制电路板)
LPU采用多芯片横向扩展架构,单集群需数百颗芯片高速互联,对PCB提出了更高要求;
层数与工艺升级:需采用52层以上的高多层PCB(传统GPU约20层),并需支持背面供电、超高密度布线。
核心厂商:沪电股份、深南电路、胜宏科技。
(2)CCL
PCB基材升级,需采用M9级超低损耗覆铜板,配套石英布(Q布)、碳氢树脂、HVLP4铜箔等上游材料。
核心厂商:CCL(生益科技)、Q布(菲利华、中材科技、宏和科技)、HVLP4铜箔(德福科技、铜冠铜箔)、碳氢树脂(东材科技)。
(3)SRAM(静态随机存取存储器)
LPU彻底摒弃HBM,采用片上SRAM作为唯一存储介质。
核心厂商:兆易创新、北京君正、恒烁股份。
免责声明:本网站提供的所有数据及资讯(包括第三方机构提供的信息)仅作交流学习及参考用途,不构成任何投资建议或交易要约。