英伟达Feynman发布在即：LPU推理芯片全景梳理

一. 驱动逻辑

2025年12月，英伟达与Groq达成200亿美元授权协议，获得其LPU架构授权，同时吸纳Groq创始人、谷歌TPU开发者Jonathan Ross及核心团队。

此举是英伟达应对低延迟AI推理需求爆发的关键布局，采用LPU架构的Feynman芯片有望在2026年3月15日的GTC大会上发布。

二. 两大算力芯片

2.1GPU（图形处理器）

（1）概览：最初用于图形渲染，因其大规模并行计算架构，为当前最主流算力芯片，分为消费级（游戏显卡）和专业级（AI训练与推理）。

（2）特点：高并行架构（数千处理核心，适合大规模矩阵运算）、高内存带宽（加速数据吞吐）、通用性强（CUDA等框架成熟）。

（3）海外头部：英伟达、AMD（超威半导体）、英特尔。

2.2ASIC（专用集成电路）

（1）概览：针对特定应用场景定制的芯片，通过固化硬件逻辑实现性能和能效的极大提升。

（2）特点：专用度高（功能固化、灵活性差）、极致能效比（无冗余逻辑、高性能与低功耗）、开发成本高（周期长）、软件生态弱。

（3）海外头部：谷歌、博通、Marvell、亚马逊、Groq。

三.ASIC分类

（1）TPU（张量处理器）：谷歌专为深度学习张量运算定制，采用脉动阵列架构，适用于AI训练和推理场景。

（2）DPU（数据处理器）：专为数据中心场景设计，通过硬件加速引擎卸载CPU网络/存储/安全任务，释放计算资源。

（3）NPU（神经网络处理器）：采用数据驱动并行计算架构，专为神经网络推理优化，适配端侧、边缘侧的低功耗AI场景。

（4）LPU（语言处理单元）：Groq专为自然语言处理（NLP）场景定制，适用于大模型实时推理。

四.LPU技术架构

LPU摒弃了GPU的多核并行设计，采用张量流处理器（TSP）架构，具备低延迟、高吞吐量、超高能效比等优势：

（1）极低延迟

GPU采用内存层级架构（片外HBM+多级缓存），数据在HBM与缓存之间来回搬运，导致高功耗及高延迟（内存墙瓶颈）。

LPU采用片上SRAM主存，权重常驻片上，无需片外访问，访问延迟仅1纳秒（HBM100纳秒），带宽达80TB/s（是HBM10倍）。

（2）确定性执行

GPU采用动态调度（运行时由硬件决定指令执行顺序），执行时间不确定，存在调度抖动。

LPU采用静态调度，编译时确定执行时间，数据路径固定、无时延抖动，适配金融、自动驾驶等高时延稳定性场景。

（3）超高能效比

无冗余逻辑，相同推理吞吐量下，功耗仅为GPU的1/10；无需2.5D/3D封装（GPU HBM需CoWoS），封测成本降低。

五. 核心增量环节

（1）PCB（印制电路板）

LPU采用多芯片横向扩展架构，单集群需数百颗芯片高速互联，对PCB提出了更高要求；

层数与工艺升级：需采用52层以上的高多层PCB（传统GPU约20层），并需支持背面供电、超高密度布线。

核心厂商：沪电股份、深南电路、胜宏科技。

（2）CCL

PCB基材升级，需采用M9级超低损耗覆铜板，配套石英布（Q布）、碳氢树脂、HVLP4铜箔等上游材料。

核心厂商：CCL（生益科技）、Q布（菲利华、中材科技、宏和科技）、HVLP4铜箔（德福科技、铜冠铜箔）、碳氢树脂（东材科技）。

（3）SRAM（静态随机存取存储器）

LPU彻底摒弃HBM，采用片上SRAM作为唯一存储介质。

核心厂商：兆易创新、北京君正、恒烁股份。

免责声明：本网站提供的所有数据及资讯（包括第三方机构提供的信息）仅作交流学习及参考用途，不构成任何投资建议或交易要约‌。

一. 驱动逻辑

二. 两大算力芯片

三.ASIC分类

四.LPU技术架构

五. 核心增量环节

猜您喜欢

发表评论

文章目录

热门话题

热门文章

最新文章

文章归档

链接信息