一. 驱动逻辑

2025年12月,英伟达与Groq达成200亿美元授权协议,获得其LPU架构授权,同时吸纳Groq创始人、谷歌TPU开发者Jonathan Ross及核心团队。

此举是英伟达应对低延迟AI推理需求爆发的关键布局,采用LPU架构的Feynman芯片有望在2026年3月15日的GTC大会上发布。

二. 两大算力芯片

2.1GPU(图形处理器)

(1)概览:最初用于图形渲染,因其大规模并行计算架构,为当前最主流算力芯片,分为消费级(游戏显卡)和专业级(AI训练与推理)。

(2)特点:高并行架构(数千处理核心,适合大规模矩阵运算)、高内存带宽(加速数据吞吐)、通用性强(CUDA等框架成熟)。

(3)海外头部:英伟达、AMD(超威半导体)、英特尔。

2.2ASIC(专用集成电路)

(1)概览:针对特定应用场景定制的芯片,通过固化硬件逻辑实现性能和能效的极大提升。

(2)特点:专用度高(功能固化、灵活性差)、极致能效比(无冗余逻辑、高性能与低功耗)、开发成本高(周期长)、软件生态弱。

(3)海外头部:谷歌、博通、Marvell、亚马逊、Groq。

三.ASIC分类

(1)TPU(张量处理器):谷歌专为深度学习张量运算定制,采用脉动阵列架构,适用于AI训练和推理场景。

(2)DPU(数据处理器):专为数据中心场景设计,通过硬件加速引擎卸载CPU网络/存储/安全任务,释放计算资源。

(3)NPU(神经网络处理器):采用数据驱动并行计算架构,专为神经网络推理优化,适配端侧、边缘侧的低功耗AI场景。

(4)LPU(语言处理单元):Groq专为自然语言处理(NLP)场景定制,适用于大模型实时推理。

四.LPU技术架构

LPU摒弃了GPU的多核并行设计,采用张量流处理器(TSP)架构,具备低延迟、高吞吐量、超高能效比等优势:

(1)极低延迟

GPU采用内存层级架构(片外HBM+多级缓存),数据在HBM与缓存之间来回搬运,导致高功耗及高延迟(内存墙瓶颈)。

LPU采用片上SRAM主存,权重常驻片上,无需片外访问,访问延迟仅1纳秒(HBM100纳秒),带宽达80TB/s(是HBM10倍)。

(2)确定性执行

GPU采用动态调度(运行时由硬件决定指令执行顺序),执行时间不确定,存在调度抖动。

LPU采用静态调度,编译时确定执行时间,数据路径固定、无时延抖动,适配金融、自动驾驶等高时延稳定性场景。

(3)超高能效比

无冗余逻辑,相同推理吞吐量下,功耗仅为GPU的1/10;无需2.5D/3D封装(GPU HBM需CoWoS),封测成本降低。

五. 核心增量环节

(1)PCB(印制电路板)

LPU采用多芯片横向扩展架构,单集群需数百颗芯片高速互联,对PCB提出了更高要求;

层数与工艺升级:需采用52层以上的高多层PCB(传统GPU约20层),并需支持背面供电、超高密度布线。

核心厂商:沪电股份、深南电路、胜宏科技

(2)CCL

PCB基材升级,需采用M9级超低损耗覆铜板,配套石英布(Q布)、碳氢树脂、HVLP4铜箔等上游材料。

核心厂商:CCL(生益科技)、Q布(菲利华、中材科技、宏和科技)、HVLP4铜箔(德福科技、铜冠铜箔)、碳氢树脂(东材科技)。

(3)SRAM(静态随机存取存储器)

LPU彻底摒弃HBM,采用片上SRAM作为唯一存储介质。

核心厂商:兆易创新、北京君正、恒烁股份



免责声明:本网站提供的所有数据及资讯(包括第三方机构提供的信息)仅作交流学习及参考用途,不构成任何投资建议或交易要约‌。