写在前言:需要注意的几条消息串联V4发布国卡国模跑通,英特尔因为CPU增长暴涨,谷歌路线直接读取存储

演讲主题:《“龙虾”与AI存算一体加速机遇》

演讲嘉宾:锋行致远CTO、吴文俊人工智能奖获得者、前AMD GPU片上系统负责人 孙唐

演讲时间:2026.04.02

一、公司及团队介绍

锋行致远成立于2023年末,但核心技术研发积淀深厚。创始人孙唐具有AMD GPU领域背景,此前长期从事存算一体化芯片研发,并于2023年荣获吴文俊人工智能芯片专项奖。公司董事会及股东包括原科大讯飞联合创始人胡郁,总裁亦出自讯飞体系,形成良好的人工智能产业协同。孙唐本人曾负责谷歌TV、Apple TV等系列芯片的研发,现负责公司技术板块。公司定位为硬科技企业,专注于底层基础设施加速系统。

二、从“龙虾”现象看存算融合的价值

近期,“小龙虾”概念意外推动了苹果Mac Mini(及Pro版本)的市场热度。该机型市场销量大幅增长,价格上浮约60%至70%。其核心驱动因素在于存算融合架构:Mac Mini搭载的M4芯片采用统一内存设计,避免了数据在系统CPU与GPU之间的反复搬运,仅此一项即令大模型计算效率提升2至4倍。同时,由于内存集成于芯片内部,数据路径显著缩短。相比之下,传统显卡方案的单机功耗超过500瓦,而Mac Mini整机功耗仅为30瓦,在7×24小时持续运行条件下可大幅节省电费。当前所有AIDC(人工智能数据中心)面临的核心瓶颈并非算力,而是数据存储能力不足,这也是2023年以来存储行业价格暴涨的根本原因。DDR内存价格至报告期内已上涨超过5倍。最新数据显示,单台B300(3TB满配版)中DDR的价值超过84万元人民币,平均每颗GPU需配备逾十万元的内存条以满足数据存储需求。消费级电脑内存价格亦大幅攀升,大部分Windows PC在上月底至本月的涨幅普遍超过60%,主要源于内存条成本上升。而Mac Mini未参与涨价,由此形成显著的性价比优势。此外,苹果电脑基于Linux系统,大量软件可与“龙虾”接口无缝对接,实现日程表、文本等工具的高效管理,并可与手机、iPad实现无缝同步,使用便捷。上述因素共同促成了该机型的市场火爆。

三、智算市场高速发展,存储成为核心瓶颈

中国智算市场自2024年起每年投入超过千亿元。当前字节跳动、阿里巴巴、腾讯三家头部企业每年投入均在1600亿至1800亿元之间,合计约5000亿元。截至2024年,总算力规模已超过1000 EFLOPS(1 EFLOPS相当于1000 PFLOPS)。根据IDC发布的《算力发展评估报告》,算力年增长率超过40%,而存储容量需求的增长更为突出。过去,一台200万元的服务器配备2万元的硬盘已被视为较高成本;目前存储(含硬盘)投入占比10%到15%%,用户仍倾向于增加存储配置以加速计算。2024年的一项典型数据分析显示,当前人工智能发展中的算力与传输能力已不再是系统瓶颈。最新GPU单处理器速度达到每秒1万GB,主流网络传输带宽已从400G提升至800G,GPU互连带宽超过1.8T,未来将达到3.2T。最新的HBM4传输带宽为3350GB/s,而未来光互联可达3200G。真正的瓶颈在于高速固态硬盘:目前市场上最主流的仍为PCIE 4.0时代的硬盘,单盘传输能力最高为7GB/s;即便升级至PCIE 5.0,也仅为11-12GB/s。要满足一块GPU的数据吞吐需求,需要成百上千块硬盘同时提供数据供给。

传统存储架构中,硬盘仅响应CPU指令,缺乏主动性。在大模型与Token经济时代,真正的计算核心是GPU。数据在CPU与GPU之间的反复搬运,相当于一位CEO同时管理数千名员工并逐一分配任务,CPU难以承担如此繁重的调度工作。若采用多台机器扩展,系统故障率与稳定性面临严峻挑战,众多CPU如同多个公司的CEO,协调开销巨大。这正是存储系统成为AI时代最短板的根本原因,也解释了近期存储价格大幅上涨的内在逻辑——计算范式正在向存算融合、存算一体发生根本性转变。存储系统当前承担的具体任务包括:第一,为大模型提供本地数据供给,需要本地硬盘存储用户文档及提示词工程,数据输入后方可执行计算。第二,大模型训练涉及千卡万卡级GPU集群,故障不可避免,因此引入中间检查点技术:每隔数小时保存一次快照,故障时回滚至上一状态。然而,每一轮均需将大量大模型的中间数据写入或读出硬盘,数据搬移已成为最大的资源瓶颈。最先进的国外大模型采用英伟达最新集群超节点,数据搬移时间占比约为10%至15%;国产大模型这一比例达到25%左右,约四分之一,这还是在训练稳定的条件下。在训练初期,数据搬移时间可能占整个训练过程的一半,资源极度不均衡。

四、智算中心架构与互联方案对比

典型算力中心架构拓扑图中,GPU集群分布于两侧,中间密集的互连链路实现单台服务器内GPU之间的高速通信,即显卡间的高速互联。英伟达将其技术称为NVLink或NVSwitch,国内各GPU厂商也有相应的对标方案。在单台服务器内部,多张GPU卡共享统一数据视图,可随时按需存取数据。然而大模型训练与推理通常跨越多台服务器,需要解决服务器之间的GPU互连问题。英伟达给出的方案是通过收购网络公司迈络思(交易金额67亿美元)后推出的跨服务器互连协议InfiniBand。该协议的最大优势在于其高性能无损特性,能够保证两台服务器之间的GPU在访问同一数据时实现近乎无缝的直接调用,无需涉及数据恢复与重传。其代价体现在两方面:第一,功耗显著增加,一台InfiniBand交换机的耗电量为传统光交换机的1.3至1.5倍;第二,成本高昂,一台InfiniBand交换机的价格是中国交换机的三倍以上,目前有价无市。英伟达由此推出DGX整机柜方案,将系统集成于单一机柜内提供服务。国内应对方案采用了ROCE技术,目前已发展至第二代。当前字节跳动、阿里巴巴、腾讯等头部企业在该技术路线上存在差异化竞争,因为ROCE协议允许数据出错,需要恢复与重传。一旦涉及恢复和重传,GPU、CPU、内存、网卡等组件均需执行大量恢复操作。目前国内多家GPU公司分别获得大厂投资,各自形成了独立的技术体系。在交换机层面,各厂商方案不尽相同,无法实现异构端到端的完全兼容。字节跳动、阿里、腾讯均有自主方案,要求GPU厂商配合其网卡完成最快速的恢复与重传。另一种选择是采用最传统的IWAP方案,走传统TCP/IP协议,其优势在于能够连接所有机器,但挑战在于TCP/IP的三次握手机制导致传输代价和延迟数倍于其他方案,GPU可能空转。面向未来智算性能提升,该方案难以持续。2022年,英伟达在推进GPU互连方案时认识到,GPU所处理的数据最终来源于底层的SSD存储阵列。因此,英伟达联合各CPU厂商、操作系统厂商及主机BIOS厂商,推出了GPUDirect Storage技术。该技术的核心逻辑是:最终数据消费者是GPU,应避免CPU充当“中间层”将数据经CPU和内存再转发给GPU。只要是英伟达InfiniBand交换机加英伟达GPU的组合,即可直接向硬盘请求数据。该技术使信息交互与网络通信速度提升2至4倍(精确值为2.3至3.8倍),同时节省30%至40%的能耗。然而,在2022年至2023年GPT尚未广泛普及的阶段,国内大部分GPU厂商仍聚焦于GPU互连优化,未意识到存储侧是数据的最终来源,该协议在国内尚处初期研发阶段。英伟达凭借此技术,专门推出了GB200、GB300等专用整机柜,将技术集成于柜内。该整机柜并非免费提供:第一,原厂GB200、GB300的售价高于散装机器通过网络互联的方案;第二,开启相关功能需额外支付授权费用,例如NVL576节点约需450万至500万美元的门票费,否则无法启用高速的GPU互连及硬盘直通能力。

五、海外存储加速技术进展:从2.0到3.0

针对存储侧的痛点,海外目前正处于从2.0向3.0跨越的时期。2.0阶段的典型公司包括以下几家。第一家是英伟达的御用存储厂商DDN。其核心贡献在于研发GPUDirect技术,绕过CPU直接让硬盘将数据搬运至GPU,从而加速大模型训练与推理等吞吐密集型业务。DDN构建了A3I存储系统,专门作为NVIDIA超节点的核心存储架构。该公司2024年收入超过10亿美元,估值约50亿美元。第二家是以色列公司PLiOPS。该厂商配合DDN的方案,但由于DDN依赖高性能服务器主机及高速GPU进行数据协调与管理(仅负责下发命令,实际传输仍由硬盘和显卡完成),CPU仍需定位数据并运行传统文件系统。类比而言,普通笔记本连接硬盘传输一部电影速度较快,因为批量大数据搬运只需一条命令即可从头到尾完成;而传输金融分析文档或细碎报表文件时速度显著下降,原因是文件系统导致CPU逐一检查每个文件并向硬件发送消息,整体速度下降20至80倍。PLiOPS的解决方案是:不再使用CPU管理文件系统,而是部署加速卡插于存储系统中管理硬盘。每张加速卡管理7块硬盘,绕过文件系统,自行设计“大水缸”机制:每次数据访问时,尽量在固定时间内将水缸填满并贴上标签,整体交给硬盘存储或读取,从而将细碎小文件的读写转化为大块文件的搬移。该技术实测加速数据读写速度8至21倍,理论上限可达100倍。针对“只需一瓶盖水却整缸搬运”的质疑,PLiOPS的逻辑是:当前GPU每秒计算通量已达1万GB,而最快存储仅能提供3000多GB,瓶颈在于搬运而非计算,约有70%的算力冗余。若执行精确筛选,加速卡的成本和复杂度将显著上升;而整缸搬运可充分利用原本浪费的算力。英伟达联合闪迪、AMD向该公司投资2.2亿美元,目前其估值接近10亿美元,成为存储行业热门企业。此外,PLiOPS还推出了“记忆专家”技术:针对大模型对个人化记忆准确性的要求,该技术对数据进行段落大意总结,从硬盘提取核心摘要提供给GPU,由GPU完成最终评分,具有较高价值。第三家公司采用压缩技术。大模型训练与推理过程中的中间数据量庞大,通过压缩可将存储容量减半——原本需要1000块硬盘,压缩后仅需500块,显著降低成本。在硬盘大幅涨价的背景下,该公司为谷歌提供数据搬移服务,利用压缩技术将数据量降至原来的一半,从而降低存储成本。以上为2.0时代海外主推的存储加速技术。3.0时代主要由原厂主导。三星推出了智能存储Smart SSD,目前已发展至第二代。该产品主要面向金融行业高通量实时流式计算及数据库应用,可完全替代惠普的小型机和中型机。海力士推出了近数据计算加速器,插于现有GPU服务器上,专门用于大模型长上下文加速。单卡加速倍数为3.5倍,今年将推出新卡加速11.5倍,该技术属于进存技术。铠侠(KIOXIA)是目前较受关注的厂商。英伟达已宣布与存储原厂联合开发AI SSD,在单个模块上将数据吞吐速度提升10倍,并通过将大平层架构转变为高楼房架构,总体提升100倍,达到每秒1亿次IOPS、约400G带宽,直接以512TB级别的存储替代HBM内存用于推理业务。在2025年3月17日GTC大会发布的Vera Rubin架构中,一个3.5层存储结构将采用该技术,实现网卡直接从硬盘向GPU搬运数据,完全绕过主机的CPU和内存。目前内存价格已上涨至难以持续的水平,该技术路径被视为重要突破方向。

六、DeepSeek与推理侧存力需求爆发

DeepSeek解决的核心问题在于大模型的降本。大模型实现盈利需依赖推理服务,即向下游用户销售Token。下游推理需求对存力的增长具有爆炸性驱动作用,其根本原因在于KV Cache(KV缓存)技术。Transformer架构的原始逻辑是:若将已生成的答案重新计算,文本长度每增加100倍,算力需求将增加1万倍,这一增长曲线在实际系统中不可接受。因此,业界采用的方案是将已计算的每个字元的中间结果缓存于存储空间,后续查询时直接从存储中读取,从而避免平方级的算力增长。基于该技术,对存储侧带宽及存储侧算力的需求呈现爆炸式增长,这也是当前存储价格持续上涨的核心原因。预计到今年,推理将占据整个市场五分之四的份额,因为行业必须实现盈利而非持续亏损。推理侧对存力的需求在2025年至2027年期间存在持续扩张的可能性。推理环节涉及两个概念:预填充,类似于先就诊全科再转诊专科,专科负责在尽量减少对专家干扰的前提下快速输出结果与答案,该环节对存力的需求极大。算力方面,目前已有LPU、GPU、NPU、TPU、DPU等多种方案,业界普遍认为算力存在多元化的解决路径。存力方面目前聚焦两大技术方向。第一个方向是提高访存效率,即缩小模型规模、减少参数量,将数据搬运、计算、字典查询等操作尽量聚合处理。代表性方案包括DeepSeek的“三个臭皮匠顶一个诸葛亮”策略(256个专家中选取8个,每轮路由58层),以及华为的热点汇聚方案。例如,当某一行业或股票出现暴涨时,所有热点问题均集中于同一主题,已有用户获得答案并缓存中间结果,后续查询时所有用户可共享同一组缓存,无需各自占用独立的显卡和内存条。第二个方向是硬件堆叠技术,即进存计算与缓存优化。一种方式是继续采用高带宽内存,但韩国几家存储企业到2027年底的产能基本被美国包圆,国内难以通过合法渠道获得充足供给。国内采用的创新架构为3D堆叠——无法获得HBM的情况下,将内存条垂直堆叠为高层结构。国内在封装技术方面相对海外具有一定领先优势,多家公司正在推进3D封装,将DDR逐层堆叠于算力芯片上层,通过垂直打孔与下方芯片互联,以此解决存储瓶颈。目前两个典型实例:一是苹果的统一内存芯片;二是刚被英伟达以200亿美元收购的GROQ公司,该公司采用以存代算的方式,使用SRAM工艺。最大的挑战在于成本:在最先进的1.8纳米或2纳米工艺下,每GB SRAM的制造成本约为100至150美元,而DDR约为5美元。由于DDR价格涨幅过大,近期各算力厂商均表示,若DDR价格再上涨一倍,行业将全面转向存算一体化方案,以摆脱对韩国存储厂商的依赖。

七、锋行致远的存算融合加速技术

锋行致远拥有自主存算融合加速技术,其基于存算融合架构的芯片具备显著的算效比优势。在法国及中国联通产业互联网的测试中,该芯片功耗低于5W,可实现约40 TOPS的推理性能,体现了高算力、低功耗的特点,是存算一体化架构的先行者,并凭借该芯片获得吴文俊人工智能芯片专项奖。在端到端性能对比中,与华为及英伟达相关主流产品相比,锋行致远在数十种AI算法上的算效比均优于国外竞品两倍以上,最高达到3.7倍。由于其智能硬盘加速模组在芯片内部集成控制单元,距离数据最近,能够完成AI前后处理及应用,运行Transformer大模型的效率较竞品高出两倍以上。

公司的核心技术可概括为以下四点:第一,存算直通技术,与英伟达方案类似,实现性能加速2至4倍,同时节省20%至30%的能耗。第二,智能硬盘支持边存边算,可节省管理成本11%。第三,以存代算,由于所有个人记录均需持久化存储,减少数据外搬可节约成本13%。第四,存算一体架构使AI推理更靠近数据源,从而降低数据访问功耗,实现整体能耗的优化。八、龙虾一体机及集群方案

锋行致远的“龙虾一体机”具备以下核心架构特征:该系统设有外部输入层管理模块、控制接口层(负责模型智能体管理与集群管理)以及消息通道(支持用户命令下发、状态上报及用户反馈)。同时配备网关与会话管理工具,可调度多个智能体协同工作。简言之,锋行致远将传统硬盘改造为“小龙虾”智能存储单元,集数据存储、记忆检索、模型执行器、提示词构建于一体,在保证安全性的同时提升运行效率。系统利用龙虾上下文管理窗口,可调用外部大模型以获得更精准的答案。基于该架构,整个智能体的运行环节可完全卸载至单个硬盘上,从而显著降低主机内存与CPU的需求,而用户接口保持不变。

单个“龙虾”即一个小型智能存储节点。在龙虾一体机集群中,多个龙虾节点协同工作,在大型服务器中相当于为GPU配置了专门的数据预处理与传输单元(类比于厨房中的切配与传菜角色),GPU则专注于核心计算任务(类比于颠勺)。该系统可运行DeepSeek V4的Engram记忆专家模型,也可替代GPU执行MoE专家评分任务。由于整本大模型字典可完整存储于每个龙虾节点上,系统能够智能选择所需字典部分,从而大幅节省主机显存与内存需求:将原本需要8张显卡的配置降至1张,内存容量从原来的2TB以上减少至仅32至64GB,整体业务成本降低90%。九、目标客群与应用场景

锋行致远的定位与客群策略如下:通过在现有普通服务器上加装加速模组,可将其改造为“龙虾一体机”,并搭配分布式多节点“龙虾”服务器集群,实现对多个GPU的统一管理。该方案兼容天数、沐曦、壁仞、燧原动力等国产显卡,既可应用于原有数据中心的智能化改造(IDC向AIDC升级),也可服务于新建智算中心。公司当前首选与运营商合作,推动传统IDC向AIDC的改造,重点覆盖语音外呼、文生图、文生视频、ChatBot及OpenClaw等生态场景下的计算加速。此外,公司配合国产GPU厂商进行大模型市场推广。目前,锋行致远已获得一家上市公司的战略投资,将依托该上市公司的产业生态,共同推动行业计算范式的变革。

【国联民生计算机】信测标准:一季报稳健增长,加速存储布局

事件:信测标准发布2026年第一季度报告,该公司营业收入为1.95亿元,同比增长17.54%;归属于上市公司股东的净利润为4482.18万元,同比增长20.66%;业绩持续稳健增长,收入利润增速均创近三年新高。

公司协转引入产业资本,加速存储全面布局

继早期投资存算一体独角兽锋行致远后和近期成立信测存储后,公司再次协转引入产业资本,持续发力存储布局:

1)锋行致远:对标美国200e/300e美元独角兽DDN/Vast Data,两家美国存算加速独家兽商业模式通常为150-600美元/TB/年(不带存储硬件),通常能够为客户带来数倍到数十倍的数据吞吐量提升。信测标准参股30%,并与多家国产芯片厂开始适配。

2)信测存储:布局海力士颗粒+模组+存储主控芯片为锋行解决方案提供硬件配套。

锋行致远与谷歌TPUv8的SSD直连技术路径一致,有巨大发展空间

谷歌TPUv8t搭配 10T 级 Lustre 托管存储 + TPU 直存技术,百 PB 级数据集直达芯片算力,杜绝数据接入延迟拖慢训练进度,相较第七代 Ironwood TPU,存储访问速度提升10 倍。锋行致远特有的存算一体加速模组,支持存储到AI算力卡数据直通,实现模型KV缓存、本地知识库管理和检索增强生成的全链路加速。

风险提示:技术落地不及预期,行业竞争加剧

根据研报来看公司发展潜力很大,技术负责人从谷歌出来,技术路线与谷歌一致。

免责声明:本网站提供的所有数据及资讯(包括第三方机构提供的信息)仅作交流学习及参考用途,不构成任何投资建议或交易要约‌。