信测标准:锋行致远存算一体，信测存储

写在前言：需要注意的几条消息串联V4发布国卡国模跑通，英特尔因为CPU增长暴涨，谷歌路线直接读取存储

演讲主题：《“龙虾”与AI存算一体加速机遇》

演讲嘉宾：锋行致远CTO、吴文俊人工智能奖获得者、前AMD GPU片上系统负责人孙唐

演讲时间：2026.04.02

一、公司及团队介绍

锋行致远成立于2023年末，但核心技术研发积淀深厚。创始人孙唐具有AMD GPU领域背景，此前长期从事存算一体化芯片研发，并于2023年荣获吴文俊人工智能芯片专项奖。公司董事会及股东包括原科大讯飞联合创始人胡郁，总裁亦出自讯飞体系，形成良好的人工智能产业协同。孙唐本人曾负责谷歌TV、Apple TV等系列芯片的研发，现负责公司技术板块。公司定位为硬科技企业，专注于底层基础设施加速系统。

二、从“龙虾”现象看存算融合的价值

近期，“小龙虾”概念意外推动了苹果Mac Mini（及Pro版本）的市场热度。该机型市场销量大幅增长，价格上浮约60%至70%。其核心驱动因素在于存算融合架构：Mac Mini搭载的M4芯片采用统一内存设计，避免了数据在系统CPU与GPU之间的反复搬运，仅此一项即令大模型计算效率提升2至4倍。同时，由于内存集成于芯片内部，数据路径显著缩短。相比之下，传统显卡方案的单机功耗超过500瓦，而Mac Mini整机功耗仅为30瓦，在7×24小时持续运行条件下可大幅节省电费。当前所有AIDC（人工智能数据中心）面临的核心瓶颈并非算力，而是数据存储能力不足，这也是2023年以来存储行业价格暴涨的根本原因。DDR内存价格至报告期内已上涨超过5倍。最新数据显示，单台B300（3TB满配版）中DDR的价值超过84万元人民币，平均每颗GPU需配备逾十万元的内存条以满足数据存储需求。消费级电脑内存价格亦大幅攀升，大部分Windows PC在上月底至本月的涨幅普遍超过60%，主要源于内存条成本上升。而Mac Mini未参与涨价，由此形成显著的性价比优势。此外，苹果电脑基于Linux系统，大量软件可与“龙虾”接口无缝对接，实现日程表、文本等工具的高效管理，并可与手机、iPad实现无缝同步，使用便捷。上述因素共同促成了该机型的市场火爆。

三、智算市场高速发展，存储成为核心瓶颈

中国智算市场自2024年起每年投入超过千亿元。当前字节跳动、阿里巴巴、腾讯三家头部企业每年投入均在1600亿至1800亿元之间，合计约5000亿元。截至2024年，总算力规模已超过1000 EFLOPS（1 EFLOPS相当于1000 PFLOPS）。根据IDC发布的《算力发展评估报告》，算力年增长率超过40%，而存储容量需求的增长更为突出。过去，一台200万元的服务器配备2万元的硬盘已被视为较高成本；目前存储（含硬盘）投入占比10%到15%%，用户仍倾向于增加存储配置以加速计算。2024年的一项典型数据分析显示，当前人工智能发展中的算力与传输能力已不再是系统瓶颈。最新GPU单处理器速度达到每秒1万GB，主流网络传输带宽已从400G提升至800G，GPU互连带宽超过1.8T，未来将达到3.2T。最新的HBM4传输带宽为3350GB/s，而未来光互联可达3200G。真正的瓶颈在于高速固态硬盘：目前市场上最主流的仍为PCIE 4.0时代的硬盘，单盘传输能力最高为7GB/s；即便升级至PCIE 5.0，也仅为11-12GB/s。要满足一块GPU的数据吞吐需求，需要成百上千块硬盘同时提供数据供给。

传统存储架构中，硬盘仅响应CPU指令，缺乏主动性。在大模型与Token经济时代，真正的计算核心是GPU。数据在CPU与GPU之间的反复搬运，相当于一位CEO同时管理数千名员工并逐一分配任务，CPU难以承担如此繁重的调度工作。若采用多台机器扩展，系统故障率与稳定性面临严峻挑战，众多CPU如同多个公司的CEO，协调开销巨大。这正是存储系统成为AI时代最短板的根本原因，也解释了近期存储价格大幅上涨的内在逻辑——计算范式正在向存算融合、存算一体发生根本性转变。存储系统当前承担的具体任务包括：第一，为大模型提供本地数据供给，需要本地硬盘存储用户文档及提示词工程，数据输入后方可执行计算。第二，大模型训练涉及千卡万卡级GPU集群，故障不可避免，因此引入中间检查点技术：每隔数小时保存一次快照，故障时回滚至上一状态。然而，每一轮均需将大量大模型的中间数据写入或读出硬盘，数据搬移已成为最大的资源瓶颈。最先进的国外大模型采用英伟达最新集群超节点，数据搬移时间占比约为10%至15%；国产大模型这一比例达到25%左右，约四分之一，这还是在训练稳定的条件下。在训练初期，数据搬移时间可能占整个训练过程的一半，资源极度不均衡。

四、智算中心架构与互联方案对比

典型算力中心架构拓扑图中，GPU集群分布于两侧，中间密集的互连链路实现单台服务器内GPU之间的高速通信，即显卡间的高速互联。英伟达将其技术称为NVLink或NVSwitch，国内各GPU厂商也有相应的对标方案。在单台服务器内部，多张GPU卡共享统一数据视图，可随时按需存取数据。然而大模型训练与推理通常跨越多台服务器，需要解决服务器之间的GPU互连问题。英伟达给出的方案是通过收购网络公司迈络思（交易金额67亿美元）后推出的跨服务器互连协议InfiniBand。该协议的最大优势在于其高性能无损特性，能够保证两台服务器之间的GPU在访问同一数据时实现近乎无缝的直接调用，无需涉及数据恢复与重传。其代价体现在两方面：第一，功耗显著增加，一台InfiniBand交换机的耗电量为传统光交换机的1.3至1.5倍；第二，成本高昂，一台InfiniBand交换机的价格是中国交换机的三倍以上，目前有价无市。英伟达由此推出DGX整机柜方案，将系统集成于单一机柜内提供服务。国内应对方案采用了ROCE技术，目前已发展至第二代。当前字节跳动、阿里巴巴、腾讯等头部企业在该技术路线上存在差异化竞争，因为ROCE协议允许数据出错，需要恢复与重传。一旦涉及恢复和重传，GPU、CPU、内存、网卡等组件均需执行大量恢复操作。目前国内多家GPU公司分别获得大厂投资，各自形成了独立的技术体系。在交换机层面，各厂商方案不尽相同，无法实现异构端到端的完全兼容。字节跳动、阿里、腾讯均有自主方案，要求GPU厂商配合其网卡完成最快速的恢复与重传。另一种选择是采用最传统的IWAP方案，走传统TCP/IP协议，其优势在于能够连接所有机器，但挑战在于TCP/IP的三次握手机制导致传输代价和延迟数倍于其他方案，GPU可能空转。面向未来智算性能提升，该方案难以持续。2022年，英伟达在推进GPU互连方案时认识到，GPU所处理的数据最终来源于底层的SSD存储阵列。因此，英伟达联合各CPU厂商、操作系统厂商及主机BIOS厂商，推出了GPUDirect Storage技术。该技术的核心逻辑是：最终数据消费者是GPU，应避免CPU充当“中间层”将数据经CPU和内存再转发给GPU。只要是英伟达InfiniBand交换机加英伟达GPU的组合，即可直接向硬盘请求数据。该技术使信息交互与网络通信速度提升2至4倍（精确值为2.3至3.8倍），同时节省30%至40%的能耗。然而，在2022年至2023年GPT尚未广泛普及的阶段，国内大部分GPU厂商仍聚焦于GPU互连优化，未意识到存储侧是数据的最终来源，该协议在国内尚处初期研发阶段。英伟达凭借此技术，专门推出了GB200、GB300等专用整机柜，将技术集成于柜内。该整机柜并非免费提供：第一，原厂GB200、GB300的售价高于散装机器通过网络互联的方案；第二，开启相关功能需额外支付授权费用，例如NVL576节点约需450万至500万美元的门票费，否则无法启用高速的GPU互连及硬盘直通能力。

五、海外存储加速技术进展：从2.0到3.0

针对存储侧的痛点，海外目前正处于从2.0向3.0跨越的时期。2.0阶段的典型公司包括以下几家。第一家是英伟达的御用存储厂商DDN。其核心贡献在于研发GPUDirect技术，绕过CPU直接让硬盘将数据搬运至GPU，从而加速大模型训练与推理等吞吐密集型业务。DDN构建了A3I存储系统，专门作为NVIDIA超节点的核心存储架构。该公司2024年收入超过10亿美元，估值约50亿美元。第二家是以色列公司PLiOPS。该厂商配合DDN的方案，但由于DDN依赖高性能服务器主机及高速GPU进行数据协调与管理（仅负责下发命令，实际传输仍由硬盘和显卡完成），CPU仍需定位数据并运行传统文件系统。类比而言，普通笔记本连接硬盘传输一部电影速度较快，因为批量大数据搬运只需一条命令即可从头到尾完成；而传输金融分析文档或细碎报表文件时速度显著下降，原因是文件系统导致CPU逐一检查每个文件并向硬件发送消息，整体速度下降20至80倍。PLiOPS的解决方案是：不再使用CPU管理文件系统，而是部署加速卡插于存储系统中管理硬盘。每张加速卡管理7块硬盘，绕过文件系统，自行设计“大水缸”机制：每次数据访问时，尽量在固定时间内将水缸填满并贴上标签，整体交给硬盘存储或读取，从而将细碎小文件的读写转化为大块文件的搬移。该技术实测加速数据读写速度8至21倍，理论上限可达100倍。针对“只需一瓶盖水却整缸搬运”的质疑，PLiOPS的逻辑是：当前GPU每秒计算通量已达1万GB，而最快存储仅能提供3000多GB，瓶颈在于搬运而非计算，约有70%的算力冗余。若执行精确筛选，加速卡的成本和复杂度将显著上升；而整缸搬运可充分利用原本浪费的算力。英伟达联合闪迪、AMD向该公司投资2.2亿美元，目前其估值接近10亿美元，成为存储行业热门企业。此外，PLiOPS还推出了“记忆专家”技术：针对大模型对个人化记忆准确性的要求，该技术对数据进行段落大意总结，从硬盘提取核心摘要提供给GPU，由GPU完成最终评分，具有较高价值。第三家公司采用压缩技术。大模型训练与推理过程中的中间数据量庞大，通过压缩可将存储容量减半——原本需要1000块硬盘，压缩后仅需500块，显著降低成本。在硬盘大幅涨价的背景下，该公司为谷歌提供数据搬移服务，利用压缩技术将数据量降至原来的一半，从而降低存储成本。以上为2.0时代海外主推的存储加速技术。3.0时代主要由原厂主导。三星推出了智能存储Smart SSD，目前已发展至第二代。该产品主要面向金融行业高通量实时流式计算及数据库应用，可完全替代惠普的小型机和中型机。海力士推出了近数据计算加速器，插于现有GPU服务器上，专门用于大模型长上下文加速。单卡加速倍数为3.5倍，今年将推出新卡加速11.5倍，该技术属于进存技术。铠侠（KIOXIA）是目前较受关注的厂商。英伟达已宣布与存储原厂联合开发AI SSD，在单个模块上将数据吞吐速度提升10倍，并通过将大平层架构转变为高楼房架构，总体提升100倍，达到每秒1亿次IOPS、约400G带宽，直接以512TB级别的存储替代HBM内存用于推理业务。在2025年3月17日GTC大会发布的Vera Rubin架构中，一个3.5层存储结构将采用该技术，实现网卡直接从硬盘向GPU搬运数据，完全绕过主机的CPU和内存。目前内存价格已上涨至难以持续的水平，该技术路径被视为重要突破方向。

六、DeepSeek与推理侧存力需求爆发

DeepSeek解决的核心问题在于大模型的降本。大模型实现盈利需依赖推理服务，即向下游用户销售Token。下游推理需求对存力的增长具有爆炸性驱动作用，其根本原因在于KV Cache（KV缓存）技术。Transformer架构的原始逻辑是：若将已生成的答案重新计算，文本长度每增加100倍，算力需求将增加1万倍，这一增长曲线在实际系统中不可接受。因此，业界采用的方案是将已计算的每个字元的中间结果缓存于存储空间，后续查询时直接从存储中读取，从而避免平方级的算力增长。基于该技术，对存储侧带宽及存储侧算力的需求呈现爆炸式增长，这也是当前存储价格持续上涨的核心原因。预计到今年，推理将占据整个市场五分之四的份额，因为行业必须实现盈利而非持续亏损。推理侧对存力的需求在2025年至2027年期间存在持续扩张的可能性。推理环节涉及两个概念：预填充，类似于先就诊全科再转诊专科，专科负责在尽量减少对专家干扰的前提下快速输出结果与答案，该环节对存力的需求极大。算力方面，目前已有LPU、GPU、NPU、TPU、DPU等多种方案，业界普遍认为算力存在多元化的解决路径。存力方面目前聚焦两大技术方向。第一个方向是提高访存效率，即缩小模型规模、减少参数量，将数据搬运、计算、字典查询等操作尽量聚合处理。代表性方案包括DeepSeek的“三个臭皮匠顶一个诸葛亮”策略（256个专家中选取8个，每轮路由58层），以及华为的热点汇聚方案。例如，当某一行业或股票出现暴涨时，所有热点问题均集中于同一主题，已有用户获得答案并缓存中间结果，后续查询时所有用户可共享同一组缓存，无需各自占用独立的显卡和内存条。第二个方向是硬件堆叠技术，即进存计算与缓存优化。一种方式是继续采用高带宽内存，但韩国几家存储企业到2027年底的产能基本被美国包圆，国内难以通过合法渠道获得充足供给。国内采用的创新架构为3D堆叠——无法获得HBM的情况下，将内存条垂直堆叠为高层结构。国内在封装技术方面相对海外具有一定领先优势，多家公司正在推进3D封装，将DDR逐层堆叠于算力芯片上层，通过垂直打孔与下方芯片互联，以此解决存储瓶颈。目前两个典型实例：一是苹果的统一内存芯片；二是刚被英伟达以200亿美元收购的GROQ公司，该公司采用以存代算的方式，使用SRAM工艺。最大的挑战在于成本：在最先进的1.8纳米或2纳米工艺下，每GB SRAM的制造成本约为100至150美元，而DDR约为5美元。由于DDR价格涨幅过大，近期各算力厂商均表示，若DDR价格再上涨一倍，行业将全面转向存算一体化方案，以摆脱对韩国存储厂商的依赖。

七、锋行致远的存算融合加速技术

锋行致远拥有自主存算融合加速技术，其基于存算融合架构的芯片具备显著的算效比优势。在法国及中国联通产业互联网的测试中，该芯片功耗低于5W，可实现约40 TOPS的推理性能，体现了高算力、低功耗的特点，是存算一体化架构的先行者，并凭借该芯片获得吴文俊人工智能芯片专项奖。在端到端性能对比中，与华为及英伟达相关主流产品相比，锋行致远在数十种AI算法上的算效比均优于国外竞品两倍以上，最高达到3.7倍。由于其智能硬盘加速模组在芯片内部集成控制单元，距离数据最近，能够完成AI前后处理及应用，运行Transformer大模型的效率较竞品高出两倍以上。

公司的核心技术可概括为以下四点：第一，存算直通技术，与英伟达方案类似，实现性能加速2至4倍，同时节省20%至30%的能耗。第二，智能硬盘支持边存边算，可节省管理成本11%。第三，以存代算，由于所有个人记录均需持久化存储，减少数据外搬可节约成本13%。第四，存算一体架构使AI推理更靠近数据源，从而降低数据访问功耗，实现整体能耗的优化。八、龙虾一体机及集群方案

锋行致远的“龙虾一体机”具备以下核心架构特征：该系统设有外部输入层管理模块、控制接口层（负责模型智能体管理与集群管理）以及消息通道（支持用户命令下发、状态上报及用户反馈）。同时配备网关与会话管理工具，可调度多个智能体协同工作。简言之，锋行致远将传统硬盘改造为“小龙虾”智能存储单元，集数据存储、记忆检索、模型执行器、提示词构建于一体，在保证安全性的同时提升运行效率。系统利用龙虾上下文管理窗口，可调用外部大模型以获得更精准的答案。基于该架构，整个智能体的运行环节可完全卸载至单个硬盘上，从而显著降低主机内存与CPU的需求，而用户接口保持不变。

单个“龙虾”即一个小型智能存储节点。在龙虾一体机集群中，多个龙虾节点协同工作，在大型服务器中相当于为GPU配置了专门的数据预处理与传输单元（类比于厨房中的切配与传菜角色），GPU则专注于核心计算任务（类比于颠勺）。该系统可运行DeepSeek V4的Engram记忆专家模型，也可替代GPU执行MoE专家评分任务。由于整本大模型字典可完整存储于每个龙虾节点上，系统能够智能选择所需字典部分，从而大幅节省主机显存与内存需求：将原本需要8张显卡的配置降至1张，内存容量从原来的2TB以上减少至仅32至64GB，整体业务成本降低90%。九、目标客群与应用场景

锋行致远的定位与客群策略如下：通过在现有普通服务器上加装加速模组，可将其改造为“龙虾一体机”，并搭配分布式多节点“龙虾”服务器集群，实现对多个GPU的统一管理。该方案兼容天数、沐曦、壁仞、燧原动力等国产显卡，既可应用于原有数据中心的智能化改造（IDC向AIDC升级），也可服务于新建智算中心。公司当前首选与运营商合作，推动传统IDC向AIDC的改造，重点覆盖语音外呼、文生图、文生视频、ChatBot及OpenClaw等生态场景下的计算加速。此外，公司配合国产GPU厂商进行大模型市场推广。目前，锋行致远已获得一家上市公司的战略投资，将依托该上市公司的产业生态，共同推动行业计算范式的变革。

【国联民生计算机】信测标准：一季报稳健增长，加速存储布局

事件：信测标准发布2026年第一季度报告，该公司营业收入为1.95亿元，同比增长17.54%；归属于上市公司股东的净利润为4482.18万元，同比增长20.66%；业绩持续稳健增长，收入利润增速均创近三年新高。

公司协转引入产业资本，加速存储全面布局

继早期投资存算一体独角兽锋行致远后和近期成立信测存储后，公司再次协转引入产业资本，持续发力存储布局：

1）锋行致远：对标美国200e/300e美元独角兽DDN/Vast Data，两家美国存算加速独家兽商业模式通常为150-600美元/TB/年（不带存储硬件），通常能够为客户带来数倍到数十倍的数据吞吐量提升。信测标准参股30%，并与多家国产芯片厂开始适配。

2）信测存储：布局海力士颗粒+模组+存储主控芯片为锋行解决方案提供硬件配套。

锋行致远与谷歌TPUv8的SSD直连技术路径一致，有巨大发展空间

谷歌TPUv8t搭配 10T 级 Lustre 托管存储 + TPU 直存技术，百 PB 级数据集直达芯片算力，杜绝数据接入延迟拖慢训练进度，相较第七代 Ironwood TPU，存储访问速度提升10 倍。锋行致远特有的存算一体加速模组，支持存储到AI算力卡数据直通，实现模型KV缓存、本地知识库管理和检索增强生成的全链路加速。

风险提示：技术落地不及预期，行业竞争加剧

根据研报来看公司发展潜力很大，技术负责人从谷歌出来，技术路线与谷歌一致。

免责声明：本网站提供的所有数据及资讯（包括第三方机构提供的信息）仅作交流学习及参考用途，不构成任何投资建议或交易要约‌。

猜您喜欢

发表评论

热门话题

热门文章

最新文章

文章归档

链接信息