谷歌大会最大预期差:云天励飞----中国唯一的NPU实力公司~

DeepSeek V4马上就要发布了,大概率就是4月内。4月8号他们网页端已经悄悄更新了专家模式,灰度测试都开了,业内都懂,这是正式版前的最后一步。这波行情炒的是什么?不是模型参数有多强,而是推理算力需求要爆,谁家的芯片能接住。翻了一圈,发现有一家公司的卡位,有点意思。

一、DeepSeek V4来了,云天励飞为什么是第一个被点名的?

说个很多人没注意到的细节。DeepSeek V4还没正式上线,但提前访问权已经放出去了,而且只给了国产芯片厂商,英伟达、AMD都没拿到。这不是小道消息,The Information报过,DeepSeek过去几个月跟华为、寒武纪、云天励飞这些公司一直在做底层适配,美国芯片供应商压根没进名单。

这意味着什么?意味着过去国外芯片跑开源模型的路径依赖,正在被打破。DeepSeek在用实际行动告诉市场:国产芯片,我优先适配。

那谁是第一批吃到这个红利的?云天励飞。

早在2025年1月DeepSeek R1出来的时候,云天励飞就是首批完成适配的国产芯片企业。到了V4,公司已经在积极准备适配了。这不是临时抱佛脚,是从研发阶段就绑定的深度协同。更直接的证据是:2月24号DeepSeek开源周发布了FlashMLA这个代码库,云天励飞团队几天之内就在DeepEdge10平台上完成了适配,还用上了Op fusion tiling这些先进技术,计算效率大幅提升。这种响应速度,说明两家技术栈的契合度非常高。

但这些还只是技术层面的。真正让云天励飞从适配商变成V4概念股第一梯队的,是湛江那个4.2亿的项目。

湛江是谁的地盘?DeepSeek创始人梁文峰的家乡。当地2025年初就已经用国产技术栈把DeepSeek-R1部署到了政务云上。这次的项目更猛,4.2个亿,建的是中国首个全栈国产AI推理千卡集群。一期先上X6000推理卡,二期干到3000卡,三期规划5000卡。这个集群不做训练,专做推理,搭载DeepSeek大模型,直接服务政务、海洋经济、现代农业这些行业。而中标联合体里,提供芯片的就是云天励飞

你看明白了吗?别的公司还在讲我们适配了DeepSeek,云天励飞已经把DeepSeek跑在自己的芯片上,卖进了梁文峰老家的政务系统里。这就是最硬的背书。

所以市场给云天励飞的标签特别统一:DeepSeek V4推理端首选芯片之一。不是因为它PPT写得好,是因为它手里有订单、有落地、有9000卡的规划量级。V4发布后推理算力需求会爆,而云天励飞已经用真金白银的项目把位置卡住了。

这就是外部红利最实在的地方,不是你去找红利,是红利来找你的时候,你已经坐在那儿了。

二、光有外部红利不够,云天励飞自己手里也有硬牌

V4的红利再大,你自己接不住也是白搭。那云天励飞手里到底有什么牌?

你先看国产芯片这个赛道,现在是什么局面。华为昇腾是扛把子,但主要走训推一体,资源倾斜给大厂和科研机构;寒武纪有技术底子,但商业化落地一直磕磕绊绊;海光走CPU+GPU路线,生态偏传统。那谁在推理这个方向上卡位最狠?你翻一遍名单,云天励飞可能是唯一一个把推理超车四个字写进战略、并且已经拿出具体产品路线和落地项目的。

今年2月3号那场战略会,很多人没当回事,但细节非常狠。他们提了一个公式叫GPNPU,拆开就是GPGPU的通用性加上NPU的高效率,再加3D堆叠存储解决带宽瓶颈。说白了就是既能让客户像用英伟达一样写代码,又能在推理任务上把成本打下来。目标是多少?百万tokens推理成本降到一分钱,三年内再降到0.1分钱。这个数字不是随口说的,现在行业平均大概是几毛到一块钱,如果能干到一分钱,那大模型应用就从富人游戏变成水电煤了。

然后看产品,他们规划了三代。2026年先出一颗P芯片,专门处理长上下文预填充,算力对标英伟达Hopper,就是H100那一代。2027年出D芯片,优化推理时延,对标Blackwell。2028年第二代D芯片,瞄准Rubin。而且第一颗芯片DeepVerse100年内就要流片,流片后直接塞进湛江那个千卡集群的二三期。你对比一下国内其他做推理芯片的公司,有几家敢拿出这么清晰的代际对标?

再说软件生态,这才是真正的护城河。国产芯片被骂最多的一句话就是有算力没生态,客户买回去发现跑不了自己的模型。云天励飞这次做了一个很聪明的设计:GPNPU指令集兼容英伟达的SIMT编程范式,软件栈直接支持CUDA和Triton。效果是什么?一行import代码就能把模型从英伟达显卡迁到他们的芯片上。不需要重写、不需要移植,几乎零成本迁移。这个事如果真的大规模推开,那英伟达的软件护城河就被撕开了一道口子。

至于现有产品,DeepEdge10系列早就量产了。64Tops算力,32GB内存,Chiplet架构,已经卖给机器人、边缘网关、服务器的客户了。深空探测实验室的星载计算都在用。更重要的是产能,公司高管公开说过,他们是国内为数不多手里有充足国产产能保障的芯片企业。这话翻译一下就是:别家还在抢产能,我已经把产线锁死了。

所以你看,整个国产芯片版图里,云天励飞的位置其实很特殊。它不是最大牌的,但它是极少数同时满足四个条件的:有推理专用路线、有对标国际的代际规划、有打破CUDA生态的软件方案、有已经落地的亿级项目。再加上DeepSeek V4这个外部催化剂,它的卡位就变成了别人蹭概念,它收订单。

三、协同催化:当“国芯”遇上“国模”,化学反应在哪?

你可能觉得,V4是V4,云天励飞是云天励飞,各干各的。但这两件事绑在一起,产生的不是加法,是乘法。

先说一个最直接的问题:V4的推理成本怎么降下来?V4的上下文窗口是1M token,比V3大了近8倍;多模态、编程能力全面升级。这种模型跑起来,如果只靠通用GPU硬扛,算力成本和电费会高到离谱。DeepSeek之所以要优先绑国产芯片,不光是自主可控的政治正确,更因为只有和底层芯片做联合设计,才能把推理成本真正打下来。

云天励飞的GPNPU架构恰好踩在这个点上。3D堆叠存储解决带宽瓶颈,PD分离设计把Prefill和Decode拆成不同芯片优化。这不是通用GPU那种什么都能跑但什么都不极致的路子,而是针对V4这种超长上下文、访存密集的推理任务做的定制。结果不是简单的能跑,而是推理成本相比通用GPU再降一个数量级。公司喊的“百万Tokens一分钱”,靠的就是这种软硬一体的联合优化。别的芯片跑V4可能只是兼容,云天励飞跑V4是优化到极致。

反过来,V4也在倒逼云天励飞的芯片迭代。你看它的路线图:2026年先出P芯片,专门解决长上下文的预填充问题,这不就是冲着V4的1M窗口来的吗?2027年出D芯片,重点优化推理时延,这不就是冲着大模型实时交互来的吗?这个三年三代的路子,本质上是被V4这类模型逼出来的。没有V4,它的芯片可能还在走通用推理的老路;有了V4,它知道自己该往哪个方向钻。

更妙的是,这种绑定会形成正循环。云天励飞的芯片在湛江项目里跑通V4后,会沉淀出一套最佳实践,什么样的算子效率最高、什么样的显存分配最省、什么样的调度策略最快。这套经验会反哺给DeepSeek生态,让V4在更多国产芯片上也能跑得好。反过来,DeepSeek每升级一版,又会给云天励飞提出新的优化方向。这不是一锤子买卖,是互相喂饭的关系。

再说一个你可能没想过的角度:样板间价值。

过去国产替代的逻辑很简单:用国产芯片替代英伟达,用国产模型替代GPT。但问题是,每个客户都要自己折腾适配、调优、验证,周期长、风险大。现在V4+云天励飞的组合,已经在湛江跑通了,政务云、海洋经济、现代农业,全是真实场景。这意味着什么?意味着当其他政府、国企、金融机构要搞国产AI时,不需要自己从头拼凑方案,直接复制湛江模式就行。云天励飞卖的不是芯片,是已经被验证的国产推理一体化解决方案。这个“样板间”的价值,比多卖几万颗芯片大得多。

最后说一个核心问题:全市场找一圈,还有没有第二家这样的公司?

华为昇腾很强,但它更多是自用,而且没有深度绑定一个像DeepSeek这样开源的头部大模型。寒武纪有技术,但商业化落地一直磕磕绊绊,没有亿级项目验证。海光走CPU+GPU路线,生态偏传统,推理方向不是主攻。云天励飞是A股中唯一同时满足四个条件的:自研推理芯片、深度适配DeepSeek全系列(含V4)、已有亿级全栈国产项目落地、有清晰的对标国际的代际路线图。

这种双绑定的稀缺性,给你一个不对称的收益结构:如果V4成功了,云天励飞是绕不开的推理硬件,需求会爆;如果V4不及预期,公司还有自己的芯片路线图和湛江项目托底,不至于归零。向上的弹性足够大,向下的风险相对可控。这才是协同催化最核心的投资逻辑,不是赌一个事件,而是赌一个趋势里的卡位。

说穿了,云天励飞这轮的核心逻辑就三句话:DeepSeek V4优先适配国产芯片,它是第一批;自己有三年三代的对标英伟达的推理芯片路线图,不是空壳;两者已经在湛江4.2亿的项目里跑通了全栈国产化闭环,A股里同时满足自研推理芯片+深度绑定头部大模型+亿级项目落地的公司,你找不出第二家。V4上线在即,推理算力需求要爆,它已经把位置卡死了。这就是为什么在这个时间点,它值得多看一眼。

免责声明:本网站提供的所有数据及资讯(包括第三方机构提供的信息)仅作交流学习及参考用途,不构成任何投资建议或交易要约‌。