DeepSeek-V4震撼发布!协手华为昇腾打破算力垄断

2026-05-05 39 0
DeepSeek-V4震撼发布!协手华为昇腾打破算力垄断

DeepSeek与昇腾的深度协同,证明了“国产模型+国产算力”不仅走得通,而且走得快。


文|王雅迪
ID | BMR2004


4月24日,DeepSeek-V4模型正式发布并开源,其拥有百万Token(词元)超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。此次发布中,国产算力华为昇腾一直同步支持DeepSeek系列模型,通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek-V4系列模型。华为正通过鸿蒙生态与昇腾云端的协同,将“词元精炼”(提升大语言模型理解能力和效率的底层关键技术之一)能力延伸至端侧。


昇腾方面向《商学院》表示,2026年的AI世界正在被多重浪潮重塑,OpenClaw(龙虾)开源Agent框架引爆了全民“养龙虾”的热潮,AI从会话逐步迈向生产;在词元经济的趋势下,推理算力需求呈指数级爆发;AI正从单一任务执行向复杂场景自主决策演进。这一切背后,开发者才是真正的创造者。


对此,昇腾正将自身的新功能、新特性持续回馈开源社区,对DeepSeek系列、Qwen系列等超70个全球与国产主流大模型实现Day 0适配与全链路优化,实现开源模型“发布即支持”,开发者可第一时间获取最新技术,快速落地训练与推理创新。同时,昇腾根据词元的信息密度动态调配资源,从“硬件输出多少Token”到“每一分算力产出多少有效智能”的管控能力,让企业有条件从追求吞吐量的粗放模式,转向核算“单位词元投入产出比”的精细运营。


01

DeepSeek-V4技术架构打破词元成本墙


DeepSeek不再盲目追求性能,而是更加注重走效率路线。


DeepSeek此次发布包含两款模型,即DeepSeek-V4-Pro与DeepSeek-V4-Flash,采用了MoE(混合专家)架构,总参数规模达到1.6T(激活49B)与284B(激活13B),并统一支持最长100万词元上下文。


DeepSeek-V4-Pro主打性能上限,对标闭源旗舰模型;而DeepSeek-V4-Flash则在参数规模与激活规模上大幅缩小,换取更低延迟与更低成本。后者模型参数下降至284B,推理成本进一步降低,能够提供更加快捷、经济的API服务,实现百万上下文普惠。


知名经济学者、工信部信息通信经济专家委员会委员盘和林向《商学院》表示,高效长上下文推理是DeepSeek的重要卖点,的确有显著的效率提升,DeepSeek不再盲目追求性能,而是更加注重走效率路线。这将降低长篇文档分析的门槛,未来会在可视化研究报告生成、长代码生成等方面创造更多词元需求,为科研论文、金融研报、法律文本的长文书写场景提供有效辅助。


据官方技术报告,在100万词元上下文设置下,V4-Pro的单词元推理FLOPs(用于衡量模型计算负担‌)仅为前代V3.2的27%,KV缓存(用于加速大型语言模型推理过程的关键技术)占用降至10%;V4-Flash更为极致,两项指标分别压低至10%和7%。


DeepSeek官方同时说明,受限于高端算力,目前DeepSeek-V4-Pro的服务吞吐量十分有限,预计下半年昇腾950超节点批量上市后,其价格会大幅下调。此外,DeepSeek-V4已获得寒武纪Day 0适配支持,相关适配代码已开源至GitHub社区。


02

Day 0适配意味着什么?


DeepSeek-V4发布当天就能在昇腾上跑起来,甚至比国际部分硬件的适配速度还快。


在DeepSeek-V4模型推理部署上,昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的效果。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。


华为开发者联盟学堂认证讲师、深圳市蛟龙腾飞网络科技有限公司CEO兼CTO李洋向《商学院》表示,这是词元经济从“奢侈品”走向“工业品”的质变节点。


DeepSeek-V4发布当天就能在昇腾上跑起来(Day 0适配),甚至比国际部分硬件的适配速度还快。在李洋看来,这对企业意味着两点:


一是规避“算力通胀”风险,过去依赖海外高端硬件,一旦供应受限,算力价格飞涨,会导致按词元计费的商业模式直接崩盘,因为成本无法覆盖售价。昇腾实现了“平替”甚至“优替”,为企业提供了一个稳定的“算力价格锚点”。当企业知道国产算力池充裕且成本可控,才敢放心地开发那些需要巨量词元消耗的超级应用。


二是构建自主可控的词元供应链,中国日均140万亿的词元调用量,如果都跑在不可控的供应链上,风险是巨大的。DeepSeek与昇腾的深度协同,证明了“国产模型+国产算力”不仅走得通,而且走得快。这构建了国内词元经济的“内循环”底座,保障了数据不出域、算力不断供,这是央国企和金融客户敢于进行AI转型的战略基石。


昇腾的算力底座是硬件设备,生态底座则是CANN(Compute Architecture for Neural Networks,昇腾AI的核心基础软件平台)。CANN于2018年发布,至今已7年多,即将迎来发展拐点。这几年间,行业经历了多轮技术浪潮,从ChatGPT到DeepSeek,再到如今的Agent技术,每一波浪潮都推动算力需求升级,昇腾的硬件也在持续迭代优化。


目前,CANN软硬件架构升级,例如CANN组件分层解耦,支持上层模型、应用插件化灵活调用。同时,CANN开发体验升级,匹配业界习惯,CANN开源系统的昇腾算子编程语言体系,全面兼容业界主流的算子编程框架,并配套完备调试调优工具链。无论是追求极致性能的资深专家,还是希望快速上手的新开发者,都可以找到最适合自己的开发路径。


李洋认为,在HarmonyOS和OpenHarmony的分布式能力支撑下,未来企业不仅可以在云端调用大模型,还能在终端设备上实现部分词元处理的本地化分流,进一步降低长文本场景下的网络延迟和算力成本。


技术价值可转化为显性收益,通过昇腾芯片底层的融合算子优化,结合DeepSeek-V4自身的KV Cache滑窗与压缩算法,极大降低了长文本场景下的计算访存开销。对于用户而言,这意味着虽然读了一本《三体》体量的数据,但支付的词元费用可能只有过去的几分之一。这种“降本”就是最直接的商业收入。


03

昇腾原生的确定性


华为的壁垒在于其提供的不仅是芯片,而是从CANN软件栈到CloudMatrix架构的全栈系统。


生态建设的核心是“好用、易用”,功能适配只是基础,更要做到人性化、便捷化。全球AI领域暂无固定标准,技术迭代速度极快,昇腾的核心策略是持续对接90多个主流开源项目,未来拓展至百余个,保持双向支持率稳定在95%以上;逐步将昇腾原生特性融入上层软件,提升自主技术占比,构建自主生态壁垒,这是其长期目标。


华为昇腾计算业务副总裁张良坦言:“生态建设的难点在于,全球90多个主流开源项目多由海外团队主导,推动这些社区支持昇腾硬件难度极大。以往技术特性只能通过插件形式接入,社区不接受原生整合,版本发布前也不会在昇腾硬件上做测试。经过长期技术沟通与对接,我们现已成为国内首个获得Triton原生认证的后端,逐步实现主流社区的原生支持。我们核心推进‘双向支持’:昇腾全面兼容开源社区软件特性,同时推动开源社区支持昇腾原生特性。”


从“能用”到“好用”的体验差,市面上很多竞品提供的是“标准GPU算力”,模型跑起来容易,但要跑得快、跑得稳,需要企业自己去调。而华为通过“芯模联动”,在昇腾芯片上针对DeepSeek-V4的MoE架构做了大规模专家并行的极致优化,同样的模型在昇腾云上的首词元延时(TPOT)表现往往低于其他平台,这种毫秒级的差距在智能客服等场景下,直接决定了转化率。


与此相呼应的是,鸿蒙生态的分布式能力正在为这种低延时词元服务提供更广阔的应用场景。基于HarmonyOS和OpenHarmony的物联网设备可以通过统一的数据通道,将端侧产生的海量文本数据高效接入昇腾云推理服务,形成“端云协同”的词元经济闭环。


李洋将华为的护城河定义为“昇腾原生的确定性”。壁垒的本质是“容错率”,大企业不缺算力,缺的是“容错率”。他们害怕因为供应链波动导致API中断,害怕因为算力调度不均导致业务高峰期卡死。


因此在他看来,华为的壁垒在于其提供的不仅是芯片,而是从CANN软件栈到CloudMatrix架构的全栈系统,这种深度协同让其能承诺更稳定的SLA(服务等级协议)。这种对业务连续性的保障,是单纯卖算力的厂商难以短期复制的。从更宏观的视角看,华为通过鸿蒙+昇腾的双轮驱动,正在打造从操作系统到底层算力的全自主技术体系,这种体系级的协同效应是任何单一环节优化都无法替代的。同时,HarmonyOS和OpenHarmony社区吸引了大量开发者和行业伙伴,进一步强化了华为在词元服务交付上的生态纵深。


04

从“拼量”到“拼质”的阵痛期


词元经济开始摆脱“烧卡跑量”的粗放逻辑,走向以价值密度为锚、以投资回报为尺的精细化运营新阶段。


当前,词元经济正处在从“拼量”到“拼质”的转折阵痛期。过去习惯用“吞吐量”来衡量模型能力,仿佛每秒生成的词元越多就越强大,但高吞吐下往往充斥着大量冗余、漂移甚至幻觉的内容,生产得越多,用户反而越要为过滤噪声付出隐性成本。真正的价值密度,必须从“吞吐量”转向“有效吞吐量”和“单位词元ROI”。


正如此次DeepSeek-V4与华为的协同所揭示的,V4通过压缩稀疏注意力等技术,把百万词元长上下文中的无效计算压至极低,天然抬高了有效词元的占比;昇腾则通过超节点联合定义与算子级深度适配,将每一次推理的能耗精确映射到单个词元的生产上,让“每词元花多少钱”变得清晰透明。这种转变意味着,词元经济开始摆脱“烧卡跑量”的粗放逻辑,走向以价值密度为锚、以投资回报为尺的精细化运营新阶段。


李洋认为,应当引入三个关键指标来去伪存真:一是任务完成率/解决率,衡量的是“多少词元的消耗成功解决了一个工单”或“完成了一次代码生成”;二是每词元业务价值,只有将词元消耗与具体的KPI挂钩,才能区分“无效闲聊”和“有效生产”,例如在广告营销场景,每消耗1万词元能带来多少点击率提升;三是缓存命中率与计算有效率,这是技术侧指标。高水平的词元经济应该是“少计算、多推理”。


鸿蒙与昇腾正形成“端侧场景定义词元价值、云侧算力决定词元成本”的双轮驱动闭环,为词元经济的精细化运营提供了不可替代的结构性助力。具体来看,鸿蒙为词元经济注入“需求端的价值尺”,昇腾为词元经济提供“供给端的成本尺”,双轮运转使得企业和开发者可以在“每词元投入多少算力、每词元在端侧创造多少用户价值”的双轴坐标系里精细调度资源。


张良指出,针对企业普遍担心应用迁移成本高、适配周期长的问题,昇腾的核心举措有三点:第一,自建模型生态社区,提前完成海量模型适配,降低企业自行适配成本;第二,打造Agent自动化工具,实现傻瓜化适配部署,解决企业AI人才短缺问题;第三,归纳行业成熟方案,封装为标准化镜像,简化落地流程。


当资本不再问“你们日均调用多少词元”,而是问“你们解决一个用户问题的平均词元成本是多少”时,行业就完成了从“拼量”到“拼质”的切换。此外,当用户不再惊讶于OpenClaw的“天价账单”与完全不可控的时间精力消耗而达不到预期时,而是能以可预测的低成本完成复杂任务时,词元经济才算真正成熟。


李洋表示,鸿蒙生态的成熟,正是这种“可预测低成本”的重要保障——通过统一的端侧AI框架和分布式能力,企业可以在鸿蒙设备上以标准化的方式调用大模型能力,大幅度降低应用开发和集成的边际成本。


张良则透露,今年面向普通个人开发者,昇腾在原有亿级激励基础上,额外设立2000万元专项激励基金,覆盖算子开发、框架优化、模型适配、创新应用等方向,资金使用方式灵活,用完即追加;同时提供4000卡免费算力资源,全部面向AtomGit社区开发者免费开放。


此次,DeepSeek-V4与华为昇腾的合作,证明了国产AI基础设施已具备承载世界级模型的能力,也为产业链上下游的深度协同提供了一个可参照的样本。


来源|《商学院》杂志5月刊

我也说一句

已经有条评论

全部评论

    上一篇:2026年5月刊卷首语丨词元经济:一个新时代的分水岭

    下一篇:“专精特新”:中小企业破局突围的新质生产力路径

    QQ空间 新浪微博 豆瓣网 微信

    请先来登录吧

    没有经营者账号?立即注册
    忘记密码?

    请先来注册吧

    已有经营者账号?立即登录

      报名成功!

      请保持手机正常使用,我们会随时与你联系确认

      知道了

      加入班级成功!

      请保持手机正常使用,我们会随时与你联系确认

      知道了