2026年4月24日,DeepSeek-V4预览版正式上线并同步开源。百万token超长上下文,Agent能力、世界知识、推理性能,全面领跑国内及开源赛道。两个版本——旗舰版与轻量版——带来的不是一次普通迭代,而是世界AI战略格局的剧变:中国终于打破了美国的AI封锁,英伟达,不再是那个不可一世的垄断者。
沉寂 15 个月之后,DeepSeek 扔出了一张真正的“王炸”。这一次,它不只是卷参数,而是从架构到芯片全面改写游戏规则。
距离 DeepSeek 上一次重磅模型 R1 发布,已经过去了整整 15 个月。
在这段时间里,全球 AI 巨头一刻也没有停下:OpenAI 接连发布了 GPT-5.4 和 GPT-5.5,Anthropic 迭代到了 Claude Opus 4.7,Google 推出了 Gemini 3.1 Pro。
竞争对手们都在拼命往前跑,但 DeepSeek 这次拿出来的东西,依然让整个行业为之一震。
2026 年 4 月 24 日,DeepSeek 正式发布新一代旗舰模型 V4 系列预览版,同步向全球开源。发布即巅峰,V4 迅速登上开源大模型顶流。
此次登场的有两款模型:
· DeepSeek-V4-Pro(旗舰版):总参数 1.6 万亿,激活参数 49B,面向最高难度任务。
· DeepSeek-V4-Flash(轻量版):总参数 2840 亿,激活参数 13B,极致性价比。
两款模型均原生支持 100 万 Token 超长上下文,并采用 MIT 开源协议——这意味着,任何开发者、任何公司都可以自由商用,无需担心授权问题。
V4 的强大,不只是一味堆参数,而是从底层架构做了一次彻底的重新设计。
第一,全新注意力机制 + DSA 稀疏注意力。 V4 在 token 维度进行压缩,结合自研的 DSA 稀疏注意力技术,大幅降低了长上下文场景下的计算量和显存需求。官方数据显示:百万 Token 场景下,推理 FLOPs 降至 V3.2 的 27%,KV Cache 仅需原来的 10%。简单说,跑同样长的上下文,V4 只用不到三成的算力、一成的显存。
第二,流形约束超连接(mHC)。 这个技术解决了超大规模 MoE(混合专家模型)训练不稳定的老大难问题。过去训练万亿参数模型,梯度爆炸、训练崩溃几乎是家常便饭,mHC 从架构层面把这个“定时炸弹”给压住了,让训练可预测、可扩展。
第三,引入 Muon 优化器。 加速模型收敛,训练效率显著提升。同时,V4 在华为昇腾 NPU 平台上完成了细粒度专家并行优化,在通用推理负载场景下可实现 1.50 至 1.73 倍的加速比——同样的国产芯片,跑 V4 比跑其他模型快一半以上。
纸上数据再漂亮,不如实测见真章。第三方评测平台的结果,直接证明了 V4 的实力。
Arena.ai 将 V4-Pro(思考模式)定性为“相较 DeepSeek V3.2 的重大飞跃”,在其代码竞技场中位列开源模型第 3 位、综合第 14 位。
Vals AI 的 Vibe Code Benchmark 中,V4 以压倒性优势拿下开源权重模型榜首,击败 Gemini 3.1 Pro 等闭源模型,较上代 V3.2 实现约 10 倍性能跃升。
不过,短板也同样清晰。在反映深度知识掌握水平的SimpleQA-Verified上,V4-Pro得分为57.9,而Gemini-3.1-Pro高达75.6,差距明显。在HLE(高难度推理任务)上,37.7对比Gemini的44.4,仍有近7个百分点的距离。
在 Agent 能力方面,使用体验优于 Claude Sonnet 4.5,交付质量接近 Claude Opus 4.6 非思考模式,但仍与Opus 4.6思考模式存在一定差距。
数学能力方面,V4同样可圈可点。在竞赛数学基准HMMT 2026 Feb中,V4-Pro-Max为95.2,与Opus-4.6 Max的96.2及GPT-5.4的97.7差距极小;Apex Shortlist得分90.2,超过同场对比的所有模型。
在数学和STEM方面V4进度最快,在知识和事实检索方面差距最远,这一点得到了国际媒体的广泛认可。
DeepSeek 一贯的“极致性价比”传统,在 V4 上不仅延续,而且变本加厉。
· V4-Flash 输出价格为 每百万 Token 0.28 美元(2元人民币),较 Claude Opus 4.7 低逾 99%。
· V4-Pro 输出价格为 3.48 美元,是同级别前沿模型中定价最低的选项之一。
作为对比,Anthropic 的 Claude Opus 4.7 每百万输出 token 定价约 30 美元。跑同样的任务,用 V4-Flash 成本只有 Claude 的 1/100 不到。 而性能上,V4-Pro 甚至在某些维度上反超。
黄仁勋曾感叹“AI 成本每 12 个月降 10 倍,比摩尔定律还猛”。DeepSeek V4 用实际行动证明,这条曲线正在加速冲向终点。
技术架构革新是V4的“明线”,重塑国产芯片产业链则是那条最易被低估的“暗线”。
大模型的瓶颈早已从训练算力转向推理显存。尤其是Agent爆发后,长上下文迅速撑爆GPU显存——推理的第一个瓶颈,不是算力不够,而是记忆与计算争抢同一块显存。这正是国产芯片的致命短板:英伟达Rubin搭载288GB HBM4,而昇腾910B仅64GB。按传统架构,这个差距几乎是死刑。
DeepSeek V4选择不硬拼硬件,而是从架构层面重新定义“记忆”与“计算”的关系。两项关键创新:其一,CSA/HCA混合注意力将1M上下文下的KV缓存压缩至V3.2的10%(Flash版仅7%);其二,Engram架构把静态知识抽入独立内存表,推理时CPU“查字典”、GPU“想逻辑”,两者完全重叠。一个原本需要80GB显存的任务,现在只需8GB。
英伟达的HBM稀缺性被大幅削弱,国产芯片那64GB显存,突然够用了。
这也解释了黄仁勋4月15日的担忧:“如果DeepSeek率先在华为上发布,对美国将是可怕的结果——AI模型被优化为中国硬件最佳,进而推动中国技术成为世界标准。”而DeepSeek恰恰这么做了:V4将提前适配机会独家开放给华为昇腾和寒武纪,技术报告首次将昇腾NPU与英伟达GPU并列,FP4精度与昇腾950PR原生匹配——这是一条被悄悄铺了很久的路。
产业链效应已经显现:阿里、字节、腾讯向华为下单数十万颗芯片;寒武纪完成Day 0适配并开源;沐曦有望2026年扭亏为盈。更深层的变化是利润分配逻辑:英伟达凭借垄断维持70%以上的毛利率,但当一家开源模型大幅降低显存需求、跑通国产芯片、拉低推理成本时,英伟达的定价权不再铁板一块。推理市场——远比训练更广阔——的游戏规则正在被改写。
这就是DeepSeek“曲线救国”的逻辑:不在单卡性能上硬碰硬,而是用系统优化、软硬协同、架构创新重新定义竞争维度。国内厂商都戴着“镣铐”与英伟达同台竞技,而V4证明:戴着镣铐也可以起舞,甚至能跳出一支让对方紧张的舞。
就在 V4 发布的当天凌晨,华为创始人任正非用一封深夜邮件,向外界透露了这场合作的分量。
4 月 23 日 12点 05 分,任正非亲自给 DeepSeek 创始人梁文锋写了一封邮件:
文锋:
我刚刚把这封邮件发给了华为全体员工。
非常高兴看到DeepSeek 团队取得如此突破。你们基于昇腾算力底座训练的DeepSeek V4,走出了中国自己的技术路线,在全球人工智能领域树立了新的标杆。这不仅是技术创新,更是中国在算力基础设施与大模型协同发展的重大里程碑。
请转达我对你们团队的祝贺和感谢!
感谢你们为行业带来了DeepSeek,让我们有了更强大的推理、规划、工具调用能力,打开了更多想象空间。
继续加油,把中国的算力和模型做到极致,打造中国的底座,服务全球开发者!
而在此之前的 11 点 38 分,任正非已经向全体华为员工发送了内部信,宣布 DeepSeek V4 正式对华为全员开放。
亲爱的华为同事们:
由DeepSeek 团队研发的DeepSeek V4,现已正式发布并向全体员工开放!
来自研发、产品、法律、市场、财经,销售、人力、运营等10.000多名同事已率先体验,并反馈:“这改变了我的工作方式。”“它的效果超出了我的预期,DeepSeek V4基于昇腾AI基础软硬件平台训练,采用自主可控的全栈技术体系,具备更强的推理能力、工具调用能力和复杂任务处理能力,标志着我们的AIl能力迈上了新台阶。
DeepSeek 团队在国产算力昇腾上的坚持和突破,令人敬佩。DeepSeek V4 的诞生,是中国AI基础设施与大模型技术深度协同的又一次里程碑。
智能助手可以回答问题,智能体可以自动执行任务。
DeepSeek 不仅面向研发团队。每一位员工都可以使用DeepSeek 智能体,它将成为我们的工作伙伴,帮助我们更高效、更智能地完成工作。
更好...更聪明...更高效...
我们已在深圳、东莞、上海等地设立DeepSeek 实验室,基于昇腾集群持续优化模型能力,后续将陆续推出系列培训与实战分享。
让我们一起加速智能化进程,迎接全面智能化时代的到来!
这不是客套的祝贺,而是战略层面的信号——华为与 DeepSeek,已经进入深度绑定的协同作战阶段。
任正非很早之前就提出过一个著名的战:“单芯片落后美国一代,我们就用群计算补单芯片” 。DeepSeek V4,正是这个战略思想在 2026 年的验证:用工程效率对抗硬件封锁,用架构创新打破算力垄断。
但真正令硅谷坐立不安的,是英伟达 CEO 黄仁勋在 4 月 15 日 的一段播客专访。
当时黄仁勋罕见发飙,当众反驳“芯片是浓缩铀,不该出口给中国”的说法。他直言过度限制无法阻止中国进步,反而会逼中国建立完整的自主生态。
然后他说出了那句后来被无数次引用的话:
“DeepSeek 绝非一个无关紧要的进步。如果 DeepSeek 率先在华为上发布,那对美国来说将是一个可怕的结果。 ”
仅仅九天之后,DeepSeek V4 正式发布,华为昇腾宣布完成首发适配。黄仁勋的“灾难预言”,九天成真。
更戏剧性的一幕随后上演:当地时间 4 月 22 日,美国国会参议院听证会上,商务部长卢特尼克擦着冷汗说出了一句大实话:“迄今为止,中国一块芯片也没买。”
曾经占据中国高端 AI 芯片市场 90% 以上份额的英伟达,如今对华新芯片销量为零;而2025年华为昇腾在国内市场出货量已突破 81.2 万颗。天平,已经肉眼可见地倾斜了。
然而,在 V4 发布的喜庆气氛中,一个不容回避的阴影也浮出水面——DeepSeek 正在经历一场罕见的人才流动潮。
过去一年年,多家人工智能头部公司开出 2 到 3 倍的薪酬 挖角 DeepSeek 核心员工。一批曾参与打造 V 系列模型的骨干,纷纷被竞争对手收入囊中:
· 王炳宣,DeepSeek 核心算法成员,被腾讯挖走;
· 罗福莉,DeepSeek 早期技术骨干,入职小米 AI 实验室;
· 郭达雅,深度参与 V 系列训练的关键工程师,入职字节跳动 Seed 团队。
这看起来像是一场危机,但换个角度理解,这恰恰是另一种形式的胜利——DeepSeek 的人才,正在成为中国 AI 产业的公共财富。
当你的员工被腾讯、小米、字节跳动以 2-3 倍薪资争抢,这本身就是最直接的信号:DeepSeek 培养的人才,是行业公认的顶尖水准。这群“DeepSeek 系”工程师,正在把 DeepSeek 的技术理念和工程方法论,像蒲公英种子一样播撒到中国 AI 产业的各个角落。
一位行业观察者如此评价:“OpenAI 的人才流向了 Anthropic、Google、微软,造就了今天美国 AI 的繁荣格局。DeepSeek 的人才流向腾讯、小米、字节,正在复制同样的路径。这不是人才流失,这是中国 AI 的水系灌溉。 ”
在 DeepSeek 沉寂的这 15 个月里,全球 AI 巨头一刻也没有放松。
OpenAI 的 GPT-5 迭代了四轮(5.1→5.5),Anthropic 的 Claude 迭代了三代(4→4.7),Google 的 Gemini 也来到了 3.1 Pro。但有趣的是,每一次迭代,都在拉高成本,而非降低门槛。
与此同时,中国 AI 战场也在发生翻天覆地的变化:
· 字节跳动旗下豆包月活用户冲上 3.31 亿,成为中国用户量最大的 AI 应用;
· 智谱 AI 和 MiniMax 双双登陆港交所敲钟,成为资本市场认可的成熟玩家。
国内 AI 应用层正在以惊人的速度扩张和商业化。但底层模型能力的“平权化”——让所有开发者都用得起顶尖模型——才是决定终局的关键。而 DeepSeek V4-Flash 每百万 token 只要 0.28 美元,恰恰打在了这个命门上。
DeepSeek V4 的发布,对中国 AI 产业是一剂强心针,但也意味着行业洗牌的加速。
最惨烈的数据已经浮现:2026 年第一季度,已有超过 10 家 AI 应用初创公司停止运营或转型,超过 300 家中小 AI 公司因现金流断裂停止运营。 AI 领域种子轮融资额同比下滑 11%。
而这仅仅是开始。资本已经绝不给“可能性”买单,只给“确定性”下注。行业不再崇拜参数规模,只认算力投入产出比。
V4 的登场,为这一切矛盾的爆发按下了快进键。面对 Claude Opus 4.7 的高昂定价和 DeepSeek Flash 版 0.28 美元的价格,那些还在单纯拼模型能力、缺乏自研芯片支撑、没有自有算力军火库的 AI 创业玩家,面临的无疑是一场窒息。
大批本就烧不起钱的 AI 公司,将被挤出牌桌。正如一位投资人所言:“2026 年不准备再投软件了——软件有一个算一个,商业模式都跑不通。”
V4发布稿结尾,DeepSeek引了一句荀子:“不诱于誉,不恐于诽,率道而行,端然正己。 ”
这句话,几乎是梁文锋本人的写照。过去一年多,DeepSeek经历了过山车般的起伏:2025年初爆火后被捧上神坛,随后因长时间没有“大招”又被质疑“后继乏力”。掌声和嘘声都来得极快,但梁文锋始终活在自己的节奏里。
在DeepSeek内部,他不做融资、不参加团建、不打卡、没有明确的绩效考核,多数员工下午六七点就离开公司。在他看来,一个人每天高质量工作的时间很难超过6到8小时,加班疲劳下的昏庸判断反而会浪费宝贵的算力资源。接近他的人说:“他是一个特别抗噪音的人。”
这种抗噪音的能力,解释了DeepSeek为何没有乘胜追击,而是埋头深耕效率优化、架构改进和一些“非主流”探索。梁文锋的AGI目标有两层含义:一是基于国产生态来做大模型,他曾问“能不能用现存的一部分算力,就实现现在所有的智能”;二是做“原创式创新”,做一些大厂或创业公司不会去试、不愿去试的方向。
V4的发布,正是这种“抗噪音”哲学的果实——不急不躁,在技术成熟度、生态适配和成本重构都到位的节点,一击中的。
也正是这一刻,中国AI产业正式从“追随者”迈向了“规则制定者”。
DeepSeek V4的意义远不只是一次模型迭代——它证明了至少三件事:
第一, 不需要依赖英伟达最新芯片,中国人也能跑出世界级的AI大模型;
第二, 算法创新可以弥补硬件差距,“以算法代芯片”不是口号,而是可复制的路径;
第三, 中国AI产业已经拥有了属于自己的算力底座、技术栈和开源生态。
当模型是自己的,代码是开源的,芯片是国产的——“软硬协同,自主可控”的全新路径就已经走通了。
而当DeepSeek的人才如蒲公英般播撒到腾讯、小米、字节——那不是流失,那是中国AI的火种在蔓延。
截至2026年4月,斯坦福大学《AI指数报告》显示,中美大模型性能差距已收窄至2.7%。这个数字背后是两种路径的较量:美国走“算力堆叠+商业驱动”,中国走“架构创新+系统优化”——在算力受限、芯片被卡的逆风局里,榨出更多的智能。
此刻,OpenAI的凌晨发布依然精美专业,但DeepSeek的清晨回掷更显锐气逼人。字节豆包月活3.31亿,智谱和MiniMax敲钟上市,GPT-5迭代了四轮又如何?Claude进化了三代又怎样?
中美都坐在AI牌桌上,但谁在洗牌、谁在跟牌——主动权,已经不在华盛顿手中了。
注:本文由DeepSeek辅助完成。