2026年4月25日

Deep News

'DeepSeek V4 不追 benchmark 第一了,它去解决 AI Agent 真正的瓶颈'

DeepSeek V4 有 1.6 万亿参数和 100 万 token 上下文,但真正的创新不在这些数字。它用混合注意力架构把长上下文推理成本降到 V3.2 的 27%,KV 缓存降到 2%。这是第一个为 Agent 工作流而非聊天场景设计的开源模型。

DeepSeek · AI模型 · 开源 · AI Agent · 技术分析

摘要

DeepSeek V4 昨天发布,两个版本:V4-Pro(1.6 万亿参数,490 亿活跃)和 V4-Flash(2840 亿参数,130 亿活跃)。100 万 token 上下文窗口,开源权重。Benchmark 数字有竞争力但不是 SOTA——知识推理落后 frontier 模型 3-6 个月。

但 benchmark 不是重点。HuggingFace 的技术分析说得很直白:"The real innovation is how DeepSeek v4 is designed for efficient large context length support, and hence as one of the best candidates for agentic tasks."翻译过来:这是一个为 Agent 工作流而不是聊天场景设计的模型。它解决的不是"模型够不够聪明"的问题,是"聪明模型跑 Agent 任务时怎么不把自己跑崩"的问题。


Agent 跑长任务为什么会崩

用前沿模型跑一个长 Agent 任务——比如在 SWE-bench 上修一个跨多个文件的 bug,或者多步浏览会话——它会以可预测的方式失败:上下文超过预算,KV 缓存占满 GPU,工具调用的往返在任务中途开始劣化。每一步工具调用都会往上下文里追加内容,此后每个新 token 都要为之前所有 token 付注意力计算的代价。

两个数字决定了一个模型能不能跑长 Agent 任务:单 token 推理的 FLOPs 和 KV 缓存大小。两个都随上下文长度线性增长。100 万 token 的上下文窗口,如果用传统架构,推理一次就能把大多数 GPU 的显存吃干。

DeepSeek V4-Pro 的解决方案:单 token 推理只需要 V3.2 的 27% FLOPs,KV 缓存只需 10%。V4-Flash 更狠:FLOPs 降到 10%,KV 缓存降到 7%。如果和主流的 grouped query attention(8 头,bfloat16)比,DeepSeek V4 的 KV 缓存大约只有 2%

这些数字意味着什么?同一个 GPU 上,V4 能跑的上下文长度是传统架构的 50 倍。这不是"快一点",是"从跑不动到跑得动"的质变。

算一笔具体的账。一个 SWE-bench 任务,Agent 需要读 10 个源文件(平均 500 行)、执行 20 次工具调用、维护推理链。上下文在任务结束前大约到 80-100 万 token。用传统架构,这需要一张 H100 80GB 全部用来存 KV 缓存——推理都还没开始。用 V4 的架构,KV 缓存只占约 2%,同一张 H100 还能跑其他任务。


混合注意力:两种压缩,交替使用

效率提升的核心是两个注意力机制的交替:CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)。

CSA 把 KV 条目在序列维度上压缩 4 倍——用 softmax 门控池化加学习位置偏置,把每 4 个 token 压成 1 个。然后用一个 FP4 精度的闪电索引器(ReLU 评分的多头点积)选出最相关的 top-k 压缩块。最近 token 保留原始精度,走滑动窗口分支。

HCA 压得更狠:128 倍。不做稀疏选择,每个 query 对所有压缩块做密集注意力。因为序列被压到足够短,密集注意力的成本也可以接受。

61 层网络里,这两种机制交替使用。不同层需要不同的注意力模式——有的需要精确回忆近处 token,有的只需要远处的大致轮廓。强制所有层用同一种机制会浪费容量。

两个路径都用 FP8 存储大部分 KV 条目,只有 RoPE 维度用 BF16。CSA 内部的闪电索引器跑在 FP4。这些精度选择和压缩比例叠加在一起,得到了 2% 的 KV 缓存数字。

还有一个容易被忽略的细节:V4-Pro 的 61 层中,residual connection 被 manifold-constrained hyper-connection(mHC)替代。这不是注意力机制的改进,而是梯度流的改进。在 61 层的深度和 MoE 架构下,传统残差连接容易出现梯度消失或不稳定。mHC 通过在流形空间中约束连接权重来稳定训练。这不是论文的主角,但它是让 1.6T 参数的模型能成功训练出来的底层支撑。

架构选择不是免费的午餐。128 倍压缩意味着信息损失。DeepSeek 自己承认知识推理 benchmark 落后 frontier 3-6 个月——这可能就是代价。但如果你跑的是 Agent 任务,你更关心的是"能不能在 100 万 token 的上下文中可靠地找到工具调用的结果",而不是"能不能回答冷知识问题"。

HuggingFace 的分析用了一个精准的区分:V3.2 的稀疏注意力是在原始序列上做选择,V4 的 CSA 是在已经压缩了 4 倍的序列上做选择。搜索空间缩小了,但选择精度并没有同比例下降——因为压缩用的是学习到的池化,不是简单的截断。模型学到了哪些信息可以丢、哪些必须留。这是"主动遗忘"而不是"被动丢失"。


三个为 Agent 设计的后训练决策

高效长上下文注意力是必要条件,但不够。V4 论文描述了三个直接针对 Agent 用例的后训练和基础设施选择。

跨工具调用的连续推理

V3.2 在每个新用户消息到达时丢弃之前的推理链。对单轮聊天没问题。对多轮 Agent 工作流——用户在 Agent 已经链式调用了多个工具之后发一个跟进消息——模型丢失了所有累积推理,得从头重建状态。

V4 改了:当对话包含工具调用时,推理内容跨用户消息边界保留。模型持有完整的推理历史,包括跨用户轮次的历史。对没有工具的普通对话,旧行为保留——每轮清空推理链以节省上下文空间。

XML 工具调用格式

V4 引入了 |DSML| 特殊 token 和基于 XML 的工具调用格式。XML 格式减少了嵌套引用内容的转义失败——这是 JSON 格式在模型输出嵌套引号内容时的常见失败模式。格式还区分了字符串参数(直接传递)和结构化参数(JSON 解析),消除了数字和布尔值解析错误的一整类问题。

DSec:为 RL 训练建的沙箱

Agent 行为通过 RL 在真实工具环境中训练。这不是模拟——模型在训练中真的要执行代码、读写文件、调用 API。为此 DeepSeek 构建了 DSec(DeepSeek Elastic Compute),一个用 Rust 写的沙箱平台。

DSec 暴露四种执行基底层:函数调用、容器、微虚拟机(Firecracker)、完整虚拟机(QEMU)。单一集群跑数十万个并发沙箱。这意味着训练时可以同时跑数千个 Agent 实例,每个在不同的环境中执行不同的任务。

三个设计决策特别值得注意:

  • 分层 3FS 存储加速镜像加载。RL 训练的特点是频繁启动新环境、跑几步就扔掉。如果每次启动都要等容器镜像拉取,GPU 利用率会非常低。3FS 的分层存储让镜像加载变成毫秒级。
  • 可抢占安全轨迹重放。训练步骤被中断时(在共享 GPU 集群上很常见),恢复后不需要重新执行之前的工具调用——系统会从断点重放。这对长 Agent 轨迹的训练至关重要。
  • 跨基底层统一 API。训练工具不关心底层是函数调用还是完整 VM,同一套代码可以切换。这意味着从快速原型(函数调用)到生产级隔离(Firecracker)的迁移成本为零。

定价:不是便宜一点,是便宜一个数量级

  • V4 Flash:$0.14/百万输入 token,$0.28/百万输出 token
  • V4 Pro:$0.145/百万输入 token,$3.48/百万输出 token

对比:GPT-5.4 Nano、Gemini 3.1 Flash、Claude Haiku 4.5 都比 V4 Flash 贵。GPT-5.5、Claude Opus 4.7 比 V4 Pro 贵。V4 Pro 的输出价格是 Claude Opus 4.7 的大约十分之一。

定价不是孤立的。结合 2% 的 KV 缓存数字看:一个 Agent 在 100 万 token 上下文中跑 SWE-bench 任务,用 V4 Pro 的实际 GPU 成本可能是用 Claude Opus 的 1/50。开源权重意味着你可以用自己的 GPU 跑,API 定价只是上限。

一个具体场景:你要让 Agent 审查一个 50 万行代码的仓库并修复 5 个 bug。任务全程上下文约 80 万 token,需要 200 次工具调用。用 Claude Opus 4.7 API,单次任务成本大约 $50-80(按 $15/M input + $75/M output 估算)。用 V4 Pro API,约 $3-5。用自建 GPU 跑 V4 Pro(开源权重),电费约 $0.5。同一个任务,三个价格层级。


选择不追什么

V4 选择不追的东西比它选择追的更有意思:

  • 不追知识 SOTA:落后 frontier 3-6 个月,明确承认了
  • 不追多模态:纯文本,不支持音频、视频、图片
  • 不追最大参数量:1.6T 已经是开源最大,但和 frontier 闭源模型比参数量没意义

它选择追的:Agent benchmark。SWE Verified 80.6(Opus 4.6-Max 80.8,差距在误差范围内)。MCPAtlas Public 73.6(Opus 4.6-Max 73.8,几乎打平)。Toolathlon 51.8(超过 Gemini 3.1 Pro 的 48.8)。在 DeepSeek 内部的 R&D 编码测试中,V4-Pro-Max 达到 67% 通过率,而 Sonnet 4.5 是 47%。

85 名 DeepSeek 开发者用 V4-Pro 作为日常驱动,52% 说它已经可以替代当前的主力编码模型,39% 倾向于可以。

这个选择的逻辑:Agent 市场是未来 12 个月增长最快的 AI 应用场景。在 Agent benchmark 上接近 frontier,同时成本是 frontier 的 1/10 到 1/50,比在知识 benchmark 上争第一更有商业价值。

这里有一个更深层的商业逻辑:把一种能力从"只有最贵的模型能做到"变成"开源模型也能做到"的过程,同时也在消灭靠这种能力差异收溢价的商业模式。DeepSeek V4 正在做这件事——把 frontier 模型的 Agent 能力以 1/10 的价格开源出来。


"蒸馏"指控下的架构原创性

发布时间也耐人寻味:就在美国指控中国系统性窃取美国 AI 实验室知识产权的第二天。Anthropic 和 OpenAI 都曾指控 DeepSeek "蒸馏"(实质是复制)他们的模型。

DeepSeek 选这个时间点发布 V4——一个架构上有大量原创设计的模型——不是巧合。CSA/HCA 混合注意力、DSec 沙箱基础设施、XML 工具调用格式——这些不是能在别人的模型上"蒸馏"出来的东西。它们是工程决策,需要理解 Agent 工作流在哪里失败、为什么失败,然后设计针对性的解决方案。这些解决方案源自对问题的深度理解,不是对已有答案的复制。

你可以蒸馏一个模型的输出。你不能蒸馏它的 KV 缓存管理策略和 RL 训练基础设施。


这对行业意味着什么

对闭源模型厂商:DeepSeek V4 把 Agent 场景的价格锚点拉低了 10 倍。如果你是 OpenAI 或 Anthropic,你的溢价不再来自"我的模型比你聪明"(因为差距只有 3-6 个月),而必须来自"我的生态比你完善"——工具链、SDK、企业支持、合规认证。从卖能力变成卖信任和服务。

对 AI 应用开发者:开源 + 低成本 + Agent 优化,三个条件同时满足。一个创业团队可以用 V4-Flash 以几乎为零的边际成本跑 Agent 原型,验证 PMF 后再决定是否需要 frontier 模型的额外能力。这降低了 AI Agent 创业的技术门槛和资金门槛。

但这不意味着 V4 就是所有场景的最佳选择。它不支持多模态——没有音频、视频、图片理解。如果你的 Agent 需要处理截图、听语音指令、看视频内容,V4 帮不了你。它是纯文本 Agent 的专用工具,不是通用模型。就像一把好刀不适合当螺丝刀——问题是你的任务需要刀还是螺丝刀。

对中国 AI 生态:腾讯和阿里巴巴正在竞争参与 DeepSeek 的首轮外部融资,估值 200 亿美元。DeepSeek 不需要这笔钱来生存(它已经在用很低的成本产出 SOTA 级模型),但它需要生态伙伴来加速商业化。腾讯提议收购 20% 股份,DeepSeek 在抵制——说明它不想成为任何巨头的附庸。

Stanford AI Index 2026 的数据提供了背景:美国 AI 投入是中国的 23 倍,但性能差距只剩 2.7%。DeepSeek V4 是这个趋势的最新数据点。AI 研究者流向美国的比例下降了 80%——当中国实验室能在本土做出接近 frontier 的模型,人才外流的动力在减弱。

对"模型即服务"的商业模式:V4 的定价对整个 API 模型市场形成了价格压力。当 V4-Flash 以 $0.14/M token 提供接近 frontier 的 Agent 能力,闭源模型厂商要么降价、要么证明自己值溢价。证明溢价的方式不能再是"我的 MMLU 高 2 个点",而必须是"我的模型在你的具体场景中比开源方案好多少,好到值 10 倍的价格"。这是一个更难回答的问题。


数据来源