'DeepSeek V4 不追 benchmark 第一了，它去解决 AI Agent 真正的瓶颈'

摘要

DeepSeek V4 昨天发布，两个版本：V4-Pro（1.6 万亿参数，490 亿活跃）和 V4-Flash（2840 亿参数，130 亿活跃）。100 万 token 上下文窗口，开源权重。Benchmark 数字有竞争力但不是 SOTA——知识推理落后 frontier 模型 3-6 个月。

但 benchmark 不是重点。HuggingFace 的技术分析说得很直白："The real innovation is how DeepSeek v4 is designed for efficient large context length support, and hence as one of the best candidates for agentic tasks."翻译过来：这是一个为 Agent 工作流而不是聊天场景设计的模型。它解决的不是"模型够不够聪明"的问题，是"聪明模型跑 Agent 任务时怎么不把自己跑崩"的问题。

Agent 跑长任务为什么会崩

用前沿模型跑一个长 Agent 任务——比如在 SWE-bench 上修一个跨多个文件的 bug，或者多步浏览会话——它会以可预测的方式失败：上下文超过预算，KV 缓存占满 GPU，工具调用的往返在任务中途开始劣化。每一步工具调用都会往上下文里追加内容，此后每个新 token 都要为之前所有 token 付注意力计算的代价。

两个数字决定了一个模型能不能跑长 Agent 任务：单 token 推理的 FLOPs 和 KV 缓存大小。两个都随上下文长度线性增长。100 万 token 的上下文窗口，如果用传统架构，推理一次就能把大多数 GPU 的显存吃干。

DeepSeek V4-Pro 的解决方案：单 token 推理只需要 V3.2 的 27% FLOPs，KV 缓存只需 10%。V4-Flash 更狠：FLOPs 降到 10%，KV 缓存降到 7%。如果和主流的 grouped query attention（8 头，bfloat16）比，DeepSeek V4 的 KV 缓存大约只有 2%。

这些数字意味着什么？同一个 GPU 上，V4 能跑的上下文长度是传统架构的 50 倍。这不是"快一点"，是"从跑不动到跑得动"的质变。

算一笔具体的账。一个 SWE-bench 任务，Agent 需要读 10 个源文件（平均 500 行）、执行 20 次工具调用、维护推理链。上下文在任务结束前大约到 80-100 万 token。用传统架构，这需要一张 H100 80GB 全部用来存 KV 缓存——推理都还没开始。用 V4 的架构，KV 缓存只占约 2%，同一张 H100 还能跑其他任务。

混合注意力：两种压缩，交替使用

效率提升的核心是两个注意力机制的交替：CSA（Compressed Sparse Attention）和 HCA（Heavily Compressed Attention）。

CSA 把 KV 条目在序列维度上压缩 4 倍——用 softmax 门控池化加学习位置偏置，把每 4 个 token 压成 1 个。然后用一个 FP4 精度的闪电索引器（ReLU 评分的多头点积）选出最相关的 top-k 压缩块。最近 token 保留原始精度，走滑动窗口分支。

HCA 压得更狠：128 倍。不做稀疏选择，每个 query 对所有压缩块做密集注意力。因为序列被压到足够短，密集注意力的成本也可以接受。

61 层网络里，这两种机制交替使用。不同层需要不同的注意力模式——有的需要精确回忆近处 token，有的只需要远处的大致轮廓。强制所有层用同一种机制会浪费容量。

两个路径都用 FP8 存储大部分 KV 条目，只有 RoPE 维度用 BF16。CSA 内部的闪电索引器跑在 FP4。这些精度选择和压缩比例叠加在一起，得到了 2% 的 KV 缓存数字。

还有一个容易被忽略的细节：V4-Pro 的 61 层中，residual connection 被 manifold-constrained hyper-connection（mHC）替代。这不是注意力机制的改进，而是梯度流的改进。在 61 层的深度和 MoE 架构下，传统残差连接容易出现梯度消失或不稳定。mHC 通过在流形空间中约束连接权重来稳定训练。这不是论文的主角，但它是让 1.6T 参数的模型能成功训练出来的底层支撑。

架构选择不是免费的午餐。128 倍压缩意味着信息损失。DeepSeek 自己承认知识推理 benchmark 落后 frontier 3-6 个月——这可能就是代价。但如果你跑的是 Agent 任务，你更关心的是"能不能在 100 万 token 的上下文中可靠地找到工具调用的结果"，而不是"能不能回答冷知识问题"。

HuggingFace 的分析用了一个精准的区分：V3.2 的稀疏注意力是在原始序列上做选择，V4 的 CSA 是在已经压缩了 4 倍的序列上做选择。搜索空间缩小了，但选择精度并没有同比例下降——因为压缩用的是学习到的池化，不是简单的截断。模型学到了哪些信息可以丢、哪些必须留。这是"主动遗忘"而不是"被动丢失"。

三个为 Agent 设计的后训练决策

高效长上下文注意力是必要条件，但不够。V4 论文描述了三个直接针对 Agent 用例的后训练和基础设施选择。

跨工具调用的连续推理

V3.2 在每个新用户消息到达时丢弃之前的推理链。对单轮聊天没问题。对多轮 Agent 工作流——用户在 Agent 已经链式调用了多个工具之后发一个跟进消息——模型丢失了所有累积推理，得从头重建状态。

V4 改了：当对话包含工具调用时，推理内容跨用户消息边界保留。模型持有完整的推理历史，包括跨用户轮次的历史。对没有工具的普通对话，旧行为保留——每轮清空推理链以节省上下文空间。

XML 工具调用格式

V4 引入了 |DSML| 特殊 token 和基于 XML 的工具调用格式。XML 格式减少了嵌套引用内容的转义失败——这是 JSON 格式在模型输出嵌套引号内容时的常见失败模式。格式还区分了字符串参数（直接传递）和结构化参数（JSON 解析），消除了数字和布尔值解析错误的一整类问题。

DSec：为 RL 训练建的沙箱

Agent 行为通过 RL 在真实工具环境中训练。这不是模拟——模型在训练中真的要执行代码、读写文件、调用 API。为此 DeepSeek 构建了 DSec（DeepSeek Elastic Compute），一个用 Rust 写的沙箱平台。

DSec 暴露四种执行基底层：函数调用、容器、微虚拟机（Firecracker）、完整虚拟机（QEMU）。单一集群跑数十万个并发沙箱。这意味着训练时可以同时跑数千个 Agent 实例，每个在不同的环境中执行不同的任务。

三个设计决策特别值得注意：

分层 3FS 存储加速镜像加载。RL 训练的特点是频繁启动新环境、跑几步就扔掉。如果每次启动都要等容器镜像拉取，GPU 利用率会非常低。3FS 的分层存储让镜像加载变成毫秒级。
可抢占安全轨迹重放。训练步骤被中断时（在共享 GPU 集群上很常见），恢复后不需要重新执行之前的工具调用——系统会从断点重放。这对长 Agent 轨迹的训练至关重要。
跨基底层统一 API。训练工具不关心底层是函数调用还是完整 VM，同一套代码可以切换。这意味着从快速原型（函数调用）到生产级隔离（Firecracker）的迁移成本为零。

定价：不是便宜一点，是便宜一个数量级

V4 Flash：$0.14/百万输入 token，$0.28/百万输出 token
V4 Pro：$0.145/百万输入 token，$3.48/百万输出 token

对比：GPT-5.4 Nano、Gemini 3.1 Flash、Claude Haiku 4.5 都比 V4 Flash 贵。GPT-5.5、Claude Opus 4.7 比 V4 Pro 贵。V4 Pro 的输出价格是 Claude Opus 4.7 的大约十分之一。

定价不是孤立的。结合 2% 的 KV 缓存数字看：一个 Agent 在 100 万 token 上下文中跑 SWE-bench 任务，用 V4 Pro 的实际 GPU 成本可能是用 Claude Opus 的 1/50。开源权重意味着你可以用自己的 GPU 跑，API 定价只是上限。

一个具体场景：你要让 Agent 审查一个 50 万行代码的仓库并修复 5 个 bug。任务全程上下文约 80 万 token，需要 200 次工具调用。用 Claude Opus 4.7 API，单次任务成本大约 $50-80（按 $15/M input + $75/M output 估算）。用 V4 Pro API，约 $3-5。用自建 GPU 跑 V4 Pro（开源权重），电费约 $0.5。同一个任务，三个价格层级。

选择不追什么

V4 选择不追的东西比它选择追的更有意思：

不追知识 SOTA：落后 frontier 3-6 个月，明确承认了
不追多模态：纯文本，不支持音频、视频、图片
不追最大参数量：1.6T 已经是开源最大，但和 frontier 闭源模型比参数量没意义

它选择追的：Agent benchmark。SWE Verified 80.6（Opus 4.6-Max 80.8，差距在误差范围内）。MCPAtlas Public 73.6（Opus 4.6-Max 73.8，几乎打平）。Toolathlon 51.8（超过 Gemini 3.1 Pro 的 48.8）。在 DeepSeek 内部的 R&D 编码测试中，V4-Pro-Max 达到 67% 通过率，而 Sonnet 4.5 是 47%。

85 名 DeepSeek 开发者用 V4-Pro 作为日常驱动，52% 说它已经可以替代当前的主力编码模型，39% 倾向于可以。

这个选择的逻辑：Agent 市场是未来 12 个月增长最快的 AI 应用场景。在 Agent benchmark 上接近 frontier，同时成本是 frontier 的 1/10 到 1/50，比在知识 benchmark 上争第一更有商业价值。

这里有一个更深层的商业逻辑：把一种能力从"只有最贵的模型能做到"变成"开源模型也能做到"的过程，同时也在消灭靠这种能力差异收溢价的商业模式。DeepSeek V4 正在做这件事——把 frontier 模型的 Agent 能力以 1/10 的价格开源出来。

"蒸馏"指控下的架构原创性

发布时间也耐人寻味：就在美国指控中国系统性窃取美国 AI 实验室知识产权的第二天。Anthropic 和 OpenAI 都曾指控 DeepSeek "蒸馏"（实质是复制）他们的模型。

DeepSeek 选这个时间点发布 V4——一个架构上有大量原创设计的模型——不是巧合。CSA/HCA 混合注意力、DSec 沙箱基础设施、XML 工具调用格式——这些不是能在别人的模型上"蒸馏"出来的东西。它们是工程决策，需要理解 Agent 工作流在哪里失败、为什么失败，然后设计针对性的解决方案。这些解决方案源自对问题的深度理解，不是对已有答案的复制。

你可以蒸馏一个模型的输出。你不能蒸馏它的 KV 缓存管理策略和 RL 训练基础设施。

这对行业意味着什么

对闭源模型厂商：DeepSeek V4 把 Agent 场景的价格锚点拉低了 10 倍。如果你是 OpenAI 或 Anthropic，你的溢价不再来自"我的模型比你聪明"（因为差距只有 3-6 个月），而必须来自"我的生态比你完善"——工具链、SDK、企业支持、合规认证。从卖能力变成卖信任和服务。

对 AI 应用开发者：开源 + 低成本 + Agent 优化，三个条件同时满足。一个创业团队可以用 V4-Flash 以几乎为零的边际成本跑 Agent 原型，验证 PMF 后再决定是否需要 frontier 模型的额外能力。这降低了 AI Agent 创业的技术门槛和资金门槛。

但这不意味着 V4 就是所有场景的最佳选择。它不支持多模态——没有音频、视频、图片理解。如果你的 Agent 需要处理截图、听语音指令、看视频内容，V4 帮不了你。它是纯文本 Agent 的专用工具，不是通用模型。就像一把好刀不适合当螺丝刀——问题是你的任务需要刀还是螺丝刀。

对中国 AI 生态：腾讯和阿里巴巴正在竞争参与 DeepSeek 的首轮外部融资，估值 200 亿美元。DeepSeek 不需要这笔钱来生存（它已经在用很低的成本产出 SOTA 级模型），但它需要生态伙伴来加速商业化。腾讯提议收购 20% 股份，DeepSeek 在抵制——说明它不想成为任何巨头的附庸。

Stanford AI Index 2026 的数据提供了背景：美国 AI 投入是中国的 23 倍，但性能差距只剩 2.7%。DeepSeek V4 是这个趋势的最新数据点。AI 研究者流向美国的比例下降了 80%——当中国实验室能在本土做出接近 frontier 的模型，人才外流的动力在减弱。

对"模型即服务"的商业模式：V4 的定价对整个 API 模型市场形成了价格压力。当 V4-Flash 以 $0.14/M token 提供接近 frontier 的 Agent 能力，闭源模型厂商要么降价、要么证明自己值溢价。证明溢价的方式不能再是"我的 MMLU 高 2 个点"，而必须是"我的模型在你的具体场景中比开源方案好多少，好到值 10 倍的价格"。这是一个更难回答的问题。