'AI 模型的考试成绩已经到顶了，但考试本身烂掉了'

摘要

两条线索同时收敛到同一个结论：我们用来评价 AI 的工具已经失效了。

第一条线：Oxford Internet Institute 联合 42 名研究者（来自 Stanford、UC Berkeley、UK AI Security Institute 等机构）审查了 445 个 AI benchmark。结论：只有 16% 使用了统计方法来比较模型表现。大约一半的 benchmark 试图测量"推理能力"或"无害性"这类抽象概念，但连这些概念的定义都没给。论文标题叫"Measuring What Matters"——测量重要的东西——发表在 NeurIPS 2025。

第二条线：Stanford AI Index 2026 的数据显示，2023 年还被认为是"极难"的 benchmark（MMLU、GSM8K、HumanEval）到 2025 年底分数逼近 100%。Claude Opus 4.7 和同代模型几乎"考满分"了。liveinthefuture 的分析更直接：AI 最常被引用的 60 个 benchmark 中，近一半已经无法区分不同模型的表现。

不是模型停止进步了。是尺子坏了。

Oxford 研究发现了什么

论文的全名是"Measuring What Matters: Construct Validity in Large Language Model Benchmarks"。关键词是"Construct Validity"——建构效度。这个概念来自心理测量学（psychometrics），指的是一个测试是否真的在测量它声称要测量的东西。

IQ 测试声称测量"智力"。如果 IQ 测试实际上测的是"文化背景知识"而非"推理能力"，它的建构效度就有问题。AI benchmark 面对的是同一类问题：一个 benchmark 声称测量"推理能力"，但它实际上测的可能是"在训练数据中见过类似问题的概率"。

Oxford 团队对 445 个 benchmark 做了系统审查，三个核心发现：

84% 没有统计检验。 两个模型的分数差了 2 个百分点（比如 91.3% vs 89.1%），你能说一个比另一个好吗？不确定——如果没有统计检验，这个差异可能完全来自随机波动。84% 的 benchmark 论文没有做这个基本检查。这意味着过去两年里关于"模型 X 在 benchmark Y 上超越了模型 Z"的无数声明中，大部分在统计学上站不住脚。

约一半的 benchmark 测量的东西没有明确定义。 你说自己测"推理能力"（reasoning），但"推理"是什么？演绎推理？归纳推理？类比推理？空间推理？不同的定义会导致完全不同的测试设计。如果没有精确定义，你连"这个 benchmark 是否有效"都无法判断——因为你不知道它应该有效针对什么。

三个典型的失败模式。 Oxford 团队给了具体例子。一是格式干扰：一个逻辑推理题要求模型以特定复杂格式输出答案，模型推理对了但格式错了，得分零。这不是推理能力的失败，是格式遵循的失败——但 benchmark 把两者混在一起了。二是脆弱表现：模型在小学数学题上表现好，但稍微改一下数字或措辞就崩了——说明它可能在记忆模式而非理解问题。三是过度声称：模型在医学选择题上得分高，就有人声称它有"医生水平"——但通过考试只是医生工作的一小部分。

EU AI Act 已经在引用 benchmark 作为风险评估的依据。Oxford 论文指出的风险是：如果这些 benchmark 本身不可靠，基于它们制定的法规也会不可靠。

Goodhart's Law：为什么这不是一个能修的 bug

Goodhart's Law 的经典表述："When a measure becomes a target, it ceases to be a good measure."当一个指标变成目标时，它就不再是一个好的测量工具。

这不是一个经验观察，是一个结构性规律。原因在于：一旦某个 benchmark 被公开用于比较模型，模型开发者就有了直接的激励去针对这个 benchmark 优化。优化的方式不一定是"让模型真正变强"——更可能是"让模型在这个特定测试上得分更高"。两种策略在 benchmark 分数上产生相同的结果，但对应完全不同的实际能力。

这已经在发生了。MMLU（Massive Multitask Language Understanding）在 2023 年是最权威的综合能力 benchmark。到 2025 年，顶分从约 60% 涨到接近 100%。模型真的理解了所有这些知识领域吗？Oxford 研究的"脆弱表现"发现提示了另一种解释：模型可能学会了特定题目模式的统计规律，而非真正掌握了这些知识。

这不是模型开发者的恶意行为。这是 Goodhart's Law 的自然运作方式。你不需要有意识地"作弊"——当你用 benchmark 分数来决定训练策略（哪个 checkpoint 发布、哪个超参数组合更好），你就在针对 benchmark 优化了。即使没有直接在测试集上训练，间接的优化压力（选择在 benchmark 上表现更好的训练策略）也会产生同样的效果。

但 Goodhart's Law 只是经验层面的规律。数学层面有一个更强的结论：NFL 定理（No-Free-Lunch Theorem）。

Wolpert 和 Macready 在 1997 年证明：对于所有可能的优化问题，任何两个算法的平均表现是相同的。换成人话：不存在"对所有问题都最优"的算法。一个在问题集 A 上表现好的算法，必然在问题集 B 上表现更差——因为如果它在所有问题集上都好或都差，它的平均表现就和随机搜索一样，不可能是"最优"的。

这个定理对 AI benchmark 的含义是毁灭性的。Benchmark 是一个问题集——一个从所有可能任务中抽出的样本。NFL 定理说：模型在这个样本上表现好，必然在另一个样本上表现差。不存在"通用智能"这种可以在所有任务上都超越其他模型的属性。当我们说"模型 X 在 MMLU 上最强"，NFL 定理告诉我们：这自动意味着模型 X 在 MMLU 没覆盖的某类任务上比其他模型弱。

这不是因为模型做得不够好。这是数学上的必然。

所以 AI benchmark 面临的不是一层困难而是两层。第一层是 Goodhart's Law：公开的 benchmark 会变成训练目标，失去测量效度。第二层是 NFL 定理：即使 benchmark 没有被污染，它也无法代表"通用能力"——因为通用能力在数学上不存在。两个独立的、不可修复的结构性问题，叠加在同一个测量工具上。

三个原因让这个问题在 AI 领域比在其他领域更严重：

速度不对称。 建构一个严谨的 benchmark 需要数月：定义构念 → 设计题目 → 试测 → 验证 → 发表。但模型训练的周期只有几周。benchmark 发表的那一刻，它就已经在被纳入下一轮训练的优化目标了。测量工具的开发速度永远追不上被测量对象的变化速度。Oxford 团队的研究从立项到发表可能花了一年多——在此期间，被审查的 445 个 benchmark 中很多已经被新的模型版本"考满分"了。

构念不稳定。 在心理测量学中，"智力"这个构念（construct）是相对稳定的——人类智力的定义在过去 50 年没有根本性变化。但 AI 的"推理能力"每 6-12 个月就有质的变化。一个 2023 年设计的推理 benchmark 测量的是"当时的模型做不到的推理"，到 2025 年这个构念本身可能已经过时了——不是模型学会了推理，是"什么是推理"这个问题的答案变了。

公开性悖论。 benchmark 的价值在于公开比较。但一旦公开，Goodhart's Law 就开始作用。如果保持私有（只在内部分享），benchmark 可以维持测量有效性，但失去了行业通用性。这个悖论没有解——你不能同时让一个 benchmark 既是公开的比较标准，又是不受优化目标影响的测量工具。这和密码学中的 Kerckhoffs 原则形成了有趣的对照：在密码学中，安全系统应该是"除了密钥之外的一切都可以公开"的。在 AI 评估中，"一切都可以公开"恰好是测量失效的原因。

这三个结构性原因叠加起来，意味着 AI benchmark 的失效不是一个可以修的 bug——它是一个必然现象。任何公开的、固定的、可重复的评估方法，都会被它评估的对象所适应。这不是 AI 领域独有的困境——标准化考试的困境、绩效考核的困境、KPI 管理的困境，都是 Goodhart's Law 在不同领域的表现。但 AI 领域的特殊性在于速度：从 benchmark 发布到饱和的周期已经压缩到了 6-18 个月，比任何其他领域都快一个数量级。

"考满分"之后怎么办

当所有模型都在 MMLU 上考 98%+，这个 benchmark 的信息量就趋近于零——它不再告诉你任何关于模型差异的有用信息。行业已经意识到了这个问题，但应对方式各有局限：

不断出新 benchmark。 GPQA（Graduate-Level Google-Proof Q&A）、SWE-bench Verified、MMLU-Pro——每一个新的 benchmark 都声称修复了旧 benchmark 的缺陷。但 Goodhart's Law 不在乎 benchmark 多精心——它只在乎 benchmark 是否公开。一旦 GPQA 成为新的比较标准，它也会被优化掉。这形成了一个 treadmill：新 benchmark → 模型适应 → 饱和 → 再出新 benchmark。每一轮的周期在缩短。MMLU 从"极难"到"饱和"花了约两年，HumanEval 更快。下一代 benchmark 的饱和周期可能只有几个月。

转向动态评估。 不用固定题目，而是让人或 AI 实时生成新的测试。这绕过了"训练数据污染"问题，但引入了新的问题：不同的实时测试之间不可比较。你没法说"模型 A 在今天的动态测试中比模型 B 好"就意味着什么——因为明天的测试会不一样。LMSYS Chatbot Arena 走的就是这个方向（真人投票盲评），但它测量的是"人类偏好"而非"客观能力"——两个不同的东西。

转向真实世界任务。 放弃 benchmark，直接看模型在实际应用中的表现。SWE-bench 就是这个思路——不是做题，是修真实的 bug。但真实世界任务的多样性本身就是一种"无限 benchmark"，你无法穷举所有可能的场景。而且 SWE-bench 也开始饱和了——Claude Opus 4.7 在 SWE-bench Verified 上已经到了 80%+。

更深层的问题：即使你设计出了一个"完美"的 benchmark——明确定义了构念、做了统计检验、覆盖了真实场景——你仍然面对一个哲学难题：你测量的是"模型在特定任务上的表现"还是"模型的通用能力"？在心理测量学中，这是一个被争论了百年的问题（g 因素理论 vs 多元智力理论）。AI 领域还没开始认真面对这个问题。我们在用"一堆任务上的分数平均"来代表"模型有多强"，但没有人证明过这个平均数有心理学或计算意义上的效度。

Carnegie Endowment 最近的分析指出，一批新的"应用型评估"（applied evaluations）正在试图在比传统 benchmark 更真实的场景中评估 AI 系统。这个方向是对的，但它解决的是 Oxford 研究中的"构念定义"问题（让测试更接近真实能力），不解决 Goodhart's Law 问题（任何公开的测试都会被优化）。

这影响了谁

对企业选型者：你看到的模型排行榜（LMSYS Chatbot Arena、各种 benchmark 榜单）中，分数的差异在统计上可能不显著。Oxford 的研究说明，84% 的 benchmark 比较结果可能是噪声。做选型决策时，不要看 benchmark 排名，看你自己业务场景的实测表现。一个在 SWE-bench 上低 5 分但在你实际代码库上表现更好的模型，benchmark 分数毫无意义。

对监管者：EU AI Act 引用 benchmark 做风险评估。如果这些 benchmark 84% 缺乏统计检验、一半没有明确构念定义，基于它们的监管框架的地基就是松的。Oxford 团队提供了一个 Construct Validity Checklist——在引用任何 benchmark 作为法规依据之前，先用这个清单检查它是否合格。

对 AI 研究者：Oxford 的 8 条建议值得认真看。最核心的三条：精确定义你要测量的东西（"推理"不是一个定义），控制无关变量（格式不应该影响推理得分），用统计方法报告不确定性（2% 的差异可能不显著）。

对投资者：当一家 AI 公司说"我们的模型在 X benchmark 上超越了 Y"，问三个问题：(1) 这个 benchmark 经过统计检验了吗？(2) 分数差异是否显著？(3) 这个 benchmark 测量的东西有明确定义吗？如果三个答案都是否定的，这个"超越"声明在科学上没有意义。

对开发者：Gartner 把当前的局面叫做"AI Value Crisis"——企业花了大钱部署 AI，但无法证明它在产生价值。部分原因是价值本身就难衡量，但更根本的原因是：我们用来衡量 AI 能力的工具（benchmark）正在系统性地高估这些能力。当模型在 benchmark 上考了 95 分，你预期它在生产环境中也能做到 95 分。但 Oxford 研究中的"脆弱表现"发现告诉你：如果实际场景和 benchmark 题目略有不同，分数可能从 95 跌到 2。这个预期落差是很多企业 AI 项目失败的原因之一——不是因为 AI 不行，是因为 benchmark 给了不切实际的预期。

'AI 模型的考试成绩已经到顶了，但考试本身烂掉了'

摘要

Oxford 研究发现了什么

Goodhart's Law：为什么这不是一个能修的 bug

"考满分"之后怎么办

这影响了谁

数据来源