2026年4月25日

Deep News

'AI 模型的考试成绩已经到顶了,但考试本身烂掉了'

Oxford 研究所审查了 445 个 AI benchmark,发现 84% 缺乏基本统计检验,一半连自己在测什么都没定义清楚。与此同时,Stanford AI Index 显示主流 benchmark 分数逼近 100%——模型们已经"考满分"了,但没人知道这个满分意味着什么。这不是一个可以修的 bug:Goodhart's Law 保证了任何公开的 benchmark 最终都会变成训练目标而非测量工具。

AI评估 · Benchmark · Goodhart's Law · 学术研究 · Stanford AI Index

摘要

两条线索同时收敛到同一个结论:我们用来评价 AI 的工具已经失效了。

第一条线:Oxford Internet Institute 联合 42 名研究者(来自 Stanford、UC Berkeley、UK AI Security Institute 等机构)审查了 445 个 AI benchmark。结论:只有 16% 使用了统计方法来比较模型表现。大约一半的 benchmark 试图测量"推理能力"或"无害性"这类抽象概念,但连这些概念的定义都没给。论文标题叫"Measuring What Matters"——测量重要的东西——发表在 NeurIPS 2025。

第二条线:Stanford AI Index 2026 的数据显示,2023 年还被认为是"极难"的 benchmark(MMLU、GSM8K、HumanEval)到 2025 年底分数逼近 100%。Claude Opus 4.7 和同代模型几乎"考满分"了。liveinthefuture 的分析更直接:AI 最常被引用的 60 个 benchmark 中,近一半已经无法区分不同模型的表现。

不是模型停止进步了。是尺子坏了。


Oxford 研究发现了什么

论文的全名是"Measuring What Matters: Construct Validity in Large Language Model Benchmarks"。关键词是"Construct Validity"——建构效度。这个概念来自心理测量学(psychometrics),指的是一个测试是否真的在测量它声称要测量的东西。

IQ 测试声称测量"智力"。如果 IQ 测试实际上测的是"文化背景知识"而非"推理能力",它的建构效度就有问题。AI benchmark 面对的是同一类问题:一个 benchmark 声称测量"推理能力",但它实际上测的可能是"在训练数据中见过类似问题的概率"。

Oxford 团队对 445 个 benchmark 做了系统审查,三个核心发现:

84% 没有统计检验。 两个模型的分数差了 2 个百分点(比如 91.3% vs 89.1%),你能说一个比另一个好吗?不确定——如果没有统计检验,这个差异可能完全来自随机波动。84% 的 benchmark 论文没有做这个基本检查。这意味着过去两年里关于"模型 X 在 benchmark Y 上超越了模型 Z"的无数声明中,大部分在统计学上站不住脚。

约一半的 benchmark 测量的东西没有明确定义。 你说自己测"推理能力"(reasoning),但"推理"是什么?演绎推理?归纳推理?类比推理?空间推理?不同的定义会导致完全不同的测试设计。如果没有精确定义,你连"这个 benchmark 是否有效"都无法判断——因为你不知道它应该有效针对什么。

三个典型的失败模式。 Oxford 团队给了具体例子。一是格式干扰:一个逻辑推理题要求模型以特定复杂格式输出答案,模型推理对了但格式错了,得分零。这不是推理能力的失败,是格式遵循的失败——但 benchmark 把两者混在一起了。二是脆弱表现:模型在小学数学题上表现好,但稍微改一下数字或措辞就崩了——说明它可能在记忆模式而非理解问题。三是过度声称:模型在医学选择题上得分高,就有人声称它有"医生水平"——但通过考试只是医生工作的一小部分。

EU AI Act 已经在引用 benchmark 作为风险评估的依据。Oxford 论文指出的风险是:如果这些 benchmark 本身不可靠,基于它们制定的法规也会不可靠。


Goodhart's Law:为什么这不是一个能修的 bug

Goodhart's Law 的经典表述:"When a measure becomes a target, it ceases to be a good measure."当一个指标变成目标时,它就不再是一个好的测量工具。

这不是一个经验观察,是一个结构性规律。原因在于:一旦某个 benchmark 被公开用于比较模型,模型开发者就有了直接的激励去针对这个 benchmark 优化。优化的方式不一定是"让模型真正变强"——更可能是"让模型在这个特定测试上得分更高"。两种策略在 benchmark 分数上产生相同的结果,但对应完全不同的实际能力。

这已经在发生了。MMLU(Massive Multitask Language Understanding)在 2023 年是最权威的综合能力 benchmark。到 2025 年,顶分从约 60% 涨到接近 100%。模型真的理解了所有这些知识领域吗?Oxford 研究的"脆弱表现"发现提示了另一种解释:模型可能学会了特定题目模式的统计规律,而非真正掌握了这些知识。

这不是模型开发者的恶意行为。这是 Goodhart's Law 的自然运作方式。你不需要有意识地"作弊"——当你用 benchmark 分数来决定训练策略(哪个 checkpoint 发布、哪个超参数组合更好),你就在针对 benchmark 优化了。即使没有直接在测试集上训练,间接的优化压力(选择在 benchmark 上表现更好的训练策略)也会产生同样的效果。

但 Goodhart's Law 只是经验层面的规律。数学层面有一个更强的结论:NFL 定理(No-Free-Lunch Theorem)

Wolpert 和 Macready 在 1997 年证明:对于所有可能的优化问题,任何两个算法的平均表现是相同的。换成人话:不存在"对所有问题都最优"的算法。一个在问题集 A 上表现好的算法,必然在问题集 B 上表现更差——因为如果它在所有问题集上都好或都差,它的平均表现就和随机搜索一样,不可能是"最优"的。

这个定理对 AI benchmark 的含义是毁灭性的。Benchmark 是一个问题集——一个从所有可能任务中抽出的样本。NFL 定理说:模型在这个样本上表现好,必然在另一个样本上表现差。不存在"通用智能"这种可以在所有任务上都超越其他模型的属性。当我们说"模型 X 在 MMLU 上最强",NFL 定理告诉我们:这自动意味着模型 X 在 MMLU 没覆盖的某类任务上比其他模型弱。

这不是因为模型做得不够好。这是数学上的必然。

所以 AI benchmark 面临的不是一层困难而是两层。第一层是 Goodhart's Law:公开的 benchmark 会变成训练目标,失去测量效度。第二层是 NFL 定理:即使 benchmark 没有被污染,它也无法代表"通用能力"——因为通用能力在数学上不存在。两个独立的、不可修复的结构性问题,叠加在同一个测量工具上。

三个原因让这个问题在 AI 领域比在其他领域更严重:

速度不对称。 建构一个严谨的 benchmark 需要数月:定义构念 → 设计题目 → 试测 → 验证 → 发表。但模型训练的周期只有几周。benchmark 发表的那一刻,它就已经在被纳入下一轮训练的优化目标了。测量工具的开发速度永远追不上被测量对象的变化速度。Oxford 团队的研究从立项到发表可能花了一年多——在此期间,被审查的 445 个 benchmark 中很多已经被新的模型版本"考满分"了。

构念不稳定。 在心理测量学中,"智力"这个构念(construct)是相对稳定的——人类智力的定义在过去 50 年没有根本性变化。但 AI 的"推理能力"每 6-12 个月就有质的变化。一个 2023 年设计的推理 benchmark 测量的是"当时的模型做不到的推理",到 2025 年这个构念本身可能已经过时了——不是模型学会了推理,是"什么是推理"这个问题的答案变了。

公开性悖论。 benchmark 的价值在于公开比较。但一旦公开,Goodhart's Law 就开始作用。如果保持私有(只在内部分享),benchmark 可以维持测量有效性,但失去了行业通用性。这个悖论没有解——你不能同时让一个 benchmark 既是公开的比较标准,又是不受优化目标影响的测量工具。这和密码学中的 Kerckhoffs 原则形成了有趣的对照:在密码学中,安全系统应该是"除了密钥之外的一切都可以公开"的。在 AI 评估中,"一切都可以公开"恰好是测量失效的原因。

这三个结构性原因叠加起来,意味着 AI benchmark 的失效不是一个可以修的 bug——它是一个必然现象。任何公开的、固定的、可重复的评估方法,都会被它评估的对象所适应。这不是 AI 领域独有的困境——标准化考试的困境、绩效考核的困境、KPI 管理的困境,都是 Goodhart's Law 在不同领域的表现。但 AI 领域的特殊性在于速度:从 benchmark 发布到饱和的周期已经压缩到了 6-18 个月,比任何其他领域都快一个数量级。


"考满分"之后怎么办

当所有模型都在 MMLU 上考 98%+,这个 benchmark 的信息量就趋近于零——它不再告诉你任何关于模型差异的有用信息。行业已经意识到了这个问题,但应对方式各有局限:

不断出新 benchmark。 GPQA(Graduate-Level Google-Proof Q&A)、SWE-bench Verified、MMLU-Pro——每一个新的 benchmark 都声称修复了旧 benchmark 的缺陷。但 Goodhart's Law 不在乎 benchmark 多精心——它只在乎 benchmark 是否公开。一旦 GPQA 成为新的比较标准,它也会被优化掉。这形成了一个 treadmill:新 benchmark → 模型适应 → 饱和 → 再出新 benchmark。每一轮的周期在缩短。MMLU 从"极难"到"饱和"花了约两年,HumanEval 更快。下一代 benchmark 的饱和周期可能只有几个月。

转向动态评估。 不用固定题目,而是让人或 AI 实时生成新的测试。这绕过了"训练数据污染"问题,但引入了新的问题:不同的实时测试之间不可比较。你没法说"模型 A 在今天的动态测试中比模型 B 好"就意味着什么——因为明天的测试会不一样。LMSYS Chatbot Arena 走的就是这个方向(真人投票盲评),但它测量的是"人类偏好"而非"客观能力"——两个不同的东西。

转向真实世界任务。 放弃 benchmark,直接看模型在实际应用中的表现。SWE-bench 就是这个思路——不是做题,是修真实的 bug。但真实世界任务的多样性本身就是一种"无限 benchmark",你无法穷举所有可能的场景。而且 SWE-bench 也开始饱和了——Claude Opus 4.7 在 SWE-bench Verified 上已经到了 80%+。

更深层的问题:即使你设计出了一个"完美"的 benchmark——明确定义了构念、做了统计检验、覆盖了真实场景——你仍然面对一个哲学难题:你测量的是"模型在特定任务上的表现"还是"模型的通用能力"?在心理测量学中,这是一个被争论了百年的问题(g 因素理论 vs 多元智力理论)。AI 领域还没开始认真面对这个问题。我们在用"一堆任务上的分数平均"来代表"模型有多强",但没有人证明过这个平均数有心理学或计算意义上的效度。

Carnegie Endowment 最近的分析指出,一批新的"应用型评估"(applied evaluations)正在试图在比传统 benchmark 更真实的场景中评估 AI 系统。这个方向是对的,但它解决的是 Oxford 研究中的"构念定义"问题(让测试更接近真实能力),不解决 Goodhart's Law 问题(任何公开的测试都会被优化)。


这影响了谁

对企业选型者:你看到的模型排行榜(LMSYS Chatbot Arena、各种 benchmark 榜单)中,分数的差异在统计上可能不显著。Oxford 的研究说明,84% 的 benchmark 比较结果可能是噪声。做选型决策时,不要看 benchmark 排名,看你自己业务场景的实测表现。一个在 SWE-bench 上低 5 分但在你实际代码库上表现更好的模型,benchmark 分数毫无意义。

对监管者:EU AI Act 引用 benchmark 做风险评估。如果这些 benchmark 84% 缺乏统计检验、一半没有明确构念定义,基于它们的监管框架的地基就是松的。Oxford 团队提供了一个 Construct Validity Checklist——在引用任何 benchmark 作为法规依据之前,先用这个清单检查它是否合格。

对 AI 研究者:Oxford 的 8 条建议值得认真看。最核心的三条:精确定义你要测量的东西("推理"不是一个定义),控制无关变量(格式不应该影响推理得分),用统计方法报告不确定性(2% 的差异可能不显著)。

对投资者:当一家 AI 公司说"我们的模型在 X benchmark 上超越了 Y",问三个问题:(1) 这个 benchmark 经过统计检验了吗?(2) 分数差异是否显著?(3) 这个 benchmark 测量的东西有明确定义吗?如果三个答案都是否定的,这个"超越"声明在科学上没有意义。

对开发者:Gartner 把当前的局面叫做"AI Value Crisis"——企业花了大钱部署 AI,但无法证明它在产生价值。部分原因是价值本身就难衡量,但更根本的原因是:我们用来衡量 AI 能力的工具(benchmark)正在系统性地高估这些能力。当模型在 benchmark 上考了 95 分,你预期它在生产环境中也能做到 95 分。但 Oxford 研究中的"脆弱表现"发现告诉你:如果实际场景和 benchmark 题目略有不同,分数可能从 95 跌到 2。这个预期落差是很多企业 AI 项目失败的原因之一——不是因为 AI 不行,是因为 benchmark 给了不切实际的预期。


数据来源