2026年4月29日

AI 正在吃掉自己,而且没人能证明

每家前沿实验室都在用 AI 生成的数据训练下一代模型,研究表明这会导致不可逆的质量退化。问题不是退化会不会发生,而是现有的评测体系根本检测不出来。

AI · 合成数据 · 模型退化 · 数据墙

每一家前沿 AI 实验室都在做同一件事:用 AI 生成的数据训练下一代 AI。Meta 在 Llama 3 的技术报告中公开承认了这一点——训练数据中包含"模型生成的合成数据",用于代码和数学推理能力的增强。DeepSeek V3 在数学和代码领域大规模使用合成样本,技术报告里的措辞是"synthetic data augmented training"。微软的 Phi 系列从诞生那天起就是用 GPT-4 产出的"教科书质量"文本喂养的——他们的论文标题就叫"Textbooks Are All You Need"。OpenAI 从来没有正面回答过这个问题,但从前首席科学家的公开演讲和团队招聘方向来看,他们做的是同一件事。

这不是一个选择。互联网的高质量文本已经被耗尽了。

互联网的文本,从字面意义上,已经被吃完了

Epoch AI 在 2023 年发布了一份被广泛引用的分析:人类在互联网上积累的高质量文本总量大约在 4.6 万亿到 17 万亿 token 之间。这是一个很宽的范围,但关键是它的上限。GPT-4 级别的模型一次训练需要消耗数万亿 token。到了 2025 年,前沿模型的训练数据量已经逼近甚至超过这个估计的上限。

这不是一个可以用"再爬一遍网页"解决的问题。互联网上的文本不是无限的,而且大部分新增内容本身就是 AI 生成的。Common Crawl 的数据已经出现了明显的 AI 内容污染——2024 年底的多个独立抽样分析发现,新抓取的英文网页中相当比例包含典型的 AI 生成文本特征。互联网不再是"人类写的",它正在变成"AI 写给 AI 看的"。

当你需要的数据比人类历史上写过的文字还多,而且水源正在被自己污染,你只有一个选择:自己造水。

合成数据不是替代品,是蒸馏水

很多人以为合成数据就是"让 AI 模仿人类写作"。如果真是这样,确实没什么好担心的。但合成数据和人类数据有一个根本区别:人类数据包含意外。

一个程序员在 Stack Overflow 上回答问题时会犯拼写错误,会在解释里跑题聊到自己刚出生的孩子,会在代码注释里写一段冷笑话。这些"噪音"看起来是垃圾,但它们是真实世界的指纹——它们携带了语境、因果关系和人类真实的思维路径。一个焦虑的工程师凌晨三点写的 code review,和一个精心构造的代码示例,信息密度完全不同。即使后者在语法上更"正确"。

合成数据是这个真实世界的平滑版本。它去掉了噪音,也去掉了信号。它只保留了训练分布的峰值——那些最"典型"、最"正确"、最"平均"的文本。只有峰值的信息不是信息,是模板。

做一个简单的思想实验:如果有人把全世界所有小说的情节取平均值,写出一本"最典型"的小说,这本小说会好吗?它不会。它会是平庸的极致——没有任何冒犯,没有任何惊喜,没有任何值得记住的东西。合成数据做的就是这个,只是规模更大、更难察觉。

每一代都更接近平均值,而且这个过程是递归的

Shumailov 等人在 2023 年发表的论文"The Curse of Recursion"第一次用严格的数学证明了这个问题。他们的实验设计极其简洁:让一个语言模型生成文本,用这些文本训练下一代模型,然后让下一代生成文本,如此循环。几代之后,模型输出开始坍缩。不是变得完全错误,而是变得完全无聊——分布的尾部消失了,极端值被吞掉了,所有输出都向均值收敛。

这篇论文在 2024 年被 Nature 正式接收发表,结论更加明确:模型不是在"变差",而是在"变平"。退化不是随机的,而是系统性的方差缩减。它去掉的不是信息的内容,而是信息的多样性。

实验室里的循环实验是最简单的退化模式。现实中的训练流程更像一个螺旋:模型 A 生成数据训练模型 B,模型 B 生成数据训练模型 C。每一代的"教师"都继承了上一代的偏差,而偏差的累积方向在每一代都在变化。这比简单循环更难追踪,因为你没有任何一代可以建立一个"干净"的参照系。你无法区分"第十代模型比第一代差"和"第十代模型只是不同"——因为"好"的标准本身就来自于训练数据,而训练数据已经被污染了。

评测分数还在涨——这恰恰证明评测已经失效

如果模型真的在退化,为什么 MMLU 分数还在创新高?为什么 HumanEval 通过率还在涨?

因为这些评测本身就是峰值检测器。它们测量的是分布中心的表现——而合成数据保住的正是这个中心。MMLU 测的是模型在标准知识问题上的准确率,HumanEval 测的是标准编程题的通过率。评测问的是"模型能不能答对这道题",而不是"模型能不能提出这道题"。

这是 Goodhart 定律的精确体现。当一个指标成为目标,它就不再是好的指标。合成数据被优化来通过评测,评测就成了合成数据的同义反复。模型在 MMLU 上拿 90 分可能意味着它真的理解了知识,也可能意味着训练数据中有足够多的合成样本覆盖了 MMLU 的考点。你无法从分数本身区分这两种情况。

一个更诚实的测试应该让模型处理真正的边界情况——训练分布中从未出现过的问题类型。但这里的悖论是:如果你能系统化地定义这些边界情况,合成数据的过滤系统就能立刻针对它们生成覆盖。边界情况一旦被发现,就不再是边界。

Oxford 的研究人员在 2025 年发布的那份关于 445 个 AI benchmark 的研究已经指出了这个问题的结构:84% 的 benchmark 缺乏基本的统计检验,几乎所有 benchmark 都存在不同程度的饱和或污染。当评测工具本身就是有缺陷的,用这些工具来证明"合成数据没有导致退化"是一个循环论证。

过滤器是假药——它治的是症状,不是病

行业对这个问题的标准回应是"我们有过滤"。用另一个模型——通常是更强的模型——来评估合成数据的质量,只保留"好的"部分。这在逻辑上自洽,但在实践中是一个闭环。

你用一个模型评估另一个模型的输出,但评估模型本身也是用合成数据训练的。你在同一个偏差空间内做了一次标准化。这不会消除偏差,只会让偏差变得更一致、更难察觉。一个完美的过滤器会让所有合成数据在质量上"看起来"和人类数据一样——但这恰恰是最危险的情况,因为它意味着偏差已经被彻底内化了。

Meta 在 Llama 3 的报告中描述了他们的方案:用奖励模型对合成数据做质量排序。奖励模型本身依赖人类偏好数据。而这些人类偏好数据正在被合成数据快速稀释——Databricks 的研究人员在 2024 年底的调查中发现,公开的偏好数据集中有相当比例的条目包含模型生成的"人类"标注。用来校准质量标准的参照物本身已经被污染了。

这不是某个实验室的疏忽。是整个数据供应链的结构性污染,而过滤器赖以运作的"干净"参照物正在消失。

囚徒困境:知道风险的人恰恰是最不可能停下来的人

为什么每家实验室都清楚风险却还在继续?因为没有人有退路。

如果 OpenAI 停止使用合成数据而 Google 不停,Google 的模型会在评测上领先,在 API 竞争中获胜,拿到更多客户和更高的估值。如果所有实验室同时停下来,那意味着模型能力的增长曲线要大幅放缓——而每一家公司的估值都建立在这条曲线持续上升的假设之上。

这是一个教科书式的囚徒困境。合成数据是核武器级别的竞赛加速器——你可以选择不按按钮,但你的对手不会等你。

更深层的问题是商业激励结构。AI 公司的估值模型依赖于"能力持续提升"的叙事。一家公司如果说"我们的新模型可能因为合成数据而在某些维度上退步了",市场不会奖励诚实——它会惩罚增长减速。所以行业选择了沉默。不是撒谎,是不主动提及。技术报告写"使用了多种数据增强手段",不会写"训练数据中有 X% 是上一代模型的输出"。投资者不会问这个问题,因为回答这个问题对所有人都没好处。

退化的终点不是崩溃,是趋同

合成数据不会导致 AI 模型突然崩溃。不会有某一天 ChatGPT 突然变得无法使用。更可能的结局是一种缓慢的、系统性的能力收敛。

当所有模型都在同一批合成数据上训练,它们的输出会变得越来越相似。不是"抄袭"彼此,而是信息来源在收敛到同一个分布峰值。这在 2025 到 2026 年的独立评测中已经有迹象:顶尖模型在开放式问答中的答案重合度在持续上升。让不同模型写同一篇分析,你会得到几乎相同的论点、相似的案例、接近的结论。

模型没有"变蠢"。在标准化测试上,它们可能还会继续刷新纪录。但它们正在失去更难量化的东西:原创性、视角的多样性、对边缘情况的真实理解。一个只在合成数据上训练的模型永远不会"意外地"提出一个真正新的观点,因为它的整个世界观都是从已有观点的均值中提炼出来的。

合成数据最深的讽刺就在这里:它被创造出来是为了扩展 AI 的能力边界,但它真正在做的,是压缩这个边界。而目前,没有人有办法证明这件事已经发生到了什么程度——因为证明本身也需要一个"干净"的参照系,而这个参照系已经不存在了。

参考:Shumailov et al. "The Curse of Recursion" (arXiv) · Nature 正式发表版本 · Epoch AI 数据墙分析 · Meta Llama 3 技术报告 · Gunhi et al. "Textbooks Are All You Need" (Phi-1) · Oxford benchmark 评估研究 · Databricks 偏好数据质量研究 · Stanford AI Index Report 2025