一条 prompt 解决 Erdős 猜想之后，数学还剩下什么

Liam Price 今年 23 岁，没有受过高等数学训练。他打开 ChatGPT，输入了一句话，等了 80 分 17 秒，拿到了一个 60 年来世界级数学家都没能解决的 Erdős 猜想的证明。

Prompt 很简单："不要搜索互联网。这是一个测试，看你能为一个数论和原始集合问题创造出多非平凡、多新颖的证明。提供完整的无条件证明或反驳。"他没有推导，没有验算，没有迭代。GPT-5.4 Pro 思考了 80 分钟，输出了一套证明。Scientific American 报道说，这套证明用的是一种此前没有任何人类数学家想到过的方法。

同一个星期，OpenAI 发了一篇博客解释为什么不再用 SWE-bench Verified 评估前沿编程能力——分数顶到了天花板。两件事放在一起，指向同一个问题：当 AI 的输出开始超越人类专家的验证能力，"知识"这个词的含义就变了。

一个 prompt 就够，但这不叫数学

先说清楚这件事的性质。Price 不是用 AI 辅助做研究。他没有先学数论，没有在草稿纸上推演，没有在 AI 的基础上修正。他做的事本质上是 prompt engineering——精心措辞一句话，把问题扔给模型，等答案。

HN 上有人贴出了完整的 ChatGPT 对话。模型在 80 分钟的思考过程中，间歇性地输出"Interesting!"。有人觉得这像小孩学表达情绪，但另一个评论者说得准确：这是训练数据中"That's odd"后面跟着"Eureka!"的统计模式，不是认知跳跃。模型在它自己的推理空间里游走，碰巧走通了。

问题是，它走通的结果碰巧是对的。而且用的路径碰巧是新的。

这和"数学"之间的关系，大概相当于猴子在打字机上敲出莎士比亚和文学之间的关系。结果在那里，但过程不满足数学这门学科对"证明"的社会要求。

证明不只是正确，还得说服人

1979 年，三位计算机科学家 Richard De Millo、Richard Lipton 和 Alan Perlis 写了一篇论文《Social Processes and Proofs of Theorems and Programs》。核心论点：数学证明不是一个纯粹的逻辑对象，它是一个社会对象。一个证明之所以成为证明，不是因为它在形式上无懈可击，而是因为它成功说服了足够多的数学家。

这篇论文当年用来反驳用程序验证取代人工证明的构想。47 年后，这个论点以更极端的形式回来了：当 AI 生成的证明使用了"人类从未想到过的方法"，谁能被说服？

传统上，一个数学证明通过同行评审发表，意味着至少几个专家读懂了它、检查了每一步推导、确认了逻辑链条完整。这个过程的核心不是"检查正确性"——形式化验证工具做得更好——而是"建立理解"。每一个读懂证明的数学家，都把这个证明纳入了自己的知识网络，可以在未来的研究中引用、改造、推广。

当 GPT-5.4 输出一个人类从未想到的方法，这个过程断了。没有人能"建立理解"，因为理解需要建立在已有的概念框架之上，而这套方法是从训练数据的统计模式中涌现出来的，不对应人类数学的任何已有分支。

验证的瓶颈不在正确性，在理解

你可以说：用 AI 去验证 AI 的证明。或者用形式化验证工具 Lean、Coq 去检查。

用 AI 验证 AI 的证明，等于把信任链从一个黑箱转移到另一个黑箱。用 Lean 做形式化验证，确实能把正确性检查到一个可靠的程度。但这解决的是"这个证明对不对"的问题，不是"这个证明意味着什么"的问题。

一个数学定理的价值从来不只是"它是正确的"。勾股定理的价值不在于 a² + b² = c² 这个等式成立，而在于它揭示了几何空间的一个深层结构，几千年来被不同文明独立发现，每一次发现都拓展了人类对空间的理解。

如果一个 AI 生成的证明是正确的但人类无法理解，它对数学知识体的贡献是什么？一个正确但无法被人类消化的事实。这和数据库里多一条记录没有本质区别。

Vibe 前缀正在吞噬整个知识体系

"Vibe"这个前缀在吞噬不同领域的专业知识。Vibecoding：你不理解代码，但代码能跑。Vibe-math：你不理解证明，但证明是对的。

Tech Trenches 上一篇引发大量讨论的文章把西方制造业的去技能化和软件工程的去技能化做了平行比较。Raytheon 重启毒刺导弹生产线时，不得不请回 70 多岁的退休工程师，教年轻人怎么看 40 年前的纸图纸。制造业花了 20 年失去技能积累，软件工程正在用更短的时间走同一条路。

Vibe-math 是这条逻辑的下一站：不只工程技能在退化，连纯知识生产的技能也在被外包给 AI。制造导弹失去的是手艺，制造证明失去的是理解。后者要严重得多，因为手艺丢了可以重建，理解丢了整个学科的地基就空了。

形式化验证能救场，但代价是改写数学的定义

数学界并非没有准备。过去十年，形式化证明语言 Lean、Coq、Agda 从冷门工具变成了主流数学家愿意用的东西。Kevin Buzzard 在帝国理工用 Lean 形式化了全部本科数学课程。Terence Tao 公开表示在学习 Lean。Peter Scholze 的凝聚态数学纲领通过 Lean 形式化验证得到了确认。

形式化证明的本质是：把"说服人类专家"这个社会过程，替换成"通过类型检查器"这个机械过程。如果 AI 生成的证明能被翻译成 Lean 代码并通过检查，它不需要人类理解也能被信任。

但这恰恰是悖论。接受"通过形式化检查等于有效证明"，就在根本上改变了数学 2500 年来的运作方式。数学从"人类通过理性思考理解世界的结构"变成了"机器通过符号推演产出可验证的命题"。后一种活动有价值，但它不叫数学。叫它什么？也许需要一个新名字。

正确但不可理解，不叫知识

Liam Price 解决了 Erdős 猜想 #1196。erdosproblems.com 上又少了一个待解问题。但如果你问"人类因此对这个数学领域理解更深了吗"，答案是：可能没有。

这和 2020 年 DeepMind 的 AlphaFold 预测蛋白质结构是同一类问题。AlphaFold 预测了两亿种蛋白质结构，生物学家拿到的是一堆高精度的坐标数据。数据增长了，理解没有同步增长。

AI 正在变成一台知识制造机：正确率高得惊人，但产出物和人类的认知结构之间有一个越来越大的间隙。这个间隙在编程领域可以暂时忽略——代码能跑就行。但在数学领域，这个间隙是致命的。因为数学的本质就是消除间隙——把模糊的直觉变成清晰的理解。当 AI 开始批量产出人类看不懂的正确证明，数学最大的对手不是无知，是正确但不被理解。

参考：Scientific American 原文 · HN 讨论 · Erdős Problem #1196 · OpenAI SWE-bench 博客 · De Millo, Lipton, Perlis 1979 · Tech Trenches: 西方正在遗忘如何制造