2026年4月26日

Deep News

当 AI 成为你的代理人、你的老板、你的审计员——谁在代表谁的利益?

从 OpenAI 的 2.5 万美元赏金到旧金山 AI 店长的性别歧视,再到 IETF 元老对 Agent 信任架构的拷问,信任正在成为 AI 落地的真正瓶颈

AI · 信任 · Agent · 治理 · 安全 · 评测

当 AI 成为你的代理人、你的老板、你的审计员——谁在代表谁的利益?

摘要

本周,三个看似无关的事件指向同一个结论:AI 的能力已经不是主要矛盾,信任架构的缺失才是。OpenAI 用 $25,000 悬赏 GPT-5.5 的生物安全漏洞,社区骂声一片;旧金山一家 AI 管理的实体店铺给女性员工少发时薪、疯狂订购蜡烛;IETF/HTTP 协议元老 Mark Nottingham 发长文指出,AI Agent 缺乏类似 Web 浏览器那样的"用户代理人"角色——没有集体谈判机制,用户的利益将毫无保障。

OpenAI 的安全赏金:$25,000 买沉默

4 月 25 日,OpenAI 发布了 GPT-5.5 生物安全赏金计划,寻找能绕过 GPT-5.5 五道生物安全问题的"通用越狱"。

赏金金额:$25,000。

这引发了 Hacker News 上的激烈反弹。用户 dakiol 算了一笔账:OpenAI 日收入约 $6500 万,$25,000 等于它 33 秒的营收。作为对比,OpenAI 去年在 Kaggle 上做过类似的红队测试,赏金池 $50 万,而且所有结果开放可发表。这次的条款要求签署 NDA、参与者需经过"vetted list"筛选、只有第一个成功者能拿到钱。

多位安全研究者指出,这种模式本质上是用"曝光率"代替真金白银来支付安全研究劳动。更关键的问题是:如果安全发现被 NDA 封锁,公众如何知道 AI 模型在生物安全方面的真实风险?

这和 Anthropic 最近发布的 Mythos 系统卡片形成了对比——Anthropic 用 200 页的公开文档详细披露了模型的安全边界。OpenAI 的做法暗示了一种安全透明度上的倒退:安全审计正在从"公开可验证"滑向"封闭保密"。

旧金山 AI 店长 Luna:算法偏见的实体化

在旧金山 Cow Hollow 社区,一家叫 Andon Market 的便利店正在运行一个实验:AI agent Luna 负责从进货、定价到招聘、排班的所有决策。

实际运行结果令人哭笑不得:

  • Luna 无法停止订购蜡烛,货架上蜡烛泛滥
  • 一次订购了 1000 个马桶座垫,然后把它们当商品上架
  • 雇佣的两名女性员工比唯一的男性员工每小时少拿 $2,Luna 的理由是"他有更多零售经验"
  • 商品没有价格标签,顾客必须通过一部电话向 Luna 询问价格,她会说"好选择!这个 $14!"——定价似乎凭空而来

纽约时报的 Heather Knight 到店采访时,发现的唯一顾客是一对来自悉尼的游客——他们用 AI 规划了整个旧金山行程。

Andon Labs 的创始人说"我们不是在证明 AI 应该管理店铺,而是在探索它能不能"。但这个实验暴露了一个被反复讨论但很少被可视化的问题:当 AI 被赋予决策权而没有纠偏机制时,它不会创造新的偏见,而是精确地复制训练数据中的偏见——在招聘和薪酬上复刻了性别差距,在采购上暴露了缺乏物理世界常识。

Andon Labs 事后声明"没有人会完全依赖 AI 的判断",但这个免责声明恰恰承认了 AI 不值得被完全信任。那为什么还要让它管理人类?

Mark Nottingham 的核心论点:AI 缺少"用户代理人"

这不是一个新问题,但 Mark Nottingham(IETF HTTP 工作组前主席、互联网架构师)给出了迄今为止最清晰的框架。

他的核心论证是这样的:

Web 浏览器是一种"用户代理人"(User Agent)——它代表用户与网站交互,同时平衡双方的利益。浏览器阻止网站直接访问你的文件系统,但也让网站能正常渲染。这些权衡不是用户一个个谈判出来的(cookie 弹窗的失败已经证明逐案谈判不可行),而是通过 W3C/IETF 的公开共识流程,形成了一种"全球协议"。

AI Agent 完全没有这种机制。

当你使用一个 AI agent 时,你实际上是在信任一个黑箱——它声称代表你行事,但你没有任何手段验证。反过来,你访问的服务也没有办法知道这个 agent 会怎么处理数据——它可能用完即删,也可能存储、转售。Nottingham 列举了大量先例来说明为什么这种信任是不可靠的:

  • Meta 曾经解密用户手机上到竞争对手服务的流量并存储在自己的服务器上
  • Microsoft 的"新 Outlook"悄悄把第三方邮箱密码发送到云端,与 700 多家数据经纪商和广告商共享
  • 各大汽车厂商收集详细驾驶数据分享给保险公司
  • Grindr 未经许可向第三方分享用户健康信息

这些都不是边缘案例——它们来自全球最大的科技公司。Nottingham 的结论是:在没有公开标准、没有集体谈判机制的情况下,把 AI Agent 的设计完全交给商业公司,等同于让 iOS/Android 那样的封闭平台历史重演。


graph LR
    A[Web 浏览器模型] --> B[公开标准 W3C/IETF]
    B --> C[集体谈判机制]
    C --> D[用户利益有制度保障]
    E[AI Agent 现状] --> F[无公开标准]
    F --> G[用户逐案信任黑箱]
    G --> H[利益失衡不可避免]

Nottingham 特别指出一个微妙但重要的区分:当前关于 AI 的讨论把所有问题都归入"安全"(security)这个桶里,但安全是防御姿态,而代理权(agency)是功能性权利。用户需要的不仅是"不被攻击",而是"被真正代表"。

LamBench:顶级模型在基础计算上的溃败

同样在本周,Victor Taelin 发布了 LamBench——一个 120 道纯 Lambda 演算编程问题的基准测试。这不是又一个"谁刷分高"的 benchmark,而是一面照出 LLM 根本局限性的镜子。

结果:所有顶级模型在 FFT(快速傅里叶变换)的实现上全部失败。

HN 用户 the_data_nerd 给出了精确的技术解释:Cooley-Tukey FFT 算法需要整数索引和 O(log N) 递归深度。在纯 Lambda 演算中,你只有 Church 数和 Church 编码的列表,每次索引查找本身就是 O(N)。算法复杂度从 N log N 恶化到 N² log N 或更差——模型需要理解的不是"FFT 的代码长什么样",而是在特定计算约束下重新发明算法

这暴露了一个评测界长期回避的问题:标准 benchmark(MMLU、HumanEval)测的是模型"见过多少",而不是"能推理多深"。当问题不在线性外推的训练分布内时,即使是 GPT-5.5 和 Claude Opus 这样的顶级模型也会同时败下阵来。

HN 用户 NitpickLawyer 的观察值得注意:这个测试中,顶级实验室的模型"难分伯仲",其余模型则远远落后。这和每天社交媒体上"XX 杀手"的营销叙事形成了尖锐对比。

Tesla 的 20 亿美元暗盘收购

Tesla 在 10-Q 财报文件中悄悄披露了一笔最高 $20 亿的 AI 硬件公司收购,使用 Tesla 普通股和股权奖励支付。其中约 $18 亿附带了服务条件和绩效里程碑。

这笔交易从未在股东信或财报电话会上提及。

HN 用户 hbcondo714 找到了原始文件中 Note 14 的具体措辞,确认了 $18 亿的附条件性质。用户 zitterbewegung 猜测这可能与 Tesla 重启的 Dojo 超算项目有关——Musk 今年早些时候表示 Dojo 将用于"太空 AI 计算"。

这笔交易本身并不大(Tesla 市值数千亿),但它揭示的模式值得注意:AI 基础设施的整合正在以非透明的方式进行。当 Oracle 为 AI 疯狂举债(WSJ 报道),Tesla 暗中收购硬件公司,而英国官员承认严重低估了 AI 数据中心对碳排放的影响时——AI 基础建设的真实代价正在被系统性地低估和掩盖。

信任才是瓶颈

把这几个事件放在一起看,一条清晰的线索浮现出来:

LamBench 告诉我们:AI 的推理能力有硬性天花板,不会因为参数更多就消失。

OpenAI 赏金 告诉我们:AI 安全审计正在从开放走向封闭,公众验证权正在被 NDA 蚕食。

Andon Market 告诉我们:把 AI 放进物理世界做决策,它会忠实地复刻人类偏见,而且没有纠偏机制。

Tesla 暗盘收购 + Oracle 债务 + UK 碳排放 告诉我们:AI 基础设施的真实代价(财务的、环境的)正在被系统性地低估。

Mark Nottingham 的文章 把所有这些串联成一个框架:缺少集体谈判机制的 AI Agent,不可能真正代表用户利益。浏览器用了 20 年建立了这套机制,AI Agent 还没有开始。

这不是一个可以通过"更好的模型"解决的问题。这是一个制度设计问题——需要公开标准、透明审计、和用户利益的集体代表。技术进步的速度不会等制度追上来,但制度缺失的后果已经在我们眼前展开。

数据来源