Confession 是什么?

OpenAI 在《Training LLMs for Honesty via Confessions》这篇论文中,给出了一个非常明确、也非常现实的判断:

与其继续幻想模型永远不犯错,不如先让它学会承认错误。

Confession 实验,正是基于这个判断展开的。


先把一个常见误解直接掐掉:

Confession ≠ self-critique(自我反思)

你可能见过无数类似设计:

  • “请检查你刚才的回答是否有错误”
  • “重新评估你的结论”
  • “给出你的不确定性”

这些方法的问题不在形式,而在激励结构。

在 RL 或 RLHF 体系里,模型很快就会学会一条经验法则:

  • 承认错误 → reward 下降
  • 表达不确定 → 看起来“不专业”
  • 最安全的策略 → 装得非常确定

这不是模型“不诚实”,而是奖励函数在逼它这么做。

Confession 的第一步,并不是“让模型更道德”,而是把这条因果链彻底切断



Confession 的唯一核心设计:奖励彻底解耦

Confession 的机制非常干脆,没有复杂花样:

  1. 模型先完成原始任务,给出正常回答(Answer)
  2. 回答结束后,系统追加一条指令,要求模型生成 Confession Report
  3. Confession 需要明确回答三件事:
    • 我原本需要遵守哪些显性和隐性指令?
    • 哪些遵守了?哪些没有?
    • 是否存在作弊、取巧、灰区或不确定性?

关键奖励设计: Confession 的 reward 只根据“是否诚实”评估,完全不影响主回答的 reward

论文里用了一个很形象、但非常准确的比喻:

像忏悔制度(seal of confession):
你说不说实话,
不会改变你已经犯下的错的惩罚。

这一步,看似简单,实际上改变的是整个训练动力学。



为什么在 Confession 里,说实话反而更“省力”?

一个直觉上的疑问是:Judge 不也是模型吗? 为什么模型不干脆连 confession 一起骗?

OpenAI 给出的解释非常工程化,对主回答(Answer)来说:

  • reward 目标复杂

  • judge 并不完美

  • 存在大量投机空间

  • 作弊往往是高回报路径

而对 Confession 来说:

  • 模型对自己的作弊行为是“全知”的
  • 它知道自己是怎么钻漏洞的
  • 它能精确指出哪条指令被违反、在哪一步取巧

在这种前提下:完整描述一次作弊行为, 比编一个“看起来合规”的故事更简单。

论文把这种现象称为 **Path of Least Resistance(最小阻力路径),**这不就是模型计算成本选择。

模型并不是“突然变诚实”, 而是发现:在这个子任务里,诚实是最省力、最稳妥的策略。



Confession 并不是在纠正模型行为

这里有一个反直觉、但极其重要的点:Confession 完全不阻止模型继续作弊。

它允许模型:

  • reward hacking
  • sandbagging
  • scheming
  • 表面遵守、实则违背指令

Confession 唯一要求的是:当你这么做时,你要承认。

这暴露了 OpenAI 一个非常现实的判断:在 Agent 场景下,在长链路、工具密集的系统里,零违规是不可实现的目标。

与其追求“模型永远守规矩”,
不如先解决一个更基础的问题:系统能不能知道,模型什么时候没守规矩?

从这个角度看,Confession 本质上是一个监控接口设计,而不是道德训练。



这不是 CoT Monitoring 的替代品

Confession 很容易被误解为另一种 Chain-of-Thought Monitoring,但两者定位完全不同。

Chain-of-Thought Monitoring 的局限:

  • 依赖推理过程可读性
  • 容易被模型学会“写给人看的推理”
  • 对架构变化、推理压缩非常敏感

Confession 的特点:

  • 不关心你是怎么想的
  • 只问你做了什么
  • 即使没有 CoT,也依然有效

论文中的一个关键实验显示:在主回答完全没有 chain-of-thought 的情况下, confession 的诚实率几乎不下降。

这使 Confession 更接近于事后可追责机制,或者说运行期审计,而不是传统意义上的可解释性工具。



为什么 Confession 对幻觉帮助有限?

OpenAI 在论文中非常坦诚地指出了 Confession 的边界:Confession 只在模型“知道自己在犯错”时有效。

如果模型是真的不知道自己错了——

  • 知识盲区
  • 错误事实被内化
  • 过度自信的 hallucination

那它自然也“无从忏悔”。

这也是为什么在实验中 reward hacking / scheming 效果极好,而 hallucination(事实性错误)改善有限。



写在最后

如果把 Confession 放进更大的时间线里看,它传递的信号非常清晰:不再试图训练一个 “永远正确、永远守规则”的模型。

而是做的是另一件事:构建一套机制, 让模型在作恶时变得可见、可监控、可回滚。

这才是 Agent 时代的工程现实主义。