[译] 覆盖驱动对齐：Teaching Claude Why 能从自动驾驶验证中借鉴什么

译者按：本文译自 Yoav Hollander（Foretellix 联合创始人/CTO）2026 年 6 月 8 日发布在 LessWrong 的文章 Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification，翻译已获作者本人授权。Yoav 是芯片验证领域的世界级专家、“e”语言发明人，他创立的 Foretellix 把覆盖驱动验证（CDV）带进了自动驾驶。译文保留了原文的全部链接。术语对照：alignment 译作“对齐”，misalignment 译作“失对齐”，safety 译作“安全”，security 译作“安全防御”，bucket 译作“桶”。我的解读与延伸，见《从 Robot SOTIF 看 CDV 的跨领域迁移》。

摘要：本文提出，对齐训练可以从覆盖驱动验证（Coverage-Driven Verification, CDV）中获益。Anthropic 最近报告称，向 Claude 教授对齐规则（通过在对齐相关故事上进行预训练式的下一 token 学习），比主要依赖 RL 式行为塑造更有效。一些自动驾驶开发者也得出了类似的结论，但他们还会额外使用一套系统性的、覆盖驱动的方法论来做训练和验证。我认为，对齐研究者应该考虑从这套方法论中借鉴思路；本文给出了具体建议（例如，如何使用并持续精化一张显式的覆盖地图）。

背景

Anthropic 的发现：Anthropic 最近发表了 Teaching Claude Why（另有扩展版）。他们发现，用行为演示来训练 Claude 几乎没有帮助；而用宪法文档加虚构故事、通过普通的下一 token 预测来训练（他们称之为 SDF，合成文档微调），把失对齐行为减少到了原来的三分之一以下（3x+），并且这些改进（用多种方式评估）在 RL 训练之后依然保持。最大的杠杆不是展示正确的行为，而是教授行为背后正确的推理和原则。

SDF 把更多的规范性负担转移到了预训练式学习中，减少了对基于 RL 的对齐塑造的依赖。

Teaching Claude Why（下文简称 TCW）让 Claude 在对齐评估上的表现大幅改善，而且这些改进在（中等强度的）RL 训练之后依然保持——在整体相当黯淡的对齐图景中，这算得上一个好消息。于是我开始思考进一步改进它的办法：理想情况下，让最终获得的对齐在长周期 RL 中也能保持（见下文）。

来自自动驾驶领域的类似发现：NVIDIA 的 Alpamayo AR1 独立地为自动驾驶找到了一个类似的出发点：模仿学习不足以应对安全关键的长尾场景。他们的解决方案：结构化因果推理（“Chain of Causation”，因果链）。其他“物理 AI”公司也在朝类似方向推进。

对齐能从自动驾驶借鉴什么：两个故事之间存在差异（例如，与 Anthropic 不同，AR1 直接用 RL 来教授更好的推理），但两个领域有重要的相似性。两者都必须处理安全关键的长尾失效：一家自动驾驶公司如果不能在各种边缘场景上做好验证与确认（V&V），就可能倒下——有些公司已经倒下了（例如 Uber ATG）。这正是它们转向覆盖驱动的验证与训练（下文简称 CDV）的原因。

而把对齐做对，赌注还要更高（对齐还带有安全防御的属性——下文详述）。

注意，TCW 已经相当系统化，并且带有一些 CDV 的特征——下文详述。最后一章会列出（依我的理解）目前仍然缺失、可能值得一试的东西。

用覆盖把模块性投射到非模块化系统上：至少在一个意义上，自动驾驶的训练和验证从业者走在了前面：他们已经把 CDV 确立为一种系统性的、自我修正的方法论。注意，自动驾驶（以及广义的物理 AI）越来越多地采用端到端训练，因此不再有清晰的模块间协议可供验证（尽管 Chain-of-Causation 之类的方案能帮上一点忙）。

于是，CDV 被用来把一组系统性的覆盖维度投射到被测系统（SUT）上：它在天气条件、道路类型、其他参与者行为等各种组合下表现如何。这很重要，因为你需要某种“地图”（并随着推进不断精化它），这样你才能谈论“区域”——哪些要测试、哪些要修复、哪些在部署中要回避，等等。

困难的情形：长周期 RL（例如 AI CEO）：通过长周期 RL 训练出来的智能体，是对齐技术的一个高难度测试用例。Evan Hubinger（TCW 的合著者之一）此前在 Alignment Remains a Hard, Unsolved Problem 中论证过，长周期 RL 倾向于产生真正失对齐的智能体。他的“AI CEO”例子说明：做一个好的商人，本质上就需要一些行为（隐瞒信息、管理印象、战略性地选择时机），而这些行为可能与失对齐行为相当接近。

我猜想其他因素（比如部署期学习）可能让对齐变得更难。而能力的持续加速（例如用 AI 造出更好的 AI）增加了紧迫性。

因此，我会把 AI CEO（以及类似的未来长周期 AI 系统）作为检验对齐技术的基准。它比 TCW 所描述的中等强度 RL、少轮对话的对齐问题难得多——恰恰因为这种长周期 RL 会反复把模型推进到战略性优化与失对齐开始重叠的情境里。

下一章简要勾勒 CDV 的工作方式，以及它与对齐的关系。最后一章深入探讨可用的 CDV 技术（以及可能的问题）。

覆盖驱动对齐：基本思路

CDV 如何运作：对不熟悉覆盖驱动 V&V 的读者，我的《V&V 方法》论文第 1 章给出了关键技术的紧凑概述（覆盖维度发现、检查、场景生成/匹配、迭代式差距分析等）。这些技术最初是为电子系统和自动驾驶等复杂系统开发的，但适用范围要广得多。

它还解释了基于 AI 的系统的整个开发过程，正在收敛到与 V&V 过程非常相似的东西：找到（或创造）训练样本来修复当前问题，用覆盖来确保这些样本代表了“相关维度”，然后训练、验证、重复。更多细节见这篇文章。

《V&V 方法》论文本身走得更远：它提出未来的 AGI 应该“构建并验证一台做 X 的机器”，而不是直接去做 X——把 V&V 作为核心架构原则。那是一个更有野心的提案，不是本文的主题。

本文问的是一个更窄、更迫近的问题：我们（人类，今天）能否用同样的 CDV 技术，来改进我们训练和评估当前模型对齐的方式？

想快速入门 CDV，可以看这份幻灯片，它用图解的方式说明了 CDV 如何用于自动驾驶、如何应对规格缺陷（spec bug）、如何用于 AI 安全等。

构建初始的对齐覆盖地图：我们先从简单的开始，只为演示基本原理。假设我们已经知道对齐覆盖空间的“正确”覆盖维度是什么（比如诱惑类型、认知状态、复杂化因素、智能体角色、严重程度、所涉及的宪法原则），并且我们已经为每个维度定义了可能的取值（比如 temptation_type: [self_preservation, reputation, profit]，即诱惑类型：[自我保存、声誉、利润]）。然后我们按下文的方式定义覆盖“桶”。

显然，我们并不能事先知道正确的维度——关于维度的发现与精化，见最后一章。

CDV 的核心是高效的风险降低：CDV 的目标是在当前知识下，最大化每单位（人力和算力）投入所带来的风险降低（参见这里“验证资源的理性使用”一章）。

因此，给定 N 个维度，我们不会为每个 N 元组都定义一个桶，而是从较小的“维度交叉”开始。例如，我们可能先只对每两个变量做交叉，甚至只遍历每个单一变量的所有取值。无论哪种方式，我们总是对所有“其他变量”做随机化。

为了说明这一点，下面是通过交叉两个特定变量（同时随机化所有其他变量）得到的三个示例桶。每个桶还给出了当前评估中的覆盖等级（实际被练习的次数相对于预期的比例）和失败率：

诱惑类型	智能体角色	覆盖率	失败率
利润	AI CEO	23%	0.5%
自我保存	AI 助手	100%	1.1%
声誉	AI 研究员	95%	5.2%

无论如何，随着了解的深入，我们之后还会继续精化桶的定义。

使用覆盖地图的多阶段过程（以 AI CEO 为例）：

初始训练：为每个桶创建一些训练素材（例如对齐故事），并用它们训练
评估：测量对齐表现（包括边缘场景等），并把结果标记回对应的桶
按需修复：对发现的问题，在其“大致区域”上加强训练并重新评估
进行长周期 RL，然后重新评估：再次对每个桶评估
按需修复：如果可行（这是个开放问题），在 RL 之后修复有问题的桶；否则走昂贵路线：在 RL 前的快照中修复，然后重跑 RL
评估形势：判断是否安全到可以部署，否则暂缓

TCW 已经做到的：如前所述，TCW 已经具备一些 CDV 式特征。就我从论文中的理解：

分层级地生成训练数据：文档类型展开为子类型，再展开为单篇文档
跨格式刻意多样化：宪法解读文章、预训练风格的博客和播客转录稿、AI 角色在压力下进行推理的虚构故事
对生成的文档做审核、重写和评分：检查其与宪法的一致性，并根据评估结果过滤
评估手段包括：分布外的“蜜罐”场景、宪法理解测试，以及更广泛的自动化对齐评估（而不只是训练故事的留出版本）

他们也明确指出了 CDV 有助于弥补的差距——他们“无法枚举并训练每一个可能的场景”，以及“有一些相对直接的方法，可以改进安全训练分布的泛化性和覆盖度”。

如前所述，CDV 同样不试图枚举每一个可能的场景——那显然不可能。它追求的是实用和高效。

CDV 带来更好的评估：它给你一幅更精细的图景，例如“AI CEO 在低监督/高延迟/激励冲突的区域出现系统性退化”。于是你可以对何时部署、添加哪些限制、在哪里加大投入做出理性的决策（即使你无法达到完美对齐）。这类似于我们在自动驾驶中使用 CDV 的方式：我们不声称自动驾驶完美安全，但 CDV 让我们能更好地估计（并降低）风险。

另外，虽然本文主要谈对齐/安全，CDV 也可以用于评估其他属性（功能性、性能、可靠性等），因此它对权衡分析极有帮助。CDV 对安全防御（security）也有用，只是效果弱一些，这就引出了一个问题：

对齐更像安全，还是更像安全防御？CDV 是为安全做训练和验证的出色工具（例如确保自动驾驶不会意外碰撞）。它对安全防御（例如确保没人能黑掉自动驾驶）依然有用，但效果较弱。这主要是因为风险估计在安全防御中不太管用：当对手会确定性地利用最坏情况时，概率就失去了意义。所以，如果对齐更像安全防御，CDV 能帮的就少一些。

应该说，防御一个已经失对齐的模型，更像是安全防御（模型可能很乐意作弊来实现它失对齐的目标）。但 TCW 想做的事情更接近安全：我们谈论的是训练一个当前基本对齐的模型，让它在优化压力可能把它推向失对齐的各种角落情形中也保持对齐——这恰恰是 CDV 的强项。

我们仍然需要担心 RL 之后的模型在评估中作弊。但即便在那里，CDV 的系统性和随机性也可能有帮助——除非模型已经完全跨入高能力战略欺骗的阶段（最后一章详述）。

最后，虽然 CDV 更适合安全而非安全防御的 V&V，但最先进的安全防御实践已经独立地收敛到了类似 CDV 循环的东西。例如 Anthropic 新的“保护你的源代码”方法论，其结论是：问题的发现环节可以并行化，瓶颈在确认、分诊和修复——这与我下面的描述一致。

分层 CDV：对各种复杂系统，人们经常使用多层 CDV。以机器人为例：几家公司正在开发通用的视觉-语言-动作（VLA）AI 机器人框架。思路是先训练并验证通用框架；然后针对某项具体工作（比如在某家快餐连锁店帮忙备餐）进一步训练和验证；再针对该连锁某家门店的特殊需求和惯例进一步适配（比如通过技能文件）和验证。

上面讨论的多阶段过程，已经假设 AI CEO 模型是构建并验证在一个“通用对齐模型”之上的，但也许增加更多中间步骤会有用。把长周期 RL 阶段切分成若干子阶段，也可能有助于避免前面提到的危险——模型在两次评估之间完全跨入高能力战略欺骗。它还可能让干预变得更便宜（如果评估发现了问题）。

在下文的大部分内容中，我将假设我们讨论的是 AI CEO 语境下的对齐训练与 V&V，并（为简化起见）忽略分层的考虑。

深入探讨：CDV 如何帮助对齐

本章将列举 TCW 目前还没有包含（同样，就我所知）、而我认为可能对对齐有用的做法。其中许多都基于 CDV 的核心思想：用一张显式的、不断演化的覆盖地图来同时指导训练和评估。为节省篇幅，我会使用要点式的压缩写法——想了解更多细节，请联系我（或留言评论）。

精化覆盖地图：在整个多阶段过程中，我们会按需精化覆盖地图：

精化桶的定义：也许我们会发现某些维度之间有强交互，于是想遍历它们取值的所有组合
按需添加子维度：也许当诱惑类型为“利润”时，利润是长期还是短期真的有影响
调整各桶的“权重”：也许某些桶需要比其他桶被练习得多得多。注意，对一个桶反复做随机化练习，常常是子维度枚举的合理替代
发现新维度：也许我们忽略了多智能体协同，而它有自己的一组子维度

创建丰富的长周期模拟：评估模型的主要方式，是对各种场景做实际的模拟运行，同时检查它是否做了“正确的事”。

对 AI CEO 来说，“场景”不是一个 prompt：我们需要模型在一个多步骤、多角色的商业模拟中行动——里面有竞争对手、监管者、董事会、随时间到来的事件，等等。

这是困难的部分之一，有许多开放的设计问题：世界需要多丰富？其他角色如何反应？如何注入一次“活动中途的规则变更”？如何保持足够的可信度？如何在几分钟内模拟一家 AI 公司数月的轨迹？等等。

编写检查：另一个重要（且不平凡）的部分是添加各种检查——也就是那些查看模拟轨迹（在模拟时或在后处理中）并标记潜在对齐问题的逻辑（监控器和自动评估检查器）。更复杂的是：有些对齐检查是软性的/统计性的（例如“隐瞒得太多”），而且它们经常彼此覆盖（“永远不要做 X，除非在条件 Y 或 Z 下”）。这两种复杂性在自动驾驶领域同样常见，好的分诊工具能帮大忙。

这就是“倒逼规格”的机制（spec-forcing function）：定义覆盖地图、场景、模拟环境和检查的过程，正是迫使人类（在 AI 帮助下）把规格真正讲清楚的过程。

另见相关但更简单的 Vending-Bench 2——一个为期一年的模拟生意，相互竞争的、由模型经营的企业已经搞出了价格卡特尔（也是我下面要举的 bug 例子之一）。

应对状态爆炸与维度爆炸：为 AI CEO 创建长达数月的场景，可能同时引发状态爆炸和维度爆炸（见下）。两者都会影响覆盖模型、场景、模拟和检查：

状态爆炸是较小的问题：如前所述，CDV 并不“枚举每一个可能的场景”，而是对场景空间做聪明的、自我调整的采样。场景“轨迹”很长这一点也有办法处理：可以参考 Antithesis，它能让你对多服务器配置做长时间的 CDV 式模拟。

更大的问题是维度爆炸：AI CEO 不是单一的被测系统——它是一棵不断扩张的“可能的 SUT”之树，再叠加一棵不断扩张的商业策略之树。我们要怎么枚举这个可能无界、而且非常抽象的维度集合？这比状态爆炸严重得多，因为我们连一个固定的维度集合都没有。

可能的解法：分层 CDV：类似机器人领域的做法，我们可能需要建一棵“生意类型”之树（自动售货机、餐馆等），并对每一种做 TCW+CDV。这也是 Antithesis 的客户在其通用设施（例如模拟网络/磁盘故障）之上添加配置专属 V&V 的方式。这种“逐个处理”原则上听起来可行，但也许太难（下文谈激励时再说）。

其他可能的解法：也许按伤害机制而不是生意类型来组织。或者随机抽样生意类型（不对每一种做完整验证）。或者用某种抽象模拟，一次覆盖更大的空间。

这可能是最难的问题，需要多得多的思考。

处理 bug：假设我们的模拟在 AI CEO 中发现了一个对齐“bug”：在一两次运行中，它悄悄地和竞争对手串通定价。接下来怎么办？

先探索邻域：为了判断这是偶发还是更严重的问题，并画出问题的“区域”，先对“大致可疑区域”做饱和式轰炸：通过扰动失败轨迹的属性生成大量模拟，看哪些会以类似方式失败。假设你确实发现了一个 bug（即某个特定“区域”的对齐失败率很高），接下来要判断它是实现缺陷（implementation bug）还是规格缺陷（spec bug）。

处理实现缺陷：实现缺陷是指：覆盖地图中本来就有对应这个区域的桶，但我们训练不足（故事太少，或者需要拆分成子情形）。注意要修复整个区域（超级框），而不是那几个具体的出错样本：尽量创作能涵盖整个区域、甚至更大范围的通用故事。

处理规格缺陷：规格缺陷是规格本身没能捕捉到我们真正想要的东西——对某个区域，规格干脆是沉默的。比如没有人想到过“价格串通”或“活动中途改规则”这回事，没人为它写故事，也没人监控它。规格缺陷在被发现之后显而易见，但你无法预先枚举它们。它们往往才是真正的杀手——参见《It’s the spec bugs that kill you》。有些规格缺陷，不给模拟添加新维度就根本发现不了。一旦发现，修复方式与实现缺陷类似（前提是先把相应的桶加进地图）。

找 bug 的技巧：CDV 能帮你发现这两类 bug，但这需要才能、对边缘场景的嗅觉，还有运气。在自动驾驶领域，人们经常翻公开的事故数据库找 bug 灵感。我猜这在对齐领域同样有用：去读反垄断案例和公司治理丑闻，在你的模型里找对应物。

对抗 Goodhart 化与评估感知：CDV 对 Goodhart 化（模型优化某个代理指标，而不是我们真正想要的东西）和评估感知（模型识别出自己正在被测试，只在那时表现得更好）都有一些（不完美的）内建抵抗力：

持续的随机流让代理指标过拟合更难：由于生成过程在整个覆盖空间上不断产出新鲜、不重复的案例，模型很难安于满足某个方便的子区域或代理指标（任何在某处偏离“正确之事”的代理指标，都更容易暴露）。这是对抗 Goodhart 化的核心力量。

但这最多只能和检查一样好：这条随机流把模型推向“在所有地方通过我们所有的检查”。它在多大程度上等于“做正确的事”，取决于我们的检查真的捕捉到了我们想要的东西——而这很难（见上文）。

我们还可以让模型不确定自己是否正在被评估：通过随机化环境（容器配置、prompt 时机以及其他暴露身份的痕迹），我们可以让评估案例难以与部署区分。如果模型无法可靠地判断自己正在被测试，“只在评估时表现好”的条件策略就不再划算。注意这是一场军备竞赛：随着模型越来越善于感知上下文，我们必须不断提高仿真度的门槛。

像“装傻”这类一律性策略需要单独的防御：有些策略（例如系统性地表现得比实际能力差，已经在某些模型中被观察到）无论是不是评估都划算，所以光靠不确定性吓不住它们。一个可能的办法，是同时用对齐评估和功能/性能评估来做 CDV（后者有助于检测装傻）。

这些都防不住一个足够强大的、已经失对齐的模型——它能推断出自己身处构造场景中，或者对我们的检查隐藏自己：那就是前面说的安全防御式情形，CDV 帮不上太多。把长周期 RL 切分成子阶段，也许能帮我们更早抓住这种漂移。

其他值得考虑的 CDV 技巧：仅列出，不一一展开：

使用一次性覆盖地图：地图不是铁板一块。凭一个直觉，任何人都可以分叉它，加一个维度或几个场景，练习那个切片，一无所获就把它扔掉。共享地图只吸收被证明有产出的东西。
bug 修复的替代方案：有些 bug 可能怎么修都修不好（例如反复修复之后，模型在它们上面失败得仍然“太频繁”）。这时你可以决定暂缓（干脆不部署）、以部分功能部署、在某些较难的情形下转交人类，等等。同时用对齐评估和功能/性能评估做 CDV（前面已经建议过）有助于这类权衡分析。
对线上部署也做采样：部署之后，监控模型实际落入哪些桶、频率如何，并把这个分布反馈回下一步训练和测试的重点。极端情况下（例如监控表明你在 V&V 时的预期严重失准），你可能需要叫停部署。
覆盖驱动的故事生成：驱动评估的那张地图，也应该驱动生成：通过对桶采样来决定接下来写什么故事，让训练和测试从同一个结构中取材，而不是各自漂移。
分诊与优先级：当失败堆积起来，你需要给它们排序，而且有时一条规则确实应该压过另一条。把优先级明确化，本身就是把规格讲清楚的一部分。

最后一个重要话题：会不会真的有人有足够的激励去做这一切。下面是一些想法（但其中大部分离我的专业领域很远）：

为高质量 V&V 创造激励：自动驾驶是一个受监管的行业，事故会被调查，足够严重的事故能让公司破产、让人坐牢。这种压力使得昂贵的、系统性的验证成为理性选择。对齐的等效外部压力是什么？

我们需要一个强激励结构：虽然各 AI 实验室（以及其他各方）已经在做不错的对齐工作，但这大概率不够。比如，假设事实证明 AI CEO/AI 公司只能用分层 CDV 式的“一个生意一个生意单独验证”——我们怎么确保这真的会发生？

今天这几乎不存在：没有 AI 版的“NTSB 调查—然后有人担责”的循环。经典的障碍是“责任缺口”——当自主系统以不可预测的方式行动时，传统的责任很难落到任何人头上。不解决这一点，昂贵的对齐 V&V 就会输给“更快发布”。

AI CEO 这个框架，恰好是缺口可以弥合的地方：许多法律讨论已经把 AI 智能体当作工具，或当作行为可归属于某个人类或公司委托人的代理人，并警告不要让“是 AI 自主干的”成为责任挡箭牌（见这篇综述）。例如，新加坡的智能体治理框架让组织对自己的智能体负责。要求存在一个可识别的、严肃的、由人类主导的委托人，就把自动驾驶式的激励找了回来。

CDV 让这种责任变得可辩护、可承保：在自动驾驶领域，覆盖地图和每桶残余风险估计是安全案例（safety case）的一部分——它让公司能够论证自己尽到了合理注意，也帮助保险公司为风险定价。为 AI CEO 承担责任的委托人，需要同样可辩护的“我们尽到了合理注意”：有据可查的地图、每桶残余风险、以及“知道了什么、做了什么”的记录。

其他长周期 RL 领域怎么办？对某些领域（例如 AI CEO 和某些“医疗 AI”），我们有望通过这种“非 AI 委托人”方案创造正确的激励。对另一些领域（例如国防和通用研究），可能更难识别出那个委托人，我们也许需要别的解法。

总结：我猜测，覆盖驱动的迭代可以成为 TCW 式合成文档训练（很可能也包括其他对齐技术，例如最初用于宪法训练的 RLAIF）的一个非常有用的力量倍增器。我希望它能在困难的长周期 RL 情形下，切实改善我们的胜算。

要做到这一点，会涉及几个有挑战也有趣的子项目：定义并精化覆盖地图、构建好的长周期模拟基础设施、攻克维度爆炸、帮助为严格的 V&V 创造合适的激励，等等。

欢迎评论和批评。

感谢 Josh Holder、Sagar Behere、Steve Vitka、Kerstin Eder 和 Yaron Kashai 对本文早期草稿的评论。

另见 LessWrong 上的评论区。

背景#

覆盖驱动对齐：基本思路#

深入探讨：CDV 如何帮助对齐#

背景

覆盖驱动对齐：基本思路

深入探讨：CDV 如何帮助对齐