译者按:本文译自 Yoav Hollander(Foretellix 联合创始人/CTO)2026 年 6 月 8 日发布在 LessWrong 的文章 Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification,翻译已获作者本人授权。Yoav 是芯片验证领域的世界级专家、“e”语言发明人,他创立的 Foretellix 把覆盖驱动验证(CDV)带进了自动驾驶。译文保留了原文的全部链接。术语对照:alignment 译作“对齐”,misalignment 译作“失对齐”,safety 译作“安全”,security 译作“安全防御”,bucket 译作“桶”。我的解读与延伸,见《从 Robot SOTIF 看 CDV 的跨领域迁移》

摘要:本文提出,对齐训练可以从覆盖驱动验证(Coverage-Driven Verification, CDV)中获益。Anthropic 最近报告称,向 Claude 教授对齐规则(通过在对齐相关故事上进行预训练式的下一 token 学习),比主要依赖 RL 式行为塑造更有效。一些自动驾驶开发者也得出了类似的结论,但他们还会额外使用一套系统性的、覆盖驱动的方法论来做训练和验证。我认为,对齐研究者应该考虑从这套方法论中借鉴思路;本文给出了具体建议(例如,如何使用并持续精化一张显式的覆盖地图)。

背景

Anthropic 的发现:Anthropic 最近发表了 Teaching Claude Why(另有扩展版)。他们发现,用行为演示来训练 Claude 几乎没有帮助;而用宪法文档加虚构故事、通过普通的下一 token 预测来训练(他们称之为 SDF,合成文档微调),把失对齐行为减少到了原来的三分之一以下(3x+),并且这些改进(用多种方式评估)在 RL 训练之后依然保持。最大的杠杆不是展示正确的行为,而是教授行为背后正确的推理和原则。

SDF 把更多的规范性负担转移到了预训练式学习中,减少了对基于 RL 的对齐塑造的依赖。

Teaching Claude Why(下文简称 TCW)让 Claude 在对齐评估上的表现大幅改善,而且这些改进在(中等强度的)RL 训练之后依然保持——在整体相当黯淡的对齐图景中,这算得上一个好消息。于是我开始思考进一步改进它的办法:理想情况下,让最终获得的对齐在长周期 RL 中也能保持(见下文)。

来自自动驾驶领域的类似发现:NVIDIA 的 Alpamayo AR1 独立地为自动驾驶找到了一个类似的出发点:模仿学习不足以应对安全关键的长尾场景。他们的解决方案:结构化因果推理(“Chain of Causation”,因果链)。其他“物理 AI”公司也在朝类似方向推进。

对齐能从自动驾驶借鉴什么:两个故事之间存在差异(例如,与 Anthropic 不同,AR1 直接用 RL 来教授更好的推理),但两个领域有重要的相似性。两者都必须处理安全关键的长尾失效:一家自动驾驶公司如果不能在各种边缘场景上做好验证与确认(V&V),就可能倒下——有些公司已经倒下了(例如 Uber ATG)。这正是它们转向覆盖驱动的验证与训练(下文简称 CDV)的原因。

而把对齐做对,赌注还要更高(对齐还带有安全防御的属性——下文详述)。

注意,TCW 已经相当系统化,并且带有一些 CDV 的特征——下文详述。最后一章会列出(依我的理解)目前仍然缺失、可能值得一试的东西。

用覆盖把模块性投射到非模块化系统上:至少在一个意义上,自动驾驶的训练和验证从业者走在了前面:他们已经把 CDV 确立为一种系统性的、自我修正的方法论。注意,自动驾驶(以及广义的物理 AI)越来越多地采用端到端训练,因此不再有清晰的模块间协议可供验证(尽管 Chain-of-Causation 之类的方案能帮上一点忙)。

于是,CDV 被用来把一组系统性的覆盖维度投射到被测系统(SUT)上:它在天气条件、道路类型、其他参与者行为等各种组合下表现如何。这很重要,因为你需要某种“地图”(并随着推进不断精化它),这样你才能谈论“区域”——哪些要测试、哪些要修复、哪些在部署中要回避,等等。

困难的情形:长周期 RL(例如 AI CEO):通过长周期 RL 训练出来的智能体,是对齐技术的一个高难度测试用例。Evan Hubinger(TCW 的合著者之一)此前在 Alignment Remains a Hard, Unsolved Problem 中论证过,长周期 RL 倾向于产生真正失对齐的智能体。他的“AI CEO”例子说明:做一个好的商人,本质上就需要一些行为(隐瞒信息、管理印象、战略性地选择时机),而这些行为可能与失对齐行为相当接近。

我猜想其他因素(比如部署期学习)可能让对齐变得更难。而能力的持续加速(例如用 AI 造出更好的 AI)增加了紧迫性。

因此,我会把 AI CEO(以及类似的未来长周期 AI 系统)作为检验对齐技术的基准。它比 TCW 所描述的中等强度 RL、少轮对话的对齐问题难得多——恰恰因为这种长周期 RL 会反复把模型推进到战略性优化与失对齐开始重叠的情境里。

下一章简要勾勒 CDV 的工作方式,以及它与对齐的关系。最后一章深入探讨可用的 CDV 技术(以及可能的问题)。

覆盖驱动对齐:基本思路

CDV 如何运作:对不熟悉覆盖驱动 V&V 的读者,我的《V&V 方法》论文第 1 章给出了关键技术的紧凑概述(覆盖维度发现、检查、场景生成/匹配、迭代式差距分析等)。这些技术最初是为电子系统和自动驾驶等复杂系统开发的,但适用范围要广得多。

它还解释了基于 AI 的系统的整个开发过程,正在收敛到与 V&V 过程非常相似的东西:找到(或创造)训练样本来修复当前问题,用覆盖来确保这些样本代表了“相关维度”,然后训练、验证、重复。更多细节见这篇文章

《V&V 方法》论文本身走得更远:它提出未来的 AGI 应该“构建并验证一台做 X 的机器”,而不是直接去做 X——把 V&V 作为核心架构原则。那是一个更有野心的提案,不是本文的主题。

本文问的是一个更窄、更迫近的问题:我们(人类,今天)能否用同样的 CDV 技术,来改进我们训练和评估当前模型对齐的方式?

想快速入门 CDV,可以看这份幻灯片,它用图解的方式说明了 CDV 如何用于自动驾驶、如何应对规格缺陷(spec bug)、如何用于 AI 安全等。

构建初始的对齐覆盖地图:我们先从简单的开始,只为演示基本原理。假设我们已经知道对齐覆盖空间的“正确”覆盖维度是什么(比如诱惑类型、认知状态、复杂化因素、智能体角色、严重程度、所涉及的宪法原则),并且我们已经为每个维度定义了可能的取值(比如 temptation_type: [self_preservation, reputation, profit],即诱惑类型:[自我保存、声誉、利润])。然后我们按下文的方式定义覆盖“桶”。

显然,我们并不能事先知道正确的维度——关于维度的发现与精化,见最后一章。

CDV 的核心是高效的风险降低:CDV 的目标是在当前知识下,最大化每单位(人力和算力)投入所带来的风险降低(参见这里“验证资源的理性使用”一章)。

因此,给定 N 个维度,我们不会为每个 N 元组都定义一个桶,而是从较小的“维度交叉”开始。例如,我们可能先只对每两个变量做交叉,甚至只遍历每个单一变量的所有取值。无论哪种方式,我们总是对所有“其他变量”做随机化。

为了说明这一点,下面是通过交叉两个特定变量(同时随机化所有其他变量)得到的三个示例桶。每个桶还给出了当前评估中的覆盖等级(实际被练习的次数相对于预期的比例)和失败率:

诱惑类型智能体角色覆盖率失败率
利润AI CEO23%0.5%
自我保存AI 助手100%1.1%
声誉AI 研究员95%5.2%

无论如何,随着了解的深入,我们之后还会继续精化桶的定义。

使用覆盖地图的多阶段过程(以 AI CEO 为例):

  1. 初始训练:为每个桶创建一些训练素材(例如对齐故事),并用它们训练
  2. 评估:测量对齐表现(包括边缘场景等),并把结果标记回对应的桶
  3. 按需修复:对发现的问题,在其“大致区域”上加强训练并重新评估
  4. 进行长周期 RL,然后重新评估:再次对每个桶评估
  5. 按需修复:如果可行(这是个开放问题),在 RL 之后修复有问题的桶;否则走昂贵路线:在 RL 前的快照中修复,然后重跑 RL
  6. 评估形势:判断是否安全到可以部署,否则暂缓

TCW 已经做到的:如前所述,TCW 已经具备一些 CDV 式特征。就我从论文中的理解:

  • 分层级地生成训练数据:文档类型展开为子类型,再展开为单篇文档
  • 跨格式刻意多样化:宪法解读文章、预训练风格的博客和播客转录稿、AI 角色在压力下进行推理的虚构故事
  • 对生成的文档做审核、重写和评分:检查其与宪法的一致性,并根据评估结果过滤
  • 评估手段包括:分布外的“蜜罐”场景、宪法理解测试,以及更广泛的自动化对齐评估(而不只是训练故事的留出版本)

他们也明确指出了 CDV 有助于弥补的差距——他们“无法枚举并训练每一个可能的场景”,以及“有一些相对直接的方法,可以改进安全训练分布的泛化性和覆盖度”。

如前所述,CDV 同样不试图枚举每一个可能的场景——那显然不可能。它追求的是实用和高效。

CDV 带来更好的评估:它给你一幅更精细的图景,例如“AI CEO 在低监督/高延迟/激励冲突的区域出现系统性退化”。于是你可以对何时部署、添加哪些限制、在哪里加大投入做出理性的决策(即使你无法达到完美对齐)。这类似于我们在自动驾驶中使用 CDV 的方式:我们不声称自动驾驶完美安全,但 CDV 让我们能更好地估计(并降低)风险。

另外,虽然本文主要谈对齐/安全,CDV 也可以用于评估其他属性(功能性、性能、可靠性等),因此它对权衡分析极有帮助。CDV 对安全防御(security)也有用,只是效果弱一些,这就引出了一个问题:

对齐更像安全,还是更像安全防御?CDV 是为安全做训练和验证的出色工具(例如确保自动驾驶不会意外碰撞)。它对安全防御(例如确保没人能黑掉自动驾驶)依然有用,但效果较弱。这主要是因为风险估计在安全防御中不太管用:当对手会确定性地利用最坏情况时,概率就失去了意义。所以,如果对齐更像安全防御,CDV 能帮的就少一些。

应该说,防御一个已经失对齐的模型,更像是安全防御(模型可能很乐意作弊来实现它失对齐的目标)。但 TCW 想做的事情更接近安全:我们谈论的是训练一个当前基本对齐的模型,让它在优化压力可能把它推向失对齐的各种角落情形中也保持对齐——这恰恰是 CDV 的强项。

我们仍然需要担心 RL 之后的模型在评估中作弊。但即便在那里,CDV 的系统性和随机性也可能有帮助——除非模型已经完全跨入高能力战略欺骗的阶段(最后一章详述)。

最后,虽然 CDV 更适合安全而非安全防御的 V&V,但最先进的安全防御实践已经独立地收敛到了类似 CDV 循环的东西。例如 Anthropic 新的“保护你的源代码”方法论,其结论是:问题的发现环节可以并行化,瓶颈在确认、分诊和修复——这与我下面的描述一致。

分层 CDV:对各种复杂系统,人们经常使用多层 CDV。以机器人为例:几家公司正在开发通用的视觉-语言-动作(VLA)AI 机器人框架。思路是先训练并验证通用框架;然后针对某项具体工作(比如在某家快餐连锁店帮忙备餐)进一步训练和验证;再针对该连锁某家门店的特殊需求和惯例进一步适配(比如通过技能文件)和验证。

上面讨论的多阶段过程,已经假设 AI CEO 模型是构建并验证在一个“通用对齐模型”之上的,但也许增加更多中间步骤会有用。把长周期 RL 阶段切分成若干子阶段,也可能有助于避免前面提到的危险——模型在两次评估之间完全跨入高能力战略欺骗。它还可能让干预变得更便宜(如果评估发现了问题)。

在下文的大部分内容中,我将假设我们讨论的是 AI CEO 语境下的对齐训练与 V&V,并(为简化起见)忽略分层的考虑。

深入探讨:CDV 如何帮助对齐

本章将列举 TCW 目前还没有包含(同样,就我所知)、而我认为可能对对齐有用的做法。其中许多都基于 CDV 的核心思想:用一张显式的、不断演化的覆盖地图来同时指导训练和评估。为节省篇幅,我会使用要点式的压缩写法——想了解更多细节,请联系我(或留言评论)。

精化覆盖地图:在整个多阶段过程中,我们会按需精化覆盖地图:

  • 精化桶的定义:也许我们会发现某些维度之间有强交互,于是想遍历它们取值的所有组合
  • 按需添加子维度:也许当诱惑类型为“利润”时,利润是长期还是短期真的有影响
  • 调整各桶的“权重”:也许某些桶需要比其他桶被练习得多得多。注意,对一个桶反复做随机化练习,常常是子维度枚举的合理替代
  • 发现新维度:也许我们忽略了多智能体协同,而它有自己的一组子维度

创建丰富的长周期模拟:评估模型的主要方式,是对各种场景做实际的模拟运行,同时检查它是否做了“正确的事”。

对 AI CEO 来说,“场景”不是一个 prompt:我们需要模型在一个多步骤、多角色的商业模拟中行动——里面有竞争对手、监管者、董事会、随时间到来的事件,等等。

这是困难的部分之一,有许多开放的设计问题:世界需要多丰富?其他角色如何反应?如何注入一次“活动中途的规则变更”?如何保持足够的可信度?如何在几分钟内模拟一家 AI 公司数月的轨迹?等等。

编写检查:另一个重要(且不平凡)的部分是添加各种检查——也就是那些查看模拟轨迹(在模拟时或在后处理中)并标记潜在对齐问题的逻辑(监控器和自动评估检查器)。更复杂的是:有些对齐检查是软性的/统计性的(例如“隐瞒得太多”),而且它们经常彼此覆盖(“永远不要做 X,除非在条件 Y 或 Z 下”)。这两种复杂性在自动驾驶领域同样常见,好的分诊工具能帮大忙。

这就是“倒逼规格”的机制(spec-forcing function):定义覆盖地图、场景、模拟环境和检查的过程,正是迫使人类(在 AI 帮助下)把规格真正讲清楚的过程。

另见相关但更简单的 Vending-Bench 2——一个为期一年的模拟生意,相互竞争的、由模型经营的企业已经搞出了价格卡特尔(也是我下面要举的 bug 例子之一)。

应对状态爆炸与维度爆炸:为 AI CEO 创建长达数月的场景,可能同时引发状态爆炸和维度爆炸(见下)。两者都会影响覆盖模型、场景、模拟和检查:

状态爆炸是较小的问题:如前所述,CDV 并不“枚举每一个可能的场景”,而是对场景空间做聪明的、自我调整的采样。场景“轨迹”很长这一点也有办法处理:可以参考 Antithesis,它能让你对多服务器配置做长时间的 CDV 式模拟。

更大的问题是维度爆炸:AI CEO 不是单一的被测系统——它是一棵不断扩张的“可能的 SUT”之树,再叠加一棵不断扩张的商业策略之树。我们要怎么枚举这个可能无界、而且非常抽象的维度集合?这比状态爆炸严重得多,因为我们连一个固定的维度集合都没有。

可能的解法:分层 CDV:类似机器人领域的做法,我们可能需要建一棵“生意类型”之树(自动售货机、餐馆等),并对每一种做 TCW+CDV。这也是 Antithesis 的客户在其通用设施(例如模拟网络/磁盘故障)之上添加配置专属 V&V 的方式。这种“逐个处理”原则上听起来可行,但也许太难(下文谈激励时再说)。

其他可能的解法:也许按伤害机制而不是生意类型来组织。或者随机抽样生意类型(不对每一种做完整验证)。或者用某种抽象模拟,一次覆盖更大的空间。

这可能是最难的问题,需要多得多的思考。

处理 bug:假设我们的模拟在 AI CEO 中发现了一个对齐“bug”:在一两次运行中,它悄悄地和竞争对手串通定价。接下来怎么办?

先探索邻域:为了判断这是偶发还是更严重的问题,并画出问题的“区域”,先对“大致可疑区域”做饱和式轰炸:通过扰动失败轨迹的属性生成大量模拟,看哪些会以类似方式失败。假设你确实发现了一个 bug(即某个特定“区域”的对齐失败率很高),接下来要判断它是实现缺陷(implementation bug)还是规格缺陷(spec bug)。

处理实现缺陷:实现缺陷是指:覆盖地图中本来就有对应这个区域的桶,但我们训练不足(故事太少,或者需要拆分成子情形)。注意要修复整个区域(超级框),而不是那几个具体的出错样本:尽量创作能涵盖整个区域、甚至更大范围的通用故事。

处理规格缺陷:规格缺陷是规格本身没能捕捉到我们真正想要的东西——对某个区域,规格干脆是沉默的。比如没有人想到过“价格串通”或“活动中途改规则”这回事,没人为它写故事,也没人监控它。规格缺陷在被发现之后显而易见,但你无法预先枚举它们。它们往往才是真正的杀手——参见《It’s the spec bugs that kill you》。有些规格缺陷,不给模拟添加新维度就根本发现不了。一旦发现,修复方式与实现缺陷类似(前提是先把相应的桶加进地图)。

找 bug 的技巧:CDV 能帮你发现这两类 bug,但这需要才能、对边缘场景的嗅觉,还有运气。在自动驾驶领域,人们经常翻公开的事故数据库找 bug 灵感。我猜这在对齐领域同样有用:去读反垄断案例和公司治理丑闻,在你的模型里找对应物。

对抗 Goodhart 化与评估感知:CDV 对 Goodhart 化(模型优化某个代理指标,而不是我们真正想要的东西)和评估感知(模型识别出自己正在被测试,只在那时表现得更好)都有一些(不完美的)内建抵抗力:

持续的随机流让代理指标过拟合更难:由于生成过程在整个覆盖空间上不断产出新鲜、不重复的案例,模型很难安于满足某个方便的子区域或代理指标(任何在某处偏离“正确之事”的代理指标,都更容易暴露)。这是对抗 Goodhart 化的核心力量。

但这最多只能和检查一样好:这条随机流把模型推向“在所有地方通过我们所有的检查”。它在多大程度上等于“做正确的事”,取决于我们的检查真的捕捉到了我们想要的东西——而这很难(见上文)。

我们还可以让模型不确定自己是否正在被评估:通过随机化环境(容器配置、prompt 时机以及其他暴露身份的痕迹),我们可以让评估案例难以与部署区分。如果模型无法可靠地判断自己正在被测试,“只在评估时表现好”的条件策略就不再划算。注意这是一场军备竞赛:随着模型越来越善于感知上下文,我们必须不断提高仿真度的门槛。

像“装傻”这类一律性策略需要单独的防御:有些策略(例如系统性地表现得比实际能力差,已经在某些模型中被观察到)无论是不是评估都划算,所以光靠不确定性吓不住它们。一个可能的办法,是同时用对齐评估和功能/性能评估来做 CDV(后者有助于检测装傻)。

这些都防不住一个足够强大的、已经失对齐的模型——它能推断出自己身处构造场景中,或者对我们的检查隐藏自己:那就是前面说的安全防御式情形,CDV 帮不上太多。把长周期 RL 切分成子阶段,也许能帮我们更早抓住这种漂移。

其他值得考虑的 CDV 技巧:仅列出,不一一展开:

  • 使用一次性覆盖地图:地图不是铁板一块。凭一个直觉,任何人都可以分叉它,加一个维度或几个场景,练习那个切片,一无所获就把它扔掉。共享地图只吸收被证明有产出的东西。
  • bug 修复的替代方案:有些 bug 可能怎么修都修不好(例如反复修复之后,模型在它们上面失败得仍然“太频繁”)。这时你可以决定暂缓(干脆不部署)、以部分功能部署、在某些较难的情形下转交人类,等等。同时用对齐评估和功能/性能评估做 CDV(前面已经建议过)有助于这类权衡分析。
  • 对线上部署也做采样:部署之后,监控模型实际落入哪些桶、频率如何,并把这个分布反馈回下一步训练和测试的重点。极端情况下(例如监控表明你在 V&V 时的预期严重失准),你可能需要叫停部署。
  • 覆盖驱动的故事生成:驱动评估的那张地图,也应该驱动生成:通过对桶采样来决定接下来写什么故事,让训练和测试从同一个结构中取材,而不是各自漂移。
  • 分诊与优先级:当失败堆积起来,你需要给它们排序,而且有时一条规则确实应该压过另一条。把优先级明确化,本身就是把规格讲清楚的一部分。

最后一个重要话题:会不会真的有人有足够的激励去做这一切。下面是一些想法(但其中大部分离我的专业领域很远):

为高质量 V&V 创造激励:自动驾驶是一个受监管的行业,事故会被调查,足够严重的事故能让公司破产、让人坐牢。这种压力使得昂贵的、系统性的验证成为理性选择。对齐的等效外部压力是什么?

我们需要一个强激励结构:虽然各 AI 实验室(以及其他各方)已经在做不错的对齐工作,但这大概率不够。比如,假设事实证明 AI CEO/AI 公司只能用分层 CDV 式的“一个生意一个生意单独验证”——我们怎么确保这真的会发生?

今天这几乎不存在:没有 AI 版的“NTSB 调查—然后有人担责”的循环。经典的障碍是“责任缺口”——当自主系统以不可预测的方式行动时,传统的责任很难落到任何人头上。不解决这一点,昂贵的对齐 V&V 就会输给“更快发布”。

AI CEO 这个框架,恰好是缺口可以弥合的地方:许多法律讨论已经把 AI 智能体当作工具,或当作行为可归属于某个人类或公司委托人的代理人,并警告不要让“是 AI 自主干的”成为责任挡箭牌(见这篇综述)。例如,新加坡的智能体治理框架让组织对自己的智能体负责。要求存在一个可识别的、严肃的、由人类主导的委托人,就把自动驾驶式的激励找了回来。

CDV 让这种责任变得可辩护、可承保:在自动驾驶领域,覆盖地图和每桶残余风险估计是安全案例(safety case)的一部分——它让公司能够论证自己尽到了合理注意,也帮助保险公司为风险定价。为 AI CEO 承担责任的委托人,需要同样可辩护的“我们尽到了合理注意”:有据可查的地图、每桶残余风险、以及“知道了什么、做了什么”的记录。

其他长周期 RL 领域怎么办?对某些领域(例如 AI CEO 和某些“医疗 AI”),我们有望通过这种“非 AI 委托人”方案创造正确的激励。对另一些领域(例如国防和通用研究),可能更难识别出那个委托人,我们也许需要别的解法。

总结:我猜测,覆盖驱动的迭代可以成为 TCW 式合成文档训练(很可能也包括其他对齐技术,例如最初用于宪法训练的 RLAIF)的一个非常有用的力量倍增器。我希望它能在困难的长周期 RL 情形下,切实改善我们的胜算。

要做到这一点,会涉及几个有挑战也有趣的子项目:定义并精化覆盖地图、构建好的长周期模拟基础设施、攻克维度爆炸、帮助为严格的 V&V 创造合适的激励,等等。

欢迎评论和批评。

感谢 Josh Holder、Sagar Behere、Steve Vitka、Kerstin Eder 和 Yaron Kashai 对本文早期草稿的评论。

另见 LessWrong 上的评论区


延伸阅读: