[译] 覆盖驱动对齐:Teaching Claude Why 能从自动驾驶验证中借鉴什么

译者按:本文译自 Yoav Hollander(Foretellix 联合创始人/CTO)2026 年 6 月 8 日发布在 LessWrong 的文章 Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification,翻译已获作者本人授权。Yoav 是芯片验证领域的世界级专家、“e”语言发明人,他创立的 Foretellix 把覆盖驱动验证(CDV)带进了自动驾驶。译文保留了原文的全部链接。术语对照:alignment 译作“对齐”,misalignment 译作“失对齐”,safety 译作“安全”,security 译作“安全防御”,bucket 译作“桶”。我的解读与延伸,见《从 Robot SOTIF 看 CDV 的跨领域迁移》。 摘要:本文提出,对齐训练可以从覆盖驱动验证(Coverage-Driven Verification, CDV)中获益。Anthropic 最近报告称,向 Claude 教授对齐规则(通过在对齐相关故事上进行预训练式的下一 token 学习),比主要依赖 RL 式行为塑造更有效。一些自动驾驶开发者也得出了类似的结论,但他们还会额外使用一套系统性的、覆盖驱动的方法论来做训练和验证。我认为,对齐研究者应该考虑从这套方法论中借鉴思路;本文给出了具体建议(例如,如何使用并持续精化一张显式的覆盖地图)。 背景 Anthropic 的发现:Anthropic 最近发表了 Teaching Claude Why(另有扩展版)。他们发现,用行为演示来训练 Claude 几乎没有帮助;而用宪法文档加虚构故事、通过普通的下一 token 预测来训练(他们称之为 SDF,合成文档微调),把失对齐行为减少到了原来的三分之一以下(3x+),并且这些改进(用多种方式评估)在 RL 训练之后依然保持。最大的杠杆不是展示正确的行为,而是教授行为背后正确的推理和原则。 SDF 把更多的规范性负担转移到了预训练式学习中,减少了对基于 RL 的对齐塑造的依赖。 Teaching Claude Why(下文简称 TCW)让 Claude 在对齐评估上的表现大幅改善,而且这些改进在(中等强度的)RL 训练之后依然保持——在整体相当黯淡的对齐图景中,这算得上一个好消息。于是我开始思考进一步改进它的办法:理想情况下,让最终获得的对齐在长周期 RL 中也能保持(见下文)。 ...

2026年6月11日 · 约 19 分钟 · 约 7252 字 · 张玉新 Yuxin Zhang · 0