翻译 | AutoZYX Blog

译者按：本文译自 Yoav Hollander（Foretellix 联合创始人/CTO）2026 年 6 月 8 日发布在 LessWrong 的文章 Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification，翻译已获作者本人授权。Yoav 是芯片验证领域的世界级专家、“e”语言发明人，他创立的 Foretellix 把覆盖驱动验证（CDV）带进了自动驾驶。译文保留了原文的全部链接。术语对照：alignment 译作“对齐”，misalignment 译作“失对齐”，safety 译作“安全”，security 译作“安全防御”，bucket 译作“桶”。我的解读与延伸，见《从 Robot SOTIF 看 CDV 的跨领域迁移》。摘要：本文提出，对齐训练可以从覆盖驱动验证（Coverage-Driven Verification, CDV）中获益。Anthropic 最近报告称，向 Claude 教授对齐规则（通过在对齐相关故事上进行预训练式的下一 token 学习），比主要依赖 RL 式行为塑造更有效。一些自动驾驶开发者也得出了类似的结论，但他们还会额外使用一套系统性的、覆盖驱动的方法论来做训练和验证。我认为，对齐研究者应该考虑从这套方法论中借鉴思路；本文给出了具体建议（例如，如何使用并持续精化一张显式的覆盖地图）。背景 Anthropic 的发现：Anthropic 最近发表了 Teaching Claude Why（另有扩展版）。他们发现，用行为演示来训练 Claude 几乎没有帮助；而用宪法文档加虚构故事、通过普通的下一 token 预测来训练（他们称之为 SDF，合成文档微调），把失对齐行为减少到了原来的三分之一以下（3x+），并且这些改进（用多种方式评估）在 RL 训练之后依然保持。最大的杠杆不是展示正确的行为，而是教授行为背后正确的推理和原则。 SDF 把更多的规范性负担转移到了预训练式学习中，减少了对基于 RL 的对齐塑造的依赖。 Teaching Claude Why（下文简称 TCW）让 Claude 在对齐评估上的表现大幅改善，而且这些改进在（中等强度的）RL 训练之后依然保持——在整体相当黯淡的对齐图景中，这算得上一个好消息。于是我开始思考进一步改进它的办法：理想情况下，让最终获得的对齐在长周期 RL 中也能保持（见下文）。 ...