[译] 覆盖驱动对齐:Teaching Claude Why 能从自动驾驶验证中借鉴什么

译者按:本文译自 Yoav Hollander(Foretellix 联合创始人/CTO)2026 年 6 月 8 日发布在 LessWrong 的文章 Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification,翻译已获作者本人授权。Yoav 是芯片验证领域的世界级专家、“e”语言发明人,他创立的 Foretellix 把覆盖驱动验证(CDV)带进了自动驾驶。译文保留了原文的全部链接。术语对照:alignment 译作“对齐”,misalignment 译作“失对齐”,safety 译作“安全”,security 译作“安全防御”,bucket 译作“桶”。我的解读与延伸,见《从 Robot SOTIF 看 CDV 的跨领域迁移》。 摘要:本文提出,对齐训练可以从覆盖驱动验证(Coverage-Driven Verification, CDV)中获益。Anthropic 最近报告称,向 Claude 教授对齐规则(通过在对齐相关故事上进行预训练式的下一 token 学习),比主要依赖 RL 式行为塑造更有效。一些自动驾驶开发者也得出了类似的结论,但他们还会额外使用一套系统性的、覆盖驱动的方法论来做训练和验证。我认为,对齐研究者应该考虑从这套方法论中借鉴思路;本文给出了具体建议(例如,如何使用并持续精化一张显式的覆盖地图)。 背景 Anthropic 的发现:Anthropic 最近发表了 Teaching Claude Why(另有扩展版)。他们发现,用行为演示来训练 Claude 几乎没有帮助;而用宪法文档加虚构故事、通过普通的下一 token 预测来训练(他们称之为 SDF,合成文档微调),把失对齐行为减少到了原来的三分之一以下(3x+),并且这些改进(用多种方式评估)在 RL 训练之后依然保持。最大的杠杆不是展示正确的行为,而是教授行为背后正确的推理和原则。 SDF 把更多的规范性负担转移到了预训练式学习中,减少了对基于 RL 的对齐塑造的依赖。 Teaching Claude Why(下文简称 TCW)让 Claude 在对齐评估上的表现大幅改善,而且这些改进在(中等强度的)RL 训练之后依然保持——在整体相当黯淡的对齐图景中,这算得上一个好消息。于是我开始思考进一步改进它的办法:理想情况下,让最终获得的对齐在长周期 RL 中也能保持(见下文)。 ...

2026年6月11日 · 约 19 分钟 · 约 7252 字 · 张玉新 Yuxin Zhang · 0

从 Robot SOTIF 看 CDV 的跨领域迁移

摘要:Yoav Hollander 是芯片验证领域的世界级专家,他创立的 Foretellix 把覆盖驱动验证(Coverage-Driven Verification, CDV)带进了自动驾驶。最近,他写了一篇文章,把这套方法论推到了更大的范围:AI 对齐。本文从我的研究领域出发,结合 SOTIF 四象限、Robot SOTIF 的树状结构和中国的标准语境,解读 CDV 的跨领域迁移。核心问题只有一个:你怎么知道你不知道什么? 几个月前,Yoav Hollander(Foretellix 联合创始人/CTO)给我发了一封邮件。 他是芯片验证领域世界级专家,发明了通用验证方法论(Universal Verification Methodology,UVM)的前身“e”语言,创办的 Verisity 被 Cadence 收购后,又创立了 Foretellix——做自动驾驶覆盖驱动验证(Coverage-Driven Verification, CDV),拿了 NVIDIA、沃尔沃和淡马锡的 C+ 轮融资。 Yoav 读了我几篇关于端到端安全、基于场景测评、SOTIF 的文章后,我们通过邮件和线上会议聊了几轮。最近,他写了一篇文章,把问题推到了更大的范围:AI 对齐。 经过 Yoav 本人许可,我把那篇文章翻译成了中文:[译] 覆盖驱动对齐:Teaching Claude Why 能从自动驾驶验证中借鉴什么。英文原文在这里:Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification。 下面从我的研究领域出发,对 CDV 跨领域迁移进行一些解读和延伸——结合 SOTIF 的实际情况,看看 CDV 在中国语境下意味着什么。 两条线的交汇 Yoav 在邮件里说过一句: “I am at heart a V&V guy, thinking about ‘how to achieve best risk reduction per week for the SUT, given fixed resources’. I feel much less confident regarding safety standards and ‘how to build a safety case’.” ...

2026年6月11日 · 约 8 分钟 · 约 3029 字 · 张玉新 Yuxin Zhang · 0