摘要:Yoav Hollander 是芯片验证领域的世界级专家,他创立的 Foretellix 把覆盖驱动验证(Coverage-Driven Verification, CDV)带进了自动驾驶。最近,他写了一篇文章,把这套方法论推到了更大的范围:AI 对齐。本文从我的研究领域出发,结合 SOTIF 四象限、Robot SOTIF 的树状结构和中国的标准语境,解读 CDV 的跨领域迁移。核心问题只有一个:你怎么知道你不知道什么?
几个月前,Yoav Hollander(Foretellix 联合创始人/CTO)给我发了一封邮件。
他是芯片验证领域世界级专家,发明了通用验证方法论(Universal Verification Methodology,UVM)的前身“e”语言,创办的 Verisity 被 Cadence 收购后,又创立了 Foretellix——做自动驾驶覆盖驱动验证(Coverage-Driven Verification, CDV),拿了 NVIDIA、沃尔沃和淡马锡的 C+ 轮融资。
Yoav 读了我几篇关于端到端安全、基于场景测评、SOTIF 的文章后,我们通过邮件和线上会议聊了几轮。最近,他写了一篇文章,把问题推到了更大的范围:AI 对齐。

经过 Yoav 本人许可,我把那篇文章翻译成了中文:[译] 覆盖驱动对齐:Teaching Claude Why 能从自动驾驶验证中借鉴什么。英文原文在这里:Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification。
下面从我的研究领域出发,对 CDV 跨领域迁移进行一些解读和延伸——结合 SOTIF 的实际情况,看看 CDV 在中国语境下意味着什么。
两条线的交汇
Yoav 在邮件里说过一句:
“I am at heart a V&V guy, thinking about ‘how to achieve best risk reduction per week for the SUT, given fixed resources’. I feel much less confident regarding safety standards and ‘how to build a safety case’.”
两条线的区别很清楚——他是 V&V 人,想的是固定资源下每周怎么把风险降最多;我偏基于安全标准进行安全开发及测试,进而构建安全案例。一条线关注怎么发现问题,一条线关注怎么证明问题被解决了。
但映射到端到端黑盒上,两者都是把安全结构投射到不透明行为上的方式。Yoav 用覆盖维度投射,我用场景和触发条件投射。CDV 让这两条线有了交汇点。
SOTIF 四象限:CDV 在丈量什么
SOTIF 框架将场景分为四个象限:
| 已知 | 未知 | |
|---|---|---|
| 安全 | 象限1:已知安全 | 象限2:未知但安全 |
| 不安全 | 象限3:已知不安全 | 象限4:未知不安全 |
CDV 的每一步操作都对应着象限之间的移动:
- 评估 → 把未知变成已知(象限2→1 或 象限4→3)
- 修复 → 把已知不安全变成安全(象限3→1)
- 覆盖地图 → 让你看到每个象限的面积和分布
- 迭代 → 持续缩小象限4
SOTIF 的终极目标不是消灭所有风险,而是把象限4压缩到可接受范围。CDV 正是缩小象限4的工具——它不断发现并消除象限4里的一块块区域。需要说明的是:CDV 无法真正"测量"剩余的象限4(按定义它仍是未知的);我们能做的,是观察问题的发现速率——在用尽最好的技术后它是否趋于平缓,以此间接说服自己"剩下的不会太大",并据此构建一个可辩护的安全论证。这是收敛的启发式判断,而不是测量。
这个对应关系不是事后拼凑的。ISO 21448 的 SOTIF 框架和 CDV 的覆盖地图,本质上都在回答同一个问题:你怎么知道你不知道什么?
Robot SOTIF 的树状结构
Yoav 在邮件里写了另一句关键的话:
“One problem with robots is that they are much more diverse than AVs, so V&V in general (and the SOTIF part of it) get a tree-like structure.”
他说的 tree-like structure,正是 Robot SOTIF 和自动驾驶 SOTIF 的核心差异。
自动驾驶的覆盖维度相对固定——天气、道路、交通参与者。但机器人不一样。2026年6月2日,《机器人预期功能安全实施指南》国家标准项目进入公示。这个标准面对的不是一种机器人,而是一整棵分叉的树:移动服务机器人、清洁消杀机器人、安防巡检机器人、物流配送机器人、养老医疗机器人……每种机器人都有自己的 ODD(Operational Design Domain,运行设计域)、场景集和触发条件。
对机器人相关标准感兴趣的伙伴,可以关注全国机器人标准化技术委员会正在起草的国家标准清单——针对各种各样的机器人,正在起草中的标准有 82 项,安全强相关的就有 17 项。
这和 Yoav 提出的分层 CDV(Layered CDV)天然吻合:
- 第一层:通用框架验证——验证底层模型的基本安全能力,覆盖维度包括环境、任务、用户行为等通用维度
- 第二层:特定任务验证——在通用框架之上追加覆盖维度,例如配送机器人追加“接近行为”“让行策略”等维度
- 第三层:特定部署验证——针对具体部署环境追加维度,例如某医院的配送机器人追加“病房门禁”“电梯交互”等维度
每一层继承上一层的覆盖地图,只追加本层特有的维度和场景。这正是 Robot SOTIF 的验证结构必须从平面变成树的原因。
从自动驾驶到 AI 对齐:模仿学习的瓶颈
Yoav 文章里有一个洞察,和我在 Robot SOTIF 开放话题研究中的观察高度一致:
Anthropic 训练 Claude 和 NVIDIA 做自动驾驶,几乎同时发现了一件事——模仿学习搞不定安全关键场景。单纯靠行为塑造或模仿不够,得教背后的推理逻辑。
- Anthropic 的发现:通过宪法文档(Claude’s Constitution)和虚构故事教授推理原则(他们叫 SDF),把失对齐行为减少到原来的三分之一以下(cut misalignment by 3x+),远好于单纯的 RL 行为塑造。核心杠杆不是展示正确行为,而是教授行为背后的为什么。
- NVIDIA 的发现:模仿学习无法应对长尾场景,解决方案是结构化因果推理(Chain of Causation)。
一个在 AI 对齐里叫 SDF,一个在自动驾驶里叫 Chain of Causation,但核心杠杆一样——不是展示正确行为,而是教行为背后的为什么。
映射到 Robot SOTIF 上,这意味着机器人安全不能只靠“教机器人做正确动作”,还得教它理解为什么这个动作在当前场景下是安全的。LLM/VLA 驱动的决策系统,如果只会模仿而不会推理,在 ODD 边界外就会出问题。
中国语境下的 CDV:从标准到实践
CDV 在中国语境下的传播,有一个独特的切入点:标准驱动。
中国自动驾驶安全领域有一个特点——标准往往走在产业实践前面。GB/T 43267-2023(道路车辆 预期功能安全)已经发布,一系列面向特定智驾功能的安全标准也在紧锣密鼓制定中,Robot SOTIF 的国家标准项目也已进入公示。这些标准在框架层面给出了 SOTIF 的四象限结构和证据链要求,但在“怎么系统性发现未知不安全区域”这个问题上,留给工程实践的空间很大。
CDV 恰好填补了这个空间。
具体来说,有几个可以推进的方向:
场景库与覆盖地图的对接。中国已经有不少自动驾驶场景库建设(包括我们团队采集的 800h+ 无人机航拍自然驾驶数据,10.5M+ 轨迹),但这些场景数据目前主要用作测试用例,还没有系统性地映射到覆盖维度上。CDV 的覆盖地图框架可以把场景库从“一堆测试用例”变成“一张可迭代的风险地图”。
Robot SOTIF 的分层验证模板。自动驾驶 SOTIF 有 ISO 21448 和 ISO 34502 提供的场景抽象框架,但 Robot SOTIF 目前还没有对应的场景分类和触发条件体系。分层 CDV 的树状结构可以直接作为 Robot SOTIF 验证的组织框架——通用层、任务层、部署层,每层有自己的覆盖维度和场景集。
安全案例与覆盖地图的闭环。Yoav 说他是 V&V 人,不太擅长安全案例。我正好反过来。CDV 的覆盖地图和每桶残余风险估计,天然就是安全案例的证据来源——主张、论证、证据三层结构里,覆盖地图提供证据,残余风险提供论证,部署决策就是主张。
对齐的激励缺口:谁来做昂贵的验证?
Yoav 在文章最后提了一个很实际的问题:自动驾驶有监管压力、事故调查、法律责任,所以系统性验证是理性的。AI 对齐的等效外部压力在哪里?
这个问题在中国语境下同样存在,但有一个可能的不同路径。
中国正在推进 AI 治理框架建设,包括算法备案、安全评估等制度。如果 CDV 生成的覆盖地图和风险评估能够成为“合理注意义务”的证据——就像自动驾驶领域的安全案例一样——那么对齐 V&V 就有了制度性的激励基础。
Yoav 在邮件里问我是否认识 AI 治理领域的人,可以把这篇文章推给他们。如果你正在读这篇文章,并且从事 AI 治理、算法安全评估或相关领域的工作,我很愿意聊。
一封邮件开始的事情
Yoav 在邮件里自嘲:“I guess I write a post-per-year, while you write a post-per-week.” 但他每年写的那一篇,分量都不轻。
从自动驾驶 SOTIF 到 Robot SOTIF,再到 AI 对齐,CDV 的方法论正在跨领域迁移。不是照搬,而是带着问题意识迁移——每个领域的维度不同、树状结构不同、安全与安全防御的边界不同。
但核心问题是一样的:你怎么知道你不知道什么?

我邀请 Yoav 在今年的 FISITA 智能安全大会 SOTIF 专场(ISC 2026丨智能网联汽车预期功能安全(SOTIF)会场初步日程公布)上做演讲,他确认的题目是《Avoiding Spec Bugs in Physical AI》。Spec bug——规格缺陷——不是实现出了问题,而是规格本身就没覆盖到某个区域。自动驾驶领域已经为此付出了代价,机器人领域正在重蹈覆辙,AI 对齐领域可能也不会例外。
CDV 不是万能药。但它至少给了我们一种系统性地发现 spec bug 的方式——不是靠运气,而是靠覆盖。
推荐对 AI Safety 感兴趣的伙伴,跟踪一下 Yoav 的 The Foretellix CTO Blog,每一篇都很经典。

往期文章
- 机器人也需要 SOTIF 了
- 智驾的能力边界,是否需要一个开源共建的平台?
- 无人车出了事,谁来兜底?
- Harness 的用户体验 vs 安全合规:一个被主流路线集体跳过的方向
- 被 AI 圈捧上神坛的「驾驭工程」,本质是 SOTIF 的翻版?
- 从“人类”驾驶,到“类人”驾驶
参考来源:
- Yoav Hollander: Coverage-driven alignment – What ‘Teaching Claude Why’ can borrow from AV verification
- Anthropic: Teaching Claude Why
- NVIDIA Alpamayo-R1: Chain of Causation reasoning(arXiv:2511.00088)
- 全国标准信息公共服务平台:《机器人预期功能安全实施指南》项目公示
- GB/T 43267-2023 道路车辆 预期功能安全
- ISO 21448:2022 Road vehicles — Safety of the intended functionality