Harness 的用户体验 vs 安全合规——12 Primitives × SOTIF 完整映射

摘要:2026 年 Q1,Harness Engineering 在 OpenAI、Anthropic、明日新程 Nextie 几乎同步出现,“12 Primitives"在社区收敛为新的隐性共识。本文论证:主流路线对 Harness 的投入几乎全部集中在"用户体验、性能、效率"维度;而 Safety-Critical 场景里决定能否上市的"安全合规"维度几乎没有被任何商业玩家系统性投入。本文用 12 Primitives × SOTIF / ISO 21448 的双向映射建立桥梁,并识别 12 条可深入研究的方向,作为标准组织、企业预研团队、第三方机构、研究机构共同补位"安全合规维度 Harness"的起点。本文约一万字,公众号上有约 3000 字的精简版。 一、引子:两条线索的同时浮现 最近两个月,“Harness Engineering"这个词在两个完全不同的圈子里被高频讨论。 1.1 AI 工程圈的密集信号 2026 年 2 月,OpenAI 官方博客《Harness Engineering: Leveraging Codex in an Agent-First World》第一次把这个概念从隐性共识变成正式术语。同年 3 月,Anthropic 推出 Managed Agents 架构,技术文档反复强调"Agent Harness"作为一等工程对象。4 月,明日新程 Nextie 在一个月内连融两轮,陆奇和李开复罕见同框入场,核心叙事是"群体智能 + Harness”。同月新智元一篇《最新风口 Harness,李开复、陆奇已重金入场》把 Harness 推成产业热词。 与此同时,GitHub 上的 awesome-harness-engineering 仓库把 12 个原语(Agent Loop、Planning、Context Delivery、Tool Design、Skills/MCP、Permissions、Memory、Task Runners、Verification、Observability、Debugging、HITL)从社区隐性共识收敛成了一份分类法。 1.2 汽车行业的低调但明确的同期信号 汽车行业的信号则相对低调但同样明确。头部智驾公司不约而同地在加码模型输出可解释性与透明度相关工作,把它定义为未来 5–10 年的核心战略。越来越多的车企技术团队开始在内部文件里讨论 Harness。 ...

2026年4月19日 · 约 27 分钟 · 约 10631 字 · 张玉新 Yuxin Zhang · 0