Harness is the New Dataset:模型智能提升的下一个关键方向
来源: 海外独角兽 / Celia、Siqi | 日期: 2026-03-26 原文: Harness is the New Dataset:模型智能提升的下一个关键方向 精读日期: 2026-03-30
一句话总结
当基模能力过线后,Agent 的上限不再取决于模型本身,而是取决于围绕模型搭建的 harness(运行环境 + 工具 + 记忆 + 评估 + 反馈闭环),harness 同时也是最有价值的训练数据来源。
核心内容
AI 工程方法的三次演进
| 阶段 | 时间 | 关注点 |
|---|---|---|
| Prompt Engineering | 2022-2024 | 如何表达需求——打磨单次对话指令 |
| Context Engineering | 2025 | 如何提供恰到好处的信息——获取、压缩、组织上下文 |
| Harness Engineering | 2026 | 如何构建系统——运行环境、工具、记忆、评估、回滚 |
公式:Agent = LLM + Harness。模型决定”做什么”,Harness 决定”能看到什么、能用什么工具、失败时怎么办”。
文章认为 tipping point 是 2025 年 11 月 Opus 4.5 的发布——“用好模型”开始比”提高模型”更重要。有趣的是,当时市场热议 Gemini 3,但回头看 Opus 4.5 影响更深远。
Harness 的 6 个关键组件(归为 3 层)
信息层
- Memory & Context Management — Agent 在当前时刻该看到什么信息:上下文裁剪、压缩、按需检索、外部状态存储
- Tools & Skills — 可调用的外部能力 + 可复用的任务方法
执行层
- Orchestration & Coordination — 多 agent 编排、分工、交接
- Infra & Guardrails — 沙箱、权限控制、失败恢复、安全护栏
反馈层
- Evaluation & Verification — 测试、检查、反馈机制,让 Agent 自行验证并修正
- Tracing & Observability — 执行轨迹、日志、监控、成本分析,让黑箱变透明
文章以 OpenClaw 为例说明 harness 的力量:Gateway(跨平台存在感)、Skills 库、记忆机制、Heartbeat(自发唤醒)、Soul.md(人格注入),每个组件单看不复杂,组合起来产生了模型本身没有的”生命力”。
7 个核心设计 Trick
信息层(资源准备)
- Trick 1:渐进式披露 — 信息分层加载,不一次性塞满。Claude Code 的三层分级:L1 CLAUDE.md(元规则入口)→ L2 SKILL.md(按需加载能力包)→ L3 reference/scripts(执行细节)。核心:让注意力始终集中在最关键的 1% 信息上。
- Trick 2:Tools 越少而精越好 — 反直觉:模型越强,对工具的依赖应递减。Claude Code 约 20 个工具,团队仍在审视是否真的都需要。Vercel 精简工具后速度和可靠性都提升。过于复杂的工具集是幻觉的温床。
- Trick 3:Context window 利用率的甜蜜区间 — 超过阈值后性能下降。大海捞针测试:Opus 4.6 在 1M token 时维持七成命中率,GPT-5.4/Gemini 3.1 Pro 掉到三成。顶级工程师频繁压缩,控制 context 利用率在 60% 以下。
- Trick 4:Subagent 做 context 隔离 — Boris Cherny 称之为”context firewall”:子任务分配给独立 subagent,各自在干净 context 完成,主线程只做调度和收口。
执行层(执行规划)
- Trick 5:Research → Plan → Execute → Verify 分开 — 每阶段独立 session 和 context,不期望一气呵成。Boris 的 CLAUDE.md 规则:“Enter plan mode for ANY non-trivial task”。计划确认后清空 context,让执行从干净起点开始。
- Trick 6:人最该介入规划而非审核 — “一行糟糕的计划会长出几百行糟糕的代码”。精力应从 code review 前移到 research 和 plan 环节。
反馈层(复利飞轮)
- Trick 7:构建反馈闭环 — Mitchell Hashimoto 的工程纪律:每次翻车都记入 AGENTS.md,让 agent 不再犯同样错误。Boris 数据:有效验证手段可让产出质量提升 2-3 倍。Karpathy 的 autoresearch:idea → 实验 → 观察 → 保留有效/丢弃无效 → 循环。
模型与 Harness 的深度耦合
训练即部署:Agentic RL 中模型和 harness 从一开始就不是分开设计的。Cursor 训 Composer 1.5 并发数十万沙盒;Windsurf 训 SWE-1.5 明确说”coding 环境质量是对模型最终表现影响最大的因素”。模型在训练时用的就是上线后要面对的同一套工具和终端。
Harness 即数据:DeepMind Philipp Schmid 金句——“The Harness is the Dataset”。真正有价值的数据不再只是静态语料,而是 agent 在业务流程中跑出的执行轨迹。Harness 是模型能力生成的土壤。Anthropic 在 harness 上比 OpenAI 早了几个月,这个窗口期让 Claude Code 建立了用户粘性优势。
Harness 能力被模型吸收的循环:社区摸索有效方法 → 训练团队做 post-training → 模型内化能力 → 新 harness 重新设计 → 循环。Boris 说 Claude Code 的 harness 每行代码保质期约 2 个月。
创业公司机会
| 层 | 方向 | 代表公司 | 融资 |
|---|---|---|---|
| 信息层 | Agent 上下文基础设施 | Edra(“Context for Agents at Scale”) | $30M A 轮,Sequoia 领投 |
| 执行层 | Workflow/Durable Execution | Temporal | $300M D 轮,a16z 领投,$5B 估值 |
| 执行层 | Security/Governance | Oasis Security | $120M B 轮,Craft 领投,$700M 估值 |
| 执行层 | Sandbox | Daytona(stateful workspace) | $24M A 轮,FirstMark 领投 |
| 反馈层 | Eval & Observability | Braintrust | $80M B 轮,ICONIQ 领投,$800M 估值 |
What’s Next:Coordination Engineering
文章推演下一个范式是 Coordination Engineering——协调无数 agent/人类节点完成复杂任务。“下一代 AI 产品未必是更聪明的小龙虾,而更像一个小龙虾版飞书——监工看板 + 协作 IM 平台”。
四层叠加构成 Agentic Engineering 终极范式:
- L1 Prompt → 解决问答质量
- L2 Context → 解决认知边界
- L3 Harness → 解决执行闭环
- L4 Coordination → 解决组织协同
终极推演:Intention Engineering——人只负责”设定目标函数”,其余 AI 全部包揽。
金句摘录
- “The Harness is the Dataset. Competitive advantage is now the trajectories your harness captures.” — Philipp Schmid, DeepMind
- “Enter plan mode for ANY non-trivial task. If something goes sideways, STOP and re-plan immediately — don’t keep pushing.” — Boris Cherny, Claude Code
- “Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again.” — Mitchell Hashimoto
- “We believe that the quality of the coding environments in RL tasks is the most important factor for downstream model performance.” — Windsurf
- “一行糟糕的计划,往往会长出几百行糟糕的代码。”
- “所谓的白领工作,可能真的是人类历史走过的一段弯路。”
Justin 视角
与日常实践的映射:文章描述的 harness 6 组件和 7 个 trick,跟你的 Claude Code superpowers 体系几乎一一对应——渐进式披露 = CLAUDE.md → SKILL.md → reference 三层结构;context firewall = subagent 隔离;research/plan/execute/verify = plan mode + verification skill;反馈闭环 = memory 系统 + session-end 交接。你可能是国内个人用户中把 harness engineering 做得最深的之一。
投资判断参考:
- 信息层(Edra 类):赛道逻辑成立但独立天花板存疑,更像是大厂的收购标的
- 执行层中 Temporal(durable execution)和 Oasis(agent 权限管理)的逻辑最硬——前者是底层 infra,后者是企业合规刚需,两者都有较强的护城河
- 反馈层 Braintrust 类 eval 平台:文章指出”底层模型和评测体系出自同一家,企业始终有顾虑”,这个独立性论点站得住。但要警惕模型公司内置 eval 能力的蚕食
- Daytona(stateful sandbox)值得关注——从 E2B 的一次性沙箱到 Daytona 的持久 workspace,这个演进方向与 long-horizon agent 趋势一致
核心 takeaway:
- “harness 每行代码保质期 2 个月”——说明这个领域变化极快,投资时要看团队迭代速度而非当前产品形态
- Coordination Engineering 作为 L4 的判断有道理,多 agent 编排和人机协同的工具层确实是下一个值得布局的方向
- 开源模型 + 垂直 harness + 自建 RL 的趋势,可能对 Anthropic/OpenAI 的定价权形成压力,但短期内头部模型的 agentic 能力仍有显著差距
延伸阅读
- Philipp Schmid (DeepMind Staff Engineer) 关于 “Harness is the Dataset” 的原始讨论
- Boris Cherny (Claude Code 负责人) 的 CLAUDE.md 配置和工作流实践
- Mitchell Hashimoto 的 harness engineering blog
- Karpathy 的 autoresearch 概念
- Windsurf SWE-1.5 训练技术博客
- Cursor Composer 1.5 的 agentic RL 训练方法
- 文中提到的创业公司:Edra、Temporal、Oasis Security、Daytona、Braintrust