Harness is the New Dataset：模型智能提升的下一个关键方向

海外独角兽 / Celia、Siqi · 2026-03-30 · Original

来源: 海外独角兽 / Celia、Siqi | 日期: 2026-03-26 原文: Harness is the New Dataset：模型智能提升的下一个关键方向精读日期: 2026-03-30

一句话总结

当基模能力过线后，Agent 的上限不再取决于模型本身，而是取决于围绕模型搭建的 harness（运行环境 + 工具 + 记忆 + 评估 + 反馈闭环），harness 同时也是最有价值的训练数据来源。

核心内容

AI 工程方法的三次演进

阶段	时间	关注点
Prompt Engineering	2022-2024	如何表达需求——打磨单次对话指令
Context Engineering	2025	如何提供恰到好处的信息——获取、压缩、组织上下文
Harness Engineering	2026	如何构建系统——运行环境、工具、记忆、评估、回滚

公式：Agent = LLM + Harness。模型决定”做什么”，Harness 决定”能看到什么、能用什么工具、失败时怎么办”。

文章认为 tipping point 是 2025 年 11 月 Opus 4.5 的发布——“用好模型”开始比”提高模型”更重要。有趣的是，当时市场热议 Gemini 3，但回头看 Opus 4.5 影响更深远。

Harness 的 6 个关键组件（归为 3 层）

信息层

Memory & Context Management — Agent 在当前时刻该看到什么信息：上下文裁剪、压缩、按需检索、外部状态存储
Tools & Skills — 可调用的外部能力 + 可复用的任务方法

执行层

Orchestration & Coordination — 多 agent 编排、分工、交接
Infra & Guardrails — 沙箱、权限控制、失败恢复、安全护栏

反馈层

Evaluation & Verification — 测试、检查、反馈机制，让 Agent 自行验证并修正
Tracing & Observability — 执行轨迹、日志、监控、成本分析，让黑箱变透明

文章以 OpenClaw 为例说明 harness 的力量：Gateway（跨平台存在感）、Skills 库、记忆机制、Heartbeat（自发唤醒）、Soul.md（人格注入），每个组件单看不复杂，组合起来产生了模型本身没有的”生命力”。

7 个核心设计 Trick

信息层（资源准备）

Trick 1：渐进式披露 — 信息分层加载，不一次性塞满。Claude Code 的三层分级：L1 CLAUDE.md（元规则入口）→ L2 SKILL.md（按需加载能力包）→ L3 reference/scripts（执行细节）。核心：让注意力始终集中在最关键的 1% 信息上。
Trick 2：Tools 越少而精越好 — 反直觉：模型越强，对工具的依赖应递减。Claude Code 约 20 个工具，团队仍在审视是否真的都需要。Vercel 精简工具后速度和可靠性都提升。过于复杂的工具集是幻觉的温床。
Trick 3：Context window 利用率的甜蜜区间 — 超过阈值后性能下降。大海捞针测试：Opus 4.6 在 1M token 时维持七成命中率，GPT-5.4/Gemini 3.1 Pro 掉到三成。顶级工程师频繁压缩，控制 context 利用率在 60% 以下。
Trick 4：Subagent 做 context 隔离 — Boris Cherny 称之为”context firewall”：子任务分配给独立 subagent，各自在干净 context 完成，主线程只做调度和收口。

执行层（执行规划）

Trick 5：Research → Plan → Execute → Verify 分开 — 每阶段独立 session 和 context，不期望一气呵成。Boris 的 CLAUDE.md 规则：“Enter plan mode for ANY non-trivial task”。计划确认后清空 context，让执行从干净起点开始。
Trick 6：人最该介入规划而非审核 — “一行糟糕的计划会长出几百行糟糕的代码”。精力应从 code review 前移到 research 和 plan 环节。

反馈层（复利飞轮）

Trick 7：构建反馈闭环 — Mitchell Hashimoto 的工程纪律：每次翻车都记入 AGENTS.md，让 agent 不再犯同样错误。Boris 数据：有效验证手段可让产出质量提升 2-3 倍。Karpathy 的 autoresearch：idea → 实验 → 观察 → 保留有效/丢弃无效 → 循环。

模型与 Harness 的深度耦合

训练即部署：Agentic RL 中模型和 harness 从一开始就不是分开设计的。Cursor 训 Composer 1.5 并发数十万沙盒；Windsurf 训 SWE-1.5 明确说”coding 环境质量是对模型最终表现影响最大的因素”。模型在训练时用的就是上线后要面对的同一套工具和终端。

Harness 即数据：DeepMind Philipp Schmid 金句——“The Harness is the Dataset”。真正有价值的数据不再只是静态语料，而是 agent 在业务流程中跑出的执行轨迹。Harness 是模型能力生成的土壤。Anthropic 在 harness 上比 OpenAI 早了几个月，这个窗口期让 Claude Code 建立了用户粘性优势。

Harness 能力被模型吸收的循环：社区摸索有效方法 → 训练团队做 post-training → 模型内化能力 → 新 harness 重新设计 → 循环。Boris 说 Claude Code 的 harness 每行代码保质期约 2 个月。

创业公司机会

层	方向	代表公司	融资
信息层	Agent 上下文基础设施	Edra（“Context for Agents at Scale”）	$30M A 轮，Sequoia 领投
执行层	Workflow/Durable Execution	Temporal	$300M D 轮，a16z 领投，$5B 估值
执行层	Security/Governance	Oasis Security	$120M B 轮，Craft 领投，$700M 估值
执行层	Sandbox	Daytona（stateful workspace）	$24M A 轮，FirstMark 领投
反馈层	Eval & Observability	Braintrust	$80M B 轮，ICONIQ 领投，$800M 估值

What’s Next：Coordination Engineering

文章推演下一个范式是 Coordination Engineering——协调无数 agent/人类节点完成复杂任务。“下一代 AI 产品未必是更聪明的小龙虾，而更像一个小龙虾版飞书——监工看板 + 协作 IM 平台”。

四层叠加构成 Agentic Engineering 终极范式：

L1 Prompt → 解决问答质量
L2 Context → 解决认知边界
L3 Harness → 解决执行闭环
L4 Coordination → 解决组织协同

终极推演：Intention Engineering——人只负责”设定目标函数”，其余 AI 全部包揽。

金句摘录

“The Harness is the Dataset. Competitive advantage is now the trajectories your harness captures.” — Philipp Schmid, DeepMind
“Enter plan mode for ANY non-trivial task. If something goes sideways, STOP and re-plan immediately — don’t keep pushing.” — Boris Cherny, Claude Code
“Anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again.” — Mitchell Hashimoto
“We believe that the quality of the coding environments in RL tasks is the most important factor for downstream model performance.” — Windsurf
“一行糟糕的计划，往往会长出几百行糟糕的代码。”
“所谓的白领工作，可能真的是人类历史走过的一段弯路。”

Justin 视角

与日常实践的映射：文章描述的 harness 6 组件和 7 个 trick，跟你的 Claude Code superpowers 体系几乎一一对应——渐进式披露 = CLAUDE.md → SKILL.md → reference 三层结构；context firewall = subagent 隔离；research/plan/execute/verify = plan mode + verification skill；反馈闭环 = memory 系统 + session-end 交接。你可能是国内个人用户中把 harness engineering 做得最深的之一。
投资判断参考：
- 信息层（Edra 类）：赛道逻辑成立但独立天花板存疑，更像是大厂的收购标的
- 执行层中 Temporal（durable execution）和 Oasis（agent 权限管理）的逻辑最硬——前者是底层 infra，后者是企业合规刚需，两者都有较强的护城河
- 反馈层 Braintrust 类 eval 平台：文章指出”底层模型和评测体系出自同一家，企业始终有顾虑”，这个独立性论点站得住。但要警惕模型公司内置 eval 能力的蚕食
- Daytona（stateful sandbox）值得关注——从 E2B 的一次性沙箱到 Daytona 的持久 workspace，这个演进方向与 long-horizon agent 趋势一致
核心 takeaway：
- “harness 每行代码保质期 2 个月”——说明这个领域变化极快，投资时要看团队迭代速度而非当前产品形态
- Coordination Engineering 作为 L4 的判断有道理，多 agent 编排和人机协同的工具层确实是下一个值得布局的方向
- 开源模型 + 垂直 harness + 自建 RL 的趋势，可能对 Anthropic/OpenAI 的定价权形成压力，但短期内头部模型的 agentic 能力仍有显著差距