← All Articles

Harness is the New Dataset:模型智能提升的下一个关键方向

海外独角兽 / Celia、Siqi · 2026-03-30 · Original

来源: 海外独角兽 / Celia、Siqi | 日期: 2026-03-26 原文: Harness is the New Dataset:模型智能提升的下一个关键方向 精读日期: 2026-03-30

一句话总结

当基模能力过线后,Agent 的上限不再取决于模型本身,而是取决于围绕模型搭建的 harness(运行环境 + 工具 + 记忆 + 评估 + 反馈闭环),harness 同时也是最有价值的训练数据来源。

核心内容

AI 工程方法的三次演进

阶段 时间 关注点
Prompt Engineering 2022-2024 如何表达需求——打磨单次对话指令
Context Engineering 2025 如何提供恰到好处的信息——获取、压缩、组织上下文
Harness Engineering 2026 如何构建系统——运行环境、工具、记忆、评估、回滚

公式:Agent = LLM + Harness。模型决定”做什么”,Harness 决定”能看到什么、能用什么工具、失败时怎么办”。

文章认为 tipping point 是 2025 年 11 月 Opus 4.5 的发布——“用好模型”开始比”提高模型”更重要。有趣的是,当时市场热议 Gemini 3,但回头看 Opus 4.5 影响更深远。

Harness 的 6 个关键组件(归为 3 层)

信息层

  1. Memory & Context Management — Agent 在当前时刻该看到什么信息:上下文裁剪、压缩、按需检索、外部状态存储
  2. Tools & Skills — 可调用的外部能力 + 可复用的任务方法

执行层

  1. Orchestration & Coordination — 多 agent 编排、分工、交接
  2. Infra & Guardrails — 沙箱、权限控制、失败恢复、安全护栏

反馈层

  1. Evaluation & Verification — 测试、检查、反馈机制,让 Agent 自行验证并修正
  2. Tracing & Observability — 执行轨迹、日志、监控、成本分析,让黑箱变透明

文章以 OpenClaw 为例说明 harness 的力量:Gateway(跨平台存在感)、Skills 库、记忆机制、Heartbeat(自发唤醒)、Soul.md(人格注入),每个组件单看不复杂,组合起来产生了模型本身没有的”生命力”。

7 个核心设计 Trick

信息层(资源准备)

执行层(执行规划)

反馈层(复利飞轮)

模型与 Harness 的深度耦合

训练即部署:Agentic RL 中模型和 harness 从一开始就不是分开设计的。Cursor 训 Composer 1.5 并发数十万沙盒;Windsurf 训 SWE-1.5 明确说”coding 环境质量是对模型最终表现影响最大的因素”。模型在训练时用的就是上线后要面对的同一套工具和终端。

Harness 即数据:DeepMind Philipp Schmid 金句——“The Harness is the Dataset”。真正有价值的数据不再只是静态语料,而是 agent 在业务流程中跑出的执行轨迹。Harness 是模型能力生成的土壤。Anthropic 在 harness 上比 OpenAI 早了几个月,这个窗口期让 Claude Code 建立了用户粘性优势。

Harness 能力被模型吸收的循环:社区摸索有效方法 → 训练团队做 post-training → 模型内化能力 → 新 harness 重新设计 → 循环。Boris 说 Claude Code 的 harness 每行代码保质期约 2 个月。

创业公司机会

方向 代表公司 融资
信息层 Agent 上下文基础设施 Edra(“Context for Agents at Scale”) $30M A 轮,Sequoia 领投
执行层 Workflow/Durable Execution Temporal $300M D 轮,a16z 领投,$5B 估值
执行层 Security/Governance Oasis Security $120M B 轮,Craft 领投,$700M 估值
执行层 Sandbox Daytona(stateful workspace) $24M A 轮,FirstMark 领投
反馈层 Eval & Observability Braintrust $80M B 轮,ICONIQ 领投,$800M 估值

What’s Next:Coordination Engineering

文章推演下一个范式是 Coordination Engineering——协调无数 agent/人类节点完成复杂任务。“下一代 AI 产品未必是更聪明的小龙虾,而更像一个小龙虾版飞书——监工看板 + 协作 IM 平台”。

四层叠加构成 Agentic Engineering 终极范式:

终极推演:Intention Engineering——人只负责”设定目标函数”,其余 AI 全部包揽。

金句摘录

Justin 视角

延伸阅读