也聊聊 AI Harness

You,11 min read

harness海报

我之前对它的感受比较零散,正好借这个机会把思路整理一下。先说结论:我理解的 Harness,不只是把几个 Agent 编排起来,也不是再包一层工作流工具。它更像是一套让人可以稳定驾驭 AI 的工程系统。

为什么会需要 Harness

过去一段时间,我们一直在追求 AI 带来的提效。

最早大家聊 Prompt Engineer,重点是怎么把问题问清楚,怎么让模型一次回答得更好。这一层能带来提升,但更多还是 2x 级别。

后来开始聊 Context Engineer,重点变成怎么给模型准备更好的上下文:项目背景、代码结构、历史决策、工具说明、约束条件。这一层的价值明显更大,因为模型不再只是“会回答”,而是更接近“知道自己在什么环境里回答”。我理解这里可能有 5x 左右的提效空间。

再往后看,就是 Harness。它有机会把提效推到 10x,甚至 100x。

原因也很直接:Prompt 和 Context 优化的,仍然是“人一次次驱动 AI”的协作方式。只要链路里每一步都要人来判断、复制、粘贴、确认、再推进,人就会成为瓶颈。

Harness 解决的是另一个问题:能不能减少链路里的人工节点。

通过 loop、多 Agent、预设 skill、工具连接、自动反馈和任务调度,把那些已经跑通的流程逐渐固化下来。链路越长,人参与得越少,提效就越可能跨一个数量级。

Harness 更像马具,而不是马

我觉得 Harness 这个词本身就很妙。

它不是马,也不替代马。它是一套马具,让人可以更稳定地驾驭马。

对应到 AI 里,Harness 不是让模型突然变聪明。模型本身还是模型,它会犯错、会遗漏上下文、会高估自己的答案。Harness 真正做的,是把模型外面的规则、工具、技能文件、环境信息和反馈循环包起来,让人可以把模型放进一个更可控的系统里使用。

所以它一定会超过单个 Agent。

单个 Agent 更像一个执行个体,而 Harness 关心的是:这些执行个体怎么拿到上下文、怎么调用工具、怎么互相校验、怎么在失败后改进、怎么把一次经验沉淀成下次默认会做的事情。

Harness 的几种形态

我现在会把 Harness 粗略分成三类:Loop、流、连接。

1. Loop:让系统自己长记性

Loop 最好理解,就是把“做事、观察结果、修正策略”这件事循环起来。

比如各种 self-improve loop。一个很有启发的原则是:当 Agent 出错时,不要只手动把这一次修掉,而是追问一句:“怎么让它以后不再犯同样的错?”

这个答案可以被固化成很多形态:

Loop 的关键不是“这次修好了”,而是“系统因为这次错误变得更不容易再错”。

2. 流:把一次次手工推进变成系统推进

流的形态更多,比如 Workflow、Agent Team、Cron Tasks 等。

这里需要和传统自动化区分一下。n8n、Zapier 或很多 Workflow 平台,本质上也能把节点串起来,但传统自动化的节点通常是确定性的:如果发生 A,就执行 B;如果字段等于 C,就走 D。

Harness 的区别在于,节点里可以放模型判断。

这会让流程从“固定脚本”变成“带判断能力的执行系统”。它可以读上下文、做总结、比较方案、写代码、做 Review、判断是否需要继续推进。这也是为什么 Harness 的提效空间可能比传统自动化大得多。

举几个例子:

流真正有价值的地方,是把“我已经知道怎么做,但每次都懒得做”的事情,从人的待办里移出去。

3. 连接:让 AI 真的进入工作环境

连接指的是把 AI 接进各种真实环境。

比如 GitHub 的 Issue、PR、Action 日志;比如本地电脑里的代码、文档、浏览器、终端;比如远程服务里的数据、监控、告警、后台系统。

没有连接,AI 很容易停留在聊天窗口里。它能给建议,但不能直接触达现场。

有了连接,AI 才能看到上下文,才能执行动作,才能把建议变成变更。很多时候,连接本身就是提效的起点。

不要做一次性工作

Harness 里有一个原则很容易被低估:不允许长期做一次性工作。

如果同一件事被问第二次,就说明系统还没有长出记忆。如果一个操作已经手动跑过 3 到 10 次,就应该考虑把它固化成 skill、脚本、workflow 或 cron。

这不是为了追求自动化洁癖,而是因为“流”只有在不断沉淀后才会越用越厚。

今天沉淀一个 PR Review 流,明天沉淀一个发版检查流,后天沉淀一个依赖升级流。时间长了,个人和团队的工作方式会被这些流重新塑形。

AI 主导,不等于一个 AI 包办一切

这里还有一个容易误解的点:AI 主导,并不等于让一个 AI 从头做到尾。

单个 AI 自评很容易高估自己。让它给自己的产出打分,它常常会对一个平庸结果过于自信。任务越主观,这个问题越明显,比如写作、设计、架构取舍、产品判断。

所以更合理的方式,是把生成和评估拆开,让多个 AI 互相制衡。

比如 Planner 负责拆任务,Generator 负责产出,Evaluator 负责审查。必要时再加一个 Critic 或 Reviewer,专门从反面找问题。这样 AI 才不是一个人在自说自话,而是在一个有分工、有反馈的系统里工作。

这也是我理解 Harness 必须超越单 Agent 的原因。

人的角色会变化

如果 Harness 要达到 10x 到 100x 的提效,它一定得让 AI 承担更多主导执行的部分,人的占比要下降。

但这不是把人踢出局。

人的角色会从“一行行看、一处处点、一遍遍手动推进”,转向更高层的设计和把关:

换句话说,AI 主导执行,人主导方向、边界和质量。

下一步

所以我接下来想做的事情也很明确:搭各种流。

不是为了把工具堆得更复杂,而是把那些已经重复出现、已经有稳定判断标准、已经验证过价值的工作,慢慢从手工流程里拿出来。

如果说 Prompt 是让 AI 回答得更好,Context 是让 AI 更懂现场,那 Harness 就是让 AI 真正进入系统,持续执行、持续反馈、持续进化。

这可能也是接下来一段时间,AI 工程实践里最值得投入的方向。

2026 © Lizhenyui.