Harness Engineering 深度研究报告 2026

1 概念定义与起源

1.1 什么是 Harness Engineering？

Harness Engineering（缰绳工程）是一种系统设计方法论，通过构建围绕 AI 模型的约束、反馈和控制机制，使 agent 在真实环境中可靠运行，而无需等待模型本身的改进。

核心洞察：瓶颈不是模型，是环境设计。

1.2 概念演化时间线

2023–2024

Prompt Engineering 巅峰

"一问一答"结构，优化指令

2025 年中

Context Engineering 兴起

Karpathy remarks + LangChain/Anthropic 正式定义，RAG、MCP、记忆等系统级上下文设计

2026-02-05

Mitchell Hashimoto 博客

首次命名 "Engineer the Harness"

2026-02-11

OpenAI 实地报告

描述 0 行手写代码构建内部产品的 harness

2026-02-17

LangChain 实验报告

证明 harness 优化可将 agent 从 Top 30 提升至 Top 5

2026-03

社区广泛采用

Martin Fowler、Ethan Mollick 等跟进分析

1.3 关键人物与机构

🔗

Mitchell Hashimoto

HashiCorp 联合创始人，命名概念："每次 AI 犯错，加一条规则让它不再犯同样错误"

🔬

LangChain 团队

通过 Terminal Bench 2.0 实验量化 harness 效果

🤖

OpenAI 团队

展示 0 行手写代码的生产级应用，约 100 万行 AI 生成代码

🧠

Nous Research

通过 Hermes Agent 实现完整产品化

2 核心实验与数据

2.1 LangChain Terminal Bench 2.0 实验

实验设计：模型固定使用 gpt-5.2-codex（一行未改），基准为 Terminal Bench 2.0（89 个任务），变量仅调整 harness。

迭代	Harness 变更	得分	排名
基线	默认提示 + 标准工具	52.8%	Top 30 外
迭代 1	添加 Self-Verify 提示	59.6%	Top 20
迭代 2	添加 LocalContextMiddleware	63.6%	Top 10
迭代 3	添加 LoopDetectionMiddleware	66.5%	Top 5

关键改进措施

🛠️

Build & Self-Verify

四步流程：规划 → 构建 → 验证 → 修复。PreCompletionChecklistMiddleware 强制验证，测试驱动开发提示

🗺️

环境上下文注入

LocalContextMiddleware 自动映射目录结构和可用工具，时间预算警告防止超时

🔄

循环检测与恢复

LoopDetectionMiddleware 跟踪单文件编辑次数，N 次编辑后提示重新审视方法

⚡

推理计算预算优化

"xhigh-high-xhigh"推理三明治：规划高推理、执行中推理、验证高推理

2.2 OpenAI 内部产品案例

规模：约 100 万行代码，0 行手动编写的源代码，5 个月开发周期。

Harness 架构：分层架构 enforced by custom linters、Agent-to-Agent 审查循环、后台清理 agent 修复 drift、结构化仓库文档作为真实来源。

结论："我们最困难的挑战现在集中在设计环境、反馈 loop 和控制系统上。"

3 Harness 五组件框架

框架总览：AI Agent = Model + Harness（指令层 + 约束层 + 反馈层 + 记忆层 + 编排层）

组件 1：指令层（Instruction Layer）

作用：告诉 AI 应该做什么、如何做。通过 Skill 系统实现自动创建和自改进。

手动实现

✓ CLAUDE.md / AGENTS.md

✓ 手动更新

✓ 静态文档格式

Hermes 内建 ⭐

✓ Skill 系统

✓ 自动创建 + 自改进

✓ Markdown Skill 文件

组件 2：约束层（Constraint Layer）

作用：限制 AI 不能做什么，防止错误。

机制	实现方式
工具权限	每个工具独立权限控制
沙箱隔离	Docker / SSH 后端
Toolset 管理	按需启用工具集
静态检查	Linters, Type Checkers

组件 3：反馈层（Feedback Layer）

作用：给 AI 提供执行结果的反馈。

类型	计算型（CPU）	推理型（GPU）
速度	毫秒 - 秒	秒 - 分钟
成本	低	高
确定性	确定	概率
示例	测试、linter	AI 代码审查

Hermes 实现：每 15 个 tool calls 自动 self-evaluation checkpoint；任务完成后自动复盘生成/更新 Skill；用户纠正自动记录到 MEMORY.md。

组件 4：记忆层（Memory Layer）

层级	内容	实现
会话记忆	当前对话上下文	Context Window
持久记忆	跨会话事实、偏好	SQLite + FTS5 + LLM 总结
Skill 记忆	程序性知识	Markdown Skill 文件
用户建模	用户画像	Honcho 系统

组件 5：编排层（Orchestration Layer）

作用：协调多个 AI 或工具的协作。多 Agent 委派、内置 Cron 调度、自动并行化。

4 Hermes Agent：完整产品化实现

为什么 Hermes 是 Harness Engineering 的完整实现？
将 Harness 五组件全部内建，从"你给 AI 造缰绳"变成"AI 自己给自己造缰绳"。

Claude Code（手动）

✗ 手写 CLAUDE.md

✗ 手动配 hooks

✗ 人工审查

✗ 手动维护知识库

✗ 自建多 Agent

Hermes Agent（自动）⭐

✓ 自动生成 + 自改进 Skill

✓ 权限控制 + 沙箱

✓ 自动复盘 + 优化

✓ 三层记忆 + 用户建模

✓ 子 Agent 委派 + cron

封闭学习闭环（Closed Learning Loop）

Task Execution

→

Self-Evaluation（每 15 tool calls）

→

Skill Creation / Update

→

Memory Update

↩

技术架构

特性	实现
语言	Python (92.9%)
依赖管理	uv
内置工具	40+
MCP 支持	完整集成
Skill 标准	agentskills.io
用户建模	Honcho
许可证	MIT

20-30 个任务后的效果：

⚡

速度提升

从 25 tool calls 降至 8-10

🎯

准确率

停止重复被纠正的错误

🧠

预期性

主动应用品牌指南、代码规范

📦

Skill 库

10-40 个自动创建的定制技能

5 实际应用案例

案例 1：内容机构工作流

背景：YouTube 评测者，内容生产 pipeline。手动生成图片、手动用 Python 添加 logo，每次重复相同流程。

Hermes 介入后：自动识别混合方法需求 → 创建 "brand-image-generation" Skill → 下次任务直接复用。设置多 Agent 工作流（社交媒体经理 + 视觉 Agent + 广告创建 Agent）。

案例 2：Stripe 生产部署

规模：每周 1000+ 合并 PR，隔离环境执行，硬性 CI 限制 + 升级规则。

Pre-push hooks 基于启发式运行相关 linter，"Shift feedback left"原则，Blueprint 系统集成反馈传感器。

案例 3：Datadog 可观测性集成

Agent 生成代码

→

部署

→

性能回归检测

→

信号反馈回 loop

→

Agent 自动修复

模式：Generate → Validate → Fix → Observe

6 实践指南

6.1 开始构建你的 Harness

① 识别重复错误

→

② 添加约束

→

③ 创建 Skill

→

④ 建立反馈 loop

6.2 Harness 模板（Martin Fowler 分类）

类别	目标	工具示例
Maintainability Harness	代码可维护性	Linters, 结构测试, ArchUnit
Architecture Fitness Harness	架构适应性	性能测试, 可观测性规范
Behavior Harness	功能正确性	功能规格 + AI 生成测试 + 人工测试

6.3 常见陷阱

陷阱	症状	解决方案
Harness Debt	Harness 本身变得复杂难维护	定期重构 Harness 代码
过度约束	Agent 无法完成创造性任务	分层约束，核心 vs 边缘
反馈延迟	错误在 pipeline 后期才发现	Shift feedback left
上下文溢出	Skill 库太大导致 prompt 膨胀	Progressive disclosure
一次性任务	为只用一次的任务创建 Skill	设定 ROI 阈值

7 局限性与未来方向

7.1 当前局限

⚠️

新领域问题

自改进只在已工作领域有效，零经验任务仍从零开始

⚠️

结构性错误

底层 LLM 的逻辑错误无法通过 Harness 完全修复

⚠️

Token 预算问题

50+ Skills 导致系统 prompt 膨胀，需要更好的上下文管理

⚠️

跨安装同步

家庭服务器的 Skills 不会自动出现在工作服务器

7.2 未来方向

多模型 Harness

Codex 规划 + Claude 执行 + Gemini 验证，平衡推理预算

持续学习原语

Agent 自主改进任务表现，跨模型测量 Harness 变化

Harness 评估

类似代码覆盖率的 Harness 覆盖率，突变测试用于传感器质量

Harness 模板生态

服务模板演化为 Harness 模板，技术栈选择基于可用 Harness

8 索引与参考文献

8.1 核心文献

LangChain Team. "Improving Deep Agents with harness engineering" (2026-02-17)
https://blog.langchain.dev/improving-deep-agents-with-harness-engineering/
Mitchell Hashimoto. "My AI Adoption Journey: Step 5 - Engineer the Harness" (2026-02-05)
https://mitchellh.com/writing/my-ai-adoption-journey
OpenAI. "Harness engineering: leveraging Codex in an agent-first world" (2026-02-11)
Martin Fowler. "Harness Engineering" (2026-04-02)
https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html
Louis-François Bouchard. "Harness Engineering: The Missing Layer Behind AI Agents" (2026-03-25)
https://www.louisbouchard.ai/harness-engineering/

8.2 Hermes Agent 资源

Nous Research. "Hermes Agent Documentation"
https://hermes-agent.nousresearch.com/docs/
Jimmy Song. "Hermes Agent: The self-improving AI agent by Nous Research" (2026-04-07)
https://jimmysong.io/ai/hermes-agent/
Hermes Agent Team. "Self-Improving AI: The Complete Guide" (2026-04-04)
https://hermes-agent.ai/blog/self-improving-ai-guide

8.3 社区分析

Rick Hightower. "LangChain's Harness Engineering: From Top 30 to Top 5" (2026-03-20)
Medium
Paul Iusztin. "Agentic Harness Engineering" (2026-03-31)
decodingai.com
Y Build Team. "Harness Engineering: Build Systems Around AI Agents" (2026)
ybuild.ai

8.4 相关项目

🐙

Hermes Agent GitHub

github.com/nousresearch/hermes-agent

📦

Agent Skills Standard

agentskills.io