深度研究报告 · 2026-04-08

Harness Engineering
缰绳工程:AI Agent 时代的范式转变

通过系统性构建围绕 AI 模型的约束和反馈机制,团队能够在不改变模型的情况下将 agent 性能提升 36%(从 Top 30 到 Top 5)。Hermes Agent 是该方法论的第一次完整产品化实现。

📅 研究日期:2026-04-08 🔬 方法:多 MCP 工具协同 📚 引用:12+ 篇核心文献 耗时:约 15 分钟
36%
性能提升幅度
Top 5
Terminal Bench 排名
0 行
手写代码(OpenAI)
5
Harness 组件
66.5%
最终基准得分

1 概念定义与起源

1.1 什么是 Harness Engineering?

Harness Engineering(缰绳工程)是一种系统设计方法论,通过构建围绕 AI 模型的约束、反馈和控制机制,使 agent 在真实环境中可靠运行,而无需等待模型本身的改进。

核心洞察:瓶颈不是模型,是环境设计。

1.2 概念演化时间线

2023–2024
Prompt Engineering 巅峰
"一问一答"结构,优化指令
2025 年中
Context Engineering 兴起
Karpathy remarks + LangChain/Anthropic 正式定义,RAG、MCP、记忆等系统级上下文设计
2026-02-05
Mitchell Hashimoto 博客
首次命名 "Engineer the Harness"
2026-02-11
OpenAI 实地报告
描述 0 行手写代码构建内部产品的 harness
2026-02-17
LangChain 实验报告
证明 harness 优化可将 agent 从 Top 30 提升至 Top 5
2026-03
社区广泛采用
Martin Fowler、Ethan Mollick 等跟进分析

1.3 关键人物与机构

🔗
Mitchell Hashimoto
HashiCorp 联合创始人,命名概念:"每次 AI 犯错,加一条规则让它不再犯同样错误"
🔬
LangChain 团队
通过 Terminal Bench 2.0 实验量化 harness 效果
🤖
OpenAI 团队
展示 0 行手写代码的生产级应用,约 100 万行 AI 生成代码
🧠
Nous Research
通过 Hermes Agent 实现完整产品化

2 核心实验与数据

2.1 LangChain Terminal Bench 2.0 实验

实验设计:模型固定使用 gpt-5.2-codex(一行未改),基准为 Terminal Bench 2.0(89 个任务),变量仅调整 harness。

迭代Harness 变更得分排名
基线默认提示 + 标准工具52.8%Top 30 外
迭代 1添加 Self-Verify 提示59.6%Top 20
迭代 2添加 LocalContextMiddleware63.6%Top 10
迭代 3添加 LoopDetectionMiddleware66.5%Top 5

关键改进措施

🛠️
Build & Self-Verify
四步流程:规划 → 构建 → 验证 → 修复。PreCompletionChecklistMiddleware 强制验证,测试驱动开发提示
🗺️
环境上下文注入
LocalContextMiddleware 自动映射目录结构和可用工具,时间预算警告防止超时
🔄
循环检测与恢复
LoopDetectionMiddleware 跟踪单文件编辑次数,N 次编辑后提示重新审视方法
推理计算预算优化
"xhigh-high-xhigh"推理三明治:规划高推理、执行中推理、验证高推理

2.2 OpenAI 内部产品案例

规模:约 100 万行代码,0 行手动编写的源代码,5 个月开发周期。

Harness 架构:分层架构 enforced by custom linters、Agent-to-Agent 审查循环、后台清理 agent 修复 drift、结构化仓库文档作为真实来源。

结论:"我们最困难的挑战现在集中在设计环境、反馈 loop 和控制系统上。"

3 Harness 五组件框架

框架总览:AI Agent = Model + Harness(指令层 + 约束层 + 反馈层 + 记忆层 + 编排层)

组件 1:指令层(Instruction Layer)

作用:告诉 AI 应该做什么、如何做。通过 Skill 系统实现自动创建和自改进。

手动实现

CLAUDE.md / AGENTS.md
手动更新
静态文档格式

Hermes 内建 ⭐

Skill 系统
自动创建 + 自改进
Markdown Skill 文件

组件 2:约束层(Constraint Layer)

作用:限制 AI 不能做什么,防止错误。

机制实现方式
工具权限每个工具独立权限控制
沙箱隔离Docker / SSH 后端
Toolset 管理按需启用工具集
静态检查Linters, Type Checkers

组件 3:反馈层(Feedback Layer)

作用:给 AI 提供执行结果的反馈。

类型计算型(CPU)推理型(GPU)
速度毫秒 - 秒秒 - 分钟
成本
确定性确定概率
示例测试、linterAI 代码审查

Hermes 实现:每 15 个 tool calls 自动 self-evaluation checkpoint;任务完成后自动复盘生成/更新 Skill;用户纠正自动记录到 MEMORY.md。

组件 4:记忆层(Memory Layer)

层级内容实现
会话记忆当前对话上下文Context Window
持久记忆跨会话事实、偏好SQLite + FTS5 + LLM 总结
Skill 记忆程序性知识Markdown Skill 文件
用户建模用户画像Honcho 系统

组件 5:编排层(Orchestration Layer)

作用:协调多个 AI 或工具的协作。多 Agent 委派、内置 Cron 调度、自动并行化。

4 Hermes Agent:完整产品化实现

为什么 Hermes 是 Harness Engineering 的完整实现?
将 Harness 五组件全部内建,从"你给 AI 造缰绳"变成"AI 自己给自己造缰绳"。

Claude Code(手动)

手写 CLAUDE.md
手动配 hooks
人工审查
手动维护知识库
自建多 Agent

Hermes Agent(自动)⭐

自动生成 + 自改进 Skill
权限控制 + 沙箱
自动复盘 + 优化
三层记忆 + 用户建模
子 Agent 委派 + cron

封闭学习闭环(Closed Learning Loop)

Task Execution
Self-Evaluation(每 15 tool calls)
Skill Creation / Update
Memory Update

技术架构

特性实现
语言Python (92.9%)
依赖管理uv
内置工具40+
MCP 支持完整集成
Skill 标准agentskills.io
用户建模Honcho
许可证MIT

20-30 个任务后的效果:

速度提升
从 25 tool calls 降至 8-10
🎯
准确率
停止重复被纠正的错误
🧠
预期性
主动应用品牌指南、代码规范
📦
Skill 库
10-40 个自动创建的定制技能

5 实际应用案例

案例 1:内容机构工作流

背景:YouTube 评测者,内容生产 pipeline。手动生成图片、手动用 Python 添加 logo,每次重复相同流程。

Hermes 介入后:自动识别混合方法需求 → 创建 "brand-image-generation" Skill → 下次任务直接复用。设置多 Agent 工作流(社交媒体经理 + 视觉 Agent + 广告创建 Agent)。

案例 2:Stripe 生产部署

规模:每周 1000+ 合并 PR,隔离环境执行,硬性 CI 限制 + 升级规则。

Pre-push hooks 基于启发式运行相关 linter,"Shift feedback left"原则,Blueprint 系统集成反馈传感器。

案例 3:Datadog 可观测性集成

Agent 生成代码
部署
性能回归检测
信号反馈回 loop
Agent 自动修复

模式:Generate → Validate → Fix → Observe

6 实践指南

6.1 开始构建你的 Harness

① 识别重复错误
② 添加约束
③ 创建 Skill
④ 建立反馈 loop

6.2 Harness 模板(Martin Fowler 分类)

类别目标工具示例
Maintainability Harness代码可维护性Linters, 结构测试, ArchUnit
Architecture Fitness Harness架构适应性性能测试, 可观测性规范
Behavior Harness功能正确性功能规格 + AI 生成测试 + 人工测试

6.3 常见陷阱

陷阱症状解决方案
Harness DebtHarness 本身变得复杂难维护定期重构 Harness 代码
过度约束Agent 无法完成创造性任务分层约束,核心 vs 边缘
反馈延迟错误在 pipeline 后期才发现Shift feedback left
上下文溢出Skill 库太大导致 prompt 膨胀Progressive disclosure
一次性任务为只用一次的任务创建 Skill设定 ROI 阈值

7 局限性与未来方向

7.1 当前局限

⚠️
新领域问题
自改进只在已工作领域有效,零经验任务仍从零开始
⚠️
结构性错误
底层 LLM 的逻辑错误无法通过 Harness 完全修复
⚠️
Token 预算问题
50+ Skills 导致系统 prompt 膨胀,需要更好的上下文管理
⚠️
跨安装同步
家庭服务器的 Skills 不会自动出现在工作服务器

7.2 未来方向

多模型 Harness
Codex 规划 + Claude 执行 + Gemini 验证,平衡推理预算
持续学习原语
Agent 自主改进任务表现,跨模型测量 Harness 变化
Harness 评估
类似代码覆盖率的 Harness 覆盖率,突变测试用于传感器质量
Harness 模板生态
服务模板演化为 Harness 模板,技术栈选择基于可用 Harness

8 索引与参考文献

8.1 核心文献

  1. LangChain Team. "Improving Deep Agents with harness engineering" (2026-02-17)
    https://blog.langchain.dev/improving-deep-agents-with-harness-engineering/
  2. Mitchell Hashimoto. "My AI Adoption Journey: Step 5 - Engineer the Harness" (2026-02-05)
    https://mitchellh.com/writing/my-ai-adoption-journey
  3. OpenAI. "Harness engineering: leveraging Codex in an agent-first world" (2026-02-11)
  4. Martin Fowler. "Harness Engineering" (2026-04-02)
    https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html
  5. Louis-François Bouchard. "Harness Engineering: The Missing Layer Behind AI Agents" (2026-03-25)
    https://www.louisbouchard.ai/harness-engineering/

8.2 Hermes Agent 资源

  1. Nous Research. "Hermes Agent Documentation"
    https://hermes-agent.nousresearch.com/docs/
  2. Jimmy Song. "Hermes Agent: The self-improving AI agent by Nous Research" (2026-04-07)
    https://jimmysong.io/ai/hermes-agent/
  3. Hermes Agent Team. "Self-Improving AI: The Complete Guide" (2026-04-04)
    https://hermes-agent.ai/blog/self-improving-ai-guide

8.3 社区分析

  1. Rick Hightower. "LangChain's Harness Engineering: From Top 30 to Top 5" (2026-03-20)
    Medium
  2. Paul Iusztin. "Agentic Harness Engineering" (2026-03-31)
    decodingai.com
  3. Y Build Team. "Harness Engineering: Build Systems Around AI Agents" (2026)
    ybuild.ai

8.4 相关项目

📦
Agent Skills Standard