1 概念定义与起源
1.1 什么是 Harness Engineering?
Harness Engineering(缰绳工程)是一种系统设计方法论,通过构建围绕 AI 模型的约束、反馈和控制机制,使 agent 在真实环境中可靠运行,而无需等待模型本身的改进。
1.2 概念演化时间线
1.3 关键人物与机构
2 核心实验与数据
2.1 LangChain Terminal Bench 2.0 实验
实验设计:模型固定使用 gpt-5.2-codex(一行未改),基准为 Terminal Bench 2.0(89 个任务),变量仅调整 harness。
| 迭代 | Harness 变更 | 得分 | 排名 |
|---|---|---|---|
| 基线 | 默认提示 + 标准工具 | 52.8% | Top 30 外 |
| 迭代 1 | 添加 Self-Verify 提示 | 59.6% | Top 20 |
| 迭代 2 | 添加 LocalContextMiddleware | 63.6% | Top 10 |
| 迭代 3 | 添加 LoopDetectionMiddleware | 66.5% | Top 5 |
关键改进措施
2.2 OpenAI 内部产品案例
Harness 架构:分层架构 enforced by custom linters、Agent-to-Agent 审查循环、后台清理 agent 修复 drift、结构化仓库文档作为真实来源。
结论:"我们最困难的挑战现在集中在设计环境、反馈 loop 和控制系统上。"
3 Harness 五组件框架
组件 1:指令层(Instruction Layer)
作用:告诉 AI 应该做什么、如何做。通过 Skill 系统实现自动创建和自改进。
手动实现
Hermes 内建 ⭐
组件 2:约束层(Constraint Layer)
作用:限制 AI 不能做什么,防止错误。
| 机制 | 实现方式 |
|---|---|
| 工具权限 | 每个工具独立权限控制 |
| 沙箱隔离 | Docker / SSH 后端 |
| Toolset 管理 | 按需启用工具集 |
| 静态检查 | Linters, Type Checkers |
组件 3:反馈层(Feedback Layer)
作用:给 AI 提供执行结果的反馈。
| 类型 | 计算型(CPU) | 推理型(GPU) |
|---|---|---|
| 速度 | 毫秒 - 秒 | 秒 - 分钟 |
| 成本 | 低 | 高 |
| 确定性 | 确定 | 概率 |
| 示例 | 测试、linter | AI 代码审查 |
Hermes 实现:每 15 个 tool calls 自动 self-evaluation checkpoint;任务完成后自动复盘生成/更新 Skill;用户纠正自动记录到 MEMORY.md。
组件 4:记忆层(Memory Layer)
| 层级 | 内容 | 实现 |
|---|---|---|
| 会话记忆 | 当前对话上下文 | Context Window |
| 持久记忆 | 跨会话事实、偏好 | SQLite + FTS5 + LLM 总结 |
| Skill 记忆 | 程序性知识 | Markdown Skill 文件 |
| 用户建模 | 用户画像 | Honcho 系统 |
组件 5:编排层(Orchestration Layer)
作用:协调多个 AI 或工具的协作。多 Agent 委派、内置 Cron 调度、自动并行化。
4 Hermes Agent:完整产品化实现
将 Harness 五组件全部内建,从"你给 AI 造缰绳"变成"AI 自己给自己造缰绳"。
Claude Code(手动)
Hermes Agent(自动)⭐
封闭学习闭环(Closed Learning Loop)
技术架构
| 特性 | 实现 |
|---|---|
| 语言 | Python (92.9%) |
| 依赖管理 | uv |
| 内置工具 | 40+ |
| MCP 支持 | 完整集成 |
| Skill 标准 | agentskills.io |
| 用户建模 | Honcho |
| 许可证 | MIT |
20-30 个任务后的效果:
5 实际应用案例
案例 1:内容机构工作流
背景:YouTube 评测者,内容生产 pipeline。手动生成图片、手动用 Python 添加 logo,每次重复相同流程。
案例 2:Stripe 生产部署
规模:每周 1000+ 合并 PR,隔离环境执行,硬性 CI 限制 + 升级规则。
Pre-push hooks 基于启发式运行相关 linter,"Shift feedback left"原则,Blueprint 系统集成反馈传感器。
案例 3:Datadog 可观测性集成
模式:Generate → Validate → Fix → Observe
6 实践指南
6.1 开始构建你的 Harness
6.2 Harness 模板(Martin Fowler 分类)
| 类别 | 目标 | 工具示例 |
|---|---|---|
| Maintainability Harness | 代码可维护性 | Linters, 结构测试, ArchUnit |
| Architecture Fitness Harness | 架构适应性 | 性能测试, 可观测性规范 |
| Behavior Harness | 功能正确性 | 功能规格 + AI 生成测试 + 人工测试 |
6.3 常见陷阱
| 陷阱 | 症状 | 解决方案 |
|---|---|---|
| Harness Debt | Harness 本身变得复杂难维护 | 定期重构 Harness 代码 |
| 过度约束 | Agent 无法完成创造性任务 | 分层约束,核心 vs 边缘 |
| 反馈延迟 | 错误在 pipeline 后期才发现 | Shift feedback left |
| 上下文溢出 | Skill 库太大导致 prompt 膨胀 | Progressive disclosure |
| 一次性任务 | 为只用一次的任务创建 Skill | 设定 ROI 阈值 |
7 局限性与未来方向
7.1 当前局限
7.2 未来方向
8 索引与参考文献
8.1 核心文献
- LangChain Team. "Improving Deep Agents with harness engineering" (2026-02-17)
https://blog.langchain.dev/improving-deep-agents-with-harness-engineering/ - Mitchell Hashimoto. "My AI Adoption Journey: Step 5 - Engineer the Harness" (2026-02-05)
https://mitchellh.com/writing/my-ai-adoption-journey - OpenAI. "Harness engineering: leveraging Codex in an agent-first world" (2026-02-11)
- Martin Fowler. "Harness Engineering" (2026-04-02)
https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html - Louis-François Bouchard. "Harness Engineering: The Missing Layer Behind AI Agents" (2026-03-25)
https://www.louisbouchard.ai/harness-engineering/
8.2 Hermes Agent 资源
- Nous Research. "Hermes Agent Documentation"
https://hermes-agent.nousresearch.com/docs/ - Jimmy Song. "Hermes Agent: The self-improving AI agent by Nous Research" (2026-04-07)
https://jimmysong.io/ai/hermes-agent/ - Hermes Agent Team. "Self-Improving AI: The Complete Guide" (2026-04-04)
https://hermes-agent.ai/blog/self-improving-ai-guide
8.3 社区分析
- Rick Hightower. "LangChain's Harness Engineering: From Top 30 to Top 5" (2026-03-20)
Medium - Paul Iusztin. "Agentic Harness Engineering" (2026-03-31)
decodingai.com - Y Build Team. "Harness Engineering: Build Systems Around AI Agents" (2026)
ybuild.ai