概述
从 2022 年 ChatGPT 诞生至今,AI 工程化经历三次关键范式转移。理解这三次工程革命的本质,是构建可靠 AI Agent 的前提。
| 阶段 | 名称 | 时间 | 核心问题 | 本质 |
|---|---|---|---|---|
| 第一代 | 提示词工程 (Prompt Engineering) | 2022-2024 | “如何问对问题?” | 优化单次指令的书写技巧 |
| 第二代 | 上下文工程 (Context Engineering) | 2025 | “模型需要知道什么?” | 设计完整的信息环境 |
| 第三代 | Harness 工程 (Harness Engineering) | 2026+ | “如何确保任务可靠完成?” | 构建执行控制系统 |
第一章:提示词工程(Prompt Engineering)
1.1 什么是提示词工程
提示词工程是第一批 AI 工程师面临的核心课题:在有限的上下文窗口中,通过精心设计指令、示例和措辞,获得正确输出。
1.2 核心技巧
- Few-shot Learning:在提示中加入 1-3 个示例,让模型理解任务模式
- Chain-of-Thought:要求模型”先思考再回答”,逐步推理
- Role Assignment:赋予模型特定角色(”你是一位资深Python工程师”)
- Output Formatting:指定输出格式(JSON、Markdown、列表等)
1.3 甜蜜区间
大量实践表明,模型的上下文窗口存在甜蜜区间:
- Smart Zone(0-40%):模型能准确推理和生成内容
- Dumb Zone(40-100%):推理和输出质量大幅下降
1.4 提示词工程的局限
当 AI 系统从简单聊天机器人演变为多步骤 Agent 时,提示词工程的局限性暴露无遗:
- 信息孤岛:每次交互从零开始,无法保持状态
- 上下文窗口瓶颈:无法将所有相关信息塞入单次提示
- 任务执行断裂:无法完成需要工具调用、多轮迭代的复杂任务
提示词工程是短跑——专注于即时、任务特定的完美。上下文工程是马拉松——专注于长期稳定性和性能。
第二章:上下文工程(Context Engineering)
2.1 概念起源
2025 年 6 月,Andrej Karpathy 和 Shopify CEO Tobi Lütke 同时提出”上下文工程”这一术语,迅速获得行业认同。Gartner 在 2025 年中将其定义为:设计并结构化 AI 模型所接收的相关数据、工作流和上下文环境的工程学科。
2.2 与提示词工程的本质区别
| 维度 | 提示词工程 | 上下文工程 |
|---|---|---|
| 范围 | 单次提示或模板 | 系统提示 + 检索文档 + 记忆 + 工具 |
| 出现时间 | 2022-2023(GPT 时代) | 2025(Agent 时代) |
| 性质 | 写作技能 | 系统工程 |
| 关注点 | 如何写得更好 | 构建自动化信息交付系统 |
2.3 上下文工程的五层架构
根据 LangChain 提出的框架,完整上下文包含六层:
| Layer | 描述 |
|---|---|
| Current Task | 当前任务描述 |
| Orchestration Context | 执行状态、中间结果 |
| Tool Outputs | 工具返回结果 |
| Retrieved Documents | RAG 检索的文档 |
| Agent Memory | 对话历史、长期记忆 |
| System Instructions | 角色、行为约束 |
2.4 四大核心技术
- Write(写入):生成提示、示例、指令
- Select(选择):从向量数据库中检索最相关的文档
- Structure(结构化):将信息组织成模型易处理的格式
- Update(更新):动态管理对话历史和记忆
2.5 上下文工程的核心原则
有效的上下文不是越多越好——而是提供正确的信息、在正确的时机、以分层的形式。
过载上下文会稀释注意力,导致”lost-in-the-middle”问题。Stanford 和 UC Berkeley 的研究(ACE 框架)证明,即使模型声称支持 100 万 token 上下文窗口,正确性在约 32,000 token 后就开始下降。
2.6 上下文工程的失败模式
即便有了良好的上下文设计,Agent 仍会犯以下错误(Anthropic 归因):
- 尝试一步到位(One-Shotting):在单个上下文窗口中尝试完成所有需求,上下文耗尽后无法恢复
- 过早宣布胜利:任务初步完成就退出,而非继续验证
- 过早标记功能完成:没有进一步测试就认为任务完成
第三章:Harness 工程(Harness Engineering)
3.1 起源与定义
2026 年初,”Harness 工程”这一术语正式进入主流视野。该词由 OpenAI Codex 团队普及,Mitchell Hashimoto(HashiCorp 联合创始人)发表了系统性的阐述。
Harness 是什么意思? 在马具学中,harness 是一套控制装置——缰绳、嚼子、鞍座——引导强大动物的力量用于有用的工作。这个比喻精确映射到 AI Agent:模型快速而强大,但它本身不知道去向何方。Harness 就是你构建的一切,用来引导它。
如果说 Prompt 是给新员工的简报,Context 是参考资料,那么 Harness 就是检查清单、管理者审查和安全协议,确保工作真正完成。
3.2 为什么现在需要 Harness 工程
三个趋势在 2026 年汇聚:
- 模型商品化:Claude、GPT-4、Gemini 和开源替代方案在标准基准上表现相近。模型不再是竞争优势。
- Agent 从 demo 到生产:组织正在部署处理客户交互、编写代码、执行多步骤工作流的 Agent。
- 人类注意力成为稀缺资源:Agent 吞吐量快速超越人类审核速度。
3.3 Harness 工程的六个核心层次
| Layer | 描述 |
|---|---|
| Approval Gates | 人工审批节点 |
| Observability | 追踪、日志、监控 |
| Memory & Context Management | 长期记忆、上下文重置 |
| Tool Orchestration | 工具编排、错误恢复 |
| Verification & Guardrails | 输出验证、安全护栏 |
| Context Assembly | 上下文组装、检索 |
3.4 Harness 的七大核心组件
- 上下文组装 (Context Assembly):动态组装提示、检索结果、记忆
- 工具编排 (Tool Orchestration):定义 Agent 可调用的工具及调用顺序
- 验证与护栏 (Verification & Guardrails):检查输出质量、阻止错误操作
- 错误恢复 (Error Recovery):Agent 失败时的重试和降级策略
- 记忆管理 (Memory Management):跨会话状态持久化、上下文压缩/重置
- 可观测性 (Observability):追踪 Token 消耗、工具使用、Agent 行为
- 审批网关 (Approval Gates):关键操作的人类审查点
3.5 三代工程的对比
| 维度 | 提示词工程 | 上下文工程 | Harness 工程 |
|---|---|---|---|
| 范围 | 单次 LLM 调用 | 单次 LLM 调用 + 丰富上下文 | 多步骤系统 + 多次调用 |
| 失败模式 | 措辞不当、歧义 | 上下文缺失或无关 | 系统故障、级联错误 |
| 影响上限 | 5-15% 质量提升 | 20-40% 质量提升 | 50-300% 可靠性提升 |
| 成熟时间 | 2022-2023 | 2024-2025 | 2026+ |
提示词工程是上下文工程的一个组件。上下文工程是 Harness 工程的一个组件。它们不是替代关系,而是嵌套层次。
3.6 真实案例数据
| 公司 | Harness 投入 | 结果 |
|---|---|---|
| OpenAI (Codex) | 沙箱环境、验证循环、结构化工具访问 | 3 名工程师 5 个月生成 100 万行代码 |
| LangChain | Terminal Bench agent 的 Harness 改进 | 任务完成率从 52.8% 提升至 66.5% |
| Vercel | 工具精简(15 个 → 2 个)、上下文优化 | 准确率 80% → 100%,Token 减少 37%,速度提升 3.5 倍 |
关键洞察:Harness 改进带来的收益 consistently 高于模型升级。LangChain 的 14 个百分点提升是通过减少工具复杂性实现的,而非使用更智能的模型。
3.7 工程师角色的转变
在 Agent 时代,工程师的工作不再是写每一行代码,而是:
- 将目标分解为 Agent 友好的子任务
- 识别 Agent 失败时”环境能力”的缺失
- 设计约束、反馈循环和生命周期管理
3.8 Harness 的设计原则
- 为删除而设计:构建可以在模型改进时移除的组件,而非假设模型永远需要相同级别的控制
- 测量不可测之物:无法测量的 Harness 无法优化。追踪 Token、工具使用和 AI 放大率
- 快速检测 + 廉价回滚 > 缓慢的人工保证:优化人类注意力的利用效率
第四章:三者关系

提示词工程是上下文工程的一个组件。上下文工程是 Harness 工程的一个组件。它们不是替代关系,而是嵌套层次。
总结
| 工程 | 核心问题 | 交付物 | 关键技能 |
|---|---|---|---|
| 提示词工程 | 如何措辞? | 好的指令 | 写作、措辞 |
| 上下文工程 | 提供什么信息? | 完整信息环境 | 系统设计、信息架构 |
| Harness 工程 | 如何确保完成? | 可靠执行系统 | 分布式系统、MLOps、可靠性工程 |
AI 工程的竞争战场正在转移:从模型本身,转移到围绕模型的系统工程。Harness 是护城河——提示词容易复制,模型商品化,API 标准化。难以复制的是精心设计的 Harness。
2026 年,赢得 AI 的团队不是最好的提示词作者,而是最好的 Harness 工程师。