概述

从 2022 年 ChatGPT 诞生至今，AI 工程化经历三次关键范式转移。理解这三次工程革命的本质，是构建可靠 AI Agent 的前提。

阶段	名称	时间	核心问题	本质
第一代	提示词工程 (Prompt Engineering)	2022-2024	“如何问对问题？”	优化单次指令的书写技巧
第二代	上下文工程 (Context Engineering)	2025	“模型需要知道什么？”	设计完整的信息环境
第三代	Harness 工程 (Harness Engineering)	2026+	“如何确保任务可靠完成？”	构建执行控制系统

第一章：提示词工程（Prompt Engineering）

1.1 什么是提示词工程

提示词工程是第一批 AI 工程师面临的核心课题：在有限的上下文窗口中，通过精心设计指令、示例和措辞，获得正确输出。

1.2 核心技巧

Few-shot Learning：在提示中加入 1-3 个示例，让模型理解任务模式
Chain-of-Thought：要求模型”先思考再回答”，逐步推理
Role Assignment：赋予模型特定角色（”你是一位资深Python工程师”）
Output Formatting：指定输出格式（JSON、Markdown、列表等）

1.3 甜蜜区间

大量实践表明，模型的上下文窗口存在甜蜜区间：

Smart Zone（0-40%）：模型能准确推理和生成内容
Dumb Zone（40-100%）：推理和输出质量大幅下降

1.4 提示词工程的局限

当 AI 系统从简单聊天机器人演变为多步骤 Agent 时，提示词工程的局限性暴露无遗：

信息孤岛：每次交互从零开始，无法保持状态
上下文窗口瓶颈：无法将所有相关信息塞入单次提示
任务执行断裂：无法完成需要工具调用、多轮迭代的复杂任务

提示词工程是短跑——专注于即时、任务特定的完美。上下文工程是马拉松——专注于长期稳定性和性能。

第二章：上下文工程（Context Engineering）

2.1 概念起源

2025 年 6 月，Andrej Karpathy 和 Shopify CEO Tobi Lütke 同时提出”上下文工程”这一术语，迅速获得行业认同。Gartner 在 2025 年中将其定义为：设计并结构化 AI 模型所接收的相关数据、工作流和上下文环境的工程学科。

2.2 与提示词工程的本质区别

维度	提示词工程	上下文工程
范围	单次提示或模板	系统提示 + 检索文档 + 记忆 + 工具
出现时间	2022-2023（GPT 时代）	2025（Agent 时代）
性质	写作技能	系统工程
关注点	如何写得更好	构建自动化信息交付系统

2.3 上下文工程的五层架构

根据 LangChain 提出的框架，完整上下文包含六层：

Layer	描述
Current Task	当前任务描述
Orchestration Context	执行状态、中间结果
Tool Outputs	工具返回结果
Retrieved Documents	RAG 检索的文档
Agent Memory	对话历史、长期记忆
System Instructions	角色、行为约束

2.4 四大核心技术

Write（写入）：生成提示、示例、指令
Select（选择）：从向量数据库中检索最相关的文档
Structure（结构化）：将信息组织成模型易处理的格式
Update（更新）：动态管理对话历史和记忆

2.5 上下文工程的核心原则

有效的上下文不是越多越好——而是提供正确的信息、在正确的时机、以分层的形式。

过载上下文会稀释注意力，导致”lost-in-the-middle”问题。Stanford 和 UC Berkeley 的研究（ACE 框架）证明，即使模型声称支持 100 万 token 上下文窗口，正确性在约 32,000 token 后就开始下降。

2.6 上下文工程的失败模式

即便有了良好的上下文设计，Agent 仍会犯以下错误（Anthropic 归因）：

尝试一步到位（One-Shotting）：在单个上下文窗口中尝试完成所有需求，上下文耗尽后无法恢复
过早宣布胜利：任务初步完成就退出，而非继续验证
过早标记功能完成：没有进一步测试就认为任务完成

第三章：Harness 工程（Harness Engineering）

3.1 起源与定义

2026 年初，”Harness 工程”这一术语正式进入主流视野。该词由 OpenAI Codex 团队普及，Mitchell Hashimoto（HashiCorp 联合创始人）发表了系统性的阐述。

Harness 是什么意思？ 在马具学中，harness 是一套控制装置——缰绳、嚼子、鞍座——引导强大动物的力量用于有用的工作。这个比喻精确映射到 AI Agent：模型快速而强大，但它本身不知道去向何方。Harness 就是你构建的一切，用来引导它。

如果说 Prompt 是给新员工的简报，Context 是参考资料，那么 Harness 就是检查清单、管理者审查和安全协议，确保工作真正完成。

3.2 为什么现在需要 Harness 工程

三个趋势在 2026 年汇聚：

模型商品化：Claude、GPT-4、Gemini 和开源替代方案在标准基准上表现相近。模型不再是竞争优势。
Agent 从 demo 到生产：组织正在部署处理客户交互、编写代码、执行多步骤工作流的 Agent。
人类注意力成为稀缺资源：Agent 吞吐量快速超越人类审核速度。

3.3 Harness 工程的六个核心层次

Layer	描述
Approval Gates	人工审批节点
Observability	追踪、日志、监控
Memory & Context Management	长期记忆、上下文重置
Tool Orchestration	工具编排、错误恢复
Verification & Guardrails	输出验证、安全护栏
Context Assembly	上下文组装、检索

3.4 Harness 的七大核心组件

上下文组装 (Context Assembly)：动态组装提示、检索结果、记忆
工具编排 (Tool Orchestration)：定义 Agent 可调用的工具及调用顺序
验证与护栏 (Verification & Guardrails)：检查输出质量、阻止错误操作
错误恢复 (Error Recovery)：Agent 失败时的重试和降级策略
记忆管理 (Memory Management)：跨会话状态持久化、上下文压缩/重置
可观测性 (Observability)：追踪 Token 消耗、工具使用、Agent 行为
审批网关 (Approval Gates)：关键操作的人类审查点

3.5 三代工程的对比

维度	提示词工程	上下文工程	Harness 工程
范围	单次 LLM 调用	单次 LLM 调用 + 丰富上下文	多步骤系统 + 多次调用
失败模式	措辞不当、歧义	上下文缺失或无关	系统故障、级联错误
影响上限	5-15% 质量提升	20-40% 质量提升	50-300% 可靠性提升
成熟时间	2022-2023	2024-2025	2026+

提示词工程是上下文工程的一个组件。上下文工程是 Harness 工程的一个组件。它们不是替代关系，而是嵌套层次。

3.6 真实案例数据

公司	Harness 投入	结果
OpenAI (Codex)	沙箱环境、验证循环、结构化工具访问	3 名工程师 5 个月生成 100 万行代码
LangChain	Terminal Bench agent 的 Harness 改进	任务完成率从 52.8% 提升至 66.5%
Vercel	工具精简（15 个 → 2 个）、上下文优化	准确率 80% → 100%，Token 减少 37%，速度提升 3.5 倍

关键洞察：Harness 改进带来的收益 consistently 高于模型升级。LangChain 的 14 个百分点提升是通过减少工具复杂性实现的，而非使用更智能的模型。

3.7 工程师角色的转变

在 Agent 时代，工程师的工作不再是写每一行代码，而是：

将目标分解为 Agent 友好的子任务

识别 Agent 失败时”环境能力”的缺失

设计约束、反馈循环和生命周期管理

3.8 Harness 的设计原则

为删除而设计：构建可以在模型改进时移除的组件，而非假设模型永远需要相同级别的控制
测量不可测之物：无法测量的 Harness 无法优化。追踪 Token、工具使用和 AI 放大率
快速检测 + 廉价回滚 > 缓慢的人工保证：优化人类注意力的利用效率

第四章：三者关系

提示词工程是上下文工程的一个组件。上下文工程是 Harness 工程的一个组件。它们不是替代关系，而是嵌套层次。

总结

工程	核心问题	交付物	关键技能
提示词工程	如何措辞？	好的指令	写作、措辞
上下文工程	提供什么信息？	完整信息环境	系统设计、信息架构
Harness 工程	如何确保完成？	可靠执行系统	分布式系统、MLOps、可靠性工程

AI 工程的竞争战场正在转移：从模型本身，转移到围绕模型的系统工程。Harness 是护城河——提示词容易复制，模型商品化，API 标准化。难以复制的是精心设计的 Harness。

2026 年，赢得 AI 的团队不是最好的提示词作者，而是最好的 Harness 工程师。

概述