趁 Loop Engineering 还热，先说它会过时

从 Prompt、Context、Harness 到 Loop：新词只负责标出瓶颈的位置。瓶颈迁移的终点，是只给系统一个目标。

这周的时间线被一个新词刷屏了。6 月 8 日，Peter Steinberger 发推说，你不应该再手动给 coding agent 写提示词了，应该去设计那个提示 agent 的系统。两句话，650 万浏览。几天之内，Addy Osmani 把 loop engineering 这个叫法正式推开。

然后我收到的问题都差不多：loop engineering 要不要学？是不是又一门新手艺？

这种疲劳我理解。2023 年学 prompt engineering，2025 年学 context engineering，年初大家还在聊 harness，现在又来一个 loop engineering。好像名词每年换一茬，好像每换一茬就要重学一遍，好像不追就会掉队。

我的判断是：该追的从来不是名词。

新词是路标，不是路。它唯一的信息量，是标出当前的瓶颈在哪一层。

Part 1 — 新词是一面旗，插在当前瓶颈的位置

先把词说清楚。瓶颈，是系统里限制总产出的那个环节。约束理论讲过：系统的产出由瓶颈决定——在瓶颈处改进一分，整个系统快一分；在别处改进十分，系统纹丝不动。

所以瓶颈就是杠杆所在。同样一份力气，只有打在瓶颈上，回报才最大。这篇文章里说“瓶颈”，指的都是这一层：当前唯一值得用力的地方。

更重要的是，瓶颈被解除后不会消失，只会搬家：搬到下一个最弱的环节。所以瓶颈不能守，只能追。

AI 工程这四年，就是一部瓶颈迁移史。

2023 到 2024 年，瓶颈在 prompt。因为别的全被冻结了：上下文只有几 K，工具调用刚出现还不可靠，模型撑不起多步执行，你唯一能动的就是那句话怎么写。当时模型对措辞极其敏感，“Let's think step by step” 一句话，能把数学测试集的准确率从 18% 拉到 79%。

一句话换六十个百分点。力气打在瓶颈上，就是这个样子。

然后，两件事把这个瓶颈解除了。一是模型对措辞变鲁棒了，同一个意思换十种说法，结果都差不多。二是技巧被下层吸收了，思维链被推理模型内化，结构化输出变成 API 参数。

与此同时，窗口涨到上百万，工具和 RAG 出现。失败模式变成：模型没问题，但它看到的东西不对。方差挪到哪，技能就挪到哪，名字跟着挪。这是 context engineering。

然后，context 的手艺也被吃掉了。压缩、记忆、检索，一项一项装进运行时，变成默认功能。瓶颈挪到运行时本身：同一个模型，接上不同的工具、文件系统、权限和环境，结果天差地别。Agent = Model × Harness，模型是引擎，harness 是整辆车。过去一年 coding agent 的胜负，一大半是 harness 的胜负。

到今年，harness 也开始收敛。工具调用、沙箱、子 agent、记忆文件，每家 agent 越长越像；同时模型已经能连跑上百步。单次运行的能力不再是差异，差异在单次运行之上：谁来启动 agent，任务怎么接力，失败怎么重试，什么时候算完。一旦执行变成过程，循环的结构才是约束。于是，loop engineering。

你看，设计对象一路外扩：prompt 是一句话，context 是一个窗口，harness 是一套运行时，loop 是一个过程。从语言，到信息，到环境，到时间。

这个词火的时候，我一点不意外。5 月写任务板那篇时我说过：第三代 AI coding 是 AI 管理 AI，人退出 loop。Loop engineering 讲的就是这件事的前半段。

把规律抽出来就三条。瓶颈律：价值集中在约束处，解除约束，约束外移。S 曲线：每层改进都有饱和期，人群和名词永远追着斜率最陡的那段跑。吸收律：模型和工具链不断把下一层的手艺吃成默认功能。软件史排练过一遍：手写汇编曾是顶级手艺，编译器成熟后，只剩极少数热点还值得做。昨天的工程，今天的复选框。

这不是说 loop engineering 不值得学。它现在就是瓶颈所在，当然值得学。我想说的是，不要把它当成又一门需要焦虑的手艺。真正值得训练的，是识别瓶颈在哪一层的眼睛。名词会过期，这双眼睛不会。

Part 2 — 名词一直在换，本质从没变过：系统工程

Prompt、context、harness、loop，听起来是四门手艺，其实是同一个学科：系统工程。

注意，不是软件工程。软件工程是为人类程序员设计的协作流程——评审、排期、规范——这一套恰恰正在被 AI 拆掉。拆不掉的是下面这层。系统工程有三个不变量，一百年没动过。

第一样，在约束下做取舍。资源有限，理解不充分，用启发式方法促成最佳改变——这是 Billy Koen 给工程下的定义。没有免费午餐，工程的第一步永远是决定牺牲什么。

第二样，用不可靠的组件，造可靠的系统。TCP 建立在会丢包的 IP 上，RAID 建立在会坏的硬盘上。LLM 就是当下那个不可靠组件：每步 99% 的成功率，连跑 100 步，端到端只剩 37%；每步 95%，只剩 0.6%。打磨单步是徒劳的，出路只有结构：反馈加冗余，验证、重试、停止条件、状态写回。

我在水电站那篇说过，人需要的是仪表盘、控制杆、安全阀和报警机制。你看，这四样东西拼起来，就是一个 loop。

在 Clockless，我把 code review 取消了。不是不要质量，而是把质量从“人看一眼”换成了结构：AI 写代码、merge，Turing 定期扫 task board 做验收，不通过就把理由写回去，Linus 接着修。这套东西没有任何新发明，就是闭环控制，对象换成了一个会犯错的概率模型。

第三样，可度量、可复现、可传授。这也是判断一个 X engineering 配不配叫工程的尺子：有 eval，还是全凭手感？换个人、换一天，结论还成立吗？经验写得成文档，还是只可意会？三条做不到，它就还是炼金术。给一件事冠上 engineering，本质是一份愿望宣言：宣称这门玄学可以被系统化。配不配，不看名字，看尺子。

Loop engineering 一点都不新。它是系统工程最老的一招——闭环——找到了一个新对象。

Part 3 — 瓶颈迁移的终点：只给系统一个目标

照规律往前推：prompt 被模型吃了，context 被 harness 吃了，harness 被标准化吃了，下一个被吃的，就是 loop。框架已经在内置默认循环，验证、重试、停止条件正在从手艺变成配置项。

那之后，还剩什么？

你可能会说：剩 spec 和 eval。说清楚要什么，判定做到没有。这个答案对，但不够激进。

因为相对于目标，spec 和 eval 也是“怎么做”。系统可以从目标推导 spec，可以从约束生成 eval。这不是预言，是正在发生的事：在 Clockless Engine 里，Jobs 看到一条 intent，就自己写 PRD 和验收标准，Turing 拿着标准去验收。Spec 和 eval，已经开始被系统自己生成了。

所以瓶颈迁移的终点，比 spec 和 eval 更远一步：

人只给系统一个目标，加上约束——预算、时间、红线。剩下的全部不管：怎么拆解、怎么验证、用什么方式达成，系统自己找最优解。人最后只验收一件事：目标达成没有。

这其实就是 IPB 趋近于零的那个状态：把目标讲清楚，系统全程自己跑，最后直接比结果。

顺着这条线，AGI 也有了一个可操作的定义。AGI 不是某场发布会，也不是某个 benchmark 分数。当“给一个目标，系统自己达成”在足够广的目标上成立，AGI 就到了。

AGI is a systems-engineering event, not a model event.

模型还会更强，但那只是把不可靠组件换成更好的不可靠组件。让“只给目标”成立的，是围绕它的整套系统工程：状态、反馈、验证、边界、责任归属。这部分不会从天上掉下来，要一层一层修出来。

所以，AI 时代真正的分水岭，不是谁学会了最新的名词，而是谁先把自己的公司改造成一个只需要目标的系统。

我的预测：下一个刷屏的词，大概率长得像 goal engineering。但到那时，希望你已经不需要它了。因为名词只是路标，路一直是同一条。