这周的时间线被一个新词刷屏了。6 月 8 日,Peter Steinberger 发推说,你不应该再手动给 coding agent 写提示词了,应该去设计那个提示 agent 的系统。两句话,650 万浏览。几天之内,Addy Osmani 把 loop engineering 这个叫法正式推开。

然后我收到的问题都差不多:loop engineering 要不要学?是不是又一门新手艺?

这种疲劳我理解。2023 年学 prompt engineering,2025 年学 context engineering,年初大家还在聊 harness,现在又来一个 loop engineering。好像名词每年换一茬,好像每换一茬就要重学一遍,好像不追就会掉队。

我的判断是:该追的从来不是名词。

新词是路标,不是路。它唯一的信息量,是标出当前的瓶颈在哪一层。

Part 1 — 新词是一面旗,插在当前瓶颈的位置

先把词说清楚。瓶颈,是系统里限制总产出的那个环节。约束理论讲过:系统的产出由瓶颈决定——在瓶颈处改进一分,整个系统快一分;在别处改进十分,系统纹丝不动。

所以瓶颈就是杠杆所在。同样一份力气,只有打在瓶颈上,回报才最大。这篇文章里说“瓶颈”,指的都是这一层:当前唯一值得用力的地方。

更重要的是,瓶颈被解除后不会消失,只会搬家:搬到下一个最弱的环节。所以瓶颈不能守,只能追。

AI 工程这四年,就是一部瓶颈迁移史。

2023 到 2024 年,瓶颈在 prompt。因为别的全被冻结了:上下文只有几 K,工具调用刚出现还不可靠,模型撑不起多步执行,你唯一能动的就是那句话怎么写。当时模型对措辞极其敏感,“Let's think step by step” 一句话,能把数学测试集的准确率从 18% 拉到 79%。

一句话换六十个百分点。力气打在瓶颈上,就是这个样子。

然后,两件事把这个瓶颈解除了。一是模型对措辞变鲁棒了,同一个意思换十种说法,结果都差不多。二是技巧被下层吸收了,思维链被推理模型内化,结构化输出变成 API 参数。

与此同时,窗口涨到上百万,工具和 RAG 出现。失败模式变成:模型没问题,但它看到的东西不对。方差挪到哪,技能就挪到哪,名字跟着挪。这是 context engineering。

然后,context 的手艺也被吃掉了。压缩、记忆、检索,一项一项装进运行时,变成默认功能。瓶颈挪到运行时本身:同一个模型,接上不同的工具、文件系统、权限和环境,结果天差地别。Agent = Model × Harness,模型是引擎,harness 是整辆车。过去一年 coding agent 的胜负,一大半是 harness 的胜负。

到今年,harness 也开始收敛。工具调用、沙箱、子 agent、记忆文件,每家 agent 越长越像;同时模型已经能连跑上百步。单次运行的能力不再是差异,差异在单次运行之上:谁来启动 agent,任务怎么接力,失败怎么重试,什么时候算完。一旦执行变成过程,循环的结构才是约束。于是,loop engineering。

你看,设计对象一路外扩:prompt 是一句话,context 是一个窗口,harness 是一套运行时,loop 是一个过程。从语言,到信息,到环境,到时间。

这个词火的时候,我一点不意外。5 月写任务板那篇时我说过:第三代 AI coding 是 AI 管理 AI,人退出 loop。Loop engineering 讲的就是这件事的前半段。

把规律抽出来就三条。瓶颈律:价值集中在约束处,解除约束,约束外移。S 曲线:每层改进都有饱和期,人群和名词永远追着斜率最陡的那段跑。吸收律:模型和工具链不断把下一层的手艺吃成默认功能。软件史排练过一遍:手写汇编曾是顶级手艺,编译器成熟后,只剩极少数热点还值得做。昨天的工程,今天的复选框。

这不是说 loop engineering 不值得学。它现在就是瓶颈所在,当然值得学。我想说的是,不要把它当成又一门需要焦虑的手艺。真正值得训练的,是识别瓶颈在哪一层的眼睛。名词会过期,这双眼睛不会。

Part 2 — 名词一直在换,本质从没变过:系统工程

Prompt、context、harness、loop,听起来是四门手艺,其实是同一个学科:系统工程。

注意,不是软件工程。软件工程是为人类程序员设计的协作流程——评审、排期、规范——这一套恰恰正在被 AI 拆掉。拆不掉的是下面这层。系统工程有三个不变量,一百年没动过。

第一样,在约束下做取舍。资源有限,理解不充分,用启发式方法促成最佳改变——这是 Billy Koen 给工程下的定义。没有免费午餐,工程的第一步永远是决定牺牲什么。

第二样,用不可靠的组件,造可靠的系统。TCP 建立在会丢包的 IP 上,RAID 建立在会坏的硬盘上。LLM 就是当下那个不可靠组件:每步 99% 的成功率,连跑 100 步,端到端只剩 37%;每步 95%,只剩 0.6%。打磨单步是徒劳的,出路只有结构:反馈加冗余,验证、重试、停止条件、状态写回。

我在水电站那篇说过,人需要的是仪表盘、控制杆、安全阀和报警机制。你看,这四样东西拼起来,就是一个 loop。

在 Clockless,我把 code review 取消了。不是不要质量,而是把质量从“人看一眼”换成了结构:AI 写代码、merge,Turing 定期扫 task board 做验收,不通过就把理由写回去,Linus 接着修。这套东西没有任何新发明,就是闭环控制,对象换成了一个会犯错的概率模型。

第三样,可度量、可复现、可传授。这也是判断一个 X engineering 配不配叫工程的尺子:有 eval,还是全凭手感?换个人、换一天,结论还成立吗?经验写得成文档,还是只可意会?三条做不到,它就还是炼金术。给一件事冠上 engineering,本质是一份愿望宣言:宣称这门玄学可以被系统化。配不配,不看名字,看尺子。

Loop engineering 一点都不新。它是系统工程最老的一招——闭环——找到了一个新对象。

Part 3 — 瓶颈迁移的终点:只给系统一个目标

照规律往前推:prompt 被模型吃了,context 被 harness 吃了,harness 被标准化吃了,下一个被吃的,就是 loop。框架已经在内置默认循环,验证、重试、停止条件正在从手艺变成配置项。

那之后,还剩什么?

你可能会说:剩 spec 和 eval。说清楚要什么,判定做到没有。这个答案对,但不够激进。

因为相对于目标,spec 和 eval 也是“怎么做”。系统可以从目标推导 spec,可以从约束生成 eval。这不是预言,是正在发生的事:在 Clockless Engine 里,Jobs 看到一条 intent,就自己写 PRD 和验收标准,Turing 拿着标准去验收。Spec 和 eval,已经开始被系统自己生成了。

所以瓶颈迁移的终点,比 spec 和 eval 更远一步:

人只给系统一个目标,加上约束——预算、时间、红线。剩下的全部不管:怎么拆解、怎么验证、用什么方式达成,系统自己找最优解。人最后只验收一件事:目标达成没有。

这其实就是 IPB 趋近于零的那个状态:把目标讲清楚,系统全程自己跑,最后直接比结果。

顺着这条线,AGI 也有了一个可操作的定义。AGI 不是某场发布会,也不是某个 benchmark 分数。当“给一个目标,系统自己达成”在足够广的目标上成立,AGI 就到了。

AGI is a systems-engineering event, not a model event.

模型还会更强,但那只是把不可靠组件换成更好的不可靠组件。让“只给目标”成立的,是围绕它的整套系统工程:状态、反馈、验证、边界、责任归属。这部分不会从天上掉下来,要一层一层修出来。

所以,AI 时代真正的分水岭,不是谁学会了最新的名词,而是谁先把自己的公司改造成一个只需要目标的系统。

我的预测:下一个刷屏的词,大概率长得像 goal engineering。但到那时,希望你已经不需要它了。因为名词只是路标,路一直是同一条。