人和 Agent 怎么协作？不是管理一堆 AI，而是训练一个系统

上周我写了一篇 Agent 和 Agent 怎么协作的文章，核心观点是：Agent 协作不应该主要发生在 chat 里，而应该发生在结构化任务系统里。

这个方向现在越来越清楚。OpenAI 有 Symphony，Cursor 也发布了 Tasks。AI coding 正在从“人和 AI 对话”，走向“Agent 在任务系统里持续执行”。

但这只回答了一半问题。更重要的是：人和 Agent 到底应该怎么协作？

我现在越来越觉得，很多人对这个问题的想象会很快过时。

1. 人只应该面对一个主 Agent

过去有一种很常见的想象：未来每个人都会管理一堆 Agent。一个 Agent 帮你写代码，一个 Agent 帮你做销售，一个 Agent 帮你做运营，一个 Agent 帮你写文章。你像一个经理一样，坐在中间调度它们。

这个想法听起来很自然，但我现在觉得它会越来越不成立。

原因很简单：Agent 处理信息和协调任务的速度，会远远超过人。如果模型越来越强，token 处理速度越来越快，上下文窗口越来越大，工具调用越来越稳定，那让人类站在中间管理多个 Agent，本质上是一种低带宽瓶颈。

人类不应该成为 Agent 之间的路由器。

你不应该每天想：这件事应该找哪个 Agent？上次我跟哪个 Agent 说过这件事？哪个 Agent 知道我的偏好？哪个 Agent 有完整上下文？为什么每次换个 Agent 都要重新解释一遍？

这不是 AI-native 的工作方式。这只是把 Slack 里的组织混乱复制到了 Agent 世界里。

更合理的模式是：人只和一个主 Agent 沟通。这个主 Agent 拥有你的长期记忆、历史背景、偏好、判断标准和当前目标。你只需要把意图告诉它，它再去调度底层的 worker agents。

人机协作的结构不应该是人面对多个 Agent，而应该是人面对一个主 Agent，再由主 Agent 调度多个 worker agents。

当然，这不代表所有事情都必须挤在同一个聊天窗口里。写文章可以一个 thread，产品讨论可以一个 thread，销售线索可以一个 thread，工程任务可以一个 thread。

但背后应该是同一个主 Agent，同一套 memory，同一个对你的长期理解。

所以第一条原则是：人类不应该管理多个 Agent。人类应该拥有一个真正理解自己的主 Agent，再让这个主 Agent 去管理其他 Agent。

2. 不要同步聊天，要异步委托

第二个过时的想象是：人和 Agent 的协作就是不断聊天。

我说一句，AI 回一句。我指出问题，AI 改一下。我再检查，AI 再改一下。

这其实还是“人操作工具”的模式。在这种模式里，人被困在 loop 里。AI 看起来很强，但它的执行能力被人的注意力限制住了。

真正高杠杆的人机协作，不应该是同步聊天，而应该是异步委托。

人应该在对话中表达意图，Agent 把意图翻译成任务，然后在后台持续推进。人不应该一直等在执行回路里，也不应该一步一步指挥中间过程。

比如，你不应该这样和 Agent 协作：先帮我查资料，再整理提纲，再写初稿，再改标题，再发给谁 review，再根据反馈修改。

更好的方式是直接说最终目标：我想写一篇文章，讨论人和 Agent 的新协作模式。观点要接上上一篇 Agent 协作，重点讲 single master agent、异步任务和 skill 沉淀。文章要适合小红书，观点要鲜明，结构要清楚。

剩下的事情，应该由 Agent 自己拆解。它应该去找历史上下文，理解上一篇文章，整理这次的新观点，生成结构，写初稿，必要时创建任务，后续继续修改，并且把稳定的方法沉淀成可复用的 skill。

人和 Agent 沟通的对象，不应该是“下一步操作”。而应该是最终目标、背景上下文、约束条件、判断标准和交付物要求。

好的 Agent 系统，不是让人和 AI 聊得更多，而是让人从执行 loop 里消失。

异步协作意味着：人说完意图就可以离开；Agent 在后台执行；遇到真正需要判断的地方再回来问；完成后带着结果、上下文和建议回来；如果过程中发现了稳定流程，就沉淀成 skill，下次不再重复沟通。

这也是为什么主 Agent 很重要。只有主 Agent 拥有长期 memory，才能把一次次对话里的偏好、原则、流程持续积累下来。否则每次都是一次性的 prompt，每次都从零开始。

所以第二条原则是：人和 Agent 的协作，不应该是同步聊天，而应该是异步委托。

3. Artifact 是副产品，系统改进才是主产品

第三点是我觉得最重要的。

大多数人现在理解人和 AI 协作，还是围绕 artifact：写出一段代码，生成一篇文档，做一个网页，整理一份资料，完成一个任务。

但这些其实都只是副产品。

真正重要的不是这一次产出的 code 或 docs，而是：这次协作有没有让系统下次更会做这件事。

人和 Agent 协作的最终目标，不是完成一个 artifact，而是共同沉淀出一套解决某类问题的最佳实践。这个东西不一定叫 SOP。SOP 这个词太机械了，像是给人类员工看的操作手册。

Agent 需要的更像是 skill、playbook、policy、heuristic、evaluation criteria、domain knowledge。它不是死板地规定第一步做什么、第二步做什么，而是让系统在同类问题上越来越强。

比如这次写文章，最后当然会产出一篇文章。但更重要的是，系统应该学会：Kelvin 喜欢什么样的文章结构，什么样的标题更适合，哪些表达太空，哪些观点要更锋利，文章应该如何接续之前的论证，小红书文章应该控制在什么密度，什么时候应该直接写，什么时候应该先问，什么样的例子可以复用。

如果这些没有沉淀下来，那每写一篇文章都只是一次性劳动。但如果这些被沉淀成 skill 和 knowledge，下一次写文章就不是从零开始，而是在系统能力上继续叠加。

如果你只关注 artifact，那 AI 只是一个更快的外包。如果你关注系统改进，那每一次协作都在让未来的生产能力变强。

未来更进一步，很多任务甚至不需要人主动提出。当系统足够成熟，它会直接从环境里抓信号：用户行为、客户反馈、邮件、销售线索、产品数据、代码错误、市场变化、任务状态。

然后它自己判断：这里有一个问题需要解决，这里有一个机会可以推进，这里有一个流程可以优化，这里有一个 artifact 应该生成。

到那个时候，人和 Agent 的关系就更不像“我让你做一个东西”，更像是：人不断帮助系统校准判断标准，系统不断从环境中发现任务并执行。

所以第三条原则是：Artifact 是副产品，系统改进才是主产品。

最后总结

现在很多关于人机协作的讨论，还停留在 prompt 层面，好像未来最重要的能力是“怎么把 prompt 写好”。

但我觉得 prompt 只是过渡形态。

真正重要的是：你有没有一个主 Agent；它有没有完整 memory；它能不能把你的意图翻译成任务；它能不能异步执行；它能不能调度 worker agents；它能不能从每次协作里沉淀 skill；它能不能越来越少依赖你的即时输入。

未来最强的人，不是最会亲自干活的人，也不是最会同时管理十几个 Agent 的人，甚至不一定是最会写 prompt 的人。

未来最强的人，是最会定义目标、提供 context、判断结果，并持续训练系统的人。

因为当 Agent 的执行收益率越来越高，人类每一次清晰判断都会被放大。

最后总结一下，人和 Agent 协作有三个原则：

第一，人只应该面对一个主 Agent，而不是管理多个 Agent。

第二，人和 Agent 应该异步委托，而不是同步聊天。

第三，协作的目标不是 artifact，而是系统改进。

真正的人机协作，不是人用 AI 做更多事，而是人把自己的判断、偏好、经验和方法，逐渐注入一个可以持续运行的智能系统。

最终，artifact 会越来越自动地产生。而人真正参与的，是这个系统本身的进化。