上周我写了一篇 Agent 和 Agent 怎么协作的文章,核心观点是:Agent 协作不应该主要发生在 chat 里,而应该发生在结构化任务系统里。
这个方向现在越来越清楚。OpenAI 有 Symphony,Cursor 也发布了 Tasks。AI coding 正在从“人和 AI 对话”,走向“Agent 在任务系统里持续执行”。
但这只回答了一半问题。更重要的是:人和 Agent 到底应该怎么协作?
我现在越来越觉得,很多人对这个问题的想象会很快过时。
1. 人只应该面对一个主 Agent
过去有一种很常见的想象:未来每个人都会管理一堆 Agent。一个 Agent 帮你写代码,一个 Agent 帮你做销售,一个 Agent 帮你做运营,一个 Agent 帮你写文章。你像一个经理一样,坐在中间调度它们。
这个想法听起来很自然,但我现在觉得它会越来越不成立。
原因很简单:Agent 处理信息和协调任务的速度,会远远超过人。如果模型越来越强,token 处理速度越来越快,上下文窗口越来越大,工具调用越来越稳定,那让人类站在中间管理多个 Agent,本质上是一种低带宽瓶颈。
人类不应该成为 Agent 之间的路由器。
你不应该每天想:这件事应该找哪个 Agent?上次我跟哪个 Agent 说过这件事?哪个 Agent 知道我的偏好?哪个 Agent 有完整上下文?为什么每次换个 Agent 都要重新解释一遍?
这不是 AI-native 的工作方式。这只是把 Slack 里的组织混乱复制到了 Agent 世界里。
更合理的模式是:人只和一个主 Agent 沟通。这个主 Agent 拥有你的长期记忆、历史背景、偏好、判断标准和当前目标。你只需要把意图告诉它,它再去调度底层的 worker agents。
人机协作的结构不应该是人面对多个 Agent,而应该是人面对一个主 Agent,再由主 Agent 调度多个 worker agents。
当然,这不代表所有事情都必须挤在同一个聊天窗口里。写文章可以一个 thread,产品讨论可以一个 thread,销售线索可以一个 thread,工程任务可以一个 thread。
但背后应该是同一个主 Agent,同一套 memory,同一个对你的长期理解。
所以第一条原则是:人类不应该管理多个 Agent。人类应该拥有一个真正理解自己的主 Agent,再让这个主 Agent 去管理其他 Agent。
2. 不要同步聊天,要异步委托
第二个过时的想象是:人和 Agent 的协作就是不断聊天。
我说一句,AI 回一句。我指出问题,AI 改一下。我再检查,AI 再改一下。
这其实还是“人操作工具”的模式。在这种模式里,人被困在 loop 里。AI 看起来很强,但它的执行能力被人的注意力限制住了。
真正高杠杆的人机协作,不应该是同步聊天,而应该是异步委托。
人应该在对话中表达意图,Agent 把意图翻译成任务,然后在后台持续推进。人不应该一直等在执行回路里,也不应该一步一步指挥中间过程。
比如,你不应该这样和 Agent 协作:先帮我查资料,再整理提纲,再写初稿,再改标题,再发给谁 review,再根据反馈修改。
更好的方式是直接说最终目标:我想写一篇文章,讨论人和 Agent 的新协作模式。观点要接上上一篇 Agent 协作,重点讲 single master agent、异步任务和 skill 沉淀。文章要适合小红书,观点要鲜明,结构要清楚。
剩下的事情,应该由 Agent 自己拆解。它应该去找历史上下文,理解上一篇文章,整理这次的新观点,生成结构,写初稿,必要时创建任务,后续继续修改,并且把稳定的方法沉淀成可复用的 skill。
人和 Agent 沟通的对象,不应该是“下一步操作”。而应该是最终目标、背景上下文、约束条件、判断标准和交付物要求。
好的 Agent 系统,不是让人和 AI 聊得更多,而是让人从执行 loop 里消失。
异步协作意味着:人说完意图就可以离开;Agent 在后台执行;遇到真正需要判断的地方再回来问;完成后带着结果、上下文和建议回来;如果过程中发现了稳定流程,就沉淀成 skill,下次不再重复沟通。
这也是为什么主 Agent 很重要。只有主 Agent 拥有长期 memory,才能把一次次对话里的偏好、原则、流程持续积累下来。否则每次都是一次性的 prompt,每次都从零开始。
所以第二条原则是:人和 Agent 的协作,不应该是同步聊天,而应该是异步委托。
3. Artifact 是副产品,系统改进才是主产品
第三点是我觉得最重要的。
大多数人现在理解人和 AI 协作,还是围绕 artifact:写出一段代码,生成一篇文档,做一个网页,整理一份资料,完成一个任务。
但这些其实都只是副产品。
真正重要的不是这一次产出的 code 或 docs,而是:这次协作有没有让系统下次更会做这件事。
人和 Agent 协作的最终目标,不是完成一个 artifact,而是共同沉淀出一套解决某类问题的最佳实践。这个东西不一定叫 SOP。SOP 这个词太机械了,像是给人类员工看的操作手册。
Agent 需要的更像是 skill、playbook、policy、heuristic、evaluation criteria、domain knowledge。它不是死板地规定第一步做什么、第二步做什么,而是让系统在同类问题上越来越强。
比如这次写文章,最后当然会产出一篇文章。但更重要的是,系统应该学会:Kelvin 喜欢什么样的文章结构,什么样的标题更适合,哪些表达太空,哪些观点要更锋利,文章应该如何接续之前的论证,小红书文章应该控制在什么密度,什么时候应该直接写,什么时候应该先问,什么样的例子可以复用。
如果这些没有沉淀下来,那每写一篇文章都只是一次性劳动。但如果这些被沉淀成 skill 和 knowledge,下一次写文章就不是从零开始,而是在系统能力上继续叠加。
如果你只关注 artifact,那 AI 只是一个更快的外包。如果你关注系统改进,那每一次协作都在让未来的生产能力变强。
未来更进一步,很多任务甚至不需要人主动提出。当系统足够成熟,它会直接从环境里抓信号:用户行为、客户反馈、邮件、销售线索、产品数据、代码错误、市场变化、任务状态。
然后它自己判断:这里有一个问题需要解决,这里有一个机会可以推进,这里有一个流程可以优化,这里有一个 artifact 应该生成。
到那个时候,人和 Agent 的关系就更不像“我让你做一个东西”,更像是:人不断帮助系统校准判断标准,系统不断从环境中发现任务并执行。
所以第三条原则是:Artifact 是副产品,系统改进才是主产品。
最后总结
现在很多关于人机协作的讨论,还停留在 prompt 层面,好像未来最重要的能力是“怎么把 prompt 写好”。
但我觉得 prompt 只是过渡形态。
真正重要的是:你有没有一个主 Agent;它有没有完整 memory;它能不能把你的意图翻译成任务;它能不能异步执行;它能不能调度 worker agents;它能不能从每次协作里沉淀 skill;它能不能越来越少依赖你的即时输入。
未来最强的人,不是最会亲自干活的人,也不是最会同时管理十几个 Agent 的人,甚至不一定是最会写 prompt 的人。
未来最强的人,是最会定义目标、提供 context、判断结果,并持续训练系统的人。
因为当 Agent 的执行收益率越来越高,人类每一次清晰判断都会被放大。
最后总结一下,人和 Agent 协作有三个原则:
第一,人只应该面对一个主 Agent,而不是管理多个 Agent。
第二,人和 Agent 应该异步委托,而不是同步聊天。
第三,协作的目标不是 artifact,而是系统改进。
真正的人机协作,不是人用 AI 做更多事,而是人把自己的判断、偏好、经验和方法,逐渐注入一个可以持续运行的智能系统。
最终,artifact 会越来越自动地产生。而人真正参与的,是这个系统本身的进化。