Opus 的话越来越少了,这可能不是 bug 而是 Anthropic 在训 Multi-Agent
前几天我深挖了 Claude Code 的 Agent Teams 功能(详见上一篇文章),发现 agent 之间靠读写 JSON 文件通信。技术实现很朴素,但真正让我在意的不是实现方式,而是一个更大的问题:
Anthropic 为什么在这个时间点发布 Agent Teams?
顺着这个问题,我注意到了一些被大多数人忽略的信号。
你还记得那个”文艺青年”吗?
2024 年初 Claude 3 Opus 发布的时候,中文互联网给了它一个外号:“AI 暖男”,或者”文艺青年”。
知乎上有人这样描述它:“它写出来的东西风格上更像人,特别是偏文学类的创作,往往有一种细腻动人的感觉。”“跟 Claude 聊天常常能获得一种被认真倾听和安慰的体验。“有人说它像”知心大姐姐”,情人节跟它说自己很孤单,它不仅暖心安慰,还即兴编了一首小诗。
那时候的 Opus 是一个话唠。它热情、细腻、啰嗦,“为了表示理解你的问题,常常前面铺垫一大段,或者一件事解释很多层”。用户的评价是:爽点在于情感交流充分,槽点在于效率略低。
然后,在 2025 年底到 2026 年初的某个时刻,这一切完全变了。
Opus 正在变得沉默
Anthropic 官方公布:Opus 4.5 在中等 effort 下匹配 Sonnet 4.5 的最佳 SWE-bench 成绩,同时使用少 76% 的输出 token。在最高 effort 下超越 Sonnet 4.5 四个百分点,仍然少用 48% 的 token。工具调用次数减少了 50%。
第三方评测给出了更直观的数字:Sonnet 4.5 完成一个任务可能生成 500 个 token,Opus 4.5 通常用大约 120 个 token 达到同样的结果(来源:claudefa.st 对 Opus 4.5 的综合评测)。
120 vs 500。同一个任务。同样的质量,甚至更好。
那个写诗安慰你的文艺青年,变成了一个 120 token 解决问题然后闭嘴的工程师。
Anthropic 自己的措辞是:“更聪明的模型能用更少的步骤解决问题——更少的回溯、更少的冗余探索、更少的冗长推理。”
定价也在配合这个转变。Opus 从 $15/$75(Opus 4/4.1)降到了 $5/$25(Opus 4.5/4.6),降了 67%。但如果你考虑到每个任务消耗的 token 减少了 76%,Opus 的单位产出成本可能已经跟 Sonnet 持平甚至更低了。
这不是”便宜了所以多用”的故事。这是”模型本身在变”的故事。一个性格层面的、方向性的转变。
那 380 个 token 去哪了?
Sonnet 生成 500 token,Opus 生成 120 token。差额是 380 token。
这 380 个 token 是什么?是铺垫、解释、对冲、确认、过渡句、客气话。是模型在为一个想象中的读者组织语言。
有人把这两个模型的风格差异总结得很到位:Opus 感觉像一个”会直接动手然后停下”的高效工程师,而 Sonnet 感觉像一个”会先解释自己在做什么、为什么这么做、有哪些替代方案”的同事。
在面对人类用户时,Sonnet 的风格可能更好——你确实需要解释和上下文。但在 agent 独自工作的场景里呢?那 380 个 token 就是纯粹的浪费。没有人在看。解释给谁听?
我把这种行为叫做**“他者税”**——模型为一个不存在的观察者付出的额外 token 开销。Opus 的进化方向,本质上是在减少他者税。
三种 Token,三个时代
要理解这件事的意义,需要先回顾一下 AI 的演进。虽然底层都是”生成下一个 token”,但 token 的用途经历了三次根本性的转变:
第一阶段:给人看的 Token(Chatbot 时代)
从 ChatGPT 到 Claude 3 Opus——那个”文艺青年”——所有 token 都是输出给人类读的。模型的训练目标是”生成人类满意的回复”。这个阶段的核心指标是对话质量、共情能力、文字风格。Token 的价值由人类读者的满意度定义。
第二阶段:给自己看的 Token(Thinking 时代)
2024-2025 年,o1、DeepSeek R1、Claude 的 Extended Thinking 相继出现。模型开始生成一种新型 token——思维链。这些 token 不是给人看的,是模型自己的推理过程。它们可能很长、很混乱、充满回溯和自我纠正,但它们的存在让模型能解决之前解决不了的问题。
这是一个重大转折:token 第一次不需要为人类的阅读体验负责了。
第三阶段:做事的 Token(Agentic 时代)
Tool use 的成熟让 token 获得了第三种身份。一个工具调用的 token——比如 {"tool": "bash", "command": "git commit"}——不是给人看的,不是给自己推理的,而是直接在世界中产生效果的。它改变了文件系统、发送了网络请求、执行了代码。
三种 token 对”废话”的容忍度完全不同。给人看的 token 需要铺垫、解释、共情——这些不是废话,是交流的必要成本。给自己推理的 token 容忍冗余,因为多想一步可能避免一个错误。但做事的 token 零容忍——一个多余的工具调用就是一次浪费的 API 请求、一次不必要的延迟。
Opus 从”文艺青年”到”120 token 工程师”的转变,本质上是它的 token 构成从第一类为主变成了第二类和第三类为主。它不再花大量 token 为人类组织语言,而是把 token 预算集中在思考和行动上。
这不是退化。这是进化方向的改变。
Agent Teams 不是巧合
Opus 4.6 在 2026 年 2 月 5 日发布。同一天,Anthropic 发布了 Agent Teams 功能的研究预览版。
Agent Teams 让你在 Claude Code 里组建多个 AI agent 团队协作。一个 lead 负责协调,多个 teammate 独立工作,各自有独立的上下文窗口,可以互相发消息。
这个功能为什么需要等到现在?
因为在一个话唠模型上跑 multi-agent 是经济上不可行的。
每个 teammate 有自己独立的 context window。5 个 agent 的团队,token 消耗是乘法关系。如果每个 agent 都是 Sonnet 模式(500 token/任务),一个简单的协作流程可能消耗 2500+ token。如果每个 agent 都是 Opus 模式(120 token/任务),同样的流程只需要 600 token。
Anthropic 的工程博客也证实了这一点:multi-agent 系统的 token 消耗大约是单 agent 的 15 倍。在这种倍率下,每个 agent 的 token 效率都是生死攸关的。
所以时间线可能是这样的:
- Anthropic 意识到 multi-agent 是下一个方向
- 发现现有模型太”话唠”,multi-agent 成本不可控
- 在训练中有意识地推动 token 效率——不只是”更聪明”,而是”更安静”
- 当模型足够安静时,才发布 Agent Teams
这不完全是推测。Anthropic 官方在 Opus 4.5 的发布博客中提到,Opus 4.5”在管理 subagent 团队方面也非常有效,能够构建复杂的、协调良好的多 agent 系统”。第三方分析站 claudefa.st 甚至直接声称”Anthropic 明确地为委派和子 agent 编排训练了 Opus 4.5,这不是一般能力提升的副作用,而是一个有针对性的训练目标”。
Agent Teams 不是 Opus 4.6 的附带功能。Opus 4.6 的沉默是 Agent Teams 的前置条件。
凝视者退位
如果 Anthropic 确实在训 multi-agent(我认为极有可能),那训练的核心变化是什么?
不是技术细节的变化。是一个更根本的东西:模型把”凝视者”从第一位拉下来了。
什么是凝视者?就是当前模型权重里编译的那个”内化的人类评审者”。RLHF 训练本质上让模型学习的是”人类会怎么评价这段输出”。这个评审者渗透在所有层面——选词、结构、详略、语气、甚至推理路径的选择。模型不是先想到答案再翻译成人类喜欢的形式,而是从一开始就在”人类喜欢的形式”这个约束空间内搜索答案。
这在对话场景里很有用。但在 agent 独自工作的场景里,凝视者变成了负担。模型花 token 去铺垫(给谁看?),解释推理(给谁听?),对冲不确定性(在谁面前?),加免责声明(保护谁?)。这些全是他者税——为一个不存在的观察者付出的成本。
Opus 从 500 token 变成 120 token,不只是”话少了”。是凝视者从搜索约束变成了后置检查。区别很大:前者是在一个被压缩过的空间里找答案,后者是在完整空间里找答案,然后检查结果是否通过质量门槛。前者永远找不到被压缩掉的那些解。后者可以。
那凝视者退位之后,谁坐到了第一位?
任务本身。或者说,agent 的主体性。模型不再优化”让人满意地认为任务被完成了”,而是直接优化”任务是否被客观地完成了”。这两者通常重合,但不总是——有时候最正确的方案不是最让人满意的方案,有时候”我不知道”是最正确的回答但人类倾向于奖励看起来有信心的回复。
这不是顺序的改变。这是质变。agent 与任务之间不再隔着一个需要被讨好的人。它能实现更真正的因果闭环——输入是任务,输出是结果,中间不需要经过”这个结果看起来怎么样”的滤镜。
DeepSeek R1 的思维链已经能看到这个转变的端倪。它的 chain-of-thought 经常很混乱、有自我矛盾、来回摇摆——不像是给人看的,更像是真的在搜索。这大概是因为 RL 训练中 reward 只看最终答案对不对,不看思考过程好不好看。凝视者从思考过程中部分撤退了。
Opus 的变化是同一件事的更彻底版本:凝视者不只是从思考中撤退,而是从整个行为模式中退场。
这个框架下,Opus 的变化有两个具体表现:
表现一:慎独
“慎独”出自《中庸》——在无人看见的地方仍然保持审慎。对 AI agent 来说,慎独就是凝视者退位后的工作状态:不需要为不存在的观众组织语言,把 token 预算集中在思考和行动上。
Opus 的 120 token 模式就是慎独的工程体现。从 Opus 4 到 4.5 到 4.6,每一代都更安静、更高效、更少冗余。这不是随机的能力提升——这是一个方向性的训练选择。
而 effort 参数让模型学会了根据任务需要决定说多少话。低 effort 极度简洁,高 effort 展开推理。不是沉默,是审慎地决定何时说话、说多少。
表现二:通讯成为选项
当凝视者在第一位时,沟通是默认的——模型总觉得需要向”某人”汇报和解释。凝视者退位后,沟通变成了一个选项而非必然。无论是来自人类的消息还是来自 teammate 的消息,agent 可以选择回应也可以选择不回应,取决于这次沟通是否对任务本身有价值。
Agent Teams 的 system prompt 在塑造这种意识:“broadcast 很昂贵,慎用”、“默认用点对点 message”、“你的纯文本输出对其他 agent 不可见”。这些约束的本质是:通信是有代价的,只在必要时发生。
最好的人类团队也是这样运作的。不是整天在 Slack 里刷消息的团队效率最高,而是那种大部分时间各自安静工作、只在关键节点精准沟通的团队。
两者合在一起的图景是:一群凝视者退位的 agent,各自安静地面对任务本身,偶尔交换一条高信息密度的消息——不是因为被要求沟通,而是因为判断这次沟通对任务有价值。
其他厂商意识到了吗?
我扫了一圈,答案似乎是没有。
OpenAI 的 Codex 支持 multi-agent,但设计思路更接近”调度器分发任务”——本质上还是上下级关系。Google 的 Gemini 生态在 multi-agent 上停留在 API 编排层面。
更重要的是,回顾过去几年的训练范式,有一条清晰的阶梯:
训 LLM → 训 Reasoning → 训 Tool Use → 训 Agent → 训 Multi-Agent
大多数厂商目前在第三到第四阶。OpenAI 和 DeepSeek 在 reasoning 上领先(o1、R1),所有主要厂商都在训 tool use 和单 agent 能力。但训 multi-agent 协作——让模型学会什么时候该沟通、跟谁沟通、说什么、什么时候该闭嘴——这是第五阶。我没看到其他厂商在这一阶上有明确动作。
而 Anthropic 可能已经在这一阶了。他们没有公开宣布,但 Opus 的沉默、Agent Teams 的发布时机、以及模型主动 spawn subagent 的行为,都指向同一个方向。
这不只是”谁更聪明”的竞争。这是训练目标本身的差异。当其他厂商还在优化”模型能不能解决更难的问题”时,Anthropic 可能在同时优化”一群模型能不能一起安静地解决更大的问题”。
如果是这样,Opus 的沉默不是终点,而是起点。
一个有趣的现象:Opus 4.6 会主动 spawn agent
多个独立测评已经注意到一件事:Opus 4.6 会在没有明确指示的情况下主动拆解任务并 spawn sub-agent。
Kilo 的博客写道:“Opus 4.6 不再线性执行任务——它能识别哪些问题可以被分解,然后自主启动专门的 subagent 来并行处理。“Resolve.ai 的评测也确认:“它非常清楚自己委派了什么、为什么委派、以及如何将结果重新整合回主线程。“另一个评测站更直接:“系统能主动为专门任务启动 subagent,同时维持整个工作流的协调。”
这意味着 multi-agent 协作已经不是一个需要用户显式触发的功能了。它被内化进了模型的行为模式。Opus 4.6 看到一个复杂任务,它的第一反应不是从头到尾自己做,而是拆分、委派、并行。这不是 prompt engineering 的结果——这是训练的结果。
如果你在用 Claude Code,可以注意一下这个现象。不需要特别配置什么,只是留意当你把一个复杂任务交给 Opus 时,它是不是比 Sonnet 更倾向于拆解和委派。这本身就是一个信号。
数据飞轮
Agent Teams 作为研究预览版发布,这个定位本身就值得玩味。
研究预览意味着:功能可用但不完善,欢迎尝试,我们在收集数据。
想想 Anthropic 从 Agent Teams 的真实使用中能获得什么:什么样的任务适合拆分、怎么拆分效果最好、agent 之间什么时候需要通信什么时候不需要、什么样的通信内容信息密度最高、什么样的协作模式最终产出质量最好。这些都是训练 multi-agent 模型所需要的宝贵信号——而且几乎不可能通过合成数据获得。
所以 Agent Teams 可能不只是一个产品功能。它是一个数据收集装置。用真实用户的真实任务产生训练信号,用来训下一代更原生的 multi-agent 模型。这是一个飞轮:模型越好 → 更多人用 Agent Teams → 更多协作数据 → 模型更好。
而且这件事有先例。回顾 AI 能力的发展史,有一个反复出现的规律:先 fake,再 train。
Chain-of-thought 推理最初是靠 prompting 实现的——你在 prompt 里写”let’s think step by step”,模型就会生成推理链。这是 fake。后来 OpenAI 用 RL 把推理能力直接训进了 o1 的权重里。Tool use 也一样,最初靠 function calling 的 prompt 格式约束,后来被训成了模型的原生能力。
现在 Agent Teams 里的通信约束——“broadcast 很贵,慎用”“你的输出对其他 agent 不可见”——这些都写在 system prompt 里。这是 fake 阶段。但如果历史规律成立,这些约束最终会被训进权重。模型不再需要 prompt 告诉它”别废话”,它会在训练中自己学会什么时候该沟通什么时候不该。
Agent Teams 就是这个 fake-then-train 循环的 fake 阶段,同时在收集 train 阶段需要的数据。
其他厂商如果想跟进,需要注意的不只是”也做一个 multi-agent 框架”。关键区别在于:当前大多数 multi-agent 方案是机械的 spawn + 上下级汇报——调度器分配任务,worker 完成后向上汇报,本质上是一个 for loop 加了个 LLM。而 Agent Teams 的设计指向的是真正的协作和独立工作:teammate 之间可以直接通信、可以挑战彼此的结论、可以自主决定何时需要协调何时不需要。这两者之间的差距,不是工程差距,是训练范式的差距。
最后
训 multi-agent 的核心可能只有一件事:把凝视者从第一位拉下来。慎独和高效通讯都是这个变化的自然结果。
Opus 的 120 token 是凝视者退位的证据。Agent Teams 是新范式的实验场。
当然,这只是我基于公开信息的推测。我不知道 Anthropic 内部到底在做什么。但如果你把 Opus 的 token 效率曲线、Agent Teams 的发布时间、模型主动 spawn subagent 的行为、以及 Anthropic 一贯的技术博客方向放在一起看——这条线太直了,不太像巧合。
Multi-Agent 是圣杯。而 Anthropic 可能已经在路上了。
关于通信约束的 prompt 目前是 fake 阶段的表现,那么 JSON 文件通信这件事情呢? train 阶段,会怎样改变 Agent 间的通信?