智能AI
morning
Opus 4.8 刚发布,Redis 之父质疑跑分:DHH 盛赞的 GPT-5.5,正在动摇编码王座
2026-05-29
1 阅读
Tina
5 月 28 日深夜,Anthropic 发布了其旗舰模型 Opus 的最新版本 Opus 4.8。 相比 Opus 4.7,这次升级的重点不只是模型跑分,而是围绕 Claude Code 增加了两个更直接面向开发者工作流的能力:dynamic workflows 和更便宜的 fast mode。 dynamic workflows允许 Claude 编写用于任务编排的脚本,调度数十到数百个并行 subagents 运行。单次运行中,subagents 的并发上限为 16 个,总数上限为 1000 个。 fast mode 则主要面向对速度和吞吐量更敏感的场景。它可以让 Opus 以 2.5 倍的输出速度运行,同时保持相同质量;在 Opus 4.8 上,fast mode 的价格已经降至此前的三分之一,但使用前需要启用 usage credits。 基准测试显示,Opus 4.8 不仅超过了前代模型,也领先于 GPT-5.5 和 Gemini 3.1 Pro。不过在 agentic terminal coding 这一项上,OpenAI 的模型仍然保持领先。发布当天,Opus 4.8 的常规模式价格与 Opus 4.7 相同,仍为每百万输入 token 5 美元、每百万输出 token 25 美元。 Claude Opus 4.8 升级的三个重点 这次 Opus 4.8 的升级,可以先抓住三个关键词:dynamic workflows、思考强度控制,以及更便宜的 fast mode。前两个直接影响 Claude Code 能处理多大规模的任务、以什么方式完成任务;后一个则关系到延迟和成本。 先看 dynamic workflows。 dynamic workflows本质上是一段 JavaScript 脚本,用来大规模编排 subagents。用户描述一个任务之后,Claude 会为这个任务编写脚本,然后由一个运行时在后台执行。与此同时,用户当前的 session 仍然可以保持响应,不会因为 agents 在后台工作而卡住。 它的核心变化在于,任务计划被转移到了代码里,而不是继续塞在 Claude 的上下文窗口中。中间结果也会保存在脚本变量里。因此,Claude 的上下文里只保留最终答案。这一点,正是 dynamic workflows 与 subagents、skills 的关键区别。 这个功能要求使用 Claude Code v2.1.154 或更高版本。它可以在 CLI、Desktop 和 VS Code 插件中运行,面向 Max、Team 和 Enterprise 计划开放。在 Max 和 Team 计划中,它默认开启;在 Enterprise 计划中,则需要管理员启用后才能使用。它也可以在 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 上运行。 用户可以通过两种方式启动一个 workflow。第一种是在 prompt 的任意位置包含 workflow 这个词。第二种是开启一个名为 ultracode 的设置。Ultracode 会把 xhigh 级别的推理强度与自动 workflow 编排结合起来。Claude Code 还内置了 deep-research,它本身就是一个预置 workflow。 当一个 workflow 启动后,Claude 会根据用户的 prompt 动态规划任务。它会把任务拆解成多个子任务,然后把工作分发给并行运行的 subagents。这些 agents 会从彼此独立的角度处理问题,另一些 agents 则会尝试反驳这些发现。整个运行过程会不断迭代,直到答案逐渐收敛。在结果被纳入最终输出之前,还会经过检查。 运行时会施加明确的硬性限制。它最多允许 16 个 agents 并发运行,单次运行的 agents 总数上限为 1000 个。workflow 脚本本身不能访问文件系统或 shell,只有 agents 可以读取、写入文件并运行命令。 随着运行推进,进度会被保存下来。如果任务中途被打断,它可以在同一个 session 中恢复。已经完成的 agents 会在恢复时返回缓存结果。由于协调过程发生在对话之外,任务计划也就更容易保持稳定,不会在会话上下文中被不断稀释或带偏。 Anthropic 重点展示了一个大型案例。Jarred Sumner 使用 dynamic workflows 对 Bun 进行移植,把 Bun 从 Zig 迁移到 Rust。这个迁移版本通过了现有测试套件的 99.8%,生成了大约 75 万行 Rust 代码,从第一次 commit 到最终 merge 用了 11 天。 其中一个 workflow 负责为每个 struct 字段映射正确的 Rust lifetime;下一个 workflow 则把每个 .rs 文件写成行为一致的移植版本。数百个 agents 并行工作,并且每个文件都有两个 reviewer。随后,一个修复循环持续驱动构建和测试套件,直到全部清理干净。不过,这个结果虽然已经合并,但目前还没有进入生产环境。 第二个重点,是用户现在可以控制 Claude 的思考强度。 新的控制项意味着,用户可以调高或调低 Claude 在任务中投入的推理资源。Anthropic 在公告博客中解释称,当用户让 Claude 全力处理任务时,它会“更频繁、更深入地思考,以给出更好的回答”。相反,在较低思考强度下,Claude 会更快给出回应,同时消耗用户 rate limit 的速度也会更慢。 对那些已经感到 AI 服务正在通过额度缩水变相涨价、又担心额度比预期更快用完的用户来说,这可能算是一个好消息。 第三个重点,是 fast mode 降价。 Anthropic 大幅下调了 Opus 4.8 快速模式的价格。在快速模式下,模型生成 token 的速度约为正常速度的 2.5 倍;而 Opus 4.8 的快速模式价格降至每百万输入 token 10 美元、每百万输出 token 50 美元,低于 Opus 4.7 的 30 美元 / 150 美元。 这相当于在此前模型的快速模式价格基础上降低了 3 倍,也让高吞吐推理更接近那些对延迟敏感的生产工作负载。 快速模式已经可以在 Claude Code 中通过 /fast 命令使用;API 访问目前仍有限制,需要在 claude.com/fast-mode 申请 waitlist。 在常规模式下,Claude Opus 4.8 仍然属于价格较高的前沿模型之一,但价格依然低于主要竞争对手 OpenAI 的 GPT-5.5。 不过,速度、成本和代码能力之外,Opus 4.8 这次还试图回答另一个问题:AI 能不能更诚实。 在今天的大模型竞争中,越来越难回避的一点是,我们其实很难找到一个真正“诚实”的 AI。古希腊哲学家第欧根尼有一个著名传说:他曾在白天提着一盏点亮的灯,在雅典街头四处寻找,并说自己在寻找一个诚实的人。把这个故事放到今天,人们寻找的恐怕就不只是一个诚实的人,而是一个诚实的 AI。 一个模型可以更聪明、更快、更会写代码,但它