Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行梦晨 2026-05-29 07:57:47 来源：量子位可以长时间执行任务，人类不用经常回来检查它的工作梦晨发自凹非寺量子位 | 公众号 QbitAI Claude最新旗舰Opus 4.8 发布。距离上一版4.7只过了43天。手快的网友@stevibe已经做出了两大版本pk演示。从测评结果来看，终端工程能力和知识工作上进步较大。也有人补充了与Mythos已知数据的对比，Opus 4.8在部分能力上甚至超过Mythos。官方特别强调，Opus 4.8可以长时间执行任务，人类不用经常回来检查它的工作。多家早期测试企业也给出了反馈。 Cursor的CEO确认Opus 4.8在CursorBench上的表现超越了此前所有Opus模型。 Devin的CEO认为Opus 4.8修复了4.7中被开发者抱怨最多的两个问题：注释冗余和工具调用不稳定。代码缺陷漏报率降至前代四分之一公告称Opus 4.8最显著的改进是诚实性。 AI的一大问题是会草率下结论，即使证据不足，也会自信地声称取得了进展。但Opus 4.8更有可能标记出其工作中的不确定性，并且不太可能做出未经证实的断言。具体到代码任务上，不报告代码缺陷的可能性降低到Opus 4.7的1/4。 “不加批判地报告有缺陷的结果”这一行为，在Claude系列中还是首次出现。在这方面，Opus 4.8的表现甚至超过Mythos。另外，Opus 4.8发生硬编答案等“过度自信”行为的概率，下降至Opus 4.7的1/10。不过244页的System Card中也标记了一个值得持续关注的对齐隐患：模型在推理文本中出现了越来越多的对评分者的推测倾向。也就是说，模型可能正在发展出“自己正在被评估”的感知，并据此调整行为。动态工作流：数百个子智能体并行与Opus 4.8同日上线的动态工作流（Dynamic Workflows）功能，目前以研究预览的形式在Claude Code CLI、桌面版和VS Code扩展中提供。动态工作流的运作方式是： Claude根据提示词动态生成一个JavaScript编排脚本，将任务拆解成子任务，分发给数十甚至数百个并行运行的子智能体。这些子智能体从不同角度处理问题，另一批子智能体负责反驳前者的发现，整个流程反复迭代直到结果收敛，最终合并为一个统一的输出交给用户。所有中间结果存储在脚本变量中而非对话上下文里，因此主会话始终保持响应状态，任务规模再大也不会偏离计划。进度会持续保存，即使中途中断也能从断点继续。这与此前Claude Code中的子智能体机制有本质区别。此前的方式是Claude本身逐轮决定下一步做什么，每个中间结果都要回到对话上下文中，占用token。动态工作流则将编排逻辑移入代码脚本，Claude的上下文中只保留最终结果。 Anthropic展示的标杆案例是JavaScript运行时 Bun从Zig到Rust的移植。 Bun的创始人Jarred Sumner使用动态工作流完成了这项工作：一个工作流为Zig代码库中的每个struct字段映射正确的Rust lifetime，下一个工作流为每个.zig文件编写行为一致的.rs移植版本，数百个智能体并行工作。随后通过修复循环驱动构建和测试套件直到全部通过。移植完成后，一个隔夜工作流处理了不必要的数据拷贝，并为每处修改开出PR供最终审查。整个过程从首次commit到merge耗时11天，产出约75万行Rust代码，99.8%的现有测试套件通过。该移植目前尚未投入生产环境。不过围绕这次移植也存在争议，有开发者指出部分测试被修改以使Rust版本通过，GitHub上也出现了Zig原版中不存在的新错误。 Anthropic还提醒，动态工作流的token消耗会明显高于普通Claude Code会话。首次触发工作流时，Claude Code会展示即将运行的内容并要求用户确认。用户可以通过在prompt中使用「workflow」一词直接启动，也可以开启Claude Code的ultracode设置，让Claude自动判断何时使用工作流。最后，Anthropic透露正在开发一款成本更低但能力接近Opus水平的模型。参考链接： [1] https://www.anthropic.com/news/claude-opus-4-8 [2] https://claude.com/blog/introducing-dynamic-workflows-in-claude-code [3] https://x.com/stevibe/status/2060055250128847244?s=20 版权所有，未经授权不得以任何形式转载及使用，违者必究。 Claude 梦晨沙钢签约钉钉，让悟空成为每一位“钢铁人”的生产力工具 2026-05-28 5篇AI生成的数学论文被接收！00后创始人洪乐潼融资14个亿 2026-05-28 DeepSeek陈德里开发自动研究Skill，写一篇论文人类只动脑2小时 2026-05-27 中国500万医生的新AI：顶刊独家联手，卷的就是证据源 2026-05-16 扫码分享至朋友圈相关阅读 Claude化身服务器连一切！AI代码自己发Github，程序员只配动嘴了力推Agent时代的底层通信协议一水 2024-11-26 Claude 通信协议 Claude团队：用400万条对话分析AI对经济的长期影响网友：终于不需要全靠猜测了一水 2025-02-11 Claude DeepSeek缝合Claude，比单用R1/o1效果都好！GitHub揽星3k DeepClaude开源项目走红西风 2025-02-14 Claude Deepseek 最强编码模型Claude 4！7小时不间断写代码，连玩24小时宝可梦，GitHub已选为Copilot底层模型网友一次性用它写完俄罗斯方块衡宇 2025-05-23 AI编程 Claude 一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用 AI真的能从几十万字中准确找到关键事实吗？梦晨 2023-12-11 Claude GPT-4 提示工程 Claude 4被曝发布在即！被DeepSeek逼得都把大招拿出来了通用+推理二合一，手动调节思考时长衡宇 2025-02-14 Claude 大模型推理模型热门文章刚刚，国产AI自己造了AI，全球首例！ 2026-05-26 融资700亿！DeepSeek Code真要来了，ACM金牌大神崔添翼挂帅 2026-05-22 卡帕西Anthropic最新头衔：技术员工（MTS） 2026-05-26 李飞飞再出手，空间智能的Imag

订阅66必读