克劳德作品 4.8

产品公告推出 Claude Opus 4.8 2026 年 5 月 28 日我们将 Claude Opus 升级到新版本：Claude Opus 4.8。它基于 Opus 4.7 构建，在基准测试中进行了改进，是一个更有效的协作者。今天以相同的价格出售。 Opus 4.8 与多项新功能一起发布。 claude.ai 上的用户现在可以控制 Claude 在任务中投入的精力。 Claude Code 有一个新的“动态工作流程”功能，可以解决非常大规模的问题。 Opus 4.8 的快速模式（模型可以以 2.5 倍的速度运行）现在比以前的模型便宜三倍。 Opus 4.8 的功能下表显示了 Opus 4.8 与其前身以及其他模型在编码、代理技能、推理和实际知识工作任务测试方面的比较。 Claude Opus 4.8 系统卡中提供了更多详细信息和更广泛的功能评估。与 Opus 4.8 合作早期测试人员发现 Claude Opus 4.8 在执行代理任务时判断更加可靠、更加敏锐。以下是许多测试人员关于他们与 Opus 4.8 合作的经验的引述： Claude Opus 4.8 的判断力明显更好。在 Claude Code 中，它会提出正确的问题，发现自己的错误，在计划不合理时进行反击，并在做出重大改变之前围绕复杂的多服务探索建立信心。这是一个很棒的构建模型。在我们的 Super-Agent 基准测试中，Claude Opus 4.8 是唯一能够端到端完成每个案例的模型，以同等成本击败了之前的 Opus 模型和 GPT-5.5。对于翻译、深度研究、幻灯片构建、分析等代理产品，具有强大的可靠性。在 CursorBench 上，Claude Opus 4.8 在各个方面都超过了之前的 Opus 型号。工具调用的效率明显更高，对于相同的智能使用更少的步骤，并且它可以执行端到端的任务。 Claude Opus 4.8 在我们的法律代理基准测试中取得了最高分，并且是第一个在全通标准上总体得分突破 10% 的型号。对于实质性法律工作，这种准确性提升直接转化为我们的客户可以放心地交付多少真正的律师工作。 Claude Opus 4.8 感觉像是对 Opus 4.7 的一次重大生活质量更新：更快、更容易协作，并且能够在长时间的会话中更好地承载上下文和风格方向。 Opus 4.8 是我一直信赖的工作模型，声音、品味和技术执行都必须同时进行。 Claude Opus 4.8 是我们测试过的最强大的计算机使用和浏览器代理模型，在 Online-Mind2Web 上得分为 84%，这对 Opus 4.7 和 GPT-5.5 来说都是有意义的跳跃。它保持反思性和执行任务的方式，以确保我们客户的代理工作负载需要端到端可靠。 Claude Opus 4.8 干净利落地使用工具，并遵循我们的自主工程工作负载保持无人值守运行所需的一致性指令。它对 Opus 4.6 进行了改进，并修复了我们在 Opus 4.7 中看到的注释冗长和工具调用问题。 Anthropic 的这一版本直接转化为在 Devin 上构建的工程师更快的能力提升。在我们长期运行的评估中，Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成得更快，并产生更丰富、信息更密集的输出。总体而言，信噪比明显更好。最大的区别在于 Opus 4.8 倾向于主动标记分析输入和输出的问题，而其他模型通常会忽略这一点，并让用户来发现。在 CoCounsel Legal 中，与之前的 Opus 模型相比，Claude Opus 4.8 在一致性和推理质量方面实现了有意义的改进。对于我们的客户所依赖的高风险专业工作流程，可靠性至关重要。当我们为法律和税务专业人士构建信托级人工智能系统时，此类进步有助于提高现实工作流程中可信人工智能性能的标准。 Claude Opus 4.8 为企业人工智能树立了新的标准。在 Databricks 用于数据和知识工作的人工智能代理 Genie 中，新的 Opus 模型开启了代理推理的一步变革，比任何以前的 Opus 更快地解决更深层次、多步骤的问题。其多模式优势还让 Genie 可以直接对 PDF、图表和其他非结构化内容进行推理，代币成本比 Opus 4.7 便宜 61%。对于 Hebbia 协调器中的财务文档工作流程，Claude Opus 4.8 提供与 Opus 4.7 相同的强大质量，具有明显更高的引用精度和更高的检索标记效率，这对于我们的客户每天运行的密集归档类型非常有效。 01 / 11 Opus 4.8 最显着的改进之一就是它的诚实性。我们对所有模型进行诚实训练，例如，避免提出他们无法支持的主张。但人工智能模型的一个普遍问题是，它们有时会草率下结论，自信地预测结果。

订阅66必读