Claude Opus 4.8实测封神！强到离谱，也贵到肉痛

新智元报道【新智元导读】传说中的Claude Opus 4.8，性能真的如此强大吗？有人高呼封神，直言这是Opus 5，有人吐槽太拉了，还不如Opus 4.7，技术大佬也来拆台。是夯爆了还是拉完了？一文深度看透。 Anthropic王者归来！深夜，Anthropic全新发布Claude Opus 4.8，一举夺回全球AI王座。 Opus 4.8被定位为一款更强大的复杂任务模型，尤其是在编程、智能体任务和长时间推理方面。更狠的是，神秘的Mythos几周之内即将面世！而且，趁着这股东风，Anthropic紧接着宣布好消息—— 以9650亿美元估值完成650亿美元融资，超越62天前OpenAI的8520亿美元的估值！不过，当人们实测过后，整个科技界瞬间分裂成了两个截然不同的阵营。一方面，是以知名评测媒体Every和部分硬核生产力用户为首的「狂热派」。他们高呼Opus 4.8已经「封神」，甚至直言Anthropic这次实在是太低调了，「他们完全可以直接叫它Opus 5，根本不会有人有异议。」他们直言，Opus 4.8是目前市面上「最全面、最接近人类灵魂与顶尖工程师结合体」的模型。但另一方面，以Ruby on Rails创始人DHH、Redis之父antirez为首的「开发者老炮」，却在社交网络上公开拆台。他们认为Opus 4.8的跑分虽然险胜老对手GPT-5.5，但实际的「编码体感」却依然落后，甚至直指Anthropic在基准测试的宣传上犯了重大错误。一方面，它的「快速模式」、「动态工作流」看起来都很杀手级，另一方面，桌面端的体验，似乎又很拉垮。 Opus 4.8用起来的真实体感，究竟如何？这是一次名不副实的挤牙膏，还是一次真正的大跃迁？接下来，就让我们揭开全貌！这不是Opus 4.8，是Opus 5！首先，是以Every团队为代表的正方。在长达一周的深度测试后，他们得出了震撼结论——这是我们测试过的最强模型，它简直是个怪物。甚至可以说，它可以被叫做Opus 5。暴涨30分的「资深工程师基准」在极难的「高级工程师基准」测试中，上一代Opus 4.7曾让无数开发者大失所望，被指责为「难以使用、难以热爱」。但Opus 4.8这一次打了一场漂亮的翻身仗。在「超高强度」模式下，Opus 4.8拿下了63分的高分，不仅比Opus 4.7夸张地暴涨了30分，更是以1分的微弱优势，险胜了一直霸榜的GPT-5.5（62分）。团队试着让它去彻底重构一个生产级别的代码库，结果Opus 4.8真的交付了一个能够完美运行的系统！结果说明，Opus 4.8绝不仅仅是一个补全工具，而是一个能在Repo（代码仓库）级别进行长线思考的架构师。 79.6分全场最高：击穿「 AI感」的最强写手如果说代码能力是理科生的浪漫，那么写作能力则是衡量模型EQ的终极标准。在Every的写作基准测试中（涵盖论文、推广邮件、长篇叙事等真实场景），Opus 4.8直接艳压一众模型。 Opus 4.8跑出了 79.6的绝对高分，远远甩开了自家兄弟Sonnet 4.6（74.5）、老对手GPT-5.5（73）以及前代Opus 4.7（63）。「这是一种非常奇妙的体验。」多位创作者反馈。Opus 4.8极大地减少了令人不适的「AI味」。当你给它一份风格指南后，它能异常精准地模仿你的语气。它甚至展现出了极高的心理学和人际交往洞察力，当你试图和它探讨一些深刻的心理问题时，它的回答毫不敷衍，而是会「质疑你的预设框架」，提供丰富、动态且极其具有深度的思考过程。 100万Token的统治力，企业级应用一把过除了跑分，Opus 4.8在复杂知识工作中的表现堪称怪兽。它依然保持了100万Token的超大上下文窗口，这意味着你可以把一整本书的手稿、几周的会议记录，甚至一个完整的企业代码库一口气塞给它。最让商业咨询圈震惊的是，在企业级PPT生成测试中，Opus 4.8在Zero-shot的情况下，产出了一份结构清晰、设计合理、叙事逻辑堪称完美的PPT。这是过去所有模型都无法做到的。知名云存储服务商Box，也在第一时间将Opus 4.8接入了其Box AI Agent并在真实企业数据上进行了测试，结果呈现出碾压态势。 · 报告起草：在工业品报告任务中，4.8得分87%（对比4.7的77%）；消费品发布评估任务中，得分高达90%。 · 法律审查： Opus 4.8能够极其精准地抓取合规标准，找出潜在的合同漏洞，并在多次独立测试中保持近乎完美的稳定性。 · 财务数据分析：在复杂的银团贷款与双边贷款结构对比中，从繁杂的源文档中提取准确财务指标的能力，比上一代提升了近8个百分点。沃顿商学院教授Ethan Mollick的实测更是令人拍案叫绝。他把几年前数百份去匿名化的研究文件扔进Claude Code中的Opus 4.8。结果，Opus 4.8自主完成了提前提出假设、数据清洗、寻找参考文献、进行深度分析、稳健性检验，最后直接用LaTeX格式排版输出了一篇高度专业的小型学术论文！有趣的是，Mollick教授用GPT-5.5 Pro作为这篇论文的「审稿人」，GPT-5.5挑出了一个幻觉错误和几个小问题，随后Opus 4.8立刻虚心接受，完美修正。或许这就是为什么Every的CEO Dan Shipper激动地将Opus 4.8称为自己的「心头好」。一个不可思议的软件工程师，同时又是一个拥有深度和同理心的近乎人类的作家，二者完美相融。沃顿商学院教授实测的一个Opus 4.8惊艳案例被群嘲的桌面端与「高智商税」如此强大的模型，为何没有在全网形成绝对的碾压之势？因为Opus 4.8身上背负着两个沉重的枷锁。「大力出奇迹」的代价，是被智商分级绑架评测机构很快发现了一个尴尬的事实：Opus 4.8的「神级表现」，可以说是病态地依赖于你给它设定的推理强度（Effort Level）。在/effort的设定中，只有当档位拉到「Extra-High」时，Opus 4.8才是那个得分63的资深工程师；一旦降级到「High」，它的编码得分会瞬间暴跌至42，秒变平庸码农。在写作上也是如此。High档位下的Opus 4.8文笔优雅、逻辑严密；但一旦切到Medium，它就会瞬间原形毕露，暴露出AI最糟糕的套路化写作恶习。网友Haider尖锐地指出了这背后的技术退步：我注意到了一个现象，4.8在低强度下消耗的Token，几乎和4.6在高强度下一样多。 GPT-5.5倾向于用更少的Token拿到更高的分数；而4.8似乎走向了反面，它在用海量的Token堆砌智能。这就导致了Opus系列一直被诟病的硬伤——Rate Limits。由于高强度模式极度消耗资源，大量订阅了$200/月Max套餐的高端用户反馈，在运行复杂Agent任务时，常常几个小时就会撞上额度墙。网友BridgeMind直言，自己为了测试连续烧穿了两个200美元的账号。显然，相较于OpenAI庞大算力支撑下的宽容生态，Anthropic显得过于抠门了。混乱的UI设计如果说模型是引擎，那么客户端应用就是底盘。而Claude的

订阅66必读