智能AI morning

Claude Opus 4.8实测封神!强到离谱,也贵到肉痛

2026-05-29 1 阅读 新智元
新智元报道 【新智元导读】 传说中的Claude Opus 4.8,性能真的如此强大吗?有人高呼封神,直言这是Opus 5,有人吐槽太拉了,还不如Opus 4.7,技术大佬也来拆台。是夯爆了还是拉完了?一文深度看透。 Anthropic王者归来! 深夜,Anthropic全新发布Claude Opus 4.8,一举夺回全球AI王座。 Opus 4.8被定位为一款更强大的复杂任务模型,尤其是在编程、智能体任务和长时间推理方面。 更狠的是,神秘的Mythos几周之内即将面世! 而且,趁着这股东风,Anthropic紧接着宣布好消息—— 以9650亿美元估值完成650亿美元融资,超越62天前OpenAI的8520亿美元的估值! 不过,当人们实测过后,整个科技界瞬间分裂成了两个截然不同的阵营。 一方面,是以知名评测媒体Every和部分硬核生产力用户为首的「狂热派」。 他们高呼Opus 4.8已经「封神」,甚至直言Anthropic这次实在是太低调了, 「 他们完全可以直接叫它Opus 5,根本不会有人有异议。 」 他们直言,Opus 4.8是目前市面上「最全面、最接近人类灵魂与顶尖工程师结合体」的模型。 但另一方面,以Ruby on Rails创始人DHH、Redis之父antirez为首的「开发者老炮」,却在社交网络上公开拆台。 他们认为Opus 4.8的跑分虽然险胜老对手GPT-5.5,但实际的「编码体感」却依然落后,甚至直指Anthropic在基准测试的宣传上犯了重大错误。 一方面,它的「快速模式」、「动态工作流」看起来都很杀手级,另一方面,桌面端的体验,似乎又很拉垮。 Opus 4.8用起来的真实体感,究竟如何? 这是一次名不副实的挤牙膏,还是一次真正的大跃迁? 接下来,就让我们揭开全貌! 这不是Opus 4.8,是Opus 5! 首先,是以Every团队为代表的正方。 在长达一周的深度测试后,他们得出了震撼结论——这是我们测试过的最强模型,它简直是个怪物。 甚至可以说,它可以被叫做Opus 5。 暴涨30分的 「 资深工程师基准 」 在极难的「高级工程师基准」测试中,上一代Opus 4.7曾让无数开发者大失所望,被指责为「难以使用、难以热爱」。 但Opus 4.8这一次打了一场漂亮的翻身仗。 在「超高强度」模式下,Opus 4.8拿下了63分的高分,不仅比Opus 4.7夸张地暴涨了30分,更是以1分的微弱优势,险胜了一直霸榜的GPT-5.5(62分)。 团队试着让它去彻底重构一个生产级别的代码库,结果Opus 4.8真的交付了一个能够完美运行的系统! 结果说明,Opus 4.8绝不仅仅是一个补全工具,而是一个能在Repo(代码仓库)级别进行长线思考的架构师。 79.6分全场最高:击穿 「 AI感 」 的最强写手 如果说代码能力是理科生的浪漫,那么写作能力则是衡量模型EQ的终极标准。 在Every的写作基准测试中(涵盖论文、推广邮件、长篇叙事等真实场景),Opus 4.8直接艳压一众模型。 Opus 4.8跑出了 79.6的绝对高分 ,远远甩开了自家兄弟Sonnet 4.6(74.5)、老对手GPT-5.5(73)以及前代Opus 4.7(63)。 「这是一种非常奇妙的体验。」多位创作者反馈。Opus 4.8极大地减少了令人不适的「AI味」。 当你给它一份风格指南后,它能异常精准地模仿你的语气。 它甚至展现出了极高的心理学和人际交往洞察力,当你试图和它探讨一些深刻的心理问题时,它的回答毫不敷衍,而是会「质疑你的预设框架」,提供丰富、动态且极其具有深度的思考过程。 100万Token的统治力,企业级应用一把过 除了跑分,Opus 4.8在复杂知识工作中的表现堪称怪兽。 它依然保持了100万Token的超大上下文窗口,这意味着你可以把一整本书的手稿、几周的会议记录,甚至一个完整的企业代码库一口气塞给它。 最让商业咨询圈震惊的是,在企业级PPT生成测试中,Opus 4.8在Zero-shot的情况下,产出了一份结构清晰、设计合理、叙事逻辑堪称完美的PPT。这是过去所有模型都无法做到的。 知名云存储服务商Box,也在第一时间将Opus 4.8接入了其Box AI Agent并在真实企业数据上进行了测试,结果呈现出碾压态势。 · 报告起草: 在工业品报告任务中,4.8得分87%(对比4.7的77%);消费品发布评估任务中,得分高达90%。 · 法律审查: Opus 4.8能够极其精准地抓取合规标准,找出潜在的合同漏洞,并在多次独立测试中保持近乎完美的稳定性。 · 财务数据分析: 在复杂的银团贷款与双边贷款结构对比中,从繁杂的源文档中提取准确财务指标的能力,比上一代提升了近8个百分点。 沃顿商学院教授Ethan Mollick的实测更是令人拍案叫绝。 他把几年前数百份去匿名化的研究文件扔进Claude Code中的Opus 4.8。 结果,Opus 4.8自主完成了提前提出假设、数据清洗、寻找参考文献、进行深度分析、稳健性检验,最后直接用LaTeX格式排版输出了一篇高度专业的小型学术论文! 有趣的是,Mollick教授用GPT-5.5 Pro作为这篇论文的「审稿人」,GPT-5.5挑出了一个幻觉错误和几个小问题,随后Opus 4.8立刻虚心接受,完美修正。 或许这就是为什么Every的CEO Dan Shipper激动地将Opus 4.8称为自己的「心头好」。 一个不可思议的软件工程师,同时又是一个拥有深度和同理心的近乎人类的作家,二者完美相融。 沃顿商学院教授实测的一个Opus 4.8惊艳案例 被群嘲的桌面端与「高智商税」 如此强大的模型,为何没有在全网形成绝对的碾压之势? 因为Opus 4.8身上背负着两个沉重的枷锁。 「大力出奇迹」的代价,是被智商分级绑架 评测机构很快发现了一个尴尬的事实:Opus 4.8的「神级表现」,可以说是病态地依赖于你给它设定的推理强度(Effort Level)。 在/effort的设定中,只有当档位拉到「Extra-High」时,Opus 4.8才是那个得分63的资深工程师;一旦降级到「High」,它的编码得分会瞬间暴跌至42,秒变平庸码农。 在写作上也是如此。High档位下的Opus 4.8文笔优雅、逻辑严密;但一旦切到Medium,它就会瞬间原形毕露,暴露出AI最糟糕的套路化写作恶习。 网友Haider尖锐地指出了这背后的技术退步: 我注意到了一个现象,4.8在低强度下消耗的Token,几乎和4.6在高强度下一样多。 GPT-5.5倾向于用更少的Token拿到更高的分数;而4.8似乎走向了反面,它在用海量的Token堆砌智能。 这就导致了Opus系列一直被诟病的硬伤——Rate Limits。 由于高强度模式极度消耗资源,大量订阅了$200/月Max套餐的高端用户反馈,在运行复杂Agent任务时,常常几个小时就会撞上额度墙。 网友BridgeMind直言,自己为了测试连续烧穿了两个200美元的账号。 显然,相较于OpenAI庞大算力支撑下的宽容生态,Anthropic显得过于抠门了。 混乱的UI设计 如果说模型是引擎,那么客户端应用就是底盘。而Claude的