Anthropic 祭出双旗舰模型 Fable、Mythos，屠榜所有基测！网友：除了贵没毛病

昨晚，Anthropic 携两款“核弹级”模型炸场——Claude Fable 5 和 Claude Mythos 5。据介绍，这是 Anthropic 迄今性能最强的一代模型，也是其首次将前沿模型按照风险等级进行差异化开放：面向普通用户的 Fable 5 保留了严格安全限制，而能力完全释放的 Mythos 5 则仅向少量经过审核的网络安全机构和科研组织开放。在Anthropic看来，大模型能力已经进入一个新的阶段：模型不仅能够完成编码、写作和问答任务，还开始展现出执行长期复杂任务、独立开展科研探索甚至发现新科学假设的能力。与此同时，模型能力提升带来的潜在风险，也迫使公司重新设计模型的开放策略。 Anthropic 最强模型性能如何？按照Anthropic的说法，Fable 5 已经超过此前所有公开发布的 Claude 模型。据Anthropic官方披露，Claude Fable 5定位通用级高性能模型，属于Mythos 1级技术梯队，综合性能超越品牌过往所有公开发布模型，在主流AI性能基准测试中稳居行业领先水平。该模型具备突出的复杂任务处理优势，任务复杂度越高、运行周期越长，相较于前代模型的性能优势越显著，同时拥有更长的自主运行时长与更强的长上下文处理能力，可稳定支撑数百万token 级别的持续性工作任务。在具体产业落地场景中，Fable 5展现出全方位的能力突破。软件工程领域，该模型可实现超大代码库的高效迭代迁移，曾在1天内完成需要团队两个月手动攻坚的5000万行Ruby代码库迁移工作，将数月级工程量压缩至单日完成。在Cognition FrontierCode编码评估中，其中等工作量下的得分领跑全球前沿模型，token效率创下Claude系列新高。下面是其他模型在FrontierCode Diamond 测试中的得分对比：除了软件开发，Anthropic 还将 Fable 5定位为知识工作工具。 AI研究平台 Hebbia 的财务推理测试显示，Fable 5 在复杂文档分析、图表解读和问题求解任务上的表现达到所有参测模型最高水平。量化交易公司 IMC 则表示，该模型已经能够完成事实检索、因果分析、根因定位以及预期收益分析等金融研究任务。这些案例反映出一个趋势：模型竞争正在从单纯的知识问答，转向专业领域中的复杂推理和决策辅助。视觉任务方面，它也基本上是当前业内顶尖的视觉专用模型，可精准提取复杂科学数据、仅凭截图还原Web应用源代码，甚至依托极简视觉组件独立通关《精灵宝可梦火红》，全程无需地图、游戏状态等额外辅助信息，突破了前代模型依赖复杂辅助工具的技术局限。这段延时视频记录了Claude 仅使用游戏截图从头到尾游玩《精灵宝可梦火红》的过程——没有使用任何地图、导航辅助工具或额外的游戏状态信息。早期的 Claude 机器人需要复杂的辅助设备才能玩《精灵宝可梦》；而Claude Fable 5仅凭视觉就完成了游戏。此外，模型的内存与自主迭代能力大幅优化。在卡牌构筑游戏《杀戮尖塔》测试中，搭载持久化文件级内存的Fable 5，性能较 Claude Opus 4.8 提升三倍，通关高阶关卡的概率显著提升。同时可依托基础物理原理自主推演行星轨道、模拟日食现象，具备极强的自主推理与场景复刻能力。 Claude Fable 5 构建了这个太阳系模拟，从物理学第一原理推导出行星的轨道运动，并用它来预测日食。 Mythos 5：能力更强，但并不向公众开放相比面向大众开放的Fable 5，Anthropic此次同步发布的另一款模型Mythos 5显得更加特殊。从技术角度看，两者基于同一底层模型。区别在于，Mythos 5取消了部分安全限制，因此能够释放全部能力。 Anthropic表示，Mythos 5目前是其网络安全能力最强的模型。该模型已经部署一些特殊机构中，服务对象主要包括关键基础设施运营方和网络安全防御机构。目前，普通开发者和企业用户无法直接使用该模型。在高精尖科研领域，Mythos 5表现也很抢眼。生命科学研究中，该模型可将药物设计部分环节效率提升十倍，能够独立完成蛋白质靶点筛选、设计工具运行、误差修复等全套科研工作，无需人工深度干预，目前已筛选出9个高潜力药物靶点，覆盖免疫检查点、神经退行性疾病、肌肉疾病等多个研究方向。科研创新层面，Mythos 5是Claude系列首款可持续产出高质量原创科学假设的AI模型。在盲测对比中，科研人员对其分子生物学假设的认可度达80%，多项假设已进入实验验证阶段，其中一项关于大肠杆菌蛋白作用机制的假设，已获得独立实验室的研究佐证。基因组学研究中，该模型可自主完成海量单细胞数据归集、定制AI模型训练等全流程工作，仅需极少人工干预，其研发的轻量化模型性能优于《科学》杂志刊发的同类模型，且参数规模仅为后者的百分之一，相关研究成果将于近期公开发表。针对高端模型的滥用风险，Anthropic为通用开放的Fable 5搭建了保守且完善的安全防护体系。由于顶级AI能力在网络安全、生物、化学等领域存在双重用途风险，Fable 5搭载全新独立安全分类器，一旦检测到漏洞利用、攻击性网络任务、高危生物化学研究、模型能力提炼等风险请求，将自动回退至Claude Opus 4.8响应处理。官方数据显示，这套安全机制整体误报率不足5%，超95%的用户会话可直接通过Fable 5原生能力响应，性能与Mythos 5基本持平。经过超1000小时内部红队演练、外部漏洞赏金测试，该防护体系未出现通用越狱漏洞，抵御恶意攻击与越狱尝试的能力优于Opus 4.7、Opus 4.8等前代机型，可全面拦截单轮恶意网络攻击策划、漏洞开发等违规请求。隐私合规层面，Anthropic同步推出全新数据保留政策，要求Mythos级别模型的全量流量数据留存30天，仅用于风险研判、攻击溯源与安全优化，不参与模型训练及非安全类用途，同时完善人工数据访问日志记录机制，30天后自动清理绝大部分数据，筑牢数据安全防线。一致性评估结果显示，Fable 5与Mythos 5的欺骗、违规协作等不一致行为发生率与Opus 4.8持平，整体合规稳定性优异。这么强大的模型，价格如何？据介绍，这两款模型都已经大幅降价，统一收费标准为每百万输入代币10美元、每百万输出代币50美元，价格不足前代 Mythos Preview 版本的一半。订阅服务层面，Anthropic推出分阶段上线策略，即日起至6月22日，Pro、Max、Team及席位制企业版套餐用户可免费体验Fable 5；6月23日起将暂时从订阅套餐下架，后续需消耗积分使用，待资源扩容后将重新纳入订阅标配体系。外界评论如何？这两款性能拉满的旗舰模型发布后，AI圈很快出现了大量讨论。前特斯拉AI负责人、OpenAI创始成员之一的 Andrej Karpathy 第一时间给出了高度评价。他在社交平台表示： Claude Fable 5 与 Mythos 5 本质上是同一个底层模型，只是在 Fable 上增加了安全防护机制。从基准测试来看，它几乎在所有项目上都以明显优势取得了最佳成绩（SOTA）。但比起排行榜数字，更重要的是它