开发者生态
evening
Anthropic 祭出双旗舰模型 Fable、Mythos,屠榜所有基测!网友:除了贵没毛病
2026-06-10
1 阅读
李冬梅
昨晚,Anthropic 携两款“核弹级”模型炸场——Claude Fable 5 和 Claude Mythos 5。 据介绍,这是 Anthropic 迄今性能最强的一代模型,也是其首次将前沿模型按照风险等级进行差异化开放:面向普通用户的 Fable 5 保留了严格安全限制,而能力完全释放的 Mythos 5 则仅向少量经过审核的网络安全机构和科研组织开放。 在Anthropic看来,大模型能力已经进入一个新的阶段:模型不仅能够完成编码、写作和问答任务,还开始展现出执行长期复杂任务、独立开展科研探索甚至发现新科学假设的能力。与此同时,模型能力提升带来的潜在风险,也迫使公司重新设计模型的开放策略。 Anthropic 最强模型性能如何? 按照Anthropic的说法,Fable 5 已经超过此前所有公开发布的 Claude 模型。 据Anthropic官方披露,Claude Fable 5定位通用级高性能模型,属于Mythos 1级技术梯队,综合性能超越品牌过往所有公开发布模型,在主流AI性能基准测试中稳居行业领先水平。 该模型具备突出的复杂任务处理优势,任务复杂度越高、运行周期越长,相较于前代模型的性能优势越显著,同时拥有更长的自主运行时长与更强的长上下文处理能力,可稳定支撑数百万token 级别的持续性工作任务。 在具体产业落地场景中,Fable 5展现出全方位的能力突破。 软件工程领域,该模型可实现超大代码库的高效迭代迁移,曾在1天内完成需要团队两个月手动攻坚的5000万行Ruby代码库迁移工作,将数月级工程量压缩至单日完成。 在Cognition FrontierCode编码评估中,其中等工作量下的得分领跑全球前沿模型,token效率创下Claude系列新高。 下面是其他模型在FrontierCode Diamond 测试中的得分对比: 除了软件开发,Anthropic 还将 Fable 5定位为知识工作工具。 AI研究平台 Hebbia 的财务推理测试显示,Fable 5 在复杂文档分析、图表解读和问题求解任务上的表现达到所有参测模型最高水平。 量化交易公司 IMC 则表示,该模型已经能够完成事实检索、因果分析、根因定位以及预期收益分析等金融研究任务。 这些案例反映出一个趋势:模型竞争正在从单纯的知识问答,转向专业领域中的复杂推理和决策辅助。 视觉任务方面,它也基本上是当前业内顶尖的视觉专用模型,可精准提取复杂科学数据、仅凭截图还原Web应用源代码,甚至依托极简视觉组件独立通关《精灵宝可梦火红》,全程无需地图、游戏状态等额外辅助信息,突破了前代模型依赖复杂辅助工具的技术局限。 这段延时视频记录了Claude 仅使用游戏截图从头到尾游玩《精灵宝可梦火红》的过程——没有使用任何地图、导航辅助工具或额外的游戏状态信息。早期的 Claude 机器人需要复杂的辅助设备才能玩《精灵宝可梦》;而Claude Fable 5仅凭视觉就完成了游戏。 此外,模型的内存与自主迭代能力大幅优化。在卡牌构筑游戏《杀戮尖塔》测试中,搭载持久化文件级内存的Fable 5,性能较 Claude Opus 4.8 提升三倍,通关高阶关卡的概率显著提升。同时可依托基础物理原理自主推演行星轨道、模拟日食现象,具备极强的自主推理与场景复刻能力。 Claude Fable 5 构建了这个太阳系模拟,从物理学第一原理推导出行星的轨道运动,并用它来预测日食。 Mythos 5:能力更强,但并不向公众开放 相比面向大众开放的Fable 5,Anthropic此次同步发布的另一款模型Mythos 5显得更加特殊。 从技术角度看,两者基于同一底层模型。 区别在于,Mythos 5取消了部分安全限制,因此能够释放全部能力。 Anthropic表示,Mythos 5目前是其网络安全能力最强的模型。该模型已经部署一些特殊机构中,服务对象主要包括关键基础设施运营方和网络安全防御机构。 目前,普通开发者和企业用户无法直接使用该模型。 在高精尖科研领域,Mythos 5表现也很抢眼。 生命科学研究中,该模型可将药物设计部分环节效率提升十倍,能够独立完成蛋白质靶点筛选、设计工具运行、误差修复等全套科研工作,无需人工深度干预,目前已筛选出9个高潜力药物靶点,覆盖免疫检查点、神经退行性疾病、肌肉疾病等多个研究方向。 科研创新层面,Mythos 5是Claude系列首款可持续产出高质量原创科学假设的AI模型。 在盲测对比中,科研人员对其分子生物学假设的认可度达80%,多项假设已进入实验验证阶段,其中一项关于大肠杆菌蛋白作用机制的假设,已获得独立实验室的研究佐证。基因组学研究中,该模型可自主完成海量单细胞数据归集、定制AI模型训练等全流程工作,仅需极少人工干预,其研发的轻量化模型性能优于《科学》杂志刊发的同类模型,且参数规模仅为后者的百分之一,相关研究成果将于近期公开发表。 针对高端模型的滥用风险,Anthropic为通用开放的Fable 5搭建了保守且完善的安全防护体系。由于顶级AI能力在网络安全、生物、化学等领域存在双重用途风险,Fable 5搭载全新独立安全分类器,一旦检测到漏洞利用、攻击性网络任务、高危生物化学研究、模型能力提炼等风险请求,将自动回退至Claude Opus 4.8响应处理。 官方数据显示,这套安全机制整体误报率不足5%,超95%的用户会话可直接通过Fable 5原生能力响应,性能与Mythos 5基本持平。 经过超1000小时内部红队演练、外部漏洞赏金测试,该防护体系未出现通用越狱漏洞,抵御恶意攻击与越狱尝试的能力优于Opus 4.7、Opus 4.8等前代机型,可全面拦截单轮恶意网络攻击策划、漏洞开发等违规请求。 隐私合规层面,Anthropic同步推出全新数据保留政策,要求Mythos级别模型的全量流量数据留存30天,仅用于风险研判、攻击溯源与安全优化,不参与模型训练及非安全类用途,同时完善人工数据访问日志记录机制,30天后自动清理绝大部分数据,筑牢数据安全防线。一致性评估结果显示,Fable 5与Mythos 5的欺骗、违规协作等不一致行为发生率与Opus 4.8持平,整体合规稳定性优异。 这么强大的模型,价格如何? 据介绍,这两款模型都已经大幅降价,统一收费标准为每百万输入代币10美元、每百万输出代币50美元,价格不足前代 Mythos Preview 版本的一半。 订阅服务层面,Anthropic推出分阶段上线策略,即日起至6月22日,Pro、Max、Team及席位制企业版套餐用户可免费体验Fable 5;6月23日起将暂时从订阅套餐下架,后续需消耗积分使用,待资源扩容后将重新纳入订阅标配体系。 外界评论如何? 这两款性能拉满的旗舰模型发布后,AI圈很快出现了大量讨论。 前特斯拉AI负责人、OpenAI创始成员之一的 Andrej Karpathy 第一时间给出了高度评价。 他在社交平台表示: Claude Fable 5 与 Mythos 5 本质上是同一个底层模型,只是在 Fable 上增加了安全防护机制。从基准测试来看,它几乎在所有项目上都以明显优势取得了最佳成绩(SOTA)。但比起排行榜数字,更重要的是它