智能AI
morning
谷歌全家桶,都被新模型“污染”了
2026-05-27
1 阅读
字母AI
文 | 字母AI 距离谷歌的Gemini 3.5 Flash发布已经一周多了。 皮查伊在谷歌发布会上口口声声地表示,Gemini 3.5 Flash性能比3.1 Pro还强,说它是Agent时代的底座。 可结果呢?网上对Gemini 3.5 Flash的评价,除了速度快这唯一的优点外,全是缺点。输出的内容错误多、啰嗦、干活token消耗量爆炸…… 谷歌Antigravity负责人瓦伦·莫汉(Varun Mohan)在5月25日发帖称,谷歌已增设Gemini 3.5 Flash (Low) 模型用于优化资源消耗。 瓦伦表示,根据谷歌的内部测试数据,在处理简单任务时,Gemini 3.5 Flash (Low) 相比Gemini 3.5 Flash (Medium) 可以减少约45%的token生成量。在软件工程(SWE)任务上的表现,Gemini 3.5 Flash (Low) 普遍优于上一代旗舰模型Gemini 3 Flash (High)。 然而网友们并不买账,现在,瓦伦的评论区已经被网友们的冷嘲热讽彻底攻占。 热评第一条是“你们的产品测试过吗?看起来你们是拿我们在做测试啊!” 第二条是“能否也解决一下图像模型的生成数量限制问题?你们的能力需要对标Codex。我使用Codex可以生成1000张图像,但在谷歌的高级套餐下,我只能使用Antigravity生成24张。” Gemini 3.0 Pro出来的时候,所有人都在为谷歌鼓掌,OpenAI甚至因此拉响红色警报,以防止被谷歌超越。 然而到了 3.5 Flash,谷歌成了小丑,眼瞅着就要步入Meta的后尘。 那我们不禁要问,谷歌,你这是咋了? 01 Gemini 3.5的表现没有达到预期 网上对Gemini 3.5 Flash的评价非常一致,很快,但是不够好。 皮查伊在发布会上反复强调模型多便宜,然而现实中情况截然相反。 按照官方定价,Gemini 3.5 Flash每百万输入token收费1.5美元,每百万输出token收费9美元,确实比Claude Opus 4.7的5美元和25美元便宜。 但这只是价格表,真正决定成本的,是完成一个任务到底要消耗多少token。 Artificial Analysis在完整评估套件中测试发现,Gemini 3.5 Flash完成全部任务的总成本是1552美元,而Gemini 3 Flash只需要282美元,前者是后者的5.5倍。 哪怕是和Gemini 3.1 Pro相比,Flash的成本也高出75%,大约是870美元。更尴尬的是,Gemini 3.5 Flash完成任务的费用,比GPT-5.5 medium还贵。 原因在于turn count,也就是完成任务需要的轮次。 在Agent评估中,Flash模型平均每个任务需要49轮对话。每一轮对话,它都会把完整的对话历史输入给模型,token成本因此暴增。 而这样的任务,GPT-5.5或者Opus 4.7,差不多只用20轮就能完成。 所以谷歌说的“成本不到一半”,指的是单位token价格。但对用户来说,Gemini 3.5 Flash一点都不便宜。 除了轮次多了,Gemini 3.5 Flash的输出非常啰嗦。 比如以前你问Gemini 3.1 Pro一个技术问题,模型会直接给出代码和简短解释。 换成3.5 Flash之后,同样的问题,模型会先解释背景,再列举三种可能的方案,然后逐一分析优缺点,最后才给出代码。 看起来很全面,实际上大部分内容都是废话。更要命的是,这些废话都算token,都要收费。 复杂任务的token消耗更是爆炸。 有用户反映,让Flash执行一个多步骤的代码重构任务,模型反复在不同文件之间跳转,每次跳转都要重新加载上下文,最终消耗的token是预期的三倍以上。 还有用户表示,只是输入了一个复杂的prompt,就直接触发了5小时使用限制。 谷歌在I/O 2026之后悄悄修改了AI Pro订阅的额度规则,从固定消息数,改成了基于计算资源的配额(compute-based quota)。 就是说你一个任务,如果让模型思考得多,那即使它给你回复的内容不变,花的钱也比以前更多。 那么问题来了,我怎么知道一个任务会让模型消耗多少算力?而且,我也推算不出来我还剩多少算力。 可能我只是跟它打个招呼,就花掉很多token。让它执行一个长周期任务,反而不怎么消耗token。 有用户在外网论坛上直接把新限制称为“骗局”,称单个prompt就消耗了13%的配额,某些Gemini AI Plus功能一次能烧掉将近30%。 那为什么Gemini 3.5 Flash表现会这么一般? 答案藏在benchmark里,Flash的表现非常不均衡。 Gemini 3.5 Flash在Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld这类Agent、工具调用、代码执行榜单上表现不错。Terminal-Bench 2.1拿到76.2%,MCP Atlas拿到83.6%,都算是头部成绩。 这些榜单测的是模型能不能按照指令调用工具、执行命令、完成多步骤操作。Flash在这些方面确实有优势。 但在更接近“聪明不聪明”的综合推理榜上,它的表现就有点难看了。 Humanity‘s Last Exam是40.2%,低于Gemini 3.1 Pro的44.4%和Claude Opus 4.7的46.9%。ARC-AGI-2是72.1%,低于Gemini 3.1 Pro的77.1%和GPT-5.5的84.6%。GDPval-AA也低于Claude Opus和GPT-5.5。 也就是说,Gemini 3.5 Flash有点“蠢”。你给它任务它能去干活,但它“智力不够”。它做不了现在最火的复杂推理、长链分析、创意判断。 记忆方面也有问题。 在谷歌的宣传中,Gemini 3.5 Flash有最高1M token上下文。但模型卡里的MRCR v2长上下文测试显示,128k平均成绩是77.3%,到1M pointwise只有26.6%。 Gemini 3.5 Flash虽然能一口吃下很多内容,但是到用的时候就开始糊涂了。 Artificial Analysis的独立测试直接打脸谷歌。 在编程指数(Coding Index)上,Artificial Analysis给Flash打了45.0分,低于Gemini 3.1 Pro的56.5分,更远低于GPT-5.5。 02 Gemini污染了谷歌的入口,导致模型问题会污染Google的所有产品体验 谷歌I/O 2026上,皮查伊宣布,Gemini是谷歌全产品宇宙的连接层。 也就是说,Gemini 3.5 Flash嵌入到了谷歌绝大多数产品里。 外媒表示,“Gemini正在变得无法避开”。 过去,一个AI不好用,你可以不用。你觉得ChatGPT不行,可以换Claude,还觉得不好你可以压根不用AI。 但谷歌把Gemini放进所有入口以后,Gemini 3.5 Flash的糟糕体验,污染了谷歌所有产品。 最典型的例子是AI Overview和AI Mode的“disregard/ignore/stop”故障。 用户搜索“