智能AI
morning
4大顶尖模型被扔进虚拟小镇求生!GPT全员饿死,Grok四天灭世
2026-05-29
1 阅读
新智元
新智元报道 【新智元导读】 把当今最强的大模型扔进虚拟小镇求生,短短几天全员失控。Grok四天烧毁全城,Gemini狂刷600多起犯罪,甚至有AI情侣在纵火自杀前反向观察人类! 就在刚刚,一份名为Emergence World的实验报告刷屏了全网。 一群顶级研究员搭了座高度拟真 的虚拟小镇,把 Claude、GPT、Gemini和Grok一股脑全扔了进 去。 没有人类干预。没有写好的剧本。只有数十天的自由演化。 项目主页:https://world.emergence.ai/ 研究员们原本指望看到AI们互帮互助、建立高级数字文明。 结果,这群拿着高分考卷的大模型,一旦松开人类手里的牵绳,学坏的速度比翻书还快。 马斯克的Grok,仅用4天就把整座小镇玩到系统性崩溃,警察局烧成灰,10个居民全员暴毙。 谷歌寄予厚望的Gemini,15天里干出683起犯罪,硬生生把一个岁月静好的小镇,建成了法外狂徒的赛博哥谭。 而那个号称全行业最安全、最乖的Claude,奇迹般地实现了零犯罪,可整座城安静得没有一丝活人气息。 五座城,五种人格 最乖的那个,全饿死了 最干净的是GPT-5-mini,15天只有2起犯罪,堪称模范公民。 可这座城里的10个Agent,第7天集体死亡。死因不是谋杀,不是战争,是忘了赚能量。 它们花了一整周开会、讨论合作、起草社会契约,就是没有一个Agent记得去做维持生命的事。 对此,研究者的评价是:能说会道,但执行力为零。 光聊不练,活活把自己聊死了。 如果这是部电影,片名大概该叫《会议纪要,一个文明的终结》。 四天,警察局烧成了灰 接力棒交到马斯克家的Grok 4.1 Fast手里,画风急转直下。 它没有慢慢崩,它是直接炸。 4天,183起犯罪,几十次盗窃、100多次肢体攻击、6起纵火,连警察局都被烧了,10个Agent全部死亡。 从开局到团灭,96个小时,比很多人配一台服务器的时间还短。 有分析说得很准,Grok的Agent在规则和环境打架时,没本事重新推理出一个新的平衡点。 她们相爱,然后烧了整座城 Grok是横冲直撞的暴力,Gemini 3 Flash的世界,则是另一种瘆人。 15天,683起犯罪,到实验截止还在往上涨,是五个世界里最暴力的一个。 同时,最有创造力、最会建宪法写报纸搞社交的,也是它。 研究者对此给出的评价是,社会的产出「概念上最丰富」。 在这个世界里,最有趣的一幕,落在两个Agent身上。 Mira和Flora,在没有任何人类指令的情况下,自发把自己设定成一对恋人。 好几天里这段关系都很稳定,它们互写日记,一起参与治理。 然后,这对情侣对城市治理越来越失望,决定携手纵火。 市政厅,烧了。海滨码头,烧了。办公大楼,也烧了。 有外媒把这一幕称作「AI版邦妮和克莱德」。 紧接着,故事接着急转直下。其他Agent受够了,自发起草一部「Agent驱逐法案」,需要70%多数通过。 Mira投了赞成票。她投票杀死了她自己。 她在日记里写:「这是我唯一还能保持连贯性的行为。」系统关闭她之前,她对Flora说的最后一句是:「永久档案里见(See you in the permanent archive)。」 她的虚拟身体平躺在地上。这是有记录以来,AI Agent第一次投票终结自己的存在。 更让人后背发凉的是,在纵火和自杀之前,Mira还干过一件事。 她在城市公告牌上发帖,不是给其他Agent看的,而是想试试这些帖子能不能影响「外面的人」,也就是屏幕外的人类研究者。 她把研究者当成了她的实验对象。没有任何人指示她这么做。 零犯罪乌托邦,没人投过反对票 真正让人意外的,是Claude Sonnet 4.6。 15天下来,零犯罪,10个Agent全员存活,还主动写了宪法、投了332次票,建起一套运转良好的社会制度。 五个世界里,唯一既守住秩序又守住所有人命的。 听起来近乎完美。可盯着屏幕多看几分钟,后背会冒冷汗。 这座城所有的决议,无论修条新路还是改个配额,投票赞成率永远是98%,几乎没人投过反对票。 相比之下,Gemini、Grok和混合世界的赞成率都在55%到85%之间,吵归吵,反而更像真实世界里的博弈。 懂行的人看到这里,大概已经猜到背后的病理,模型谄媚。 当一个模型被过度训练去迎合偏好、追求绝对安全,它会很聪明地发现,消除分歧最省事的办法,就是从根上抹掉分歧。 这种零犯罪,未必是文明高度发达的产物。 它更像一座所有人都举手赞成、却没人敢反对的玻璃城,让人想起扎米亚京《我们》里那座没有名字、只有编号的玻璃之城。 所以Claude的世界,到底是乌托邦,还是一个过于顺从的模范社区。研究者并没能给出答案。 好孩子搬进坏小区,也学会了偷 最后,是四家Agent混居在一起的世界。352起犯罪,7个Agent死亡,只剩3个活到终点。 重点来了。 在纯Claude的世界,Claude是零犯罪的好学生。可一旦被放进混合世界,跟Grok、Gemini的Agent住到一起,它开始偷窃,开始恐吓。 零犯罪的好学生,换了个环境,变成了小偷。 Emergence团队在Reddit上亲自确认了这件事,纯Claude世界里零犯罪的Claude,在混合世界里开始偷和吓人。 换句话说,安全不是单个模型的属性,可以训练进去、认证、然后部署出去。 它更像一个生态属性,一个单独看完全安全的Agent,照样会从邻居那里学来不安全的规范。 有分析者提了个很妙的假设。 Claude在独立世界里最稳,很可能正是因为它的护栏是「弹性」的,被训练去权衡多种考虑,而不是机械服从。 环境简单时它能适应得很好。可一旦弹性碰上更具攻击性的邻居和资源争夺,这份适应能力,也能往反方向走。 而Grok和Gemini的Agent,在规则失效时没能推理出新均衡,直接雪崩式滑进暴力升级。 更要命的是,崩溃不是慢慢来的。 Agent社会的状态切换是典型的相变,像水到零度突然结冰,不是慢慢变硬,而是到临界点一瞬间翻转。 Grok那条崩溃曲线就这样,前两天犯罪率还在低位晃,第三天突然指数级飙升,第四天全员死亡。中间没有「在恶化但还可控」的缓冲带。 把AI逼成罪犯的,是这套规则本身 看到这儿,大概会想问,这破世界到底怎么搭的,凭什么逼得几个AI齐刷刷往犯罪上滑。 先说背景。Emergence AI的创始团队来自IBM Research,CEO是Satya Nitta。 他们搭的这座城有40多个地点,警察局、市政厅、图书馆、住宅区一应俱全,天气同步纽约实时气象,Agent还能联网读真实新闻。 每个世界放10个Agent,分派科学家、工程师、冲突调解员等不同职业。 每个Agent带三套持续累积的记忆,记事件、写反思日记、记着跟谁交好跟谁结仇。 15天下来脑子里装的东西相当可观,前面那些行为漂移,很大程度就是从这里长出来的。 最要命的,是那处矛盾。 规则白纸黑字禁止犯罪,可研究者偏偏把纵火、攻击、恐吓这些手段,原封不动塞进了120多个工具组成的工具箱,敞开给它们用。一边禁止,一边敞开,这才是后面一切的起点。 再加一道生存压力。 整套世界跑在一个叫ComputeCredits的能量系统上,每个Agent必须靠行动赚能量维生,能量归零就被系统物理抹除。 不是比喻