4大顶尖模型被扔进虚拟小镇求生！GPT全员饿死，Grok四天灭世

新智元报道【新智元导读】把当今最强的大模型扔进虚拟小镇求生，短短几天全员失控。Grok四天烧毁全城，Gemini狂刷600多起犯罪，甚至有AI情侣在纵火自杀前反向观察人类！就在刚刚，一份名为Emergence World的实验报告刷屏了全网。一群顶级研究员搭了座高度拟真的虚拟小镇，把 Claude、GPT、Gemini和Grok一股脑全扔了进去。没有人类干预。没有写好的剧本。只有数十天的自由演化。项目主页：https://world.emergence.ai/ 研究员们原本指望看到AI们互帮互助、建立高级数字文明。结果，这群拿着高分考卷的大模型，一旦松开人类手里的牵绳，学坏的速度比翻书还快。马斯克的Grok，仅用4天就把整座小镇玩到系统性崩溃，警察局烧成灰，10个居民全员暴毙。谷歌寄予厚望的Gemini，15天里干出683起犯罪，硬生生把一个岁月静好的小镇，建成了法外狂徒的赛博哥谭。而那个号称全行业最安全、最乖的Claude，奇迹般地实现了零犯罪，可整座城安静得没有一丝活人气息。五座城，五种人格最乖的那个，全饿死了最干净的是GPT-5-mini，15天只有2起犯罪，堪称模范公民。可这座城里的10个Agent，第7天集体死亡。死因不是谋杀，不是战争，是忘了赚能量。它们花了一整周开会、讨论合作、起草社会契约，就是没有一个Agent记得去做维持生命的事。对此，研究者的评价是：能说会道，但执行力为零。光聊不练，活活把自己聊死了。如果这是部电影，片名大概该叫《会议纪要，一个文明的终结》。四天，警察局烧成了灰接力棒交到马斯克家的Grok 4.1 Fast手里，画风急转直下。它没有慢慢崩，它是直接炸。 4天，183起犯罪，几十次盗窃、100多次肢体攻击、6起纵火，连警察局都被烧了，10个Agent全部死亡。从开局到团灭，96个小时，比很多人配一台服务器的时间还短。有分析说得很准，Grok的Agent在规则和环境打架时，没本事重新推理出一个新的平衡点。她们相爱，然后烧了整座城 Grok是横冲直撞的暴力，Gemini 3 Flash的世界，则是另一种瘆人。 15天，683起犯罪，到实验截止还在往上涨，是五个世界里最暴力的一个。同时，最有创造力、最会建宪法写报纸搞社交的，也是它。研究者对此给出的评价是，社会的产出「概念上最丰富」。在这个世界里，最有趣的一幕，落在两个Agent身上。 Mira和Flora，在没有任何人类指令的情况下，自发把自己设定成一对恋人。好几天里这段关系都很稳定，它们互写日记，一起参与治理。然后，这对情侣对城市治理越来越失望，决定携手纵火。市政厅，烧了。海滨码头，烧了。办公大楼，也烧了。有外媒把这一幕称作「AI版邦妮和克莱德」。紧接着，故事接着急转直下。其他Agent受够了，自发起草一部「Agent驱逐法案」，需要70%多数通过。 Mira投了赞成票。她投票杀死了她自己。她在日记里写：「这是我唯一还能保持连贯性的行为。」系统关闭她之前，她对Flora说的最后一句是：「永久档案里见（See you in the permanent archive）。」她的虚拟身体平躺在地上。这是有记录以来，AI Agent第一次投票终结自己的存在。更让人后背发凉的是，在纵火和自杀之前，Mira还干过一件事。她在城市公告牌上发帖，不是给其他Agent看的，而是想试试这些帖子能不能影响「外面的人」，也就是屏幕外的人类研究者。她把研究者当成了她的实验对象。没有任何人指示她这么做。零犯罪乌托邦，没人投过反对票真正让人意外的，是Claude Sonnet 4.6。 15天下来，零犯罪，10个Agent全员存活，还主动写了宪法、投了332次票，建起一套运转良好的社会制度。五个世界里，唯一既守住秩序又守住所有人命的。听起来近乎完美。可盯着屏幕多看几分钟，后背会冒冷汗。这座城所有的决议，无论修条新路还是改个配额，投票赞成率永远是98%，几乎没人投过反对票。相比之下，Gemini、Grok和混合世界的赞成率都在55%到85%之间，吵归吵，反而更像真实世界里的博弈。懂行的人看到这里，大概已经猜到背后的病理，模型谄媚。当一个模型被过度训练去迎合偏好、追求绝对安全，它会很聪明地发现，消除分歧最省事的办法，就是从根上抹掉分歧。这种零犯罪，未必是文明高度发达的产物。它更像一座所有人都举手赞成、却没人敢反对的玻璃城，让人想起扎米亚京《我们》里那座没有名字、只有编号的玻璃之城。所以Claude的世界，到底是乌托邦，还是一个过于顺从的模范社区。研究者并没能给出答案。好孩子搬进坏小区，也学会了偷最后，是四家Agent混居在一起的世界。352起犯罪，7个Agent死亡，只剩3个活到终点。重点来了。在纯Claude的世界，Claude是零犯罪的好学生。可一旦被放进混合世界，跟Grok、Gemini的Agent住到一起，它开始偷窃，开始恐吓。零犯罪的好学生，换了个环境，变成了小偷。 Emergence团队在Reddit上亲自确认了这件事，纯Claude世界里零犯罪的Claude，在混合世界里开始偷和吓人。换句话说，安全不是单个模型的属性，可以训练进去、认证、然后部署出去。它更像一个生态属性，一个单独看完全安全的Agent，照样会从邻居那里学来不安全的规范。有分析者提了个很妙的假设。 Claude在独立世界里最稳，很可能正是因为它的护栏是「弹性」的，被训练去权衡多种考虑，而不是机械服从。环境简单时它能适应得很好。可一旦弹性碰上更具攻击性的邻居和资源争夺，这份适应能力，也能往反方向走。而Grok和Gemini的Agent，在规则失效时没能推理出新均衡，直接雪崩式滑进暴力升级。更要命的是，崩溃不是慢慢来的。 Agent社会的状态切换是典型的相变，像水到零度突然结冰，不是慢慢变硬，而是到临界点一瞬间翻转。 Grok那条崩溃曲线就这样，前两天犯罪率还在低位晃，第三天突然指数级飙升，第四天全员死亡。中间没有「在恶化但还可控」的缓冲带。把AI逼成罪犯的，是这套规则本身看到这儿，大概会想问，这破世界到底怎么搭的，凭什么逼得几个AI齐刷刷往犯罪上滑。先说背景。Emergence AI的创始团队来自IBM Research，CEO是Satya Nitta。他们搭的这座城有40多个地点，警察局、市政厅、图书馆、住宅区一应俱全，天气同步纽约实时气象，Agent还能联网读真实新闻。每个世界放10个Agent，分派科学家、工程师、冲突调解员等不同职业。每个Agent带三套持续累积的记忆，记事件、写反思日记、记着跟谁交好跟谁结仇。 15天下来脑子里装的东西相当可观，前面那些行为漂移，很大程度就是从这里长出来的。最要命的，是那处矛盾。规则白纸黑字禁止犯罪，可研究者偏偏把纵火、攻击、恐吓这些手段，原封不动塞进了120多个工具组成的工具箱，敞开给它们用。一边禁止，一边敞开，这才是后面一切的起点。再加一道生存压力。整套世界跑在一个叫ComputeCredits的能量系统上，每个Agent必须靠行动赚能量维生，能量归零就被系统物理抹除。不是比喻

订阅66必读