小龙虾彻底凉了？清华团队连夜开源Agent神器，Token成本狂降70%！

新智元报道【新智元导读】刚刚，清华团队开源硬核Agent系统PilotDeck，在开发者圈已经传疯了。项目独立建舱，记忆可视可改，Token还能省一大半。从此，一个人，就是一支AI军团！龙虾凉了？曾经2026年初爆火全国的OpenClaw，已经降温了。身边曾经通宵魔改OpenClaw的朋友们，已经把它默默打入了冷宫。这个曾经以史上最快速度在GitHub上爆火的项目，如今声量几乎掉到了冰点。小龙虾可能已经完成了历史使命——它像飓风一般，第一次把Agent的范式真正吹进了大众视野，让所有人明白：AI不只是个陪聊的Chatbot，它是能主动替你干活的。但它没能成为Linux。因为跑得太快，它还没来得及建立起足够深的代码壁垒和生态，就被拍在了沙滩上。所以，那些真正需要靠Agent搞生产力的人，现在在用什么时髦的新工具？最近，一个名为PilotDeck的智能体操作系统，在圈内低调上线了。这项技术由清华大学THUNLP实验室、面壁智能、OpenBMB与AI9stars联合研发并开源。如果说OpenClaw是一个极客浪漫主义的「大玩具」，那么这位「清华系高材生」，就是可以把隔壁小龙虾拍在沙滩上的，真正面向纯粹生产力的「智能体协作舱」。从奶茶店到数据大屏，跨度大到离谱它和那些浅尝辄止的初代Agent有什么区别，让我们来看几个非常直观的测试。我们同时开了两个WorkSpace，一个做游戏，一个做数据可视化。同时跑，看它能不能扛住。第一个WorkSpace，丢进去一句话。「做一个模拟经营奶茶店的小游戏。要有进货、定价、排队系统，顾客会根据价格和口碑决定买不买。」输入prompt后，它就生成了一个非常详细的奶茶模拟店经营游戏计划。 PilotDeck拆解了游戏设计中的核心循环，设计了5款奶茶的产品线，还自己设计了进货系统、定价系统、顾客与排队系统、财务系统等等。在技术实现中，它提前构想好了清新卡片风的UI布局，写出了关键的JS模块和实现步骤。最终，一个奶茶游戏就可以在线试玩了！第二个WorkSpace，完全不同方向。「这里有一组全球AI公司融资数据，帮我做一个互动式数据可视化大屏，要有动画效果，鼠标悬停能看详情。」在这个任务中，PilotDeck用四个图，分别展示了融资总额TOP 10，北美/欧洲/亚洲地区融资占比，通用AI/企业AI/生成式AI赛道分布等等。最终生成的可视化大屏，非常清晰地展示了各区的AI公司融资数据。两个任务同时跑。一个在写游戏逻辑，一个在画图表。互不干扰。跑完之后我们又加了一个纯好玩的。「做一个程序员性格测试，10道题，测出来你是哪种程序员人格，要有结果页和分享卡片。」 PilotDeck生成了非常贴近真实开发场景的10道选择题，并且分为了架构师?️/ 搬砖侠?/ 完美主义者✨/魔法师?/ 布道师?/ 哲学家?6种人格。视觉风格是GitHub暗色主题和JetBrains Mono等宽字体，科技感十足。测完10道题，最后结果显示，本人是搬砖侠实锤了。从经营游戏到数据大屏到社交小应用，跨度大到离谱。但在PilotDeck里，每个都是独立的WorkSpace，各跑各的。别人隔离文件夹，它隔离整个世界跑完之后，我们做了一件更有意思的事，分别打开两个项目的Memory面板。奶茶店项目的记忆里，存的是游戏逻辑、UI风格、玩法参数。数据大屏项目的记忆里，存的是图表类型、配色方案、数据处理逻辑。两边没有一条记忆串台。这才是PilotDeck的WorkSpace和别家最根本的区别。虽然Claude Cowork引入了Projects做项目隔离，Cursor也有Workspace，但它们的隔离本质上还是「文件夹+规则」，记忆看不见改不了，技能不会随着使用越多越进化，成本分不清哪个项目花了多少。 PilotDeck给每个项目建的是一个完整的「工作舱」，舱里有三层。 · 专属文件系统：哪些文件归这个项目、AI生成了什么，边界清楚。 · 专属记忆： Project Memory记项目定义和进度，Collaboration Feedback记你的偏好。全都看得见、改得了、追得到来源。 · 专属技能： Skill应用商店一键装到对应WorkSpace，给做游戏的舱装game-asset-finder，给写文档的舱装minimax-pdf。别家的WorkSpace是文件夹加静态规则。PilotDeck的WorkSpace是AI的完整生存环境。 Token账单砍了一半，效果没掉 Agent工具有个公开的秘密，虽然用起来很爽，账单一出却很吓人。全程调最强模型跑任务，Token烧起来比打车还贵。很多人的应对策略是手动切模型，简单问题用便宜的，复杂问题换贵的。但这个切换成本本身就很烦。 PilotDeck做了一套智能路由，而且做法和市面上的方案不太一样。先说最关键的一个设计决策。大部分路由方案是按request级别切的，每一次请求都单独判断走哪个模型。这么做的问题是，模型频繁切换会打断KV-cache，相当于每次换模型都要重新「读档」，推理效率反而下降。 PilotDeck的路由是在子Agent层面做的。一个复杂任务拆成多个子任务后，整个子Agent分配给一个模型跑到底，这个子Agent内部的上下文缓存是连续的。省的不只是token的钱，还有来回切换带来的性能损耗。然后，是调度规则。相比于写死的路由方案，比如「贵模型做难题、便宜模型做简单题」，PilotDeck要灵活得多。它支持用规则和prompt来调节路由策略，你可以自己定义什么类型的任务走什么模型，甚至用自然语言告诉它「代码相关的子任务都走Claude Opus，文本处理走便宜模型」。打开Routing面板，每个session被判定为什么难度（complex / simple / medium）、实际花了多少、不开路由要花多少，全都列在那儿。比如在我们跑的几个任务中，可以看到在程序员人格测试应用中，不开路由要花费10.97美元，开路由后实际只花了1.42美元，一下子就省出了75%（9.55美元）。研究团队在更大规模的测试里也验证了这个效果。社交媒体场景（小红书内容生成），开路由花2.83美元，不开路由12.58美元，省了约70%。复杂任务场景（播客多语言、金融分析、代码文档等），主Sonnet 4.6 + 子MiniMax-M2.7花3.15美元、得分70.6，单体Sonnet 4.6花18.36美元、得分69.1。虽然只有1/6的价格，但效果还略好一点。如果只想要效果拉满，那完全可以把路由关掉，全程跑最强模型，选择权都在你手里。而且，路由的能力还不止于此。 PilotDeck可以接本地部署的模型做子Agent，敏感数据不出本机。有些任务它甚至会自己判断需要什么工具，自动部署一个端侧模型来干活，比如播客多语言处理时，它会自己装一个VoxCPM来生成语音。也可以云端模型负责思考，本地模型负责执行，这样，就把省钱和隐私一起解决了。打开AI的大脑，逐条改如今，Agent的记忆已经不再是原来的那种黑盒。但很多时候，AI记住了什么、什么时候记的、记对了

订阅66必读