智能AI morning

小龙虾彻底凉了?清华团队连夜开源Agent神器,Token成本狂降70%!

2026-05-28 1 阅读 新智元
新智元报道 【新智元导读】 刚刚,清华团队开源硬核Agent系统PilotDeck,在开发者圈已经传疯了。项目独立建舱,记忆可视可改,Token还能省一大半。从此,一个人,就是一支AI军团! 龙虾凉了? 曾经2026年初爆火全国的OpenClaw,已经降温了。 身边曾经通宵魔改OpenClaw的朋友们,已经把它默默打入了冷宫。这个曾经以史上最快速度在GitHub上爆火的项目,如今声量几乎掉到了冰点。 小龙虾可能已经完成了历史使命——它像飓风一般,第一次把Agent的范式真正吹进了大众视野,让所有人明白:AI不只是个陪聊的Chatbot,它是能主动替你干活的。 但它没能成为Linux。因为跑得太快,它还没来得及建立起足够深的代码壁垒和生态,就被拍在了沙滩上。 所以,那些真正需要靠Agent搞生产力的人,现在在用什么时髦的新工具? 最近,一个名为PilotDeck的智能体操作系统,在圈内低调上线了。 这项技术由清华大学THUNLP实验室、面壁智能、OpenBMB与AI9stars联合研发并开源。 如 果说OpenClaw是一个极客浪漫主义的「大玩具」,那么 这位「清华系高材生」 ,就是可以把隔壁小龙虾拍在沙滩上的,真 正面向纯粹生产力的「智能体协作舱」 。 从奶茶店到数据大屏,跨度大到离谱 它和那些浅尝辄止的初代Agent有什么区别,让我们来看几个非常直观的测试。 我们同时开了两个WorkSpace,一个做游戏,一个做数据可视化。同时跑,看它能不能扛住。 第一个WorkSpace,丢进去一句话。 「做一个模拟经营奶茶店的小游戏。要有进货、定价、排队系统,顾客会根据价格和口碑决定买不买。」 输入prompt后,它就生成了一个非常详细的奶茶模拟店经营游戏计划。 PilotDeck拆解了游戏设计中的核心循环,设计了5款奶茶的产品线,还自己设计了进货系统、定价系统、顾客与排队系统、财务系统等等。 在技术实现中,它提前构想好了清新卡片风的UI布局,写出了关键的JS模块和实现步骤。 最终,一个奶茶游戏就可以在线试玩了! 第二个WorkSpace,完全不同方向。 「这里有一组全球AI公司融资数据,帮我做一个互动式数据可视化大屏,要有动画效果,鼠标悬停能看详情。」 在这个任务中,PilotDeck用四个图,分别展示了融资总额TOP 10,北美/欧洲/亚洲地区融资占比,通用AI/企业AI/生成式AI赛道分布等等。 最终生成的可视化大屏,非常清晰地展示了各区的AI公司融资数据。 两个任务同时跑。一个在写游戏逻辑,一个在画图表。互不干扰。 跑完之后我们又加了一个纯好玩的。 「做一个程序员性格测试,10道题,测出来你是哪种程序员人格,要有结果页和分享卡片。」 PilotDeck生成了非常贴近真实开发场景的10道选择题,并且分为了架构师?️/ 搬砖侠?/ 完美主义者✨/魔法师?/ 布道师?/ 哲学家?6种人格。 视觉风格是GitHub暗色主题和JetBrains Mono等宽字体,科技感十足。 测完10道题,最后结果显示,本人是搬砖侠实锤了。 从经营游戏到数据大屏到社交小应用,跨度大到离谱。 但在PilotDeck里,每个都是独立的WorkSpace,各跑各的。 别人隔离文件夹,它隔离整个世界 跑完之后,我们做了一件更有意思的事,分别打开两个项目的Memory面板。 奶茶店项目的记忆里,存的是游戏逻辑、UI风格、玩法参数。 数据大屏项目的记忆里,存的是图表类型、配色方案、数据处理逻辑。 两边没有一条记忆串台。 这才是PilotDeck的WorkSpace和别家最根本的区别。 虽然Claude Cowork引入了Projects做项目隔离,Cursor也有Workspace,但它们的隔离本质上还是「文件夹+规则」,记忆看不见改不了,技能不会随着使用越多越进化,成本分不清哪个项目花了多少。 PilotDeck给每个项目建的是一个完整的「工作舱」,舱里有三层。 · 专属文件系统: 哪些文件归这个项目、AI生成了什么,边界清楚。 · 专属记忆: Project Memory记项目定义和进度,Collaboration Feedback记你的偏好。全都看得见、改得了、追得到来源。 · 专属技能: Skill应用商店一键装到对应WorkSpace,给做游戏的舱装game-asset-finder,给写文档的舱装minimax-pdf。 别家的WorkSpace是文件夹加静态规则。PilotDeck的WorkSpace是AI的完整生存环境。 Token账单砍了一半,效果没掉 Agent工具有个公开的秘密,虽然用起来很爽,账单一出却很吓人。 全程调最强模型跑任务,Token烧起来比打车还贵。 很多人的应对策略是手动切模型,简单问题用便宜的,复杂问题换贵的。但这个切换成本本身就很烦。 PilotDeck做了一套智能路由,而且做法和市面上的方案不太一样。 先说最关键的一个设计决策。 大部分路由方案是按request级别切的,每一次请求都单独判断走哪个模型。 这么做的问题是,模型频繁切换会打断KV-cache,相当于每次换模型都要重新「读档」,推理效率反而下降。 PilotDeck的路由是在子Agent层面做的。 一个复杂任务拆成多个子任务后,整个子Agent分配给一个模型跑到底,这个子Agent内部的上下文缓存是连续的。 省的不只是token的钱,还有来回切换带来的性能损耗。 然后,是调度规则。 相比于写死的路由方案,比如「贵模型做难题、便宜模型做简单题」,PilotDeck要灵活得多。 它支持用规则和prompt来调节路由策略,你可以自己定义什么类型的任务走什么模型,甚至用自然语言告诉它「代码相关的子任务都走Claude Opus,文本处理走便宜模型」。 打开Routing面板,每个session被判定为什么难度(complex / simple / medium)、实际花了多少、不开路由要花多少,全都列在那儿。 比如在我们跑的几个任务中,可以看到在程序员人格测试应用中,不开路由要花费10.97美元,开路由后实际只花了1.42美元,一下子就省出了75%(9.55美元)。 研究团队在更大规模的测试里也验证了这个效果。 社交媒体场景(小红书内容生成),开路由花2.83美元,不开路由12.58美元,省了约70%。 复杂任务场景(播客多语言、金融分析、代码文档等),主Sonnet 4.6 + 子MiniMax-M2.7花3.15美元、得分70.6,单体Sonnet 4.6花18.36美元、得分69.1。虽然只有1/6的价格,但效果还略好一点。 如果只想要效果拉满,那完全可以把路由关掉,全程跑最强模型,选择权都在你手里。 而且,路由的能力还不止于此。 PilotDeck可以接本地部署的模型做子Agent,敏感数据不出本机。 有些任务它甚至会自己判断需要什么工具,自动部署一个端侧模型来干活,比如播客多语言处理时,它会自己装一个VoxCPM来生成语音。 也可以云端模型负责思考,本地模型负责执行,这样,就把省钱和隐私一起解决了。 打开AI的大脑,逐条改 如今,Agent的记忆已经不再是原来的那种黑盒。 但很多时候,AI记住了什么、什么时候记的、记对了