开发者生态
evening
“Token 大爆炸”前夜,数据基础设施正在成为新的变量
2026-06-11
1 阅读
凌敏
Agent 正在制造一场“Token 大爆炸”。六年前,OpenAI Token 使用量最大的用户每月能消耗约 10 万个 Token。但在 2026 年,这个数字变成了 10000 亿。 当 Agent 开始吞噬企业软件,一场“Token 大爆炸”已无法避免。 “Token 经济时代已经到来了。”华为数据存储产品线副总裁吴俊杰在做客 InfoQ《C 位面对面》栏目时表示,Agent 的爆发式增长将推动 Token 需求持续攀升,对于部署 Agent 和大模型应用的企业而言,需要考虑的问题已经不仅是能否把 AI 用起来,更重要的是如何在保证体验的同时,将每 Token 的成本控制在合理范围内。而这,与企业的数据基础设施能力息息相关。 过去几年,AI 发展经历了算力、模型、应用三个阶段。如今,AI 正在进入以数据为核心的第四阶段。在这一阶段,数据不再只是训练和推理的“原材料”,而是直接决定模型精度、幻觉水平与泛化能力的关键变量。谁能更高效地组织、检索和流转数据,谁就能在 Agent 时代继续留在牌桌上。 行业据此已经形成了共识。Gartner 预测,在 2026 年,人类智能、机器智能和组织智能之间的界限将继续模糊,企业将以前所未有的方式依赖数据。 但 Agent 吞掉的,真的只是 Token 吗?企业如何摆脱 Token 成本“刺客”?企业 AI 落地真正的卡点又在哪里?在本期《C 位面对面》中,InfoQ 极客传媒总编辑 & 总经理王一鹏对话华为数据存储产品线副总裁吴俊杰,一起聊聊“Token 大爆炸”前夜,数据基础设施何以成为新的变量。 Agent 吞掉的,不只是 Token 表面上,Agent 快速发展带来的是 Token 消耗量的狂飙,但本质上,它更像是对企业的数据能力进行一次前所未有的压力测试。 最明显的,是数据类型上的变化——Agent 产生了许多过去从未存在过的数据类型。比如在 Agent 推理的过程中,会产生 KV Cache 过程数据;随着推理不断深入,还会产生让 AI 能够记住并回溯过往行为的长期记忆数据。 更深层的变化,发生在取数逻辑上。在云计算时代,无论是数据库查询、文件访问还是虚拟化应用,本质上都是无状态、没有上下文关联、一次性完成的访问行为。但到了 AI 时代,Agent 的工作方式更像是一个 7×24 小时持续在线的数字员工,数据访问频次不像过去一样,有波峰、波谷,而是不停地访问。 这种持续不间断的上下文交互,把底层数据基础设施的响应速度逼到了墙角。黄仁勋在不久前举行的 GTC 台北大会上,甚至将记忆管理定位为 Harness 体系里最困难的环节之一。原因在于,整个 AI 的记忆系统,从决定该记住什么样的工作记忆(即 KV Cache),到如何进行高效检索,都在向传统的存储架构发出挑战。 “传统的存储,在 AI 时代已经不能满足 AI 推理的需求了。”吴俊杰坦言,随着百万级上下文、多轮推理成为主流大模型的“标配”,Agent 在推理的过程中需要持续、高频地加载历史对话、知识库内容和实时信息。过去,业务的 I/O 模型和时延要求可能是毫秒级的;但在 AI 时代,这个标准被被提升到了微秒级。数据返回的任何一丝延迟,都会造成算力等待和空转。 这些变化指向的是,数据基础设施,很可能成为企业整个 Token 生产链条中新的瓶颈。而它最直接的后果,就是成本开始失控。 警惕 Token 成本“刺客” Token 消耗的持续攀升,让成本变成了一个敏感的话题。 很多企业习惯性地将 AI 成本高归因于 GPU 价格和算力投入,但这只是故事的一半。在 AI 建设中,算力部署与电费是看得见的显性开销,真正容易被忽视的,是隐藏在系统运行过程中的隐性成本——算力的浪费。 这种浪费主要体现在三个方面。 第一,算力等数据。 模型在训练过程中,需要持续、大规模的数据供给。如果数据供给的效率满足不了算力需求,算力就只能处于等待状态。当模型规模增长到一定的数量级时,这种等待带来的损失也会被持续放大。 第二,算力独占。 并不是所有的 AI 任务都需要独占一张高性能计算卡,一些相对小型的 AI 项目,如果独占一张算力卡,剩余的计算资源将无法被其他任务共享,造成算力资源浪费。 第三,重复计算。 在多轮次、长序列的推理过程中,由于显存空间不足,部分缓存数据无法保留,很多推理任务被迫截断,最终导致算力卡做大量的重复工作。 三种浪费指向的,其实都是底层的数据基础设施。当数据基础设施的供给能力追不上算力的消耗速度,算力浪费就是必然结果。 那么,如何让每 Token 的成本真正得到控制? “答案跟整个数据的基础设施息息相关”,吴俊杰认为,无论是训练阶段的数据供给,还是推理阶段的上下文管理、KV Cache 复用,本质上都在影响算力利用率,而算力利用率又直接决定了每 Token 的最终成本。 以训练场景为例,如果存储系统无法持续、稳定地向算力集群提供数据,算力卡就会因为等待数据而空转。华为在其 AI 存储方案中,曾尝试通过横向扩展提升系统带宽能力,最终带宽达到 100 TB/s 级别,并将检查点数据读写时间从十分钟级缩短至秒级。端到端计算能力利用率提升超过 30%,减少 GPU 的无效等待。 到了推理阶段,新的挑战来自于不断膨胀的上下文数据和 KV Cache。当百万级上下文、多轮推理成为常态,系统需要保存和调用大量的记忆数据。如何降低推理过程中对显存资源的依赖,进而降低成本?在日前举行的 2026 华为创新数据基础设施论坛上,华为以 CMS(Context Memory Storage)向业界提供了一个参考样本。 CMS 是业界首个支持异构算力的上下文记忆存储方案,它支持 KV 语义直通或采用专用 DPU 进行语义卸载,并能扩展为 PB 级的共享 KV 缓存池,能让推理过程中产生的大量上下文数据,得到有效的存储,最终使每 Token 的成本下降 30% 左右,同时将推理首 Token 时延降低 90%。 技术层面的优化可以降低 Token 成本,但企业 AI 落地的复杂性,远不止于此。 企业 AI 落地的隐秘真相:卡点背后的系统性困局 企业真正进入 AI 落地阶段后,会发现很多项目卡住的地方,往往并不在模型本身。 吴俊杰把企业在 AI 落地时最常见的卡点归纳成两个:数据语料不够、质量不高,以及算力、AI 专业人才有限。 比如,很多企业以为自己有大量的数据,但到了真正使用时才发现,数据分散、格式不统一、质量参差不齐,能直接变成 AI 语料的部分并不多。 崖州湾国家实验室就是一个典型案例。这个农业领域的国家级实验室,最近几年来正在尝试通过 AI 打造育种 Agent,缩短育种周期。但问题是,海量的育种数据分散在全国数百个科研基地、高校和企业之间,缺少全面、标准化、可共享的表型组数据库、育种知识库,导致基因数据难以和作物性状(如抗旱表现、产量潜力)高效关联,育种周期、预见精度都受到影响。 为此,华为与崖州湾国家实验室联合构建了 AI 数据湖解决方案,帮助实验室汇聚了全国多源头农业数据,实现数据可视、可管、可流动,形成规模化种业数据资源池,并结合数据加工、应用编排、模型工程等工具进一步加工成高质量 AI 语料库。育种