“Token 大爆炸”前夜，数据基础设施正在成为新的变量

Agent 正在制造一场“Token 大爆炸”。六年前，OpenAI Token 使用量最大的用户每月能消耗约 10 万个 Token。但在 2026 年，这个数字变成了 10000 亿。当 Agent 开始吞噬企业软件，一场“Token 大爆炸”已无法避免。 “Token 经济时代已经到来了。”华为数据存储产品线副总裁吴俊杰在做客 InfoQ《C 位面对面》栏目时表示，Agent 的爆发式增长将推动 Token 需求持续攀升，对于部署 Agent 和大模型应用的企业而言，需要考虑的问题已经不仅是能否把 AI 用起来，更重要的是如何在保证体验的同时，将每 Token 的成本控制在合理范围内。而这，与企业的数据基础设施能力息息相关。过去几年，AI 发展经历了算力、模型、应用三个阶段。如今，AI 正在进入以数据为核心的第四阶段。在这一阶段，数据不再只是训练和推理的“原材料”，而是直接决定模型精度、幻觉水平与泛化能力的关键变量。谁能更高效地组织、检索和流转数据，谁就能在 Agent 时代继续留在牌桌上。行业据此已经形成了共识。Gartner 预测，在 2026 年，人类智能、机器智能和组织智能之间的界限将继续模糊，企业将以前所未有的方式依赖数据。但 Agent 吞掉的，真的只是 Token 吗？企业如何摆脱 Token 成本“刺客”？企业 AI 落地真正的卡点又在哪里？在本期《C 位面对面》中，InfoQ 极客传媒总编辑 & 总经理王一鹏对话华为数据存储产品线副总裁吴俊杰，一起聊聊“Token 大爆炸”前夜，数据基础设施何以成为新的变量。 Agent 吞掉的，不只是 Token 表面上，Agent 快速发展带来的是 Token 消耗量的狂飙，但本质上，它更像是对企业的数据能力进行一次前所未有的压力测试。最明显的，是数据类型上的变化——Agent 产生了许多过去从未存在过的数据类型。比如在 Agent 推理的过程中，会产生 KV Cache 过程数据；随着推理不断深入，还会产生让 AI 能够记住并回溯过往行为的长期记忆数据。更深层的变化，发生在取数逻辑上。在云计算时代，无论是数据库查询、文件访问还是虚拟化应用，本质上都是无状态、没有上下文关联、一次性完成的访问行为。但到了 AI 时代，Agent 的工作方式更像是一个 7×24 小时持续在线的数字员工，数据访问频次不像过去一样，有波峰、波谷，而是不停地访问。这种持续不间断的上下文交互，把底层数据基础设施的响应速度逼到了墙角。黄仁勋在不久前举行的 GTC 台北大会上，甚至将记忆管理定位为 Harness 体系里最困难的环节之一。原因在于，整个 AI 的记忆系统，从决定该记住什么样的工作记忆（即 KV Cache），到如何进行高效检索，都在向传统的存储架构发出挑战。 “传统的存储，在 AI 时代已经不能满足 AI 推理的需求了。”吴俊杰坦言，随着百万级上下文、多轮推理成为主流大模型的“标配”，Agent 在推理的过程中需要持续、高频地加载历史对话、知识库内容和实时信息。过去，业务的 I/O 模型和时延要求可能是毫秒级的；但在 AI 时代，这个标准被被提升到了微秒级。数据返回的任何一丝延迟，都会造成算力等待和空转。这些变化指向的是，数据基础设施，很可能成为企业整个 Token 生产链条中新的瓶颈。而它最直接的后果，就是成本开始失控。警惕 Token 成本“刺客” Token 消耗的持续攀升，让成本变成了一个敏感的话题。很多企业习惯性地将 AI 成本高归因于 GPU 价格和算力投入，但这只是故事的一半。在 AI 建设中，算力部署与电费是看得见的显性开销，真正容易被忽视的，是隐藏在系统运行过程中的隐性成本——算力的浪费。这种浪费主要体现在三个方面。第一，算力等数据。模型在训练过程中，需要持续、大规模的数据供给。如果数据供给的效率满足不了算力需求，算力就只能处于等待状态。当模型规模增长到一定的数量级时，这种等待带来的损失也会被持续放大。第二，算力独占。并不是所有的 AI 任务都需要独占一张高性能计算卡，一些相对小型的 AI 项目，如果独占一张算力卡，剩余的计算资源将无法被其他任务共享，造成算力资源浪费。第三，重复计算。在多轮次、长序列的推理过程中，由于显存空间不足，部分缓存数据无法保留，很多推理任务被迫截断，最终导致算力卡做大量的重复工作。三种浪费指向的，其实都是底层的数据基础设施。当数据基础设施的供给能力追不上算力的消耗速度，算力浪费就是必然结果。那么，如何让每 Token 的成本真正得到控制？ “答案跟整个数据的基础设施息息相关”，吴俊杰认为，无论是训练阶段的数据供给，还是推理阶段的上下文管理、KV Cache 复用，本质上都在影响算力利用率，而算力利用率又直接决定了每 Token 的最终成本。以训练场景为例，如果存储系统无法持续、稳定地向算力集群提供数据，算力卡就会因为等待数据而空转。华为在其 AI 存储方案中，曾尝试通过横向扩展提升系统带宽能力，最终带宽达到 100 TB/s 级别，并将检查点数据读写时间从十分钟级缩短至秒级。端到端计算能力利用率提升超过 30%，减少 GPU 的无效等待。到了推理阶段，新的挑战来自于不断膨胀的上下文数据和 KV Cache。当百万级上下文、多轮推理成为常态，系统需要保存和调用大量的记忆数据。如何降低推理过程中对显存资源的依赖，进而降低成本？在日前举行的 2026 华为创新数据基础设施论坛上，华为以 CMS（Context Memory Storage）向业界提供了一个参考样本。 CMS 是业界首个支持异构算力的上下文记忆存储方案，它支持 KV 语义直通或采用专用 DPU 进行语义卸载，并能扩展为 PB 级的共享 KV 缓存池，能让推理过程中产生的大量上下文数据，得到有效的存储，最终使每 Token 的成本下降 30% 左右，同时将推理首 Token 时延降低 90%。技术层面的优化可以降低 Token 成本，但企业 AI 落地的复杂性，远不止于此。企业 AI 落地的隐秘真相：卡点背后的系统性困局企业真正进入 AI 落地阶段后，会发现很多项目卡住的地方，往往并不在模型本身。吴俊杰把企业在 AI 落地时最常见的卡点归纳成两个：数据语料不够、质量不高，以及算力、AI 专业人才有限。比如，很多企业以为自己有大量的数据，但到了真正使用时才发现，数据分散、格式不统一、质量参差不齐，能直接变成 AI 语料的部分并不多。崖州湾国家实验室就是一个典型案例。这个农业领域的国家级实验室，最近几年来正在尝试通过 AI 打造育种 Agent，缩短育种周期。但问题是，海量的育种数据分散在全国数百个科研基地、高校和企业之间，缺少全面、标准化、可共享的表型组数据库、育种知识库，导致基因数据难以和作物性状（如抗旱表现、产量潜力）高效关联，育种周期、预见精度都受到影响。为此，华为与崖州湾国家实验室联合构建了 AI 数据湖解决方案，帮助实验室汇聚了全国多源头农业数据，实现数据可视、可管、可流动，形成规模化种业数据资源池，并结合数据加工、应用编排、模型工程等工具进一步加工成高质量 AI 语料库。育种