Token日生成数百万亿，传统负载均衡不够用了：F5 开始做Token级调度

过去谈到“应用”，更多指向一个APP、一个网站、一个业务系统，或一组运行在服务器上的软件服务。但在AI时代，应用已经不再是单一入口、单一后端、单一部署环境的组合，而是由大模型、智能体、API、数据、算力集群、云平台、边缘节点和安全策略共同构成的复杂系统。这也意味着，企业面临的核心问题正在发生变化。过去企业更关心“如何部署应用”、“如何保障访问稳定”；而现在，企业真正需要解决的是：在混合多云、AI推理、智能体调用、异构算力和自动化攻击并存的环境下，如何对应用进行统一交付、持续安全和系统级治理。作为应用交付领域的领导者，F5认为，AI时代企业竞争优势的关键，不再只取决于单一模型能力、某一个云平台，或者某一类安全产品，而在于企业能否在复杂、多云且高度动态的环境中，建立对应用、数据与流量的核心控制能力。企业技术栈正变得越来越碎片化 F5亚太区首席技术官Mohan Veloo F5亚太区首席技术官Mohan Veloo表示，当前企业IT环境正在被三股力量重塑：混合多云常态化、AI推理规模化，以及安全威胁智能化。首先，混合多云已成为企业默认运行模式。根据F5 2025年《应用战略现状》报告研究数据显示，目前约94%的企业在混合多云环境中运行，平均分布于约19个不同位置。这意味着，企业应用天然处于多环境、多平台、多位置的复杂状态中。未来企业架构的关键，不再是应用运行在哪一个云上，而是能否在不同环境中获得一致的交付、安全与治理能力。其次，AI正在从训练阶段加速进入推理阶段，并深度嵌入企业应用栈。F5指出，目前已有78%的企业具备自有推理能力，且平均同时使用约7种模型。AI不再只是外围工具，而是进入业务核心场景。随着智能体开始调用API、访问数据、执行任务，应用的“用户”也不再只包括人类，还可能是软件机器人、AI Agent，甚至是多个智能体协同组成的系统。这也对传统身份管理、访问控制和安全策略提出新挑战。第三，安全威胁正在被AI重塑。F5指出，当前网络攻击数量增长77%，机器化活动增加150%，CVE漏洞持续攀升，大模型也在不断扩大新的攻击面。在AI加持下，攻击者能够更快生成攻击、更快变形载荷，并持续试探系统边界。F5认为，这带来了明显的速度错位：攻击者正在以“机器速度”行动，而许多企业仍以“人工速度”防御，传统防御节奏已难以匹配风险变化。在三重变化叠加下，企业技术栈正变得更加碎片化。一方面，企业需要IAM、WAF、API安全、负载均衡、可观测性等传统能力；另一方面，AI应用又提出提示词安全、AI护栏、智能体权限管理、Token成本优化、多模型路由、异构算力调度、KV Cache感知和合规策略编排等新需求。如果这些能力继续以单点产品方式叠加，企业将面临新的复杂性：工具越来越多，但控制越来越分散；平台越来越多，但策略越来越难统一；数据越来越多，但决策越来越割裂。为此，F5认为，AI时代企业需要的不是更多孤立工具，而是能够贯穿不同环境、应用和安全场景的统一控制能力。 AI应用的核心在于三个控制点对于上述提到的问题，F5也探索出了自己的一套解法。 F5认为，企业AI应用的运行流程可以被概括为一条从提示词到Token的路径：用户或智能体首先输入提示词，请求经由统一入口进入系统；随后进入编排阶段，系统整合上下文，并按需调用内部API、数据、工具、智能体或子智能体；增强后的提示词再进入模型层推理，并在这一过程中转化为Token，最终形成输出结果。基于这一流程，F5将企业AI交付划分为三个关键控制点：统一入口、编排与调度、模型推理。三者分别对应三个核心问题：谁可以进入系统、进入后可以调用哪些资源，以及推理过程如何在性能、成本和安全之间实现动态平衡。首先是统一入口。F5认为，AI应用中的提示词并不会直接进入模型，而是先到达应用程序或API层。发起请求的主体也不再仅限于人类用户，还可能是智能体、机器人或代理程序。因此，所有请求在进入系统之前，都需要先被识别、判断和治理。长期以来，企业在这一层主要依赖WAF，但传统WAF更多基于已知威胁和静态规则进行防护。面对实时生成、持续变化的攻击载荷，单纯依赖规则匹配已难以应对。为此，F5重构了WAF架构，在特征匹配、攻击指标和外部威胁情报等传统能力之上，引入神经网络模型，形成新的智能安全层。据介绍，这一神经网络能力基于F5自有数据体系构建，可对行为进行实时监测，并在微秒级完成安全决策。同时，该能力运行于CPU之上，无需依赖GPU资源，可部署在边缘节点并嵌入实时流量路径，在不明显增加延迟的前提下完成防护。 F5给出的数据显示，在未进行特征匹配更新的情况下，相关WAF方案已成功捕获10类漏洞；引入新的特征机制后，误报率由28%下降至1%，检测准确率从64%提升至98%。这意味着，WAF正在从基于规则匹配的防火墙，转向具备行为理解和动态判断能力的智能防护体系。F5将其概括为“用AI对抗AI”。第二个控制点是编排与调度。F5认为，AI应用真正复杂的部分往往不在模型本身，而在模型周围的调用链路。一个用户请求可能要经过提示词增强、上下文拼接、API调用、数据库检索、工具调用和智能体协作，最终才进入模型推理。因此，AI系统风险也不只存在于模型输出，还贯穿整个编排链路。为强化这一环节的安全能力，F5收购了CalypsoAI，并构建覆盖“发现—防护”的闭环体系，包括AI红队和AI护栏两大模块。其中，AI红队负责主动发现和挖掘潜在风险，从攻击者视角测试模型、应用和调用链路中的漏洞；AI护栏则负责将这些风险转化为实际防护策略，防止数据泄露、越权调用、违规输出或不安全行为发生。 F5表示，基于现有能力，其每月可生成约1万个新的AI特征码，并构建了全球规模领先的AI攻击数据集之一，能够对开源和闭源模型行为进行检测与分析。F5希望进一步把AI安全从“发现问题”推进到“自动修复”：AI红队发现的风险可直接转化为AI护栏策略，并自动生成对应防护机制，使安全策略能够随攻击变化动态更新，减少对人工配置和人工响应的依赖。第三个控制点是模型推理。F5认为，推理是AI从概念走向业务落地的关键环节。相比“算力是否足够”，企业更需要关注如何以更低成本、更低延迟和更高效率完成模型调用。 Mohan表示，AI工厂可以被理解为一种能量转化系统：以电力为输入，以算力为输出，把物理资源转化为数字能力。而算力的产出，可以用Token来衡量。随着企业AI应用规模扩大，Token正在成为衡量AI成本与价值的重要经济单位。 Mohan指出，当前全球每天生成的Token规模已达数百万亿量级。他举例称，一句“Why Does F5 Have The Best Application Delivery And Security Platform？”在处理过程中可拆分为约13个输入Token，并生成约27个输出Token，总计约40个Token。这意味着，AI系统中的每一次交互都可以被量化为Token消耗。围绕Token优化，F5提出五个关键指标：Token吞吐量、首Token响应时间、单Token成本、端到端延迟和每瓦Token产出数。其中，Token吞吐量衡量系统处理能力，首Token响应时间直接影响用户体验，单To