Token日生成数百万亿,传统负载均衡不够用了:F5 开始做Token级调度

2026-06-08 1 阅读 褚杏娟
过去谈到“应用”,更多指向一个APP、一个网站、一个业务系统,或一组运行在服务器上的软件服务。但在AI时代,应用已经不再是单一入口、单一后端、单一部署环境的组合,而是由大模型、智能体、API、数据、算力集群、云平台、边缘节点和安全策略共同构成的复杂系统。 这也意味着,企业面临的核心问题正在发生变化。过去企业更关心“如何部署应用”、“如何保障访问稳定”;而现在,企业真正需要解决的是:在混合多云、AI推理、智能体调用、异构算力和自动化攻击并存的环境下,如何对应用进行统一交付、持续安全和系统级治理。 作为应用交付领域的领导者,F5认为,AI时代企业竞争优势的关键,不再只取决于单一模型能力、某一个云平台,或者某一类安全产品,而在于企业能否在复杂、多云且高度动态的环境中,建立对应用、数据与流量的核心控制能力。 企业技术栈正变得越来越碎片化 F5亚太区首席技术官Mohan Veloo F5亚太区首席技术官Mohan Veloo表示,当前企业IT环境正在被三股力量重塑:混合多云常态化、AI推理规模化,以及安全威胁智能化。 首先,混合多云已成为企业默认运行模式。根据F5 2025年《应用战略现状》报告研究数据显示,目前约94%的企业在混合多云环境中运行,平均分布于约19个不同位置。这意味着,企业应用天然处于多环境、多平台、多位置的复杂状态中。未来企业架构的关键,不再是应用运行在哪一个云上,而是能否在不同环境中获得一致的交付、安全与治理能力。 其次,AI正在从训练阶段加速进入推理阶段,并深度嵌入企业应用栈。F5指出,目前已有78%的企业具备自有推理能力,且平均同时使用约7种模型。AI不再只是外围工具,而是进入业务核心场景。随着智能体开始调用API、访问数据、执行任务,应用的“用户”也不再只包括人类,还可能是软件机器人、AI Agent,甚至是多个智能体协同组成的系统。这也对传统身份管理、访问控制和安全策略提出新挑战。 第三,安全威胁正在被AI重塑。F5指出,当前网络攻击数量增长77%,机器化活动增加150%,CVE漏洞持续攀升,大模型也在不断扩大新的攻击面。在AI加持下,攻击者能够更快生成攻击、更快变形载荷,并持续试探系统边界。F5认为,这带来了明显的速度错位:攻击者正在以“机器速度”行动,而许多企业仍以“人工速度”防御,传统防御节奏已难以匹配风险变化。 在三重变化叠加下,企业技术栈正变得更加碎片化。一方面,企业需要IAM、WAF、API安全、负载均衡、可观测性等传统能力;另一方面,AI应用又提出提示词安全、AI护栏、智能体权限管理、Token成本优化、多模型路由、异构算力调度、KV Cache感知和合规策略编排等新需求。 如果这些能力继续以单点产品方式叠加,企业将面临新的复杂性:工具越来越多,但控制越来越分散;平台越来越多,但策略越来越难统一;数据越来越多,但决策越来越割裂。为此,F5认为,AI时代企业需要的不是更多孤立工具,而是能够贯穿不同环境、应用和安全场景的统一控制能力。 AI应用的核心在于三个控制点 对于上述提到的问题,F5也探索出了自己的一套解法。 F5认为,企业AI应用的运行流程可以被概括为一条从提示词到Token的路径:用户或智能体首先输入提示词,请求经由统一入口进入系统;随后进入编排阶段,系统整合上下文,并按需调用内部API、数据、工具、智能体或子智能体;增强后的提示词再进入模型层推理,并在这一过程中转化为Token,最终形成输出结果。 基于这一流程,F5将企业AI交付划分为三个关键控制点:统一入口、编排与调度、模型推理。三者分别对应三个核心问题:谁可以进入系统、进入后可以调用哪些资源,以及推理过程如何在性能、成本和安全之间实现动态平衡。 首先是统一入口。F5认为,AI应用中的提示词并不会直接进入模型,而是先到达应用程序或API层。发起请求的主体也不再仅限于人类用户,还可能是智能体、机器人或代理程序。因此,所有请求在进入系统之前,都需要先被识别、判断和治理。 长期以来,企业在这一层主要依赖WAF,但传统WAF更多基于已知威胁和静态规则进行防护。面对实时生成、持续变化的攻击载荷,单纯依赖规则匹配已难以应对。为此,F5重构了WAF架构,在特征匹配、攻击指标和外部威胁情报等传统能力之上,引入神经网络模型,形成新的智能安全层。 据介绍,这一神经网络能力基于F5自有数据体系构建,可对行为进行实时监测,并在微秒级完成安全决策。同时,该能力运行于CPU之上,无需依赖GPU资源,可部署在边缘节点并嵌入实时流量路径,在不明显增加延迟的前提下完成防护。 F5给出的数据显示,在未进行特征匹配更新的情况下,相关WAF方案已成功捕获10类漏洞;引入新的特征机制后,误报率由28%下降至1%,检测准确率从64%提升至98%。这意味着,WAF正在从基于规则匹配的防火墙,转向具备行为理解和动态判断能力的智能防护体系。F5将其概括为“用AI对抗AI”。 第二个控制点是编排与调度。F5认为,AI应用真正复杂的部分往往不在模型本身,而在模型周围的调用链路。一个用户请求可能要经过提示词增强、上下文拼接、API调用、数据库检索、工具调用和智能体协作,最终才进入模型推理。因此,AI系统风险也不只存在于模型输出,还贯穿整个编排链路。 为强化这一环节的安全能力,F5收购了CalypsoAI,并构建覆盖“发现—防护”的闭环体系,包括AI红队和AI护栏两大模块。其中,AI红队负责主动发现和挖掘潜在风险,从攻击者视角测试模型、应用和调用链路中的漏洞;AI护栏则负责将这些风险转化为实际防护策略,防止数据泄露、越权调用、违规输出或不安全行为发生。 F5表示,基于现有能力,其每月可生成约1万个新的AI特征码,并构建了全球规模领先的AI攻击数据集之一,能够对开源和闭源模型行为进行检测与分析。F5希望进一步把AI安全从“发现问题”推进到“自动修复”:AI红队发现的风险可直接转化为AI护栏策略,并自动生成对应防护机制,使安全策略能够随攻击变化动态更新,减少对人工配置和人工响应的依赖。 第三个控制点是模型推理。F5认为,推理是AI从概念走向业务落地的关键环节。相比“算力是否足够”,企业更需要关注如何以更低成本、更低延迟和更高效率完成模型调用。 Mohan表示,AI工厂可以被理解为一种能量转化系统:以电力为输入,以算力为输出,把物理资源转化为数字能力。而算力的产出,可以用Token来衡量。随着企业AI应用规模扩大,Token正在成为衡量AI成本与价值的重要经济单位。 Mohan指出,当前全球每天生成的Token规模已达数百万亿量级。他举例称,一句“Why Does F5 Have The Best Application Delivery And Security Platform?”在处理过程中可拆分为约13个输入Token,并生成约27个输出Token,总计约40个Token。这意味着,AI系统中的每一次交互都可以被量化为Token消耗。 围绕Token优化,F5提出五个关键指标:Token吞吐量、首Token响应时间、单Token成本、端到端延迟和每瓦Token产出数。其中,Token吞吐量衡量系统处理能力,首Token响应时间直接影响用户体验,单To