升腾管推理、鲲鹏管Agent,Agent AI让CPU重回舞台中央

2026-05-28 1 阅读 褚杏娟
DeepSeek-V4模型首发适配昇腾芯片,被视为中国AI生态发展的一个重要节点。 通过芯模协同,DeepSeek与昇腾实现了昇腾超节点全系列产品对DeepSeek-V4系列模型的支持。这意味着,中国大模型产业正在从过去高度依赖海外GPU与CUDA生态,逐步走向由国产芯片、基础软件、编程框架、算子能力和系统架构共同支撑的新阶段。 在今年的鲲鹏昇腾开发者大会2026上,中国计算产业的几个变化变得更加清晰: 第一,中国大模型能力正在接近全球顶级闭源模型水平; 第二,中国模型的Token消耗量已进入全球前列; 第三,国产大模型与国产芯片之间的协同,开始从“能跑起来”进入“跑得好、跑得稳、跑得经济”的深水区。 在这一过程中,昇腾与鲲鹏分别承担不同角色:昇腾更偏向智能计算底座,重点解决大模型训练、推理、KV Cache、长上下文、AI推理吞吐和开发者生态等问题;鲲鹏则承担通用计算底座角色,重点支撑Agent编排、工具调用、沙箱执行、记忆检索、安全隔离和企业级IT基础设施。 也就是说,昇腾解决的是AI算力问题,鲲鹏解决的是Agentic AI时代系统运行和工程承载问题。 昇腾超节点:面向Agentic AI的AI算力新范式 Agentic AI正在对算力基础设施提出新的要求。 与传统大模型推理不同,Agent工作负载通常包含多轮规划、工具调用、记忆检索、上下文管理、多Agent协同等复杂过程。这类负载会带来超大KV Cache、超长上下文、低时延响应和碎片化调度需求。传统以单卡、单服务器或普通集群为核心的算力架构,已经很难完全适配这一新型负载。 昇腾超节点的核心思路,是通过芯片架构、互联架构和系统架构的协同创新,让大规模AI集群像“一台计算机”一样工作。 在芯片层面,昇腾持续推进架构创新。昇腾芯片将支持FP8、MXFP8、MXFP4等低数值精度数据格式,以提升训练效率和推理吞吐;同时通过SIMD与SIMT双编程模型兼容,在高密度计算与灵活调度之间取得平衡。这一方向也被视为AI芯片架构演进的重要趋势。 在互联层面,昇腾采用灵衢互联,实现总线级全连接、无主从、平等互联,使NPU与NPU、NPU与CPU之间可以直接通信。灵衢互联可实现单跳200ns通信能力,面向Agentic AI中大量碎片化调度场景,减少阻塞和等待。 在系统层面,昇腾超节点采用Clos与Mesh混合拓扑,强调无损、无阻塞和动态负载均衡,使超节点更接近一个统一计算系统,而不是传统松散集群。 对于超节点架构,华为特别强调了一个判断标准:是否实现全域内存统一编址和内存语义。 在传统集群中,不同节点之间通常需要通过消息传递、路由和数据拷贝完成通信,这会带来额外延迟和资源开销。昇腾超节点希望通过全局单一虚拟地址空间,让NPU和CPU可以直接以虚拟地址访问任意位置的数据,从而实现无需改代码、无需路由、无需拷贝的load/store访问。 这对大模型推理尤其关键。随着上下文长度持续扩大,KV Cache已经成为推理系统的重要瓶颈。华为认为,统一内存编址可以实现KV Cache全局共享,使超长上下文更容易扩展,也让每一个Token的生成更高效、更经济。 在内存池化方面,昇腾通过HBM与DDR分层池化能力,实现“以查代算”和KV Cache全局共享。资料显示,在LLM、推荐、Engram等场景中,查询时延可降低3至4倍,训练和推理吞吐相较传统集群提升3至4倍。 昇腾950支持SIMT,首创SIMD与SIMT混合编程能力 此外,在最新的950代际产品中,昇腾在芯片架构层面加入对SIMT的支持,并首创SIMD与SIMT混合编程能力。 这使开发者可以根据不同计算阶段的特点,灵活选择合适的编程范式。在同一个算子中,规则计算部分可以采用SIMD,以发挥高吞吐优势;不规则控制部分则可以利用SIMT的灵活性,从而实现整体效率与性能的最优。 例如,在MoE init routing算子中,规则的连续数据搬运与计算部分可以使用SIMD编写,而不规则的离散数据搬出部分则可以采用SIMT编写,从而获得更高开发效率和更好的整体性能。这一能力对于大模型时代大量不规则计算、稀疏调度和复杂路由场景具有现实意义。 除了计算算子,昇腾也在提升通信算子编程的易用性。 在大规模训练和推理中,通信常常成为性能瓶颈。为此,昇腾试图打破计算和通信之间的边界,让通信编程像访存读写一样简单。通过SHMEM编程接口,昇腾将传统面向通信的编程方式,转变为面向访存读写的方式。在统一编址下,跨设备访问可以像操作本地内存一样直接,只需一行代码即可直达底层。同时,凭借AIcore直驱技术,昇腾绕过传统CPU调度,使下发时延优化30倍。 昇腾还推出了通信与计算融合的CATLASS模板库,屏蔽复杂拓扑差异,帮助开发者快速实现计算与通信深度并行开发。以常见融合算子为例,相关能力可使开发周期缩短50%,性能提升30%。 开发者易用性升级:从“能用”走向“好用” 除了底层硬件和系统架构,昇腾也在围绕开发者易用性进行系统性升级。 过去两年,昇腾投入大量资源优化开发体验,重点回应开发者在底层能力开放、编程方式友好度、主流社区兼容、文档资料完备性等方面的诉求。围绕这些反馈,昇腾主要从三个方向推进易用性提升:CANN开源开放与分层解耦、深度支持第三方主流开源技术生态,以及Mind系列软件架构持续演进升级。 作为昇腾软件底座和生态核心锚点,CANN是昇腾提升易用性的关键。昇腾已在去年底完成CANN分层解耦开源。通过增强对第三方生态的支持,CANN开放了运行时、算子编译等不同层级接口,支持算子库、通信库等组件独立升级。目前,昇腾已开源50多个源码仓,使开发者在生态接入、分层调用、组件升级和源码创新等方面拥有更高灵活性。 这一变化意味着,开发者不仅可以基于昇腾平台做应用开发,也可以更深入地参与底层能力优化,围绕算子、通信、编译和运行时进行性能调优。 在算子编程方面,开发者最关注的是开发效率和运行性能。不同类型的开发者,对编程方式也有不同需求。 对于追求极致性能的算子开发工程师,昇腾提供AscendC、CATLASS模板库等编程方式,支持开发者对计算、访存、流水等关键环节进行细粒度控制,充分释放芯片性能。同时,昇腾也将高性能能力沉淀为可复用模板,以提升开发效率。 对于更注重快速创新和算法尝试的AI算法工程师,昇腾支持TileLang、Triton等主流Tile编程生态,使开发者能够以更接近算法表达的方式描述分块计算和数据流。此外,昇腾还推出PyPTO,提供面向Tensor的编程能力,帮助开发者更高效地完成算法创新。 随着Python成为AI开发的主流语言,昇腾也在全面拥抱Python编程生态,进一步降低开发门槛、提升开发效率。其中,PyAsc基于AscendC增加Python编程接口,使开发者能够以更友好的方式表达底层并行和访存能力。昇腾还新增了基于Python的CATLASS模板库能力,将复杂的底层指令序列沉淀为更易用的Python模板库。 PyPTO则从设计之初就支持Python,提供面向Tensor和Tile的编程能力。它可以将高层次Tensor计算图转换为并行Tile计算,并通过MPMD调度获得高性能计算能力。 CPU重回舞台中央