智能AI
morning
CVPR 上新 | 从生成式压缩到3D空间智能,七项前沿突破洞悉计算机视觉未来方向
2026-05-28
1 阅读
微软研究院AI
(本文阅读时间:20分钟) 编者按: 欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,紧跟前沿领域发展态势。 6月3日至7日,全球计算机视觉领域的顶尖学术盛会 CVPR 将在美国科罗拉多州丹佛市举行。本期“科研上新”将为大家带来多篇微软亚洲研究院入选 CVPR 2026 的精选论文解读,具体方向包括生成式视频压缩、扩散图像压缩、3D空间理解及实时说话人像视频生成等多项创新成果。 「 本期内容速览 」 01 CoD:面向图像压缩的扩散基础模型 02 基于一维隐表示的生成式视频压缩 03 HiSpatial:增强视觉-语言大模型的层级3D空间认知能力 04 面向3D生成的原生紧凑结构化隐表示(Oral, Award Candidate) 05 面向扩散Transformer 模型的区域自适应采样 06 基于参考引导深度压缩VAE的可流式传输实时说话人像视频生成(Highlight) 07 语义主导:借助异步隐扩散融合语义与纹理建模 01 CoD:面向图像压缩的扩散基础模型 论文链接: https://arxiv.org/abs/2511.18706 现有的扩散编解码器大多基于 Stable Diffusion 等文本到图像的基础模型,但从压缩角度看,文本条件并不理想,尤其在极低码率下会阻碍下游扩散编解码器的潜力。为此,研究员们引入了首个面向压缩的扩散基础模型 CoD。该模型从头开始训练,实现压缩与生成的端到端联合优化。CoD 并非固定编解码器,而是适用于各类扩散编解码器的通用基础模型。 CoD 采用原生图像编码器将图像压缩为紧凑表示,通过信息瓶颈强制极低码率,再由扩散模块在条件引导下重建像素。训练方面,CoD将整流流损失与失真优化统一训练,并以完全自监督的方式仅在公开图像数据集上学习。 图1: CoD基础模型概述 CoD 具备多重优势:在下游任务中替换 Stable Diffusion 可达到 SOTA,尤其在0.0039 bpp极低码率下表现突出;训练成本极低,仅需约20 A100 GPU 天,训练速度提升约300 倍且完全可复现。研究发现,CoD的像素空间扩散可实现VTM 级别 PSNR 与高感知质量,并能够以更少参数超越 GAN 类编解码器。 02 基于一维隐表示的生成式视频压缩 论文链接: https://arxiv.org/abs/2603.15302 传统视频编解码器与现有神经视频压缩方法,在处理高保真内容时难以兼顾低码率与优质感知质量。尤其是生成式视频编解码器(GVC)普遍采用的二维潜在表示,存在空间冗余高、长时语义建模能力不足等问题。 为此,研究员们提出了基于一维潜在表示的生成式视频压缩方法GVC1D。该方法利用视觉Transformer将视频编码为极紧凑的一维潜在标记,打破二维网格的刚性空间对应关系,有效减少帧内冗余并实现 token 数量的自适应缩减。同时,研究员们设计了一维记忆模块,利用少量语义丰富的一维标记递归更新记忆状态,既能保持低计算成本,还可以提供连贯长时上下文,进一步降低帧间冗余。 图2: GVC1D框架概述。xt 首先被分割为图像块,然后输入由局部和全局Transformer组成的编码器,生成 yt。熵模型对 yt进行自回归熵编码。所有过程均由一个结合了长期一维记忆和短期上下文缓冲区的上下文模型进行引导,以提供全面的时序上下文。 实验表明,GVC1D 在多个基准上均取得优异性能,显著超越传统编解码器与最新神经视频压缩方法。在 HEVC Class B 数据集上,相较此前最优感知编解码器,GVC1D在 LPIPS 指标上节省了 60.4% 比特率,在 DISTS 指标上节省了 68.8% 比特率。同时,GVC1D 在 PSNR、MS-SSIM 等客观指标上表现突出,视觉质量与时间一致性均优于现有方案,充分验证了一维潜在表示用于视频压缩的有效性与优越性。 03 HiSpatial:增强视觉-语言大模型的层级3D空间认知能力 论文链接: https://arxiv.org/abs/2603.25411 视觉语言模型(VLM)在二维视觉语言任务上已取得显著进展,但从二维感知扩展到三维空间理解仍面临重大挑战。现有方法在三维空间理解任务上仍然缺乏系统性的分层任务设计,且领域内缺少大规模、多样化的三维标注数据集用于全面提升VLM的空间理解能力。 为此,研究员们提出了一种分层三维空间理解框架HiSpatial,将三维空间理解划分为四个递进层次,从底层的几何感知到高层的抽象推理;并且根据这一分层构建了自动化数据生成流程,利用约500万张真实场景图像和超过4500万个关注物体,合成了涵盖多样场景与任务的海量三维空间视觉问答对,用于VLM的有监督微调。在此基础上,研究员们又设计了结合度量尺度三维点云图输入的HiSpatial VLM,来进一步增强模型的空间推理准确性。 图3: 方法概述。左侧:数据构建流程,该流程可从真实场景图像或带有3D标注的现有数据中生成空间理解相关的问答对。右侧:分层空间理解任务分类体系及代表性问答对。 实验表明,HiSpatial-3B VLM在多个空间理解与推理基准上达到 SOTA 性能,超越已有的专用空间理解模型与 Gemini-2.5-pro、GPT-5 等闭源模型。研究同时揭示了空间理解层级任务间的明确依赖关系,验证了引入低层级任务可持续提升高层推理能力,为未来高效构建三维空间智能模型提供了新的策略。 04 面向3D生成的原生紧凑结构化隐表示(Oral, Award Candidate) 论文链接: https://cvpr.thecvf.com/virtual/2026/poster/37074 3D生成建模在提升真实感方面进展显著,但现有表征难以同时捕捉复杂拓扑与精细外观,且缺乏高效的原生3D潜空间。为解决这一难题,微软亚洲研究院的研究员们引入了名为O-Voxel的面向 3D 资产的原生稀疏体素表征,可稳健建模任意拓扑结构并编码完整 PBR 材质参数。 基于该表征,团队设计了稀疏压缩变分自编码器(SC-VAE),通过残差自编码结构实现了最高 16 倍空间压缩,将高分辨率资产转化为紧凑的结构化潜变量。利用这些潜变量,研究员们训练了参数量约40 亿的大规模流匹配模型,实现了原生 3D 资产生成。 图4:O-Voxel示意图及其与3D资源之间的即时双向转换。 实验结果表明,该方法在几何与材质质量上远超现有模型,推理效率极高,在单张H100 GPU 上仅需约3 秒即可生成分辨率 512 的 3D 资产。O-Voxel 与 SC-VAE 的组合突破了传统方法在拓扑表达与计算效率上的瓶颈,为构建高质量、高效率的原生 3D 生成系统提供了通用解决方案。 05 面向扩散Transformer 模型的区域自适应采样 论文链接: https://arxiv.org/abs/2502.10389 扩散模型虽已成为跨领域生成任务的主流方案,但依赖多次顺序前向传播的特性严重限制了实时性能。以往加速方法多聚焦减少采样步数或重用中间结果,受限于卷积 U-Net 结构,未能利用图像内部空间区域的差异。