将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式克雷西 2026-05-26 18:17:39 来源：量子位光影之间，读懂未尽之意允中发自凹非寺量子位 | 公众号 QbitAI 当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型，并要求它做一份旅行攻略时，常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。但实际上，长视频理解不仅需要识别每一帧里出现了什么，还要在连续的时序流动中捕捉因果链条。而作为快手自研多模态大语言模型， Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。它不仅看见了画面，更读懂了画面背后的因果。先来看视频：【视频请到公众号查看】 Keye-VL-2.0-30B-A3B捕捉到了“冻手”细节，主动建议备好保暖手套；听到了猎奇美食吐槽，给出“体验当地文化”的高情商建议；敏锐察觉到了“雪地车祸”画面，直接输出“跟团优于自驾”的安全策略…… 这已经超越了简单的画面标签识别，这是在连贯的时序流动中梳理因果、并基于人类逻辑进行深度规划的“慢思考”。在多模态大模型从“基础感知”向“深度推理”演进的浪潮中，快手团队始终在思考两个问题：如何突破视频理解任务中超长视觉上下文带来的算力瓶颈？又如何让模型从一个单纯的“观察者”进化为能解决实际复杂任务的“行动者”？今天，快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。作为Keye家族最新一代的30B级主力基座，Keye-VL-2.0-30B-A3B率先将DSA（DeepSeek Sparse Attention）机制引入多模态理解场景，成功解锁了256K超长上下文的深度感知，在长视频时序感知上实现了几乎无损的推理能力。更具里程碑意义的是，这也是Keye系列首次解锁Agent协作机制，在Code、Tool、Search等复杂场景下展现出了扎实的系统级协作与执行潜力。五大技术引擎重塑多模态底座 DSA首次落地多模态，破解长视频理解瓶颈视频理解的痛点，往往在于超长视觉上下文带来的指数级计算开销与核心信息的稀释。 Keye-VL-2.0-30B-A3B在底层架构上完成了关键跨越——首次在多模态理解场景中成功应用了 DSA （DeepSeek Sparse Attention）。通过结合稀疏注意力与极具针对性的特征聚合，模型在处理长达小时级的视频序列时，能够有效进行高噪环境下的信息提纯，精准捕捉关键帧并理清动态规律。这一架构优势在细粒度视频时序理解最新基准（TimeLens）中得到了极致验证。需要说明的是，该榜单论文官方仅公布了Gemini-2.5-Pro的成绩，为了保证评测的严谨性，快手团队严格按照相同评测方式，在内部同步测试了Gemini 3 Flash作为实测基线比对：日常动作时序解析（Charades-TimeLens）：模型以58.4的mIoU强势对标实测的最强视频理解闭源标杆Gemini 3 Flash（61.2）。视频动作定位（ActivityNet-TimeLens）：凭借58.5的mIoU，实现了对官方数据Gemini-2.5-Pro（58.1）以及实测数据Gemini 3 Flash（57.0）的全面超越。高光时刻提取（QVHighlights-TimeLens）：模型的mIoU达到70.1，与官方榜单的顶尖闭源模型并驾齐驱，并大幅超过实测的Gemini 3 Flash（49.5）。时序解析意味着厘清动作发生的精确边界，并给出所属视频中的准确时间。我们向Keye-VL-2.0-30B-A3B输入了一段制作陶杯的工艺流程视频。【视频请到公众号查看】面对繁复的手工动作，模型展现出了手术刀般的帧级判断力，直接输出了一份带有精确时间戳的工艺全拆解：方解石原料处理：用锤子将原石砸成小块；放入竹筛中在溪流中反复冲洗去除杂质。方解石煅烧与制浆：放土窑加木炭煅烧至高温（约950℃）；开窑取出白色粉末；加水研磨制成细腻浆液（水飞工艺）。陶土采集与处理：山地挖取红褐色陶土；倒缸加水搅拌去杂质。茶杯坯体制作与装饰：转轮手工拉坯塑形；精细修整厚度形状；底部贴方形印章款识并修整。配釉与施釉：按比例称取石英石长石等原料并加水搅拌制浆；坯体反复浸入釉浆后自然晾干。烧制与成品展示：装窑堆叠；烧柴升温至1200℃；出窑清洗浸入陈茶水中氧化调整釉色；最终呈现开片、铁足等釉色特征。从挖土、煅烧、水飞到修坯、配釉、陈茶，全程极具专业壁垒的手工工序，模型不仅全部准确识别，更将每一个工艺动作与视频时间轴实现了毫秒级的完美咬合。再来一段《王者荣耀》高燃对局的视频。【视频请到公众号查看】当接收到“请找出视频中的高光时刻，并给出你的依据，时间戳用[mm:ss]的形式来表示”的指令时，Keye-VL-2.0- 30B-A3B没有陷入传统AI“哪里有击杀提示就截取哪里”或“只看画面元素剧烈变化”的机械逻辑。它的做法是基于视觉张力、音画协同以及电竞叙事的深刻理解，给出了极具玩家共鸣的精准判定：视觉与节奏的双重爆发——模型判定依据：模型敏锐捕捉到了画面中最激烈的团战场景，不仅能精细识别“金色、紫色光效交织”的特效，还能准确读取“276”“132”等具体的动态伤害数值。它将这些视觉元素的密集程度作为战斗节奏紧凑的直接证据，展现了极强的动态视觉解析力。音画协同的戏剧张力构建——模型判定依据：模型并没有局限于游戏画面本身，跨模态捕捉到了底部的英文歌词字幕。它成功理解了带有燃向色彩的歌词与激烈对局之间的关联，指出了这种“音画协同”如何将视频的戏剧张力推向高潮。 “绝境翻盘”的情绪共鸣点——模型判定依据：这是最体现模型深度的部分。它通过读取画面中的“27 vs 35”判定出己方劣势的背景，结合团战的胶着状态，精准提炼出“绝境翻盘”这一电竞核心叙事节点。它证明了自己不仅能看懂画面，更能切中游戏视频背后的情绪感染力与观赏价值。全局视角的对比排他逻辑——模型判定依据：模型的分析并没有孤立存在，而是展现出了宏观的全局视野。它主动将高光片段与此前的战斗、追击片段（00:00-00:16 / 00:17-00:58）进行了全盘对比，从特效强度、节奏张力和叙事意义三个维度严密论证了该时段的不可替代性，逻辑闭环极具说服力。为了更直观地展现这种跨代际的领先，可以将其在核心视频理解基准上的表现进行可视化对比。如下图所示，无论是TimeLens的细粒度动作锚定，还是在LongVideoBench上的综合长时序解析，Keye-VL-2.0-30B-A3B都展现出了对同级别甚至200B+超大参数开源基座的显著压制力。除此之外，模型还实现了极致的推理成本与专属Infra训练系统重构。作为30B级别的基座，Keye-VL-2.0-30B-A3B不仅在时序理解上显著优于超两千亿参数的开源模型，更在