智能AI
morning
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式
2026-05-27
1 阅读
克雷西
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 克雷西 2026-05-26 18:17:39 来源: 量子位 光影之间,读懂未尽之意 允中 发自 凹非寺 量子位 | 公众号 QbitAI 当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型,并要求它做一份旅行攻略时,常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。 但实际上,长视频理解 不仅需要识别每一帧里出现了什么,还要在连续的时序流动中捕捉因果链条 。 而作为快手自研多模态大语言模型, Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。 它不仅看见了画面,更读懂了画面背后的因果。 先来看视频: 【视频请到公众号查看】 Keye-VL-2.0-30B-A3B捕捉到了“冻手”细节,主动建议备好保暖手套;听到了猎奇美食吐槽,给出“体验当地文化”的高情商建议;敏锐察觉到了“雪地车祸”画面,直接输出“跟团优于自驾”的安全策略…… 这已经超越了简单的画面标签识别,这是在连贯的时序流动中梳理因果、并基于人类逻辑进行深度规划的“慢思考”。 在多模态大模型从“基础感知”向“深度推理”演进的浪潮中,快手团队始终在思考两个问题: 如何突破视频理解任务中超长视觉上下文带来的算力瓶颈?又如何让模型从一个单纯的“观察者”进化为能解决实际复杂任务的“行动者”? 今天,快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。 作为Keye家族最新一代的30B级主力基座,Keye-VL-2.0-30B-A3B率先将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功解锁了256K超长上下文的深度感知,在长视频时序感知上实现了几乎无损的推理能力。 更具里程碑意义的是,这也是Keye系列首次解锁Agent协作机制,在Code、Tool、Search等复杂场景下展现出了扎实的系统级协作与执行潜力。 五大技术引擎重塑多模态底座 DSA首次落地多模态,破解长视频理解瓶颈 视频理解的痛点,往往在于超长视觉上下文带来的指数级计算开销与核心信息的稀释。 Keye-VL-2.0-30B-A3B在底层架构上完成了关键跨越——首次在多模态理解场景中成功应用了 DSA (DeepSeek Sparse Attention)。 通过结合稀疏注意力与极具针对性的特征聚合,模型在处理长达小时级的视频序列时,能够有效进行高噪环境下的信息提纯,精准捕捉关键帧并理清动态规律。 这一架构优势在细粒度视频时序理解最新基准(TimeLens)中得到了极致验证。 需要说明的是,该榜单论文官方仅公布了Gemini-2.5-Pro的成绩,为了保证评测的严谨性,快手团队严格按照相同评测方式,在内部同步测试了Gemini 3 Flash作为实测基线比对: 日常动作时序解析(Charades-TimeLens):模型以58.4的mIoU强势对标实测的最强视频理解闭源标杆Gemini 3 Flash(61.2)。 视频动作定位(ActivityNet-TimeLens): 凭借58.5的mIoU,实现了对官方数据Gemini-2.5-Pro(58.1)以及实测数据Gemini 3 Flash(57.0)的全面超越。 高光时刻提取(QVHighlights-TimeLens):模型的mIoU达到70.1,与官方榜单的顶尖闭源模型并驾齐驱,并大幅超过实测的Gemini 3 Flash(49.5)。 时序解析意味着厘清动作发生的精确边界,并给出所属视频中的准确时间。我们向Keye-VL-2.0-30B-A3B输入了一段制作陶杯的工艺流程视频。 【视频请到公众号查看】 面对繁复的手工动作,模型展现出了手术刀般的帧级判断力,直接输出了一份带有精确时间戳的工艺全拆解: 方解石原料处理:用锤子将原石砸成小块;放入竹筛中在溪流中反复冲洗去除杂质。 方解石煅烧与制浆:放土窑加木炭煅烧至高温(约950℃);开窑取出白色粉末;加水研磨制成细腻浆液(水飞工艺)。 陶土采集与处理:山地挖取红褐色陶土;倒缸加水搅拌去杂质。 茶杯坯体制作与装饰:转轮手工拉坯塑形;精细修整厚度形状;底部贴方形印章款识并修整。 配釉与施釉:按比例称取石英石长石等原料并加水搅拌制浆;坯体反复浸入釉浆后自然晾干。 烧制与成品展示:装窑堆叠;烧柴升温至1200℃;出窑清洗浸入陈茶水中氧化调整釉色;最终呈现开片、铁足等釉色特征。 从挖土、煅烧、水飞到修坯、配釉、陈茶,全程极具专业壁垒的手工工序,模型不仅全部准确识别,更将每一个工艺动作与视频时间轴实现了毫秒级的完美咬合。 再来一段《王者荣耀》高燃对局的视频。 【视频请到公众号查看】 当接收到“请找出视频中的高光时刻,并给出你的依据,时间戳用[mm:ss]的形式来表示”的指令时,Keye-VL-2.0- 30B-A3B没有陷入传统AI“哪里有击杀提示就截取哪里”或“只看画面元素剧烈变化”的机械逻辑。 它的做法是基于视觉张力、音画协同以及电竞叙事的深刻理解,给出了极具玩家共鸣的精准判定: 视觉与节奏的双重爆发——模型判定依据:模型敏锐捕捉到了画面中最激烈的团战场景,不仅能精细识别“金色、紫色光效交织”的特效,还能准确读取“276”“132”等具体的动态伤害数值。它将这些视觉元素的密集程度作为战斗节奏紧凑的直接证据,展现了极强的动态视觉解析力。 音画协同的戏剧张力构建——模型判定依据:模型并没有局限于游戏画面本身,跨模态捕捉到了底部的英文歌词字幕。它成功理解了带有燃向色彩的歌词与激烈对局之间的关联,指出了这种“音画协同”如何将视频的戏剧张力推向高潮。 “绝境翻盘”的情绪共鸣点——模型判定依据:这是最体现模型深度的部分。它通过读取画面中的“27 vs 35”判定出己方劣势的背景,结合团战的胶着状态,精准提炼出“绝境翻盘”这一电竞核心叙事节点。它证明了自己不仅能看懂画面,更能切中游戏视频背后的情绪感染力与观赏价值。 全局视角的对比排他逻辑——模型判定依据:模型的分析并没有孤立存在,而是展现出了宏观的全局视野。它主动将高光片段与此前的战斗、追击片段(00:00-00:16 / 00:17-00:58)进行了全盘对比,从特效强度、节奏张力和叙事意义三个维度严密论证了该时段的不可替代性,逻辑闭环极具说服力。 为了更直观地展现这种跨代际的领先,可以将其在核心视频理解基准上的表现进行可视化对比。 如下图所示,无论是TimeLens的细粒度动作锚定,还是在LongVideoBench上的综合长时序解析,Keye-VL-2.0-30B-A3B都展现出了对同级别甚至200B+超大参数开源基座的显著压制力。 除此之外,模型还实现了 极致的推理成本与专属Infra训练系统重构 。 作为30B级别的基座,Keye-VL-2.0-30B-A3B不仅在时序理解上显著优于超两千亿参数的开源模型,更在