7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看” 听雨 2026-05-28 16:01:57 来源：量子位医学AI Agent到了关键拐点上海创智学院 LeapQuest 团队投稿量子位 | 公众号 QbitAI 医学AI会写解释，但不代表它真的“看到”了关键证据。过去的医学多模态模型，大多是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。而模型“被动接收”视觉上下文时，很容易看错区域、漏看病灶。为应对这一问题，上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，一口气拿出了两篇 ICML 2026 接收论文，首次把 Think with Images/Think with Videos 范式应用在医学AI领域：模型不再只是看完图像或视频后生成解释，而是在推理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。这意味着，视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。两篇工作的核心关键词如下：两篇工作不是孤立模型升级，而是共同提出医学AI的新范式：让视觉证据进入模型的中间思考过程，把“解释”从事后语言生成推进为推理过程中的证据查证。 △ Ophiuchus：面向医学图像的tool-augmented Think with Images △ MedScope：面向临床长视频的Think with Videos 不是更会“写解释”，而是开始会“用视觉证据思考” 医学AI过去最常见的工作方式，是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。问题在于，解释看起来完整，并不代表模型真的看到了关键证据。尤其在医学场景里，一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。 Ophiuchus和MedScope共同把这个问题向前推进了一步：多模态模型不再只是“被动接收视觉上下文”，而是在推理过程中主动决定是否需要更多证据、应该看哪里、应该回看哪一段，并把工具返回的观察结果纳入后续推理。这就是医学AI领域首次被系统化提出的 “think with images/think with videos” 范式：视觉不再只是输入，视觉证据本身成为模型思考过程的一部分。 △ Think with Images Think with Images：让模型在图像诊断中“重新看一眼” Ophiuchus的切入点非常直接：现有医学多模态大模型虽然能写出逐步推理，但遇到需要细粒度视觉证据的任务时，仍然容易“ 看错区域、漏看病灶、误把正常结构当异常 ”。这不是单纯语言能力不足，而是视觉交互机制不足。因此，Ophiuchus将大模型改造成一个能与医学图像工具协同的视觉智能体。它可以根据当前推理状态，决定是否调用外部视觉工具：用 SAM2 做精细分割，用 BiomedParse 根据文字提示定位医学结构，用 Zoom-in 放大关键区域。工具调用后的输出不是孤立结果，而会以 observation 的形式回到推理链，驱动下一步判断。更关键的是，Ophiuchus并不是把工具“外挂”在模型外面，而是让工具成为推理链的一部分。模型要学会何时调用工具、选择哪个工具、如何解释工具输出，以及当工具结果不可靠时如何修正策略。这使得模型从“会调用工具”走向“ 会用工具思考 ”。 △ Ophiuchus 技术框架 Ophiuchus的价值不只是让医学大模型多了几个视觉工具，而是让模型学会在诊断过程中主动“看哪里、怎么看、看完如何修正”。从闭源SOTA到医学Agent：Ophiuchus用结果证明“看得更细”才是关键在同样外部工具配置下， Ophiuchus-7B 在8个VQA benchmark上取得 68.0 的平均分，高于 OpenAI-o3的62.2 、 Gemini 2.5 Pro的61.8 和 GPT-5的59.9。在工具使用准确性评估中，Ophiuchus达到 97.9% 的平均工具调用准确率。这些结果背后的含义，比“某个榜单第一”更重要：当问题真正依赖局部结构、病灶边界和细胞级证据时，模型大小或语言推理并不是唯一瓶颈。医学AI需要一种能让视觉证据不断进入推理过程的机制。 Think with Videos：从“看图思考”走向“回看关键时刻” 如果说Ophiuchus解决的是医学图像中的局部证据问题，那么MedScope则把这一范式推进到更难的长视频场景。长临床视频的挑战在于：关键证据不仅细，而且稀疏；不仅要看对内容，还要看对时间。一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间，可能只持续几秒，却决定模型是否真的理解了临床过程。 MedScope 提出的 “ think with videos ” 不是让模型把整段视频一次性压缩成上下文，而是模拟临床医生的观察方式：先快速建立全局理解，再回到可疑时间窗，用 crop_video 截取片段，用 get_frame 获取关键帧，最后把这些局部观察结果整合进答案。 △ Textual CoT与 Visual CoT的差别这使MedScope的推理过程天然具备可审查性：模型为什么回答这个结果，不只看它“说了什么”，还可以看它“ 回看了哪一段视频、找到了哪些帧、这些证据是否支持结论”。 △ MedScope 框架 ClinVideoSuite与GA-GRPO：让视频模型学会“找证据”，而不只是“猜答案” 为了让模型真正学会这种行为，MedScope构建了 ClinVideoSuite ：包含 635K 时间戳密集 caption、 254K 证据关联QA、 34K 视觉CoT轨迹，以及用于强化学习的交互式训练环境。数据不是简单问答，而是强调问题必须依赖局部时间窗中的视觉证据。训练上，MedScope 采用三阶段路线 —— 第一阶段进行临床推理warm-up，学习医学语义和长程视频理解；第二阶段用visual-CoT cold-start SFT教会模型何时需要更多证据、如何调用工具；第三阶段用GA-GRPO强化时序对齐的工具使用，通过grounding-aware reward和evidence-modulated advantage，让模型更偏向检索真正支持结论的视觉片段。 △ ClinVideoSuite数据合成管线在SVU-31K、ClinVideo-Eval等评测中，MedScope在多粒度视频理解、细粒度时序推理和grounded VQA上取得开源模型中的 SOTA 。论文还显示，去掉 evidence reward 会显著降低定位质量，例如 R@0.5从40.1下降到33.2 ， mIoU从4.3下

订阅66必读