通过长期用户交互个性化体现多模态大语言模型代理

2026-05-27 1 阅读 Jeongeun Lee, Chanyoung Park, Dongha Lee

arXiv:2605.26256v1 公告类型：新摘要：基于多模态大语言模型 (MLLM) 的实体代理已显示出解决物理环境中复杂任务的强大潜力。然而，个性化帮助需要的不仅仅是遵循通用指令或识别对象类别。在现实场景中，预期目标通常仅通过先前的交互隐式指定，要求代理利用随着时间的推移积累的个性化上下文。在这项工作中，我们提出了 POLAR，这是一种多模态记忆增强框架，用于在长期用户交互中实现个性化的具体代理。 POLAR 将先前的交互组织成多模态知识图，该图捕获个性化上下文和视觉概念的语义记忆，以及代理轨迹等具体体验的情景记忆。为了执行具体任务，POLAR 检索相关内存来解释当前请求并指导任务执行。我们跨多个 MLLM 主干和不同的评估场景评估 POLAR，以研究记忆在长期个性化中的作用。结果表明，所提出的记忆机制通过更有效地利用先前交互中积累的信息来持续提高性能。当代理需要跨多个交互进行推理、执行多跳推理或跟踪用户特定上下文中随时间的更新时，收益尤其明显。